Вы находитесь на странице: 1из 497

Êè¨âñüêèé íàöiîíàëüíèé óíiâåðñèòåò iìåíi Òàðàñà Øåâ÷åíêà

Êàôåäðà òåîði¨ éìîâiðíîñòåé, ñòàòèñòèêè òà àêòóàðíî¨ ìàòåìàòèêè

Р. Майборода

КОМП’ЮТЕРНА СТАТИСТИКА —
професiйний старт

(ç âèêîðèñòàííÿì R)

(Ðîáî÷à âåðñiÿ äðóãîãî âèäàííÿ âiä 22.09.2020)


2

ÓÄÊ 519.22.35
ÁÁÊ 22.172ÿ73

Öåé òåêñò ¹ ðîçøèðåíîþ âåðñi¹þ ïiäðó÷íèêà Êîìï'þòåðíà ñòàòèñòè-


êà, íàäðóêîâàíîãî ó 2019 ð. âèäàâíè÷èì öåíòðîì Êè¨âñüêîãî íàöiîíàëü-
íîãî óíiâåðñèòåòà iìåíi Òàðàñà Øåâ÷åíêà. Ðàííi åëåêòðîííi âåðñi¨ öüîãî
ïiäðó÷íèêà ðîçìiùóâàëèñü íà ñàéòi óíiâåðñèòåòà ïî÷èíàþ÷è ç 2017 ð.
Äàíà âåðñiÿ ¹ ðîáî÷îþ, ó íié ìîæå áóòè çíà÷íà êiëüêiñòü îïèñîê, íåïî-
ñëiäîâíîñòåé, íåâiäïîâiäíîñòåé. Âîíà, ìîæëèâî, áóäå ðàäèêàëüíî çìiíþ-
âàòèñü, â òîìó ÷èñëi i çà ïîðÿäêîì ðîçäiëiâ, íóìåðàöi¹þ ïðèêëàäiâ òà
ií. Àëå âîíà ¹ íàéáiëüø ïîâíîþ íà äàíèé ìîìåíò. Òîìó ÿ ðåêîìåíäóþ
¨ ¨ äëÿ çíàéîìñòâà ç ìàòåðiàëîì. Äëÿ ïîñèëàíü êðàùå âèêîðèñòîâóâàòè
ñòàáiëüíó äðóêîâàíó âåðñiþ ïiä íàçâîþ Êîìï'þòåðíà ñòàòèñòèêà. ™ äâi
åëåêòðîííi âåðñi¨ öüîãî âèäàííÿ:
 ç êîëüîðîâèìè ðèñóíêàìè, çðó÷íiøà äëÿ ÷èòàííÿ íà êîìï'þòåði:
probability.univ.kiev.ua/userfiles/mre/cscolor.pdf
 ç ÷îðíî-áiëèìè ðèñóíêàìè ïîëiïøåíî¨ êîíòðàñòíîñòi, çðó÷íiøà äëÿ
äðóêó:
probability.univ.kiev.ua/userfiles/mre/csbw.pdf
 ìiðó òîãî, ÿê ïðîñóâàòèìåòüñÿ ðîáîòà, ÿ âèêëàäàòèìó íîâi âåðñi¨
äàíîãî òåêñòó çà àäðåñîþ:
http://probability.univ.kiev.ua/userfiles/mre/compsta1.pdf
Ôàéëè ç äàíèìè, ùî âèêîðèñòîâóþòüñÿ ó ïiäðó÷íèêó äëÿ ïðèêëàäiâ,
ìîæíà çíàéòè ó àðõiâi çà àäðåñîþ:
http://probability.univ.kiev.ua/userfiles/mre/csdatafiles.rar
Ç óñiìà çàïèòàííÿìè, çàóâàæåííÿìè, ïîðàäàìè, ìîæíà çâåðòàòèñü äî
ìåíå íà àäðåñó:
mre@univ.kiev.ua
àáî
rostmaiboroda@gmail.com
Âàø
Ð. Ìàéáîðäà

© Майборода Р.Є. 2017,2020


Змiст

Ñïèñîê ïîçíà÷åíü òà ñêîðî÷åíü . . . . . . . . . . . . . . . . . . . 8

Передмова 10

1 Початок роботи з системою R 13


1.1 Ùî òàêå R i äå éîãî âçÿòè . . . . . . . . . . . . . . . . . . . . 13
1.2 Ñèñòåìà R-Studio . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Çàâàíòàæåííÿ ïàêåòiâ, ðîáîòà ç Help òà iíøi îðãàíiçàöiéíi
ïèòàííÿ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2 Мова статистичного програмування R 22


2.1 Áàçîâi ïîíÿòòÿ . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Òèïè äàíèõ òà åëåìåíòàðíi ôóíêöi¨ . . . . . . . . . . . . . . 26
2.2.1 Âåêòîðè. Àðèôìåòè÷íi òà ëîãi÷íi îïåðàöi¨. . . . . . . 26
2.2.2 Iíäåêñàöiÿ âåêòîðiâ. . . . . . . . . . . . . . . . . . . . 31
2.2.3 Ôàêòîðè. . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.4 Ìàòðèöi, ìàñèâè òà ôðåéìè äàíèõ. . . . . . . . . . . 36
2.2.5 Âåêòîðíi i ìàòðè÷íi ôóíêöi¨. Ôóíêöiÿ apply. Ïðîïó-
ùåíi çíà÷åííÿ. . . . . . . . . . . . . . . . . . . . . . . 45
2.3 Äåÿêi êîðèñíi ôóíêöi¨ . . . . . . . . . . . . . . . . . . . . . . 50
2.3.1 Ôóíêöi¨ ïîêðîêîâîãî îá÷èñëåííÿ . . . . . . . . . . . 51
2.3.2 Âïîðÿäêóâàííÿ òà ïîøóê ó ìàñèâàõ . . . . . . . . . . 53
2.3.3 Çëèòòÿ íàáîðiâ äàíèõ  merge . . . . . . . . . . . . . 56
2.4 Åêñïîðò òà iìïîðò äàíèõ ó R . . . . . . . . . . . . . . . . . . 57
2.4.1 Åêñïîðò òà iìïîðò äàíèõ ó âíóòðiøíüîìó ôîðìàòi . 57
2.4.2 Åêñïîðò òà iìïîðò òåêñòîâèõ òàáëèöü ç äàíèìè. . . . 58
2.5 Ïåðåôîðìàòóâàííÿ ôðåéìiâ äàíèõ . . . . . . . . . . . . . . 61
2.6 Ïiäñòàíîâêè (pipes) . . . . . . . . . . . . . . . . . . . . . . . 64
2.7 Ïðîãðàìóâàííÿ ó R . . . . . . . . . . . . . . . . . . . . . . . 66

3
Змiст 4

2.7.1 Ñòâîðåííÿ âëàñíèõ ôóíêöié . . . . . . . . . . . . . . 66


2.7.2 Âåêòîðèçàöiÿ ôóíêöié . . . . . . . . . . . . . . . . . . 71
2.7.3 Ñòðóêòóðè óïðàâëiííÿ âèêîíàííÿì ïðîãðàì ó ìîâi R 73
2.7.4 Âèáið ç êiëüêîõ óìîâ: switch . . . . . . . . . . . . . . 75
2.7.5 Öèêëè while òà repeat . . . . . . . . . . . . . . . . . . 76
2.7.6 Öèêë for . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.8 Ôîðìóëè: y ˜ x . . . . . . . . . . . . . . . . . . . . . . . . . 79

3 Базова графiка в R 81
3.1 Ñòîâïöåâi òà êðóãîâi äiàãðàìè . . . . . . . . . . . . . . . . . 81
3.2 Òî÷êè òà ëiíi¨ íà ïëîùèíi . . . . . . . . . . . . . . . . . . . . 85
3.3 Åëåìåíòè òðèâèìiðíî¨ ãðàôiêè . . . . . . . . . . . . . . . . . 92
3.4 Ãåîãðàôi÷íi êàðòè . . . . . . . . . . . . . . . . . . . . . . . . 97

4 Одновимiрна описова статистика 108


4.1 Ñòàòèñòèêè ñåðåäíüîãî ïîëîæåííÿ . . . . . . . . . . . . . . 109
4.2 Ñòàòèñòèêè ðîçêèäó . . . . . . . . . . . . . . . . . . . . . . . 119
4.3 Àëãåáðà¨÷íi âëàñòèâîñòi îïèñîâèõ ñòàòèñòèê . . . . . . . . . 123
4.4 Ñòàòèñòèêè ôîðìè ðîçïîäiëó . . . . . . . . . . . . . . . . . . 127
4.5 Ãðóïóâàííÿ òà íàâàíòàæåííÿ . . . . . . . . . . . . . . . . . 133
4.6 Îá÷èñëåííÿ îïèñîâèõ ñòàòèñòèê ó R . . . . . . . . . . . . . . 138

5 Опис залежностей 144


5.1 Äiàãðàìè ðîçñiþâàííÿ . . . . . . . . . . . . . . . . . . . . . . 144
5.2 Êîåôiöi¹íò êîðåëÿöi¨ Ïiðñîíà . . . . . . . . . . . . . . . . . 150
5.3 Âiçóàëiçàöiÿ êîðåëÿöié . . . . . . . . . . . . . . . . . . . . . 156
5.4 Ðàíãè òà ðàíãîâi êîðåëÿöi¨ . . . . . . . . . . . . . . . . . . . 166
5.5 Ñèëà i çíà÷óùiñòü êîðåëÿöi¨ . . . . . . . . . . . . . . . . . . 173

6 Основнi ймовiрнiснi розподiли 180


6.1 Çàãàëüíi ïîíÿòòÿ òà ñõåìà âèêîðèñòàííÿ îñíîâíèõ ðîç-
ïîäiëiâ â R . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
6.2 Íåïåðåðâíi ðîçïîäiëè íà ïðÿìié . . . . . . . . . . . . . . . . 183
6.2.1 Îäíîâèìiðíèé ãàóññiâ (íîðìàëüíèé) ðîçïîäië . . . . 183
6.2.2 Ïiâíîðìàëüíèé ðîçïîäië . . . . . . . . . . . . . . . . 186
6.2.3 Ëîãíîðìàëüíèé ðîçïîäië . . . . . . . . . . . . . . . . 187
6.2.4 Åêñïîíåíöiéíèé i ãàììà ðîçïîäiëè òà ðîçïîäië Ëà-
ïëàñà . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
Змiст 5

6.2.5 Ðîçïîäiëè åêñòðåìàëüíèõ òèïiâ: Âåéáóëëà, Ôðåøå i


Ãóìáåëÿ . . . . . . . . . . . . . . . . . . . . . . . . . . 192
6.2.6 Ðiâíîìiðíèé ðîçïîäië . . . . . . . . . . . . . . . . . . 193
2
6.2.7 Ðîçïîäiëè, ïîâ'ÿçàíi ç ãàóññîâèì: 𝜒 , 𝑇 i 𝐹 . . . . . . 195
6.3 Äèñêðåòíi ðîçïîäiëè íà ïðÿìié . . . . . . . . . . . . . . . . . 197
6.3.1 Áiíîìiàëüíèé ðîçïîäië . . . . . . . . . . . . . . . . . 197
6.3.2 Ðîçïîäië Ïóàññîíà . . . . . . . . . . . . . . . . . . . . 199
6.3.3 Ãåîìåòðè÷íèé ðîçïîäië . . . . . . . . . . . . . . . . . 201
6.4 Êîìáiíàöi¨ òà ïåðåòâîðåííÿ ðîçïîäiëiâ . . . . . . . . . . . . 202
6.4.1 Çðiçàíi ðîçïîäiëè . . . . . . . . . . . . . . . . . . . . 202
6.4.2 Ñóìè íåçàëåæíèõ âèïàäêîâèõ âåëè÷èí . . . . . . . . 205
6.4.3 Ñóìiøi êiëüêîõ ðîçïîäiëiâ . . . . . . . . . . . . . . . 209
6.5 Ãåíåðàöiÿ ïñåâäîâèïàäêîâèõ ïîñëiäîâíîñòåé . . . . . . . . . 211
6.5.1 Ãåíåðàòîðè ðiâíîìiðíèõ ïñåâäîâèïàäêîâèõ ÷èñåë . . 213
6.5.2 Ãåíåðàöiÿ ïñåâäîâèïàäêîâèõ ÷èñåë iç çàäàíèì ðîç-
ïîäiëîì . . . . . . . . . . . . . . . . . . . . . . . . . . 219
6.5.3 Âèïàäêîâi ÷èñëà â R . . . . . . . . . . . . . . . . . . . 225

7 Методи графiчного аналiзу одновимiрних даних 227


7.1 Ãiñòîãðàìè . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
7.2 Ãðàôi÷íà ïåðåâiðêà óçãîäæåíîñòi ðîçïîäiëó. P-P òà Q-Q
äiàãðàìè . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
7.3 Q-Q äiàãðàìà ç ïðîãíîçíèìè iíòåðâàëàìè . . . . . . . . . . 239
7.4 Ïîðiâíÿííÿ ðîçïîäiëiâ êiëüêîõ íàáîðiâ äàíèõ. . . . . . . . . 241
7.5 Ñêðèíüêè ç âóñàìè . . . . . . . . . . . . . . . . . . . . . . . 244

8 Оцiнювання невiдомих параметрiв розподiлу 250


8.1 Îöiíêè óçàãàëüíåíîãî ìåòîäó ìîìåíòiâ . . . . . . . . . . . . 251
8.2 Îöiíêè ìåòîäó êâàíòèëiâ . . . . . . . . . . . . . . . . . . . . 263
8.3 Îöiíêè ìåòîäó íàéáiëüøî¨ âiðîãiäíîñòi . . . . . . . . . . . . 266
8.4 Àñèìïòîòè÷íà íîðìàëüíiñòü i ìàòðèöÿ ðîçñiþâàííÿ îöiíîê 275
8.5 Äîâið÷i iíòåðâàëè òà åëiïñî¨äè . . . . . . . . . . . . . . . . . 293
8.5.1 Ïîáóäîâà àñèìïòîòè÷íèõ äîâið÷èõ iíòåðâàëiâ . . . . 293
8.5.2 Ïîáóäîâà äîâið÷èõ åëiïñî¨äiâ . . . . . . . . . . . . . . 299
8.6 Îöiíþâàííÿ ïàðàìåòðiâ ñòàíäàðòíèõ ðîçïîäiëiâ ó R. . . . . 306
Змiст 6

9 Перевiрка статистичних гiпотез 313


9.1 Çàãàëüíi âiäîìîñòi . . . . . . . . . . . . . . . . . . . . . . . . 313
9.2 Òåñò âiäíîøåííÿ âiðîãiäíîñòi äëÿ ïåðåâiðêè ïðîñòèõ ãiïîòåç 318
9.3 Òåñò âiäíîøåííÿ âiðîãiäíîñòi äëÿ ñêëàäíèõ ãiïîòåç . . . . . 332
9.3.1 Çàãàëüíà ñõåìà òåñòiâ âiäíîøåííÿ âiðîãiäíîñòi . . . . 333
9.3.2 Àñèìïòîòèêà òåñòó âiäíîøåííÿ âiðîãiäíîñòi äëÿ
âêëàäåíèõ ãiïîòåç . . . . . . . . . . . . . . . . . . . . 336
9.3.3 Áàãàòîâèáiðêîâi çàäà÷i . . . . . . . . . . . . . . . . . 340
9.4 Äîâið÷i iíòåðâàëè òà åëiïñî¨äè ó ïåðåâiðöi ãiïîòåç . . . . . . 342
9.5 Òåñòè äëÿ äàíèõ ç íîðìàëüíèì ðîçïîäiëîì . . . . . . . . . . 350
9.5.1 T-òåñò. Ïåðåâiðêà ãiïîòåç ïðî ñåðåäíi. Äèñïåðñiÿ 
çàâàæàþ÷èé ïàðàìåòð. . . . . . . . . . . . . . . . . . 352
9.5.2 F-òåñò. Ïåðåâiðêà ãiïîòåç ïðî äèñïåðñi¨. Çàâàæàþ-
÷èé ïàðàìåòð  ìàòåìàòè÷íå ñïîäiâàííÿ . . . . . . . 359
9.5.3 Z-òåñò äëÿ ãiïîòåç ïðî ñåðåäí¹ áåç çàâàæàþ÷èõ ïà-
ðàìåòðiâ . . . . . . . . . . . . . . . . . . . . . . . . . . 361
9.5.4 Çíîâó ïðî òåñòè äëÿ äèñïåðñi¨ . . . . . . . . . . . . . 364
9.5.5 Çíîâó ïðî òåñòè äëÿ ìàòåìàòè÷íèõ ñïîäiâàíü . . . . 369
2
9.6 Òåñòè 𝜒 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
2
9.6.1 Òåñò 𝜒 äëÿ ïðîñòèõ îñíîâíèõ ãiïîòåç . . . . . . . . . 371
2
9.6.2 Òåñò 𝜒 äëÿ ñêëàäíî¨ îñíîâíî¨ ãiïîòåçè . . . . . . . . 377
2
9.6.3 Òåñò 𝜒 ç ãðóïóâàííÿì äëÿ ïåðåâiðêè óçãîäæåíîñòi . 382
2
9.6.4 Ïåðåâiðêà íåçàëåæíîñòi äâîõ çìiííèõ òåñòîì 𝜒 . . . 385
9.7 Ïåðåâiðêà çàëåæíîñòi äâîõ çìiííèõ . . . . . . . . . . . . . . 389
9.7.1 Îäíîôàêòîðíèé äèñïåðñiéíèé àíàëiç . . . . . . . . . 390
9.7.2 Òåñòè êîðåëÿöié . . . . . . . . . . . . . . . . . . . . . 397
9.7.3 Ïîðiâíÿííÿ ðiçíèõ ïiäõîäiâ äî ïîøóêó çàëåæíîñòi . 400

10 Регресiя 410
10.1 Ïðîñòà ëiíiéíà ðåãðåñiÿ . . . . . . . . . . . . . . . . . . . . . 412
10.2 Ìíîæèííà ëiíiéíà ðåãðåñiÿ. Ìåòîä íàéìåíøèõ êâàäðàòiâ . 427
10.3 Ïîçíà÷åííÿ ó ôîðìóëàõ äëÿ ôóíêöi¨ lm() . . . . . . . . . . 449
10.4 Ïåðåâiðêà ëiíiéíèõ ãiïîòåç. Òåñò Ôiøåðà . . . . . . . . . . . 453
10.5 Íåëiíiéíèé ÌÍÊ . . . . . . . . . . . . . . . . . . . . . . . . . 469

A Векторна i матрична алгебра 477


Змiст 7

B Вiдомостi з теорiї ймовiрностей 481


B.1 Âèïàäêîâi âåëè÷èíè òà âåêòîðè . . . . . . . . . . . . . . . . 481
B.2 Óìîâíi éìîâiðíîñòi. Íåçàëåæíiñòü . . . . . . . . . . . . . . . 484
B.3 Áàãàòîâèìiðíèé íîðìàëüíèé ðîçïîäië . . . . . . . . . . . . . 487
B.4 Çáiæíiñòü òà ãðàíè÷íi òåîðåìè . . . . . . . . . . . . . . . . . 488

Покажчик засобiв R 495


Список позначень та скорочень
â.â.  âèïàäêîâà âåëè÷èíà;

ì.í.  ìàéæå íàïåâíå;

ô.ð.  ôóíêöiÿ ðîçïîäiëó;

Binom(𝑛, 𝑝)  áiíîìiàëüíèé ðîçïîäië äëÿ 𝑛 âèïðîáóâàíü ç éìîâiðíiñòþ


óñïiõó 𝑝;
cov  êîâàðiàöiÿ àáî êîâàðiàöiéíà ìàòðèöÿ;

cor  êîðåëÿöiÿ (òåîðåòè÷íà);

D𝜉  äèñïåðñiÿ ñïîäiâàííÿ â.â. 𝜉;


Exp(𝜆)  åñïîíåíöiéíèé ðîçïîäië ç iíòåíñèâíiñòþ 𝜆;
E𝜉  ìàòåìàòè÷íå ñïîäiâàííÿ â.â. 𝜉;
𝐹𝜉 (𝑥)  ôóíêöiÿ ðîçïîäiëó âèïàäêîâî¨ âåëè÷íè 𝜉 ó òî÷öi 𝑥.
GM(𝑋)  ñåðåäí¹ ãåîìåòðè÷íå âèáiðêè 𝑋;
2
HalfM(𝜎 )  ïiâíîðìàëüíèé ðîçïîäië ç ïàðàìåòðîì 𝜎2;
HM(𝑋)  ñåðåäí¹ ãàðìîíi÷íå âèáiðêè 𝑋;
IQ(𝑋)  iíòåðêâàðòèëüíèé ðîçìàõ âèáiðêè 𝑋;
2
LN(𝜇, 𝜎 )  ëîãíîðìàëüíèé ðîçïîäië ç ïàðàìåòðàìè 𝜇, 𝜎 2 ;
lr(𝑋)  ëîãàðèôìi÷íå âiäíîøåííÿ âiðîãiäíîñòi;

LR(𝑋)  âiäíîøåííÿ âiðîãiäíîñòi;

Poiss(𝜆)  ðîçïîäië Ïóàññîíà ç ïàðàìåòðîì 𝜆;


P(𝐴)  éìîâiðíiñòü ïîäi¨ 𝐴;
𝑟(𝑋, 𝑌 )  êîåôiöi¹íò êîðåëÿöi¨ Ïiðñîíà ìiæ çìiííèìè 𝑋 i 𝑌;
𝑆 2 (𝑋)  âèáiðêîâà äèñïåðñiÿ âèáiðêè 𝑋;
𝑆02 (𝑋)  âèïðàâëåíà âèáiðêîâà äèñïåðñiÿ âèáiðêè 𝑋;
med(𝑋)  ìåäiàíà âèáiðêè 𝑋;
𝑁 (𝜇, 𝜎 2 )  íîðìàëüíèé ðîçïîäië ç ìàòåìàòè÷íèì ñïîäiâàííÿì 𝜇 i äèñ-
ïåðñi¹þ 𝜎2;
𝑄𝐹 (𝛼)  êâàíòèëü ðiâíÿ 𝛼 äëÿ ðîçïîäiëó 𝐹;

8
Позначення 9

𝑄𝑋 (𝛼)  âèáiðêîâèé êâàíòèëü ðiâíÿ 𝛼 äëÿ âèáiðêè 𝑋;


¯  âèáiðêîâå ñåðåäí¹ âèáiðêè 𝑋 ;
𝑋
𝑋[𝑗]  𝑗 -èé åëåìåíò âèáiðêè 𝑋, âïîðÿäêîâàíî¨ çà çðîñòàííÿì;

Unif(𝑎, 𝑏)  ðiâíîìiðíèé ðîçïîäië íà iíòåðâàëi [𝑎, 𝑏];


𝜌(𝑋, 𝑌 )  êîåôiöi¹íò êîðåðÿöi¨ Ñïiðìåíà ìiæ çìiííèìè 𝑋 i 𝑌;
𝜏 (𝑋, 𝑌 )  êîåôiöi¹íò êîðåðÿöi¨ Êåíäàëëà ìiæ çìiííèìè 𝑋 i 𝑌;
Φ(𝑥)  ôóíêöiÿ ðîçïîäiëó ñòàíäàðòíîãî íîðìàëüíîãî ðîçïîäiëó;

𝜙(𝑥)  ùiëüíiñòü ñòàíäàðòíîãî íîðìàëüíîãî ðîçïîäiëó;

1{𝐴}  iíäèêàòîð ïîäi¨ 𝐴;


#𝐴  êiëüêiñòü åëåìåíòiâ ìíîæèíè 𝐴;
J  çàêií÷åííÿ òåêñòó ïðèêëàäó.
Передмова

Âñiì, õòî õî÷ òðîõè çíàéîìèé ç ñòàòèñòèêîþ àáî êîìï'þòåðàìè,


çðîçóìiëî, ùî â îäíié êíèæöi ðîçïîâiñòè ïðî âñþ êîìï'þòåðíó ñòà-
òèñòèêó íåìîæëèâî. Öÿ êíèæêà ïèñàëàñü, ïåðø çà âñå, ÿê ïiäðó÷íèê
äëÿ ñòóäåíòiâ ìåõàíiêî-ìàòåìàòè÷íîãî ôàêóëüòåòó, ÿêi âèâ÷àþòü êóðñè
êîìï'þòåðíî¨, äåñêðèïòèâíî¨ òà ìàòåìàòè÷íî¨ ñòàòèñòèêè. Ïðîáëåìà ïî-
ëÿã๠â òîìó, ùî òàêi êóðñè ÷èòàþòüñÿ i íà òðåòüîìó, i íà ÷åòâåðòîìó i íà
ï'ÿòîìó ðîêàõ íàâ÷àííÿ. Ïðè öüîìó ñòóäåíòè ìîæóòü ñïåöiàëiçóâàòèñü
i ïî ìàòåìàòèöi, i ïî ñòàòèñòèöi, i ïî àêòóàðíié ñïðàâi. Çíà÷íîþ ìiðîþ,
ñàìå öèì îáóìîâëåíà ñòðóêòóðà êíèæêè: ïî¹äíàííÿ ðîçäiëiâ, îði¹íòîâà-
íèõ íà ÷èòà÷iâ ç ðiçíèì íàóêîâèì áàãàæåì, àëå îá'¹äíàíèõ íàñêðiçíèìè
ñïiëüíèìè ìîòèâàìè òà ñþæåòàìè. Ñïîäiâàþñü, ùî âîíà ìîæå ñòàòè ó
ïðèãîäi íå òiëüêè íàøèì ñòóäåíòàì, à i áàãàòüîì iíøèì ÷èòà÷àì, ùî öi-
êàâëÿòüñÿ çàñòîñóâàííÿì ñòàòèñòèêè äî äîñëiäæåííÿ ðåàëüíèõ äàíèõ òà
ìîæëèâîñòÿìè ðîçðîáêè ñâî¨õ âëàñíèõ òåõíîëîãié ñòàòèñòè÷íîãî àíàëiçó.
Îòæå, ïðî ùî ó íàñ ïiäå ìîâà?
Ïåðøi òðè ðîçäiëè ïðèñâÿ÷åíi ñèñòåìi ñòàòèñòè÷íîãî ïðîãðàìóâàííÿ
R. Òóò ðîçïîâiäà¹òüñÿ, ùî òàêå R, çâiäêè éîãî òðåáà áðàòè i ÿê âñòàíîâëþ-
âàòè, ÿê âèãëÿäàþòü îñíîâíi çàñîáè ïðîãðàìóâàííÿ ìîâè R i ÿê ïðàöþ¹
áàçîâà ãðàôiêà ó öié ñèñòåìi. Öþ ÷àñòèíó êíèæêè ìîæíà âèêîðèñòîâó-
âàòè äëÿ ïåðøîãî çíàéîìñòâà ç R. Òóò ñêàæó òiëüêè, ùî R öå íå ëèøå
ãíó÷êà i çðó÷íà ìîâà ïðîãðàìóâàííÿ òà íàáið ôóíêöié, ÿêi ðåàëiçóþòü
ïðàêòè÷íî âñi ñó÷àñíi òåõíîëîãi¨ ñòàòèñòè÷íî¨ îáðîáêè äàíèõ. Öå òàêîæ
ïðîïóñê ó R-ñïiëüíîòó, áðàòñòâî, äå âè çàâæäè çìîæåòå çíàéòè ïiäòðèìêó
òà âiäïîâiäü íà íàéíåñïîäiâàíiøi ïèòàííÿ. R öå ñâîãî ðîäó ñó÷àñíà ëàòè-
íà, ìiæíàðîäíà ìîâà, ÿêà îá'¹äíó¹ ñòàòèñòèêiâ-ïðàêòèêiâ i ðîçðîáíèêiâ
íîâèõ iäåé.
Äàëi ó ÷åòâåðòîìó i ï'ÿòîìó ðîçäiëàõ ðîçïîâiäà¹òüñÿ ïðî äåñêðèïòèâ-
íi ñòàòèñòèêè, òîáòî ïðî ÷èñëîâi õàðàêòåðèñòèêè, ÿêi âèêîðèñòîâóþòü-

10
Передмова 11

ñÿ, êîëè âåëèêi íàáîðè ñòàòèñòè÷íèõ äàíèõ ïîòðiáíî êîðîòêî îïèñàòè


îäíèì àáî êiëüêîìà ÷èñëàìè. Òóò ÷èòà÷ ìîæå äiçíàòèñü, êîëè ñåðåäí¹
ïîëîæåííÿ ó âèáiðöi äîöiëüíî õàðàêòåðèçóâàòè ìåäiàíîþ, à êîëè  ãåî-
ìåòðè÷íèìè ñåðåäíiì. Ùî òàêå ðîáàñòíiñòü. ×îìó ïîòðiáíî áðàòè êîðiíü
ç âèáiðêîâî¨ äèñïåðñi¨. ßê âiäîáðàçèòè ñòðóêòóðó êîðåëÿöié ó âèãëÿäi
ãðàôó. I áàãàòî iíøîãî.
Äëÿ ÷èòàííÿ ïåðøèõ ï'ÿòè ðîçäiëiâ äîñòàòíüî òiëüêè çíàííÿ åëåìåí-
∑︀ ∏︀ √
òàðíî¨ øêiëüíî¨ ìàòåìàòèêè. Àáè ëèøå íå áîÿòèñü ñèìâîëiâ , i
𝑛
𝑥.
Ç øîñòîãî ðîçäiëó ïî÷èíà¹òüñÿ çàñòîñóâàííÿ ìàòåìàòè÷íèõ, éìîâið-
íiñíèõ ìîäåëåé ó ñòàòèñòèöi. Òóò îïèñàíi îñíîâíi éìîâiðíiñòíi ðîçïîäiëè,
ÿêi âèêîðèñòîâóþòüñÿ äëÿ ïîáóäîâè òåîðåòè÷íèõ ìîäåëåé äàíèõ. Êðiì
òîãî, ïîÿñíþ¹òüñÿ òåõíiêà ãåíåðàöi¨ ïñåâäîâèïàäêîâèõ ïîñëiäîâíîñòåé iç
çàäàíèì ðîçïîäiëîì. Òàêi ïîñëiäîâíîñòi øèðîêî âèêîðèñòîâóþòüñÿ ó ñó-
÷àñíié ñòàòèñòèöi äëÿ àíàëiçó ðåàëüíèõ äàíèõ i äëÿ ïåðåâiðêè ÿêîñòi
àëãîðèòìiâ, ïðî öå ðîçïîâiäà¹òüñÿ äàëi. Äëÿ ÷èòàííÿ öüîãî i íàñòóïíèõ
ðîçäiëiâ òðåáà ìàòè õî÷à á ìiíiìàëüíå óÿâëåííÿ ïðî ïîõiäíi òà iíòåãðàëè.
Ó ñüîìîìó ðîçäiëi éäåòüñÿ ïðî ãðàôi÷íi çàñîáè àíàëiçó ðîçïîäiëó äà-
íèõ, âèáîðó òåîðåòè÷íî¨ ìîäåëi i ïîðiâíÿííÿ ðîçïîäiëiâ ðiçíèõ íàáîðiâ.
Ùî ìîæíà ðîáèòè, êîëè âè âèáðàëè òåîðåòè÷íó ìîäåëü? Îöiíþâàòè
¨ ¨ íåâiäîìi ïàðàìåòðè i ïåðåâiðÿòè ãiïîòåçè ïðî íèõ. Öüîìó ïðèñâÿ÷åíi,
âiäïîâiäíî, âîñüìèé i äåâ'ÿòèé ðîçäiëè êíèæêè. Âîíè ïîáóäîâàíi òðî-
õè íåçâè÷íî: âiä ñêëàäíîãî  äî ïðîñòîãî. Ñïî÷àòêó ðîçïîâiäü éäå ïðî
çàãàëüíi ïiäõîäè äî ðîçâ'ÿçàííÿ çàäà÷ îöiíêè i òåñòóâàííÿ ãiïîòåç, ïî-
êàçàíî, ÿê ¨õ ìîæíà ñàìîñòiéíî ðåàëiçóâàòè â R äëÿ äîñëiäæåííÿ äàíèõ,
ùî îïèñóþòüñÿ ïîðiâíÿíî ñêëàäíèìè, íåñòàíäàðòíèìè ìîäåëÿìè. I ëè-
øå ïîòiì ñêàçàíî ïðî ñòàíäàðòíi ôóíêöi¨ R, ùî ðåàëiçóþòü òi æ ìåòîäè ó
ñòàíäàðòíèõ, øèðîêî çàñòîñîâíèõ ìîäåëÿõ. Ïî-ñïðàâæíüîìó ðîçiáðàòèñü
ó ñêëàäíîìó, íà äiëi, ëåãøå íiæ ó ïðîñòîìó: ñêëàäíå ìîæíà ðîçêëàñòè
íà ïðîñòiøi ñêëàäîâi, à ïðîñòîãî òàê íå çðîçóìi¹ø! Êðiì òîãî, ìàéñòðó,
íàâ÷åíîìó ðîáèòè ñêëàäíi ðå÷i, íåïîòðiáíî áóäå âãàíÿòè íåòèïîâó ñïðàâó
ó ñòàíäàðòíi ðàìêè  ÿê öå ÷àñîì áóâ๠ç òèìè, õòî ïî÷èíàâ ç ïðîñòîãî.
Íàðåøòi, äåñÿòèé ðîçäië îïîâiä๠ïðî òåõíiêó ðåãðåñiéíîãî àíàëiçó 
ìàáóòü, íàéáiëüø ïîøèðåíèé ðîçäië ñòàòèñòèêè íà ñüîãîäíi. Òóò çàñòî-
ñîâóþòüñÿ âñi òi ïiäõîäè, ÿêi îïèñàíi ó êíèçi ðàíiøå. Àëå çíà÷íó ÷àñòèíó
ðîçäiëó ìîæíà ÷èòàòè ìàéæå íå çâåðòàþ÷èñü äî ïîïåðåäíüîãî ìàòåðiàëó.
Íàïðèêëàä, çà áàæàííÿì ÷èòà÷ ìîæå ïî÷àòè çíàéîìñòâî ç êíèãîþ ç ï.
10.1. I âæå ñêëàâøè ïåâíå óÿâëåííÿ ïðî òå, ùî áóäå íàïðèêiíöi, çâåðíó-
òèñü äî ïî÷àòêó êíèæêè, ÿêùî çàõî÷å ðîçïëóòàòè âñþ iíòðèãó.
Передмова 12

Ó äîäàòêàõ âìiùåíi òi âiäîìîñòi ç àëãåáðè òà òåîði¨ éìîâiðíîñòåé, ÿêi


ñòóäåíòè-ìàòåìàòèêè çàçâè÷àé îòðèìóþòü ó iíøèõ íàâ÷àëüíèõ êóðñàõ,
àëå äåÿêèì ÷èòà÷àì âîíè ìîæóòü áóòè íå çîâñiì âiäîìi, àáî âiäîìi ó äåùî
iíøîìó îñâiòëåííi.
Òðîõè ïðî òå, ÷îãî íåì๠ó öié êíèæöi  ÿ îäðàçó âiäìi÷ó, äå ïðî öå
ìîæíà ïðî÷èòàòè. Íåì๠àíàëiçó ÷àñîâèõ ðÿäiâ [24, 47]. Íåì๠òîãî, ùî
çàçâè÷àé âiäíîñÿòü äî ìàøèííîãî íàâ÷àííÿ: íåéðîííèõ ìåðåæ, òåõíiêè
êðîññ-âàëiäàöi¨, çíèæåííÿ âèìiðíîñòi, êëàñòåðíîãî àíàëiçó i ò.ä. [31, 33].
Ìàéæå íåì๠íåïàðàìåòðè÷íî¨ ñòàòèñòèêè [52]. Íåì๠òåõíiê âèáiðêîâèõ
îáñòåæåíü [1]. Íåì๠ïîñëiäîâíîãî âèêëàäó ìàòåìàòè÷íèõ îñíîâ ñòàòè-
ñòèêè i òåîði¨ éìîâiðíîñòåé [3, 9, 46, 51]. I õîòiëîñÿ á ïðî âñå öå íàïèñàòè,
1
àëå äåñü òðåáà ñòàâèòè êðàïêó .
ß ïðîøó ÷èòà÷iâ, çà âñå öiêàâå i õîðîøå, ùî çíàéäåòüñÿ ó öié êíèçi,
ðàçîì çi ìíîþ ïîäÿêóâàòè ìî¨ì êîëåãàì, ÷è¨ ïîðàäè, êîìåíòàði i êðèòè-
êà çíà÷íîþ ìiðîþ ñôîðìóâàëè ¨ ¨. Ñïåöiàëüíî õî÷ó ïîäÿêóâàòè òèì, õòî
÷èòàâ i âè÷èòóâàâ öþ êíèãó â ïðîöåñi ¨ ¨ ïiäãîòîâêè  Î. Ñóãàêîâié, À.
Îëåíêó, À. Ïèëèïåíêó. À òàêîæ ñâî¨ì ñòóäåíòàì, âiä ÿêèõ ÿ òåæ áàãàòî
÷îìó íàâ÷èâñÿ, îñîáëèâî ó ïðîãðàìóâàííi íà R. Âè ìîæåòå ïðè¹äíàòèñü
äî öèõ ëþäåé, íàïèñàâøè ìåíi ñâî¨ âiäãóêè íà àäðåñó mre@univ.kiev.ua
Óñïiõiâ âàì ó ñòàòèñòèöi i íå òiëüêè.
Ð. Ìàéáîðîäà

1
Iще три рекомендацiї для тих, кому, можливо, варто вiдкласти цю книгу i пошукати бiльш
пiдхожої. Якщо вам потрiбний швидкий огляд того, як реалiзувати стандартнi статистичнi
технiки у R, можна почати з [12]. Якщо ви взагалi не хочете мати справу навiть з мiнiмальним
програмуванням, а волiєте обмежитись такою обробкою, яку можна реалiзувати, обираючи
пункти у стандартному меню, варто скористатись, пакетом Statistica, див. [15]. Якщо вас
цiкавить не конкретна комп’ютерна платформа, а загальна логiка комп’ютерного статистич-
ного аналiзу у застосуваннi до конкретних прикладних задач — хорошим пiдручником для
вас може стати [44].
Роздiл 1

Початок роботи з системою R

Ó öüîìó ïiäðîçäiëi ìiñòèòüñÿ ïåðåâàæíî òåõíi÷íà iíôîðìàöiÿ, êîðè-


ñíà äëÿ òèõ, õòî âïåðøå âèðiøèâ ïîåêñïåðèìåíòóâàòè ç R. Òóò ðîçïîäi-
äà¹òüñÿ, ùî òàêå R, R-Studio, ïàêåòè (áiáëiîòåêè), ÷èì âîíè ìîæóòü áóòè
êîðèñíi, äå ¨õ âçÿòè i ÿê âñòàíîâèòè íà ñâî¹ìó êîìï'þòåði. Ïîÿñíþ¹òüñÿ
òàêîæ, ÿê âåñòè äiàëîã ç Ri R-Studio, êîðèñòóâàòèñü help-ñèñòåìîþ i äå â
iíòåðíåòi ìîæíà øóêàòè ïîðàä ïî ðîáîòi ç R, êîëè âîíè âàì ïîòðiáíi.
ßêùî R âæå âñòàíîâëåíèé íà âàøîìó êîìï'þòåði i ïåðøi êðîêè áóëè
óñïiøíèìè, ïðîïóñêàéòå öåé ðîçäië i ïåðåõîäüòå äî íàñòóïíîãî.

1.1 Що таке R i де його взяти


R öå ñåðåäîâèùå ïðîãðàìóâàííÿ äëÿ ñòàòèñòè÷íîãî àíàëiçó äàíèõ.
Âîíî ñêëàäà¹òüñÿ ç áàçîâî¨ ïðîãðàìè R, ùî ïðàöþ¹ ÿê iíòåðïðåòàòîð ìî-
âè ñòàòèñòè÷íîãî ïðîãðàìóâàííÿ S òà îêðåìèõ ïàêåòiâ, ÿêi ðåàëiçóþòü
ñïåöiàëüíi ìåòîäè òà òåõíîëîãi¨ ñòàòèñòè÷íî¨ îáðîáêè äàíèõ. Áàçîâà ïðî-
ãðàìà ñòâîðåíà ó ðàìêàõ ïðîåêòó GNU, ÿê àëüòåðíàòèâíà ïðîãðàìíà ðå-
àëiçàöiÿ ìîâè S (öÿ ìîâà òà êîìåðöiéíèé ïàêåò S+ äëÿ ¨ ¨ ðåàëiçàöi¨ áóëè
ðîçðîáëåíi ó Bell Laboratories ïiä êåðiâíèöòâîì Äæ. ×åìáåðñà). Íà âiä-
ìiíó âiä S+, ïðîãðàìà R ¹ íåêîìåðöiéíîþ i âiëüíî ðîçïîâñþäæó¹òüñÿ çà
óìîâè äîòðèìàííÿ âèìîã GNU General Public License. Êîìåðöiéíèé ïðî-
åêò S+ íèíi ïðàêòè÷íî íå àêòèâíèé, îñòàííÿ âåðñiÿ ïðîãðàìè âèïóùåíà
ó 2007ð. Ïîäàëüøèé ðîçâèòîê iäåé, çàêëàäåíèõ ó ìîâi S, òà ¨õ ðåàëiçàöiÿ
ïðîäîâæó¹òüñÿ â ðàìêàõ ñèñòåìè R. Òîìó ñó÷àñíà âåðñiÿ ìîâè òàêîæ ìà¹
íàçâó R. Àëå ðÿä êíèæîê, íàïèñàíèõ ç îði¹íòàöi¹þ íà S òà S+, çáåðiãà¹

13
1.1. Що таке R i де його взяти 14

ñâîþ àêòóàëüíiñòü, îñêiëüêè ó íèõ ïèòàííÿ ïðèêëàäíîãî çàñòîñóâàííÿ


÷àñòî ïîÿñíþþòüñÿ äåòàëüíiøå i çðîçóìiëiøå, íiæ ó äîêóìåíòàöi¨ äî R,
ðîçðîáëåíié åíòóçiàñòàìè.
Îôiöiéíà ñòîðiíêà ïðîåêòó R  http://www.r-project.org/ . Îòðè-
ìàòè îñòàííþ âåðñiþ iíñòàëÿòîðà áàçîâî¨ ïðîãðàìè R äëÿ îïåðàöiéíî¨
1
ñèñòåìè Windows ìîæíà çà àäðåñîþ :
http://cran.r-project.org/bin/windows/base/ .
(Íà 20 ñi÷íÿ 2016 öå áóëà âåðñiÿ R-3.2.3). Iíñòàëÿòîð çàâàíòàæó¹òü-
ñÿ ó âèãëÿäi exe-ôàéëó. Äëÿ iíñòàëÿöi¨ ïðîãðàìè äîñèòü çàïóñòèòè öåé
ôàéë i âiäïîâiäàòè íà çàïèòàííÿ, ÿêi çàäàâàòèìå iíñòàëÿòîð. Ïðè ïåðøié
ñïðîái ðîáîòè ç R ðåêîìåíäîâàíî ïîãîäæóâàòèñü ç óñiìà ïðîïîçèöiÿìè,
ÿêi ðîáèòü iíñòàëÿòîð.
Ïðîáëåìè ìîæóòü âèíèêíóòè, ÿêùî íà âàøîìó êîìï'þòåði âñòàíîâ-
ëåíi ðiçíi ïðàâà äîñòóïó äëÿ ðiçíèõ êîðèñòóâà÷iâ. Ñïðàâà â òîìó, ùî
R íàïðèêiíöi êîæíî¨ ñåñi¨ ðîáîòè çáåðiã๠íà äèñêó ðîáî÷èé ïðîñòið
(workspace) - ñóêóïíiñòü äàíèõ òà ïðîãðàì, ÿêi áóëè çàâàíòàæåíi ïiä ÷àñ
ñåñi¨. Íà ïî÷àòêó íàñòóïíî¨ ñåñi¨ workspace çàâàíòàæó¹òüñÿ ç äèñêó. ßê-
ùî ïiä ÷àñ iíñòàëÿöi¨ äëÿ çáåðiãàííÿ workspace áóäå îáðàíî äèðåêòîðiþ,
íåäîñòóïíó ïåâíîìó êîðèñòóâà÷åâi, òî ïðè ðîáîòi ç R ìîæóòü âèíèêàòè
ïîâiäîìëåííÿ ïðî íåìîæëèâiñòü çàâàíòàæåííÿ àáî çáåðiãàííÿ workspace.
Äëÿ óñóíåííÿ òàêèõ ïîâiäîìëåíü ïîòðiáíî àáî âèáðàòè äèðåêòîðiþ âiëü-
íîãî äîñòóïó ïðè iíñòàëÿöi¨, àáî çìiíèòè äèðåêòîðiþ, âèêîðèñòîâóþ÷è
ïóíêò File->Change Dir. . . ó ãîëîâíîìó ìåíþ ãîëîâíîãî âiêíà ïðîãðàìè
R.
Ïiñëÿ iíñòàëÿöi¨ R éîãî ìîæíà çàïóñòèòè i îòðèìàòè ïðèáëèçíî òàêå
âiêíî, ÿê çîáðàæåíî íà ðèñ. 1.1. Òóò çâåðõó çíàõîäèòüñÿ ãîëîâíå ìåíþ, à
íèæ÷å âiäêðèòî âiêíî êîíñîëi R, ó ÿêié ìîæíà äàâàòè êîìàíäè ïðîãðàìi
òà îòðèìóâàòè ¨ ¨ âiäïîâiäi. Ñèíiì êîëüîðîì ó öüîìó âiêíi âèâåäåíî ïî-
÷àòêîâó iíôîðìàöiþ ïðî âàøó âåðñiþ áàçîâî¨ ïðîãðàìè R. Äàëi ÷åðâîíèì
êîëüîðîì ìîæóòü áóòè âêàçàíi êîìàíäè, ÿêi R âèêîíàâ àâòîìàòè÷íî ïðè
çàâàíòàæåííi. Íàðåøòi, ÷åðâîíèé ñèìâîë > ¹ çàïðîøåííÿì êîðèñòóâà÷ó
ââîäèòè âëàñíi êîìàíäè. Äëÿ ïåðåâiðêè ðîáîòè ñèñòåìè ìîæíà ïiñëÿ >
ââåñòè 2+2 i íàòèñíóòè Enter. Ðåçóëüòàò áóäå âèâåäåíî íà êîíñîëü:
[1] 4
R âèâîäèòü ðåçóëüòàòè âèêîíàííÿ áåçïîñåðåäíüî ïiñëÿ êîìàíäè ñèíiì
У цiй книжцi я орiєнтуюсь на використання R у системi Windows, але на сайтi r-project
1

можна знайти версiї i для iнших операцiйних систем.


1.1. Що таке R i де його взяти 15

Рис. 1.1. Початок роботи з R

êîëüîðîì, ïiñëÿ ÷îãî ïåðåõîäèòü ó ðåæèì î÷iêóâàííÿ íàñòóïíî¨ êîìàíäè,


ïðî ùî ïîâiäîìëÿ¹ ÷åðâîíèì çíàêîì >. Ïðè ðîáîòi ç R ìîæíà âèêîíóâà-
òè îäðàçó áàãàòî êîìàíä, ùî çàïèñàíi ó îêðåìîìó ôàéëi. Íàéïðîñòiøèé
ñïîñiá çðîáèòè öå - çàâàíòàæèòè òàêèé ôàéë â ÿêîìó-íåáóäü òåêñòîâîìó
ðåäàêòîði, çðîáèòè òàì copy, à ïîòiì  paste íà êîíñîëi. Ïðè öüîìó, ÿê-
ùî êîìàíäè ó ôàéëi ðîçìiùåíi ó îêðåìèõ ðÿäî÷êàõ, ðîçäiëîâèõ çíàêiâ
ìiæ íèìè íå ïîòðiáíî. Êîìàíäè, âìiùåíi â îäíîìó ðÿäî÷êó, ðîçäiëÿþòü
ñèìâîëîì ;.
ßêùî äîâãà êîìàíäà íå âìiùó¹òüñÿ ó îäíîìó ðÿäî÷êó, ¨ ¨ ìîæíà ðîç-
áèòè íà äåêiëüêà ðÿäî÷êiâ, ïðè÷îìó, ïðè ïåðåõîäi äî íàñòóïíîãî ðÿäî÷êó
R àâòîìàòè÷íî âèâîäèòü ñèìâîë ïðîäîâæåííÿ +. R ñàì çäîãàäó¹òüñÿ, ùî
êîìàíäà íå çàêií÷åíà  çà ¨ ¨ ñèíòàêñèñîì. Òîìó äåÿêi ñèíòàêñè÷íi ïîìèë-
êè (ÿê îò  çàáóòi äóæêè) ìîæóòü ñïðèéìàòèñü ÿê íåçàêií÷åíi êîìàíäè.
Ó öüîìó âèïàäêó R âèñòàâèòü + íà ïî÷àòêó íàñòóïíîãî ðÿäî÷êà i ïåðåéäå
ó ðåæèì î÷iêóâàííÿ. Íàòèñíiòü esc ùîá ïåðåéòè ó ðåæèì ââåäåííÿ íîâî¨
êîìàíäè áåç ïðîäîâæåííÿ àíàëiçó ïîïåðåäíüî¨.
Ïðîãðàìè, ùî ñêëàäàþòüñÿ ç êîìàíä R, íàçèâàþòü ñêðèïòàìè (script).
Âîíè ìàþòü ñòàíäàðòíå ðîçøèðåííÿ .r. Ó áàçîâié ïðîãðàìi ¹ ìîæëèâiñòü
âiäêðèòè âiêíî ðåäàêòîðà äëÿ ñòâîðåííÿ íîâîãî ñêðèïòó, àáî çàâàíòàæè-
òè ôàéë çi ñêðèïòîì, âèêîðèñòîâóþ÷è ïóíêòè ãîëîâíîãî ìåíþ File->New
script àáî File->Open script. Âèêîíàòè çàâàíòàæåíèé ó âiêíi ðåäàêòîðà
1.2. Система R-Studio 16

ñêðèïò ïîâíiñòþ ìîæíà, âèêîðèñòîâóþ÷è Edit->Run all. Ìîæíà òàêîæ


âèêîíàòè âèäiëåíó ÷àñòèíó ñêðèïòó âèêîðèñòîâóþ÷è êíîïêó Run line or
selection. Çàêií÷èâøè ðîáîòó çi ñêðèïòîì, éîãî ìîæíà çáåðåãòè, âèêîðè-
ñòîâóþ÷è File->Save.

1.2 Система R-Studio


Çà ïîòðåáè, âñi òåõíîëîãi¨ ñòàòèñòè÷íî¨ îáðîáêè ìîæíà ðåàëiçîâóâà-
òè, âèêîðèñòîâóþ÷è ëèøå áàçîâèé ïàêåò R. Àëå âií ñïåöiàëüíî ðîçðîáëå-
íèé òàê, ùîá çàáåçïå÷óâàòè ëèøå ìiíiìàëüíî íåîáõiäíi çàñîáè ðåàëiçàöi¨.
Äëÿ áiëüø çðó÷íîãî êîðèñòóâàííÿ R-òåõíîëîãiÿìè ìîæíà âèêîðèñòîâóâà-
òè ñïåöiàëüíi íàäáóäîâè-îáîëîíêè íàä R, ÿêi äàþòü áiëüøå ìîæëèâîñòåé
äëÿ ïðîãðàìóâàííÿ, ïåðåãëÿäó âèêîðèñòàíèõ çìiííèõ, êîðèñòóâàííÿ ãðà-
ôiêîþ òà ðîáîòè ç Help-ñèñòåìîþ.
Òàêîþ îáîëîíêîþ-iíòåãðàòîðîì ¹ ñèñòåìà R-Studio. Âîíà òàêîæ ðîç-
ïîâñþäæó¹òüñÿ áåçêîøòîâíî. Iíñòàëÿòîð R-Studio ìîæíà îòðèìàòè íà
îôiöiéíîìó ñàéòi www.rstudio.com. Ïåðø íiæ iíñòàëþâàòè öþ ïðîãðàìó,
òðåáà âñòàíîâèòè íà êîìï'þòåði áàçîâèé R. Ïiñëÿ öüîãî ìîæíà çàïóñòèòè
iíñòàëÿòîð R-Studio i ïîãîäæóâàòèñü ç óñiìà éîãî çàïèòàííÿìè.
Ïðè ðîáîòi âiêíî R-Studio ìîæå ìàòè ïðèáëèçíî òàêèé âèãëÿä, ÿê
çîáðàæåíî íà ðèñ. 1.2. Îñíîâíå âiêíî ðîçäiëåíå íà ÷îòèðè äî÷iðíi âiêíà.
Ó ëiâîìó âåðõíüîìó âiêíi âèâåäåíî script  ïðîãðàìó, ÿêà ðåäàãó¹òüñÿ.
(Ó öüîãî âiêíà áàãàòî çàêëàäèíîê, ÿêi äîçâîëÿþòü ïðàöþâàòè ç êiëüêî-
ìà ôàéëàìè-ñêðèïòàìè îäðàçó). Ó ëiâîìó íèæíüîìó âiêíi  êîíñîëü, ó
ÿêié âèêîíóþòüñÿ êîìàíäè. Òóò òàêîæ ìîæíà çàïóñêàòè ñêðèïòè àáî ¨õ
÷àñòèíè. Ó ïðàâîìó âåðõíüîìó âiêíi ìîæíà ïåðåãëÿäàòè àêòèâíi çìiííi,
ç ÿêèìè ïðàöþ¹ ïðîãðàìà. Òóò òàêîæ ìîæíà ïîáà÷èòè iñòîðiþ ðîáîòè 
ùî âè ðîáèëè ó Ríå òiëüêè ïiä÷àñ äàíî¨ ñåñi¨ (öå âiäîáðàæåíî íà êîíñîëi)
à i ðàíiøå, ó ïîïåðåäíiõ ñåñiÿõ.
Íàéáiëüø íàâàíòàæåíå âiêíî âíèçó ïðàâîðó÷. Ñþäè âèâîäÿòü ðèñóí-
êè, ÿêi ðîáèòü ïðîãðàìà, òóò ìîæíà ïðîãëÿíóòè Help, ïîäèâèòèñü, ÿêi
äîäàòêîâi ïàêåòè çàâàíòàæåíi, à òàêîæ ïðàöþâàòè ç ðiçíèìè ôàéëàìè ç
âàøîãî êîìï'þòåðà.
Çâè÷àéíî, êîðèñòóâà÷ ìîæå ìiíÿòè öi âiêíà ìiñöÿìè, çìiíþâàòè ¨õ
ðîçìiðè òà êîðèñòóâàòèñü iíøèìè ìîæëèâîñòÿìè ñèñòåìè.
Çîêðåìà, êîðèñòóþ÷èñü ãîëîâíèì ìåíþ, ìîæíà ïåðåçàâàíòàæóâàòè
R, âèáèðàòè íîâèé ðîáî÷èé êàòàëîã (òîáòî êàòàëîã, ç ÿêîãî R çàâàíòàæó¹
1.3. Завантаження пакетiв, робота з Help та iншi органiзацiйнi питання 17

Рис. 1.2. Початок роботи з R

ôàéëè çà óìîâ÷àííÿì), çáåðiãàòè òà çàâàíòàæóâàòè ó ïàì'ÿòü workspace,


îòðèìóâàòè ç iíòåðíåòó íîâi áiáëiîòåêè ïðîãðàì/äàíèõ (packages). Â
ïðèíöèïi, âñå öå ìîæíà ðîáèòè i áåçïîñåðåäíüî ç R, àëå â R-Studio òà-
êi ðå÷i îðãàíiçîâàíi çðó÷íiøå.
R-Studio êîðèñíèé òàêîæ ïiäêàçêàìè, ÿêi âií ðîáèòü ïiä ÷àñ íàáîðó
êîìàíä íà êîíñîëi òà ó âiêíi ñêðèïòiâ.
Ùå îäíà äîäàòêîâà çðó÷íiñòü R-Studio  ìîæëèâiñòü ãåíåðàöi¨ òåê-
ñòîâèõ çâiòiâ, ÿêi âèêîíóþòüñÿ ç ïî¹äíàííÿì ñèñòåìè ïðîãðàìóâàííÿ R
òà ñèñòåìè ôîðìàòóâàííÿ òåêñòiâ LaTeX. Ïðè öüîìó R-Studio ñïèðà¹òüñÿ
íà R ïàêåò knitr. Çà äîïîìîãîþ öi¹¨ òåõíîëîãi¨ ïiäãîòîâëåíà äàíà êíèãà.
Íàæàëü, äëÿ ïîâíîãî îïèñó knitr ïîòðiáíî ïîÿñíþâàòè íå òiëüêè ðîáîòó
R, à i ïðèíöèïè îðãàíiçàöi¨ LaTeX, ùî âèõîäèòü çà ðàìêè öi¹¨ êíèãè.

1.3 Завантаження пакетiв, робота з Help та iншi


органiзацiйнi питання
Áàçîâèé R ì๠âåëèêèé íàáið ôóíêöié äëÿ ðåàëiçàöi¨ ìàòåìàòè÷íèõ
òà ñòàòèñòè÷íèõ àëãîðèòìiâ. Àëå êîðèñòóâà÷i âåñü ÷àñ ðîçðîáëÿþòü ñâî¨
âëàñíi ôóíêöi¨, ùî äîïîâíþþòü áàçîâi. Êîëè äåÿêèé íàáið ôóíêöié, ùî
ðåàëiçóþòü ïåâíó òåõíîëîãiþ ñòàòèñòè÷íî¨ îáðîáêè äàíèõ, áóäå âiäïðà-
1.3. Завантаження пакетiв, робота з Help та iншi органiзацiйнi питання 18

öüîâàíèé íàñòiëüêè, ùî ó ðîçðîáíèêà âèíèê๠áàæàííÿ ïîäiëèòèñü íèì


òàêîæ iç iíøèìè ìîæëèâèìè êîðèñòóâà÷àìè, âií îôîðìëþ¹ òàêèé íàáið ó
âèãëÿäi ïàêåòó (package). Ïàêåò ïîâèíåí ìàòè òàêîæ help-äîêóìåíòàöiþ,
ÿêà äîçâîëèòü ìîæëèâèì êîðèñòóâà÷àì çðîçóìiòè éîãî ïðèçíà÷åííÿ. Äî
ïàêåòó ÷àñòî âêëþ÷àþòü i íàáîðè äàíèõ, íà ÿêèõ ìîæíà ïåðåâiðèòè ðî-
áîòó éîãî ôóíêöié. Áóâàþòü ïàêåòè, ñêëàäåíi ëèøå ç äàíèõ  öå ïðîñòî
êîëåêöi¨ öiêàâèõ àáî ïîïóëÿðíèõ ïðèêëàäiâ, ÿêi õòîñü ïiäiáðàâ äëÿ âëàñ-
íèõ ïîòðåá.
Ïðàâèëüíî îôîðìëåíi ïàêåòè ðîçðîáíèêè âiäñèëàþòü äî äåïîçèòàði¨â,
çâiäêè ¨õ ìîæíà ïåðåïèñàòè íà ñâié êîìï'þòåð ó êàòàëîã, äîñòóïíèé
äëÿ R (iíñòàëþâàòè). Îñêiëüêè ïàêåòè ñòâîðþþòüñÿ ðiçíèìè ðîçðîáíè-
êàìè çà âëàñíîþ iíiöiàòèâîþ, íåçàëåæíî îäèí âiä îäíîãî, ìiæ íèìè ìî-
æóòü iñíóâàòè íåóçãîäæåíîñòi. Íàïðèêëàä, ôóíêöi¨ ç ðiçíèõ ïàêåòiâ ìî-
æóòü ìàòè îäíàêîâi iìåíà òà òèïè ïàðàìåòðiâ, òîäi ïðè çàâàíòàæåííi ó
ïàì'ÿòü êîìï'þòåðà îáîõ ïàêåòiâ êîðèñòóâà÷ íå çìîæå ïðàâèëüíî ¨õ âè-
2
êîðèñòîâóâàòè . Òîìó ðåêîìåíäó¹òüñÿ çàâàíòàæóâàòè íå âñi iíñòàëüîâàíi
íà êîìï'þòåði ïàêåòè, à ëèøå òi, ÿêi äiéñíî ïîòðiáíi äëÿ ðîáîòè ïiä ÷àñ
äàíî¨ ñåñi¨.
Ïðîñóíóòi êîðèñòóâà÷i R ðîçðiçíÿþòü ïîíÿòòÿ пакет (package) i бiб-
лiотека (library). Ïàêåòîì íàçèâàþòü ôàéë, àáî íàáið ôàéëiâ ç ñêðèïòà-
ìè òà ¨õ îïèñîì, à áiáëiîòåêîþ - ìiñöå, òîáòî êàòàëîã ó ôàéëîâié ñèñòåìi,
äå ëåæèòü ïàêåò. Ç òî÷êè çîðó êîðèñòóâà÷à-ïî÷àòêiâöÿ öÿ âiäìiííiñòü
íåñóòò¹âà. Ñòàðîæèëè ïàì'ÿòàþòü, ùî â ìîâi S library îçíà÷àëî ïðè-
áëèçíî òå æ, ùî ó R çâåòüñÿ package. Ó öié êíèæöi ìè òåæ íå áóäåìî
íàäàâàòè âàãè öié âiäìiííîñòi.
Iíñòàëþâàòè ïàêåò íà êîìï'þòåði, òîáòî îòðèìàòè éîãî ç iíòåðíåòó ó
âèãëÿäi zip-àðõiâó, ðîçàðõiâóâàòè i ïîêëàñòè ó çðó÷íå äëÿ R ìiñöå, ìîæíà:
1. Ïiä ÷àñ ñåñi¨ ðîáîòè ç R ç êîíñîëi, âèêëèêàâøè ôóíêöiþ iíñòàëÿöi¨
install.packages. Íàïðèêëàä, êîìàíäà install.packages('raster')
âèêëè÷å çâåðòàííÿ êîìï'þòåðà äî ñòàíäàðòíîãî äåïîçèòàðiþ (ÿê ïðà-
âèëî, öå cran.us.r-project.org), îòðèìàííÿ âiä íüîãî ïàêåòó i ðîç-
ìiùåííÿ éîãî ó âiäïîâiäíîìó êàòàëîçi íà êîìï'þòåði. Çâè÷àéíî, ÿêùî
êîìï'þòåð íå ì๠âèõîäó â iíòåðíåò, àáî äåïîçèòàðié íåäîñòóïíèé, â ðå-
çóëüòàòi âèêîíàííÿ ôóíêöi¨ âèíèêíå ïîìèëêà.

2
Функцiї, що мають однаковi iмена але працюють з параметрами рiзних типiв — це
нормальне явище для об’єктно-орiєнтованих мов. Комп’ютер при виклику обирає правильну
функцiю, виходячи з специфiкацiї її параметрiв.
1.3. Завантаження пакетiв, робота з Help та iншi органiзацiйнi питання 19

2. Ïðè ðîáîòi áåçïîñåðåäíüî ç áàçîâèì R iíñòàëÿöiþ ìîæíà ðîáèòè, âè-


êîðèñòîâóþ÷è ïóíêòè ãîëîâíîãî ìåíþ Packages->Install package(s). Ñïî-
÷àòêó ïðîãðàìà ïðîïîíó¹ âèáðàòè iíòåðíåò-àðõiâ, ç ÿêîãî ðîáèòüñÿ ií-
ñòàëÿöiÿ. Âàðiàíò 0-cloud, ùî ïðîïîíó¹òüñÿ çà óìîâ÷àííÿì, ÿê ïðàâèëî,
ïðàöþ¹ öiëêîì çàäîâiëüíî. Ïiñëÿ öüîãî òðåáà ó ñïèñêó âèáðàòè ïîòðiá-
íèé äëÿ âàñ ïàêåò. ßêùî öåé ïàêåò âèêîðèñòîâó¹ ÿêi-íåáóäü iíøi, êîòðèõ
íåì๠íà âàøîìó êîìï'þòåði, âîíè áóäóòü iíñòàëüîâàíi àâòîìàòè÷íî.
3. Ïðè ðîáîòi ç R-Studio ìîæíà ñêîðèñòàòèñü ïóíêòàìè ãîëîâíîãî
ìåíþ Tools->Install packages. . . Ïðè öüîìó âiäêðèâà¹òüñÿ äiàëîãîâå âiê-
íî, äå âè ìîæåòå âêàçàòè, çâiäêè ïðîâîäèòüñÿ iíñòàëÿöiÿ (ç iíòåðíåò-
äåïîçèòàðiþ, ÷è ç zip-àðõiâó íà âàøîìó êîìï'þòåði), ÿêèé ïàêåò âè õî÷å-
òå iíñòàëþâàòè, ìiñöå, äå áóäå ðîçìiùåíèé ïàêåò i ÷è òðåáà iíñòàëþâàòè
iíøi ïàêåòè, ÿêi íèì âèêîðèñòîâóþòüñÿ.
Äëÿ çàâàíòàæåííÿ (ïiäêëþ÷åííÿ) ïàêåòó ó ðîáî÷ó îáëàñòü ïàì'ÿòi
(Workspase) ïiä ÷àñ ñåñi¨ âèêîðèñòîâóþòü ôóíêöiþ library(). Íàïðè-
êëàä, library(raster) ïiäêëþ÷๠ïàêåò raster i ä๠çìîãó âèêîðèñòî-
âóâàòè âñi éîãî ôóíêöi¨ ó ïîäàëüøié ñåñi¨.
Âiäêëþ÷èòè ïàêåò ìîæíà, âèêîðèñòîâóþ÷è ôóíêöiþ detach(). Òàê
detach("package:raster") çðîáèòü ïàêåò raster íåàêòèâíèì  éîãî
ôóíêöi¨ ïåðåñòàíóòü áóòè äîñòóïíèìè ó ïîäàëüøié ñåñi¨. Àëå ïðè öüî-
ìó âií çàëèøèòüñÿ ó îïåðàòèâíié ïàì'ÿòi.
Âèäàëèòè íåïîòðiáíèé ïàêåò ç Workspase ìîæíà, âèêîðèñòîâóþ÷è
ôóíêöiþ remove(), íàïðèêëàä,
remove.packages("raster").
Äëÿ òîãî, ùîá î÷èñòèòè âåñü Workspase, ìîæíà íàáðàòè
remove(list = ls()).
Äëÿ òîãî, ùîá îòðèìàòè äîâiäêó ïî ÿêèì-íåáóäü ìîæëèâîñòÿì R ìîæ-
íà ñêîðèñòàòèñü help-ñèñòåìîþ. Äëÿ öüîãî ïðèçíà÷åíà ôóíêöiÿ help(),
àáî ñêîðî÷åíî ?. Íàáðàâøè íà êîíñîëi R
?sin
âè îòðèìà¹òå äîâiäêó ïðî òðèãîíîìåòðè÷íi ôóíêöi¨ â R, çîêðåìà  i ïðî
ôóíêöiþ sin(𝑥). Äîâiäêà, ÿê ïðàâèëî, ïî÷èíà¹òüñÿ ç iíôîðìàöi¨ ïðî òå, ó
ÿêîìó ïàêåòi çíàõîäèòüñÿ ôóíêöiÿ (äàíi, îá'¹êòè, òîùî) Ó âèïàäêó ?sin
öå âèãëÿä๠ÿê
Trig {base}
ùî âêàçó¹ íà íàáið òðèãîíîìåòðè÷íèõ ôóíêöié ç áàçîâîãî R.
Iíêîëè íàçâó ôóíêöi¨ (òåìó help) ïiñëÿ çíàêó çàïèòàííÿ ïîòðiáíî çà-
äàâàòè ó ëàïêàõ. Òàê, ïðè ñïðîái âèêëèêàòè help çàïèòîì ?+ (àáî ?for)
1.3. Завантаження пакетiв, робота з Help та iншi органiзацiйнi питання 20

âè ó âiäïîâiäü îòðèìà¹òå çàïðîøåííÿ ïðîäîâæóâàòè ââåäåííÿ êîìàíäè


(+). ßêùî íàáðàòè ?"+" (âiäïîâiäíî  ?"for") ìîæíà îòðèìàòè äîâiäêó
ïðî ðåàëiçàöiþ àðèôìåòè÷íèõ îïåðàöié (àáî ïðî öèêë for) ó R.
Áàçîâèé R äëÿ ïåðåãëÿäó help-äîêóìåíòàöi¨ ìîæå çàïóñêàòè iíòåðíåò-
áðàóçåð, àëå öå íå îçíà÷à¹, ùî äîêóìåíòàöiÿ øóêà¹òüñÿ ó iíòåðíåòi. Âñå,
ùî âèäà¹òüñÿ çà êîìàíäîþ ? àáî ??, çíàõîäèòüñÿ íà âàøîìó êîìï'þòåði
i íå ïîòðåáó¹ äîñòóïó äî iíòåðíåòó.
Êîìàíäà ? âèâîäèòü îñíîâíèé ôàéë, ïîâ'ÿçàíèé ç òåìîþ çàïèòàííÿ.
ßêùî âè õî÷åòå ïðîãëÿíóòè âñi ôàéëè, äå çãàäó¹òüñÿ äàíà òåìà, ìîæíà
ñêîðèñòàòèñü ôóíêöi¹þ help.search(), ñêîðî÷åíî  ??. Íàïðèêëàä, çà
çàïèòîì
??"linear models"
ó áðàóçåði áóäå âèâåäåíà ñòîðiíêà ç ïåðåëiêîì óñiõ äîêóìåíòiâ help-ó, äå
çãàäóþòüñÿ ëiíiéíi ìîäåëi ç êîðîòêèì îïèñîì ¨õ çìiñòó. Áiëüøiñòü ç öèõ
ñòîðiíîê áóäå ñòîñóâàòèñü ëiíiéíèõ ðåãðåñiéíèõ ìîäåëåé, àáî óçàãàëüíå-
íèõ ëiíiéíèõ ìîäåëåé. Àëå ìîæëèâi i ïîñèëàííÿ íà ëiíiéíi ìîäåëi ÷îãîñü
çîâñiì iíøîãî. Ïåðåõîäÿ÷è çà ãiïåðïîñèëàííÿìè, ìîæíà ïðîäèâëÿòèñü öi
äîêóìåíòè.
Çàäàþ÷è ñïåöiàëüíi ïàðàìåòðè ôóíêöié help() àáî help.search()
ìîæíà îòðèìóâàòè äîâiäêè ïî îêðåìèõ ïàêåòàõ, àáî òiëüêè çà êëþ÷îâèìè
ñëîâàìè, àáî òiëüêè ïî äîêóìåíòàõ ç ïåâíîãî êàòàëîãó i ò.ä.
Äîêóìåíòàöiþ äëÿ help àâòîðè ïàêåòiâ ðîçðîáëÿþòü ñàìi i ïîñòàâ-
ëÿ¹òüñÿ âîíà ðàçîì ç ïàêåòàìè. Òîìó çà çàïèòîì ? âè îòðèìó¹òå iíôîð-
ìàöiþ ëèøå ïðî òi ôóíêöi¨, ÿêi çíàõîäÿòüñÿ ó ïàêåòàõ, äîñòóïíèõ ïiä ÷àñ
ñåñi¨ (ïiäêëþ÷åíèõ ïðè çàïóñêó R àáî äîäàòêîâî êîìàíäîþ library()).
ßêùî, ñêàæiìî, íà ïî÷àòêó ñåñi¨ ÿ çàïèòàþ
?ginv âiäïîâiäü áóäå

No documentation for ‘ginv’ in specified packages and libraries:


you could try ‘??ginv’

Ïðè çàïèòi ??ginv âèâîäèòüñÿ âñÿ iíôîðìàöiÿ ïðî ginv, ùî ¹ íà


êîìï'þòåði (ÿê ïiäêëþ÷åíà äî ñåñi¨, òàê i íå ïiäêëþ÷åíà). Çîêðåìà, íà
ìî¹ìó êîìï'þòåði íà ñòîðiíöi äîâiäêè ç'ÿâëÿ¹òüñÿ ãiïåðïîñèëàííÿ
MASS::ginv Generalized Inverse of a Matrix,
ùî âêàçó¹ íà íàÿâíiñòü ôóíêöi¨ ginv ó ïàêåòi MASS i êîðîòêî îïèñó¹ ¨ ¨
ïðèçíà÷åííÿ  çíàõîäæåííÿ óçàãàëüíåíèõ îáåðíåíèõ ìàòðèöü. À ïiñëÿ
1.3. Завантаження пакетiв, робота з Help та iншi органiзацiйнi питання 21

ïiäêëþ÷åííÿ ïàêåòó MASS äîâiäêà ïðî öþ ôóíêöiþ ñòàíå äîñòóïíîþ çà


çàïèòîì ?ginv. Ïðè ðîáîòi â R-Studio êîìï'þòåð ñòàíå ïiäêàçóâàòè âàì
ïàðàìåòðè öi¹¨ ôóíêöi¨ ïðè íàáîði i ò.ä.
Ó R-Studio ó âiêíi help (ïðàâîðó÷ çíèçó íà åêðàíi ó ñòàíäàðòíié êîí-
ôiãóðàöi¨) ¹ ïîëå äëÿ ïîøóêó (Search), ÿêå äi¹ àíàëîãi÷íî çàïèòó ?, àëå
ïðè öüîìó ä๠äîäàòêîâó ïiäêàçêó ïðè íàáîði.
ßêùî âè õî÷åòå îòðèìóâàòè iíôîðìàöiþ ïðî ìîæëèâîñòi âñiõ ôóíêöié
ç óñiõ ïàêåòiâ, ùî ëåæàòü ó âñiõ äîñòóïíèõ äåïîçèòàðiÿõ, òî âè ìîæåòå
iíñòàëþâàòè íà ñâî¹ìó êîìï'þòåði ïàêåò sos. Ïiñëÿ ïiäêëþ÷åííÿ éîãî äî
ñåñi¨ (library(sos)) ñòàíå äîñòóïíèì çàïèò ó ôîðìi ???<òåìà>, çà ÿêèì
áóäå âèäàâàòèñü ðåçóëüòàò ïîøóêó çàäàíî¨ òåìè ïî âñiõ R-äåïîçèòàðiÿõ
ñâiòó. Ðîçiáðàòèñü ó òàêèõ áàãàòîñòîðiíêîâèõ ïåðåëiêàõ áóâ๠íå ïðîñòî,
àëå iíêîëè âîíè äàþòü íåñïîäiâàíi i äóæå êîðèñíi ðåçóëüòàòè.
Îñêiëüêè äîêóìåíòàöiþ äî ïàêåòiâ ðîçðîáëÿþòü ¨õ àâòîðè, òî âîíà ÷à-
ñòî áóâ๠ïåðåîáòÿæåíîþ òåõíi÷íèìè ïîäðîáèöÿìè, íå äóæå çðîçóìiëèìè
ïî÷àòêiâöþ. Ëîãiêà çàñòîñóâàííÿ ïðîãðàìè (î÷åâèäíà àâòîðàì) ïðè öüî-
ìó âòðà÷à¹òüñÿ. Òîìó äóæå êîðèñíèì áóâ๠îçíàéîìëåííÿ ç äóìêàìè êî-
ðèñòóâà÷iâ. Íàéïðîñòiøå çíàéòè òàêi äóìêè, ñêîðèñòàâøèñü ÿêîþ-íåáóäü
ïîøóêîâîþ iíòåðíåò-ìàøèíîþ (ÿ âiääàþ ïåðåâàãó Google). Íàáðàâøè,
ñêàæiìî, çàïèò
"inverse matrix in r"
 âè îòðèìà¹òå ïîñèëàííÿ íà áàãàòî ðiçíèõ ðåêîìåíäàöié ïî çíàõîä-
æåííþ îáåðíåíèõ ìàòðèöü çà äîïîìîãîþ R. Íå âñi âîíè áóäóòü àäåêâàò-
íèìè! ß ðåêîìåíäóþ çâåðòàòè óâàãó íà ïîðàäè ñàéòiâ:
stackoverflow.com
 öå ñàéò ïðîãðàìiñòiâ òà ìàòåìàòèêiâ, òóò ìîæíà çíàéòè ïîðàäè
ñïåöiàëiñòiâ òà îáãîâîðåííÿ ïðîáëåì íà ñåðéîçíîìó ðiâíi.
www.statmethods.net
 òóò ìîæíà øóêàòè øâèäêi i ïðîñòi ïîðàäè ó ñòèëi Quick-R.
cran.r-project.org/doc/FAQ/
 öå îôiöiéíèé ñàéò R, ìiñöå äå çiáðàíi âiäïîâiäi íà çàïèòàííÿ, ùî
âèíèêàþòü îñîáëèâî ÷àñòî.
Íà þòóái ìîæíà òàêîæ ïîáà÷èòè ëåêöi¨ ç áàãàòüîõ îêðåìèõ ïèòàíü
âèêîðèñòàííÿ R ó ñòèëi çðîçóìiëî íàâiòü íåìîâëÿòàì. Âîíè ìîæóòü áó-
òè êîðèñíèìè íà ïåðøèõ åòàïàõ âèâ÷åííÿ R, ùîá íå ïî÷óâàòè ñåáå çîâñiì
áåçïîðàäíèì. Ïîòiì ¨õ çðîçóìiëiñòü ïî÷èí๠äðàòóâàòè. Àëå êîëè âè íà-
áóâà¹òå ïåâíîãî äîñâiäó ó ðîáîòi ç R i âèíèê๠ïîòðåáà ïîäiëèòèñü íèì ç
iíøèìè, ïåðåãëÿä òàêèõ ëåêöié çíîâó ìîæå ñòàòè ó ïðèãîäi.
Роздiл 2

Мова статистичного
програмування R

Öåé ðîçäië ïðèñâÿ÷åíèé ïåðøîìó çíàéîìñòâó ç ïðîãðàìóâàííÿì ìî-


âîþ R. Òóò, â ïåðøó ÷åðãó, ðîçïîâiäà¹òüñÿ òå, áåç ÷îãî íåìîæëèâî ðî-
çóìiòè òåêñòè íà R, âìiùåíi ó íàñòóïíèõ ðîçäiëàõ. Çâè÷àéíî, äåùî âè-
êëàäåíî áiëüø äåòàëüíî, ùîá ÷èòà÷ ìiã òàêîæ îði¹íòóâàòèñü ó ïðîñòèõ
R-ïðîãðàìàõ, ÿêi ìîæóòü ïîòðàïèòè ó ïîëå éîãî çîðó, íàïðèêëàä, ïðè
ïîøóêó â iíòåðíåòi. Àëå íåìîæëèâî ñòàòè ïðîãðàìiñòîì íà R ïðî÷èòàâ-
øè òiëüêè öåé ðîçäië. Äëÿ ïîäàëüøîãî çíàéîìñòâà ç ïðîãðàìóâàííÿì
íà R, à òàêîæ ç îñîáëèâîñòÿìè êîìï'þòåðíî¨ ðåàëiçàöi¨ öüîãî ñåðåäîâè-
ùà, ìîæíà ðåêîìåíäóâàòè êíèæêó [54]. Ðiçíèì ïåðåòâîðåííÿì íàáîðiâ
ñòàòèñòè÷íèõ äàíèõ çà äîïîìîãîþ R ïðèñâÿ÷åíi êíèæêè [20] i [48]. Ç òåõ-
íiêàìè ñòàòèñòè÷íîãî àíàëiçó äàíèõ íà îñíîâi R ìîæíà îçíàéîìèòèñü ó
[49] i [50].

2.1 Базовi поняття


R ñêëàäà¹òüñÿ ç команд. Êîæíà êîìàíäà ìîæå âèêîíóâàòèñü îê-
Ìîâà
ðåìî, àáî ó ñêëàäi ïðîãðàìè. Ïðîãðàìè ó R çâóòüñÿ скриптами (script).
Îêðåìà êîìàíäà çàïèñó¹òüñÿ ó êîìàíäíîìó ðÿäî÷êó ñèñòåìè R ïiñëÿ за-
прошення  > i çàïóñêà¹òüñÿ íà âèêîíàííÿ êëàâiøåþ Enter:

> 1+1
[1] 2

22
2.1. Базовi поняття 23

(Çàïðîøåííÿ êîìï'þòåð âèä๠àâòîìàòè÷íî). Ó öié êíèçi (ÿê i ó áàãàòüîõ


iíøèõ) ïðè âiäòâîðåííi äiàëîãiâ ç êîìï'þòåðîì, êîìàíäè, ââåäåíi ïðîãðà-
ìiñòîì, íàäðóêîâàíi çåëåíèì êîëüîðîì, à âiäïîâiäi êîìï'þòåðà  êîðè÷-
íåâèì. Âiäïîâiäi âçÿòi ó ðàìêó. Íà åêðàíi êîìï'þòåðà êîëüîðè ìîæóòü
áóòè iíøèìè, à ðàìîê íåìà¹.
Êîìàíäà ìîæå áóòè виразом (òîäi ðåçóëüòàò ¨ ¨ âèêîíàííÿ ïðîñòî âè-
âîäèòüñÿ íà åêðàí, ÿê ó ïîïåðåäíüîìó ïðèêëàäi) àáî ïðèâëàñíåííÿì:

> x<-1+1
> x
[1] 2
Òóò <- öå ñèìâîë ïðèâëàñíåííÿ, ïðàâîðó÷ âiä íüîãî iäå âèðàç, çíà÷åííÿ
ÿêîãî îá÷èñëþ¹òüñÿ, à ëiâîðó÷  iì'ÿ çìiííî¨, ÿêié ïðèâëàñíåíî îá÷èñ-
ëåíå çíà÷åííÿ. Ñàìå çíà÷åííÿ íå âèâîäèòñÿ íà åêðàí, ùîá ïîáà÷èòè, ÷îìó
òåïåð äîðiâíþ¹ çìiííà x, ìè ââåëè ¨ ¨ íàçâó ó íàñòóïíîìó ðÿäî÷êó ïiñëÿ
çàïðîøåííÿ.
Êîìàíäè âèêîíóþòüñÿ ïiñëÿ íàòèñêàííÿ íà êëàâiøó Enter. Êîëè ïðè
öüîìó êîìï'þòåð çà ñèíòàêñèñîì ïîìi÷à¹, ùî êîìàíäà íå çàêií÷åíà, âií
ó íàñòóïíîìó ðÿäî÷êó çàìiñòü çàïðîøåííÿ  > âèâîäèòü ñèìâîë ïðîäîâ-
æåííÿ ââîäó  + i âè ìîæåòå çàêií÷èòè ââåäåííÿ êîìàíäè:

> x<-2*
+ 3
> x
[1] 6
Äàëi ó òåêñòi öi¹¨ êíèãè äëÿ çðó÷íîñòi ÷èòà÷iâ ó êîìï'þòåðíèõ äià-
ëîãàõ ñèìâîëè çàïðîøåííÿ >i+ íå âiäîáðàæàþòüñÿ. Êðiì òîãî, ó âiäïî-
âiäÿõ êîìï'þòåðà íå âiäîáðàæàþòüñÿ äîïîìiæíi çàóâàæåííÿ (warning)
ÿêùî âîíè íå ¹ ñóòò¹âèìè äëÿ ïîÿñíåííÿ ðîáîòè R. Âàðòî ìàòè íà óâàçi,
ùî çàóâàæåííÿ, ÿêi ðîáèòü R ïiä ÷àñ ðîáîòè, ìîæóòü áóòè ðiçíèìè íà
ðiçíèõ êîìï'þòåðàõ, çîêðåìà, ìîâà, ÿêîþ âîíè íàïèñàíi ìîæå çàëåæàòè
âiä ìîâíî¨ âåðñi¨ îïåðàöiéíî¨ ñèñòåìè. Öüîãî íå òðåáà ëÿêàòèñü.
1
Êîìàíäè ïðàöþþòü ç об’єктами . Ïðèêëàäàìè îá'¹êòiâ ¹ âåêòîðè,
ìàòðèöi, ôðåéìè (íàáîðè) äàíèõ, ôóíêöi¨. ×àñòî ôóíêöiÿ, ùî âèêîíó¹

1
Якщо ви не зовсiм вiдчуваєте, про що йдется у цьому та наступному абзацах — не
переймайтесь тим. Все стане зрозумiлiше у подальших прикладах. При першому читаннi
можна одразу перейти до наступного пiдроздiлу.
2.1. Базовi поняття 24

ïåâíó ïðîöåäóðó ñòàòèñòè÷íîãî àíàëiçó äàíèõ (íàïðèêëàä  ðåãðåñiéíèé


àíàëiç) âñi ñâî¨ ðåçóëüòàòè çàïèñó¹ ó îêðåìèé îá'¹êò, ÿêèé ïîòiì ìîæíà
íàäðóêóâàòè íà åêðàíi ó âèãëÿäi çâiòó, àáî âiäîáðàçèòè ó âèãëÿäi ñåði¨
ðèñóíêiâ, àáî âèêîðèñòàòè äëÿ ïîäàëüøîãî àíàëiçó iíøièìè ôóíêöiÿìè.
Ãðóáî êàæó÷è, îá'¹êò  öå ïîiìåíîâàíà îáëàñòü ïàì'ÿòi, äå çáåði-
ãà¹òüñÿ âñå, ùî âiäíîñèòüñÿ äî öüîãî îá'¹êòà: çíà÷åííÿ êîîðäèíàò âåêòî-
ðà, îïèñ ðîáîòè ôóíêöi¨, òîùî. Ó R, ÿê i â iíøèõ îá'¹êòíî-îði¹íòîâàíèõ
ìîâàõ, ó îäíîìó îá'¹êòi ìîæóòü îá'¹äíóâàòèñü äàíi i ôóíêöi¨, ùî ¨õ îá-
ðîáëÿþòü. Äàíi, ç ÿêèõ ñêëàäà¹òüñÿ îá'¹êò, íàçèâàþòü éîãî атрибутами,
à ôóíêöi¨, ÿêi ç íèì ïîâ'ÿçàíi  методами. Îá'¹êòè íàëåæàòü ðiçíèì
класам. Êëàñ âèçíà÷à¹, ÿêi àòðèáóòè ìîæå/ïîâèíåí ìàòè ìàòè îá'¹êò i
ÿêi ìåòîäè ìîæíà äî íüîãî çàñòîñîâóâàòè.
Äî àòðèáóòà atr îá'¹êòà x ìîæíà çâåðòàòèñü âèêîðèñòîâóþ÷è ñèìâîë
$:
x$atr
Íàïðèêëàä:

x<-NULL
x$name<-"Коваленко"
x$age<-24
x$married<-F
x

## $name
## [1] "Коваленко"
##
## $age
## [1] 24
##
## $married
## [1] FALSE

 ìè ñïî÷àòêó ñòâîðèëè ïóñòèé (NULL) îá'¹êò x, à ïîòiì íàäàëè éîìó


àòðèáóòè name, age i married. Ùîá ïîäèâèòñü, ÿê òåïåð âèãëÿä๠îá'¹êò
x, ìè ïðîñòî íàáðàëè éîãî íàçâó ó ñêðèïòi, i R âiäîáðàçèâ âñi x àòðèáóòè
íà åêðàíi.
Òåïåð ç x ìîæíà ïðàöþâàòè ÿê ç ¹äèíèì öiëèì, íàïðèêëàä, ïðèñâî¨òè
éîãî çíà÷åííÿ íîâîìó îá'¹êòó y:
2.1. Базовi поняття 25

y<-x
y

## $name
## [1] "Коваленко"
##
## $age
## [1] 24
##
## $married
## [1] FALSE

 òåïåð y òåæ ñòàâ 24 ëiòíiì íåîäðóæåíèì Êîâàëåíêîì.


Çâåðíiòü óâàãó, ùî ïðè ïðèâëàñíåííi çà äîïîìîãîþ y<-x ñòâîðþ¹òüñÿ
íîâèé îá'¹êò y (ÿêùî ó y áóëî ñòàðå çíà÷åííÿ, âîíî âòðà÷à¹òüñÿ) i ó öåé
îá'¹êò êîïiþ¹òüñÿ çíà÷åííÿ x. Òåïåð ìîæíà çìiíþâàòè àòðèáóòè y, àëå
àòðèáóòè x ïðè öüîìó çàëèøàòüñÿ ñòàðèìè:

y$married<-T
y$married

## [1] TRUE

x$married

## [1] FALSE

Íàø y-Êîâàëåíêî îäðóæèâñÿ, àëå x-Êîâàëåíêî çàëèøèâñÿ íåîäðóæå-


íèì.
Äëÿ òîãî, ùîá ïîáà÷èòè çíà÷åííÿ îá'¹êòà x, ÿê ïðàâèëî, äîñèòü
ïðîñòî ââåñòè êîìàíäó x. ßêùî ïîòðiáíå áiëüø àêóðàòíå âiäîáðàæåí-
íÿ, ìîæíà ñêîðèñòàòèñü ôóíêöi¹þ print(). Çîêðåìà, ÿêùî çàïèñàòè
print(z,digits=3) òî R íàìàãàòèìåòüñÿ âèâîäèòè íå áiëüøå òðüîõ çíà-
÷óùèõ öèôð ó âñiõ ÷èñëîâèõ àòðèáóòàõ z:

z=1/3
z

## [1] 0.3333333
2.2. Типи даних та елементарнi функцiї 26

print(z,digits=3)

## [1] 0.333

Ñòðóêòóðó îá'¹êòà çðó÷íî ïåðåâiðÿòè âèêîðèñòîâóþ÷è ôóíêöiþ


str():

str(x)

## List of 3
## $ name : chr "Коваленко"
## $ age : num 24
## $ married: logi FALSE

Òóò ìè íå òiëüêè áà÷èìî iìåíà i çíà÷åííÿ àòðèáóòiâ, àëå ìîæåìî


äiçíàòèñü ïðî ¨õ òèï: ñèìâîëüíèé äëÿ name, ÷èñëîâèé äëÿ age i ëîãi÷íèé
äëÿ married.

2.2 Типи даних та елементарнi функцiї


2.2.1 Вектори. Арифметичнi та логiчнi операцiї.
Íàéïðîñòiøîþ ñòðóêòóðîþ ó ìîâi R ¹ âåêòîð (ñêàëÿðè ÿê îêðåìi
ñòðóêòóðè íå iñíóþòü, à òðàêòóþòüñÿ ÿê âåêòîðè îäèíè÷íî¨ äîâæèíè).
R âèêîðèñòîâó¹ ï'ÿòü ïðîñòèõ âåêòîðíèõ òèïiâ îá'¹êòiâ:

ˆ logical: ëîãi÷íèé  âåêòîð ñêëàäåíèé ç åëåìåíòiâ ùî ïðèéìàþòü


çíà÷åííÿ iñòèííî (TRUE àáî T) òà õèáíî (FALSE àáî F);
ˆ numeric: ÷èñëîâèé  âåêòîð, ñêëàäåíèé ç äiéñíèõ ÷èñåë;

ˆ integer: öiëèé  âåêòîð, ñêëàäåíèé ç öiëèõ ÷èñåë;

ˆ complex: âåêòîð, ñêëàäåíèé ç êîìïëåêñíèõ ÷èñåë;

ˆ character: ñèìâîëüíèé  âåêòîð, åëåìåíòàìè ÿêîãî ¹ ñèìâîëüíi


ðÿäî÷êè.
2.2. Типи даних та елементарнi функцiї 27

ßêùî â îäíîìó íàáîði äàíèõ ïîòðiáíî îá'¹äíàòè åëåìåíòè ðiçíî¨ ïðè-


ðîäè, âèêîðèñòîâóþòü îá'¹êò òèïó list  ñïèñîê .
2

Ñòâîðèòè áóäü-ÿêèé âåêòîð ìîæíà âèêîðèñòîâóþ÷è ôóíêöiþ c(), ÿêà


3
îá'¹äíó¹ ðiçíi ñïèñêè â îäèí îá'¹êò (êîíêàòåíàöiÿ) :

c(1,5,-3,4)

## [1] 1 5 -3 4

 ç ÷îòèðüîõ îäíîåëåìåíòíèõ âåêòîðiâ ñòâîðåíèé ÷èñëîâèé âåêòîð,


ùî ñêëàäà¹òüñÿ ç ÷îòèðüîõ åëåìåíòiâ (1,5,-3,4) i ðåçóëüòàò ðîáîòè âèâå-
äåíî íà åêðàí.
Çâåðíiòü óâàãó, ùî, õî÷à âñi âèêîðèñòàíi íàìè ÷èñëà áóëè öiëèìè, âåê-
òîð ì๠òèï numeric. Äëÿ òîãî, ùîá ñêàçàòè êîìï'þòåðó, ùî âè õî÷åòå
ïî ìîæëèâîñòi âèêîðèñòîâóâàòè öiëî÷èñëîâó àðèôìåòèêó ïðè ðîáîòi ç
äàíèì âåêòîðîì, ïîòðiáíî àáî ïåðåòâîðèòè éîãî ó öiëî÷èñëîâèé çà äî-
ïîìîãîþ ôóíêöi¨ as.integer(), àáî ïîñòàâèòè ëiòåðó L ïiñëÿ êîæíîãî
÷èñëà:

str(c(1,5,-3,4))

## num [1:4] 1 5 -3 4

str(c(1L,5L,-3L,4L))

## int [1:4] 1 5 -3 4

str(as.integer(c(1,5,-3,4)))

## int [1:4] 1 5 -3 4

Ç ÷èñëîâèìè âåêòîðàìè ìîæíà âèêîíóâàòè çâè÷àéíi äi¨ äîäàâàííÿ,


ìíîæåííÿ i ò.ä. Ç ëîãi÷íèìè  îïåðàöi¨ & (ëîãi÷íå i), | (ëîãi÷íå àáî), !
(çàïåðå÷åííÿ) òà ií. Îïåðàöi¨ ïîðiâíÿííÿ (<, >, <=,=>,==,!=) çàñòîñî-
âóþòüñÿ äî ÷èñëîâèõ äàíèõ i äàþòü ëîãi÷íèé ðåçóëüòàò.
Óñi öi îïåðàöi¨ çàñòîñîâóþòüñÿ äî âåêòîðiâ ïîåëåìåíòíî:

2
Список це не вектор!
3
Списки створюються функцiєю list().
2.2. Типи даних та елементарнi функцiї 28

x<-c(1,5,-3,4)
y<-c(3,-1,2,1)
x+y

## [1] 4 4 -1 5
Òàêîæ ïîåëåìåíòíî çàñòîñîâóþòüñÿ äî âåêòîðiâ åëåìåíòàðíi ôóíêöi¨
sin, log i ò.ä.
Äëÿ öiëî÷èñåëüíîãî äiëåííÿ âèêîðèñòîâó¹òüñÿ îïåðàöiÿ %/% äëÿ çíà-
õîäæåííÿ çàëèøêó âiä äiëåííÿ  %%..
ßêùî ó áiíàðíié îïåðàöi¨ âåêòîðè-àðãóìåíòè ìàþòü ðiçíó äîâæèíó,
òî êîðîòøèé àðãóìåíò ïîâòîðþ¹òüñÿ öèêëi÷íî ïðè âèêîíàííi îïåðàöi¨:

x<-c(1,2)
y<-c(3,3,3,3,3)
x*y

## [1] 3 6 3 6 3
Ïðè öüîìó, ÿêùî äîâæèíà äîâøîãî âåêòîðà íå êðàòíà äîâæèíi êîðîò-
øîãî, êîìï'þòåð âèä๠ïîïåðåäæåííÿ (warning) ïðî öå. Äàëi ó ïðèêëàäàõ
ïîïåðåäæåííÿ íå âiäîáðàæàþòüñÿ.
Ïðè âèêîíàííi àðèôìåòè÷íèõ äié ìîæóòü âèíèêàòè çíà÷åííÿ Inf
(íåñêií÷åííiñòü) òà NaN (íåâèçíà÷åíî). Ç íèìè ìîæíà âèêîíóâàòè ðiç-
íi äi¨, ÿêi äàþòü îñìèñëåíèé ðåçóëüòàò:

x<-1/0
x
## [1] Inf
3-x
## [1] -Inf
x>3
## [1] TRUE
x/x
## [1] NaN
2.2. Типи даних та елементарнi функцiї 29

Êðiì çíà÷åííÿ NaN, ÿêå âiäïîâiä๠íåâèçíà÷åíîñòi, ïîâ'ÿçàíié ç àðèô-


ìåòè÷íèìè îïåðàöiÿìè, â R âèêîðèñòîâó¹òüñÿ òàêîæ çíà÷åííÿ NA, ùî
ïîçíà÷๠пропущенi значення, òîáòî çíà÷åííÿ, ÿêi ¹ íåâiäîìèìè ñòàòè-
ñòèêó. Îñîáëèâîñòi îáðîáêè NA-çíà÷åíü îáãîâîðþþòüñÿ äàëi. Êðiì òîãî,
ìîæëèâå iùå çíà÷åííÿ NULL, ÿêå ïîçíà÷๠ïóñòèé ñïèñîê.
Âåêòîðè ìîæóòü áóòè iìåíîâàíèìè (named), ó òàêîìó âèïàäêó êîæåí
åëåìåíò âåêòîðà ì๠iì'ÿ. Ùîá çðîáèòè âåêòîð iìåíîâàíèì, ïîòðiáíî çà-
äàòè äëÿ íüîãî атрибут names:

x<-c(5,4,3,2,1)
names(x)<-c("вiдмiнно","добре","задовiльно",
"незадовiльно", "погано")
x

## вiдмiнно добре задовiльно незадовiльно погано


## 5 4 3 2 1

(Ó öüîìó ñêðèïòi âèêëèê ôóíêöi¨ names() ñòî¨òü ëiâîðó÷ âiä çíàêó


ïðèâëàñíåííÿ. Ó R òàêèé ñèíòàêñèñ äîçâîëåíèé ëèøå ó íåâåëèêié êiëü-
êîñòi âèïàäêiâ. ßê ïðàâèëî, âæèâàííÿ âèêëèêó äîâiëüíî¨ ôóíêöi¨ ëiâî-
ðó÷ âiä <- òðàêòó¹òüñÿ ÿê ïîìèëêà). Âèêîðèñòàííÿ iìåíîâàíèõ âåêòîðiâ
÷àñòî áóâ๠çðó÷íèì ñàìå ó ñòàòèñòè÷íèõ çàñòîñóâàííÿõ, çîêðåìà ïðè
çâåðòàííi äî òîãî ÷è iíøîãî åëåìåíòà âåêòîðà àáî ìàñèâó ñêëàäíiøî¨
ñòðóêòóðè.
Âiäìiòèìî äâi çðó÷íi ôóíêöi¨ äëÿ ñòâîðåííÿ âåêòîðiâ. ßêùî ïîòði-
áåí âåêòîð, åëåìåíòè ÿêîãî óòâîðþþòü àðèôìåòè÷íó ïðîãðåñiþ, ìîæíà
ñêîðèñòàòèñü ôóíêöi¹þ seq():

seq(2.5,6,0.5)

## [1] 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0

Âèêëèêseq ìîæëèâèé ó ðiçíèõ ôîðìàòàõ (öå õàðàêòåðíà îñîáëèâiñòü


íå ëèøå seq, à âñiõ ôóíêöié ìîâè R) Ôîðìàëüíà ñïåöèôiêàöiÿ öi¹¨ ôóíêöi¨
òàêà:

seq(from = 1, to = 1, by = ((to - from)/(length.out - 1)),


length.out = NULL, along.with = NULL, ...)
2.2. Типи даних та елементарнi функцiї 30

Ó öüîìó çàïèñi seq  iì'ÿ ôóíêöi¨, from (ïåðøèé åëåìåíò), to (îñòàí-


íié), by (êðîê), length.out (êiëüêiñòü åëåìåíòiâ) i along.with  iìåíà
ôîðìàëüíèõ ïàðàìåòðiâ. Ïiñëÿ çíàêó ðiâíîñòi âêàçàíi çíà÷åííÿ, ÿêèõ öi
ïàðàìåòðè íàáóâàþòü çà óìîâ÷àííÿì, ÿêùî âîíè íå âêàçàíi ó âèêëèêó
ôóíêöi¨ (ÿêùî, ñêàæiìî, ïàðàìåòð from íå çàäàíèé ó âèêëèêó, òî ïåðøèì
åëåìåíòîì áóäå 1). Íàïðèêëàä, ìîæëèâèé âèêëèê:

seq(2,10,length.out=6)

## [1] 2.0 3.6 5.2 6.8 8.4 10.0

Òóò êðîê ïðîãðåñi¨ íå çàäàíèé ÿâíî, âií îáèðà¹òüñÿ êîìï'þòåðîì òàê,


ùîá êiëüêiñòü åëåìåíòiâ äîðiâíþâàëà çàäàíîìó length.out.
(... ïîçíà÷à¹, ùî ó ôóíêöi¨ ìîæóòü áóòè i iíøi ïàðàìåòðè).
ßê ïðàöþâàòèìå öÿ ôóíêöiÿ ïðè âèêëèêó ç iíøèìè íàáîðàìè ïàðà-
ìåòðiâ, ìîæíà ïîäèâèòèñü ó help, çàäàâøè êîìàíäó ?seq.
Äëÿ âèïàäêó, êîëè êðîê ïîñëiäîâíîñòi äîðiâíþ¹ ±1, ìîæíà âèêîðè-
ñòîâóâàòè ñêîðî÷åíèé çàïèñ seq ó âèãëÿäi from:to, íàïðèêëàä:

5:10

## [1] 5 6 7 8 9 10

-5:10

## [1] -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10

-(5:10)

## [1] -5 -6 -7 -8 -9 -10

-10:-5

## [1] -10 -9 -8 -7 -6 -5

Ôóíêöiÿ rep() ðîçìíîæó¹ ñâié ïåðøèé ïàðàìåòð çàäàíó êiëüêiñòü


ðàçiâ:
2.2. Типи даних та елементарнi функцiї 31

x<-1:4
rep(x,3)

## [1] 1 2 3 4 1 2 3 4 1 2 3 4

rep(x,each=3)

## [1] 1 1 1 2 2 2 3 3 3 4 4 4

×èñëîâèé âåêòîð, ùî ñêëàäà¹òüñÿ ç íóëiâ, ìîæíà ñòâîðèòè òàêîæ


ôóíêöi¹þ numeric(n), äå n  êiëüêiñòü åëåìåíòiâ âåêòîðà:

x<-numeric(5)
x

## [1] 0 0 0 0 0

2.2.2 Iндексацiя векторiв.


Äëÿ òîãî, ùîá ïðè îáðîáöi ìàòè ìîæëèâiñòü âèêîðèñòàòè ïåâíó ÷àñòè-
íó âåêòîðà (ìàòðèöi, áàãàòîâèìiðíîãî ìàñèâó), ó R çàñòîñîâó¹òüñÿ äóæå
ãíó÷êà ñèñòåìà iíäåêñàöi¨. Çàðàç ìè îáìåæèìîñü ïðèêëàäàìè ¨ ¨ çàñòîñó-
âàííÿ äî âåêòîðiâ, ìàòðèöi ðîçãëÿíåìî äàëi. ßê çâè÷àéíî, 𝑖-òèé åëåìåíò
âåêòîðà ìîæíà âèäiëèòè, âèêîðèñòîâóþ÷è ïðÿìi äóæêè:

x<-5:1
names(x)<-c("вiдмiнно","добре","задовiльно",
"незадовiльно", "погано")
x[2]

## добре
## 4

(Íóìåðàöiÿ åëåìåíòiâ âåêòîðiâ çàâæäè ïî÷èíà¹òüñÿ ç 1).


Ìîæíà çâåðíóòèñü äî åëåìåíòà çà iì'ÿì, ÿêùî âîíî ¹:
2.2. Типи даних та елементарнi функцiї 32

x["задовiльно"]

## задовiльно
## 3

ßêùî ó ïðÿìèõ äóæêàõ âêàçàòè âåêòîð iíäåêñiâ, òî âèäiëèòüñÿ ïiä-


âåêòîð âiäïîâiäíèõ åëåìåíòiâ:

x[c(3,1,5)]

## задовiльно вiдмiнно погано


## 3 5 1

(åëåìåíòè ïåðåñòàâëåíi â òîìó ïîðÿäêó, â ÿêîìó éäóòü iíäåêñè). I


íàðåøòi, ÿêùî çàäàòè âiä'¹ìíi çíà÷åííÿ iíäåêñiâ, òî âiäïîâiäíi åëåìåíòè
áóäóòü âèëó÷åíi ç ïiäâåêòîðà:

x[-c(3,1,5)]

## добре незадовiльно
## 4 2

Öå ùå íå âñå. Ìîæíà äëÿ iíäåêñàöi¨ âèêîðèñòîâóâàòè ëîãi÷íi âåêòîðè,


òîäi âêëþ÷àòèñü ó ïiäâåêòîð áóäóòü òiëüêè åëåìåíòè, ÿêèì âiäïîâiäà¹
çíà÷åííÿ TRUE:

x[c(T,T,F,F,T)]

## вiдмiнно добре погано


## 5 4 1

Ó ïðÿìèõ äóæêàõ ìîæíà çàïèñóâàòè áóäü-ÿêèé âèðàç, çíà÷åííÿ ÿêîãî


áóäóòü âèêîðèñòàíi äëÿ iíäåêñàöi¨:

x[x%%2==0]

## добре незадовiльно
## 4 2
2.2. Типи даних та елементарнi функцiї 33

Ðîáîòó öi¹¨ êîìàíäè ìîæíà îïèñàòè òàê: ñïî÷àòêó ñòâîðþ¹òüñÿ ëî-


ãi÷íèé âåêòîð x%%2==0, â ÿêîìó TRUE âiäïîâiä๠òèì åëåìåíòàì, ÿêi
¹ ïàðíèìè ÷èñëàìè, à ïîòiì çà öèì ëîãi÷íèì âåêòîðîì ðîáèòüñÿ âiäáið
âiäïîâiäíèõ åëåìåíòiâ ó ïiäâåêòîð.
Âèðàç âèãëÿäó x[...] ìîæå ñòîÿòè i ó ëiâié ÷àñòèíi êîìàíäè ïðè-
âëàñíåííÿ, íàïðèêëàä:

alp<-c('a','b','c','d','e','f')
alp[2]<-'bbb'
alp

## [1] "a" "bbb" "c" "d" "e" "f"

alp[c(1,3)]<-c('u','v')
alp

## [1] "u" "bbb" "v" "d" "e" "f"

2.2.3 Фактори.
Ùå îäèí âåêòîðíèé òèï äàíèõ  фактори (factors) çàñëóãîâó¹ ñïå-
öiàëüíîãî ðîçãëÿäó. Åëåìåíòè âåêòîðà ôàêòîðiâ ìîæóòü ïðèéìàòè çíà-
÷åííÿ ëèøå ç ôiêñîâàíîãî íàáîðó çíà÷åíü. Äàíi òàêîãî òèïó ÷àñòî âèíè-
êàþòü ó ñòàòèñòè÷íèõ äîñëiäæåííÿõ, êîëè äîñëiäæóâàíi îá'¹êòè ðîçáèâà-
þòüñÿ íà êiëüêà ãðóï (êàòåãîðié) çà äåÿêîþ îçíàêîþ, íàïðèêëàä  ëþäè
çà íàöiîíàëüíiñòþ, ñòàòòþ, âiäíîøåííÿì äî âiéñüêîâî¨ ñëóæáè, þðèäè÷íi
îñîáè  çà ôîðìîþ âëàñíîñòi, ñëîâà  çà ÷àñòèíàìè ìîâè (iìåííèê, ïðè-
4
êìåòíèê, äi¹ñëîâî. . . ) òîùî . Ðiçíi çíà÷åííÿ, ÿêi ìîæå ïðèéìàòè ôàêòîð,
ïðèéíÿòî íàçèâàòè ðiâíÿìè (levels).
Ðiçíi ðiâíi çðó÷íî ïîçíà÷àòè ¨õ íàçâàìè, íàïðèêëàä, òèï âàëþòè 
USD, EUR, UAH, RUR. Ñêàæiìî, íàáið äàíèõ ïðî òèï âàëþò, ÿêèìè
áóëî çðîáëåíî ïëàòåæi ïðîòÿãîì äíÿ, ìîæå ìàòè âèãëÿä:
('USD','EUR','EUR','UAH','EUR','USD','UAH','RUR').
ßêùî çàäàòè òàêèé âåêòîð êîíêàòåíàöi¹þ:

4
Вiдповiдно, змiннi, що можуть приймати лише скiнченну кiлькiсть значень, прийнято
називати категорiйними (categorical variables).
2.2. Типи даних та елементарнi функцiї 34

z<-c('USD','EUR','EUR','UAH','EUR','USD','UAH','RUR')
z

## [1] "USD" "EUR" "EUR" "UAH" "EUR" "USD" "UAH" "RUR"

òî z áóäå ìàòè òèï character (ñèìâîëüíi ðÿäî÷êè). Ùîá ïîÿñíèòè


êîìï'þòåðó, ùî éäåòüñÿ ïðî ðiâíi äåÿêîãî ôàêòîðà, ïîòðiáíî çðîáèòè
ïåðåòâîðåííÿ òèïó:

zf<-factor(z)
zf

## [1] USD EUR EUR UAH EUR USD UAH RUR


## Levels: EUR RUR UAH USD

Òåïåð, õî÷à íà åêðàíi ðiâíi ôàêòîðà âiäîáðàæàþòüñÿ ¨õ íàçâàìè, ó


âíóòðiøíüîìó ïðåäñòàâëåííi êîìï'þòåðà âîíè êîäóþòüñÿ íàòóðàëüíèìè
÷èñëàìè. Ïåðåëiê ðiçíèõ ðiâíiâ âèâåäåíî ó ðÿäî÷êó Levels â ïîðÿäêó
çðîñòàííÿ êîäiâ. ßêùî âàì ïîòðiáåí òiëüêè öåé ïåðåëiê ó âèãëÿäi ñèì-
âîëüíîãî ðÿäî÷êà, ìîæíà ñêîðèñòàòèñü ôóíêöi¹þ levels()

zl<-levels(zf)
zl

## [1] "EUR" "RUR" "UAH" "USD"

Âiäïîâiäíi êîäè ìîæíà ïîáà÷èòè, âèêîðèñòîâóþ÷è ôóíêöiþ unclass:

unclass(zf)

## [1] 4 1 1 3 1 4 3 2
## attr(,"levels")
## [1] "EUR" "RUR" "UAH" "USD"

Çðîçóìiëî, ùî âèêîðèñòàííÿ âåêòîðiâ ç ôàêòîðiâ çàìiñòü ñèìâîëü-


íèõ ðÿäî÷êiâ äîçâîëÿ¹ åêîíîìèòè ìiñöå ó ïàì'ÿòi êîìï'þòåðà, ÿêùî äî-
âæèíà âåêòîðà âåëèêà, à êiëüêiñòü ðiâíiâ  ïîìiðíà. Êðiì òîãî, çàäàííÿ
2.2. Типи даних та елементарнi функцiї 35

ïåðåëiêó ðiâíiâ äîçâîëÿ¹ ïåðåâiðèòè íàÿâíiñòü çàéâèõ íàçâ, ùî ìîãëè á


óòâîðèòèñü âíàñëiäîê ÿêèõîñü ïîìèëîê. Ó ñòàòèñòèöi ¹ áàãàòî àëãîðèò-
ìiâ îáðîáêè äàíèõ, ùî ïðàöþþòü ñàìå ç êàòåãîðiéíèìè äàíèìè (íàïðè-
êëàä, ó äèñïåðñiéíîìó àíàëiçi òà ó àíàëiçi òàáëèöü ñïðÿæåíîñòi). Ç öèì
ïîâ'ÿçàíî âèäiëåííÿ ôàêòîðiâ ó îêðåìèé òèï.
Âiäìiòèìî, ùî ó âåêòîði ôàêòîðiâ ìîæóòü çóñòði÷àòèñü íå âñi äîïó-
ñòèìi ðiâíi, àëå äëÿ íèõ áóäóòü çàðåçåðâîâàíi ÷èñëîâi êîäè. Iíôîðìàöiÿ
ïðî ìîæëèâiñòü ¨õ ïîÿâè çáåðiãà¹òüñÿ ó атрибутi levels:

z2<-zf[c(1,2)]
z2

## [1] USD EUR


## Levels: EUR RUR UAH USD
ßêùî ïðè âèäiëåííi ïiäìíîæèíè âåêòîðà ôàêòîðiâ ïîòðiáíî âèëó÷èòè
ðiâíi, ùî íå çóñòði÷àþòüñÿ ó ïiäìíîæèíi, öå ìîæíà çðîáèòè, çàäàâøè
опцiю drop:

z2d<-zf[c(1,2),drop=T]
z2d

## [1] USD EUR


## Levels: EUR USD
Ó ñòàòèñòè÷íèõ äîñëiäæåííÿõ ÷àñòî ðîçáèòòÿ äîñëiäæóâàíèõ îá'¹êòiâ
íà êàòåãîði¨ ïðîâîäèòñÿ â çàëåæíîñòi âiä òîãî, ó ÿêèé äiàïàçîí ïîòðàïëÿ¹
ïåâíà ÷èñëîâà õàðàêòåðèñòèêà öèõ îá'¹êòiâ. Íàïðèêëàä, äîìîãîñïîäàð-
ñòâà ìîæíà ðîçäiëèòè íà êàòåãîði¨ ç âèñîêèì (high), ñåðåäíiì (mid) òà
íèçüêèì (low) ðiâíåì ïðèáóòêó â çàëåæíîñòi âiä ÷èñëîâîãî ðîçìiðó ¨õ
ïðèáóòêiâ. Äëÿ òîãî, ùîá ðîáèòè öå àâòîìàòè÷íî, çàñòîñîâó¹òüñÿ ôóíê-
öiÿ cut:

u<-c(6,5,4,3,2,1)
ul<-cut(u,breaks=c(-Inf,2.5,3.5,Inf),
labels=(c('low','mid','high')))
ul
## [1] high high high mid low low
## Levels: low mid high
2.2. Типи даних та елементарнi функцiї 36

Òóò ìè ñòâîðèëè âåêòîð çi çíà÷åííÿìè ÷èñëîâî¨ õàðàêòåðèñòèêè u i


ðîçáèëè äîñëiäæóâàíi îá'¹êòè íà òðè êàòåãîði¨ â çàëåæíîñòi âiä çíà÷åíü
u. Îïöiÿ breaks âêàçó¹ ìåæi iíòåðâàëiâ, ùî âèçíà÷àþòü öi êàòåãîði¨: äî
ïåðøî¨ ïîòðàïëÿþòü îá'¹êòè, äëÿ ÿêèõ 𝑢 ∈ (−∞, 2.5], äî äðóãî¨  ç 𝑢 ∈
(2.5, 3.5], äî òðåòüî¨  𝑢 ∈ (3.5, ∞). Íàçâè öèõ êàòåãîðié (ðiâíiâ ôàêòîðiâ)
çàäàíi ó îïöi¨ labels.
Ó öüîìó âèïàäêó (à òàêîæ ó áàãàòüîõ iíøèõ) äëÿ ðiâíiâ ôàêòîðà
ìîæíà âêàçàòè ïðèðîäíèé ïîðÿäîê: low<mid<high. Äëÿ äåÿêèõ iíøèõ
ôàêòîðiâ (ÿê îò  äëÿ íàöiîíàëüíîñòi) ÿêîãîñü ïðèðîäíîãî ïîðÿäêó íå
iñíó¹. Ùîá âêàçàòè êîìï'þòåðó íà íàÿâíiñòü ïîðÿäêó ðiâíiâ, ââîäèòüñÿ
òèï ordered (âïîðÿäêîâàíèé ôàêòîð).

ulo<-ordered(ul)
ulo

## [1] high high high mid low low


## Levels: low < mid < high

Äåÿêi ôóíêöi¨ R àíàëiçóþòü âïîðÿäêîâàíi ôàêòîðè ñïåöiàëüíèì ÷è-


íîì, íå òàê, ÿê íåâïîðÿäêîâàíi.

2.2.4 Матрицi, масиви та фрейми даних.


Ìàòðèöi â R îáîâ'ÿçêîâî ñêëàäàþòüñÿ ç åëåìåíòiâ îäíîãî òèïó (íà-
ïðèêëàä, òiëüêè ç ÷èñåë, àáî òiëüêè ç ëîãi÷íèõ çíà÷åíü). ™ áàãàòî ðiç-
íèõ ñïîñîáiâ ñòâîðèòè ìàòðèöþ, íàïðèêëàä, ¨ ¨ ìîæíà ñêëàñòè ç îêðåìèõ
âåêòîðiâ-ðÿäî÷êiâ ôóíêöi¹þ rbind() àáî ç âåêòîðiâ-ñòîâï÷èêiâ ôóíêöi¹þ
cbind():

x1<-1:3
x2<-5:7
u<-rbind(x1,x2)
u

## [,1] [,2] [,3]


## x1 1 2 3
## x2 5 6 7
2.2. Типи даних та елементарнi функцiї 37

v<-cbind(x1,x2)
v

## x1 x2
## [1,] 1 5
## [2,] 2 6
## [3,] 3 7

(Çâåðíiòü óâàãó, ùî iìåíà âåêòîðiâ ïåðåòâîðèëèñü íà iìåíà âiäïîâiä-


íèõ ñòîâï÷èêiâ àáî ðÿäî÷êiâ).
Ïðàâèëà iíäåêñàöi¨ çðîçóìiëi ç öüîãî ïðèêëàäó  ïåðøèé iíäåêñ ïî-
çíà÷๠ðÿäî÷îê, äðóãèé  ñòîâï÷èê, òîáòî u[2,3] öå åëåìåíò íà ïåðåòèíi
äðóãîãî ðÿäî÷êà i òðåòüîãî ñòîâï÷èêà ìàòðèöi u. Âèêîðèñòàííÿ iíäåêñiâ
òà iìåí äóæå ãíó÷êå, ÿê ïîêàçóþòü íàñòóïíi ïðèêëàäè:

u[,1]

## x1 x2
## 1 5

u[2,]

## [1] 5 6 7

v[,"x2"]

## [1] 5 6 7

v[1:2,"x2"]

## [1] 5 6

Âèéíÿòèé ç ìàòðèöi ñòîâï÷èê ïåðåòâîðþ¹òüñÿ íà âåêòîð-ðÿäî÷îê.


ßêùî âè õî÷åòå îòðèìàòè ÿê ðåçóëüòàò ìàòðèöþ, ùî ñêëàäà¹òüñÿ ç îä-
íîãî ñòîâï÷èêà, ñêîðèñòàéòåñü îïöi¹þ drop=F

v[,"x2",drop=F]

## x2
2.2. Типи даних та елементарнi функцiї 38

## [1,] 5
## [2,] 6
## [3,] 7
Iíêîëè âèäiëåííÿ ÷àñòèíè ìàòðèöi àáî âåêòîðà áóâ๠çðó÷íî îôîðì-
ëÿòè íå ÷åðåç iíäåêñàöiþ, à âèêîðèñòîâóþ÷è ñïåöiàëüíó ôóíêöiþ
subset(x, subset, select, drop = FALSE, ...).
Ïàðàìåòðè ó öié ôóíêöi¨ ¨ x  îá'¹êò, ç ÿêîãî âèäiëÿ¹òüñÿ ÷àñòèíà,
subset  óìîâà íà ðÿäî÷êè, çà ÿêîþ âiäáóâà¹òüñÿ âèäiëåííÿ, select 
ïåðåëiê ñòîâï÷èêiâ, ùî âèäiëÿþòüñÿ.
Iíøèé ñïîñiá ñòâîðåííÿ ìàòðèöi  ôóíêöiÿ matrix(), ÿêà ïåðåòâî-
ðþ¹ âåêòîð ó ìàòðèöþ. Ïåðøèì ïàðàìåòðîì ôóíêöi¨ ¹ âåêòîð, ÿêèé âè-
êîðèñòîâó¹òüñÿ äëÿ çàïîâíåííÿ ìàòðèöi, ïàðàìåòðè ncol i nrow çàäàþòü
êiëüêiñòü ñòîâï÷èêiâ i ðÿäî÷êiâ óòâîðåíî¨ ìàòðèöi.
Ëîãiêà ðîáîòè ôóíêöi¨ çðîçóìiëà ç íàñòóïíèõ ïðèêëàäiâ:

x<-1:10
matrix(x,nrow=2)

## [,1] [,2] [,3] [,4] [,5]


## [1,] 1 3 5 7 9
## [2,] 2 4 6 8 10

matrix(x,ncol=2)

## [,1] [,2]
## [1,] 1 6
## [2,] 2 7
## [3,] 3 8
## [4,] 4 9
## [5,] 5 10

matrix(x,ncol=2,nrow=2)

## [,1] [,2]
## [1,] 1 3
## [2,] 2 4

matrix(x,ncol=3)
2.2. Типи даних та елементарнi функцiї 39

## [,1] [,2] [,3]


## [1,] 1 5 9
## [2,] 2 6 10
## [3,] 3 7 1
## [4,] 4 8 2

Ó îñòàííüîìó ïðèêëàäi äëÿ òîãî, ùîá çàïîâíèòè ìàòðèöþ, ïðèéøëîñü


öèêëi÷íî ïîâòîðèòè âåêòîð x.
Iìåíà ðÿäî÷êiâ òà ñòîâï÷èêiâ ìàòðèöi ìîæíà çàäàâàòè, âèêîðèñòîâó-
þ÷è ôóíêöiþ dimnames, ÿê ïîêàçàíî ó íàñòóïíîìó ïðèêëàäi:

x<-1:10
X<-matrix(x,nrow=2)
dimnames(X)<-list(c('first','second'),letters[1:5])
X

## a b c d e
## first 1 3 5 7 9
## second 2 4 6 8 10

(Òóò ôóíêöiÿ list() ñòâîðþ¹ ñïèñîê, ùî ñêëàäà¹òüñÿ ç äâîõ åëåìåí-


òiâ, êîæíèé ç ÿêèõ ¹ âåêòîðîì. letters ó R  öå âåêòîð, ñêëàäåíèé ç
ëàòèíñüêèõ ëiòåð ó àëôàâiòíîìó ïîðÿäêó.)
Êiëüêiñòü ðÿäî÷êiâ (àáî ñòîâï÷èêiâ) âæå iñíóþ÷î¨ ìàòðèöi X ìîæíà
äiçíàòèñü, âèêîðèñòîâóþ÷è nrow(X) (àáî ncol(X)).
Äëÿ çàäàííÿ íàçâ òiëüêè ðÿäî÷êiâ (ñòîâï÷èêiâ) ìîæíà âèêîðèñòîâó-
âàòè ôóíêöi¨ rownames() (colnames()) . Òi æ ôóíêöi¨ âèêîðèñòîâóþòüñÿ,
ÿêùî ïîòðiáíî äiçíàòèñü iìåíà äëÿ iñíóþ÷î¨ ìàòðèöi:

rownames(X)

## [1] "first" "second"

×àñòî áóâ๠êîðèñíîþ ôóíêöiÿ diag(), ÿêó ìîæíà çàñòîñîâóâàòè ðiç-


íèìè ñïîñîáàìè. ßêùî ¨ ¨ ïàðàìåòðîì ¹ âåêòîð, âîíà ïîðîäæó¹ äiàãîíàëü-
íó ìàòðèöþ:
2.2. Типи даних та елементарнi функцiї 40

x<-1:3
diag(x)

## [,1] [,2] [,3]


## [1,] 1 0 0
## [2,] 0 2 0
## [3,] 0 0 3

ßêùî ïàðàìåòð  ìàòðèöÿ, diag() âèäiëÿ¹ ¨ ¨ ãîëîâíó äiàãîíàëü ó


âèãëÿäi âåêòîðà:

X<-matrix(1:9,ncol=3)
diag(X)

## [1] 1 5 9

Íàðåøòi, ÿêùî diag çóñòði÷à¹òüñÿ ëiâîðó÷ âiä ñèìâîëà ïðèâëàñíåííÿ,


âîíà çàìiíþ¹ äiàãîíàëü ñâîãî ìàòðè÷íîãî ïàðàìåòðà:

diag(X)<-rep(0,3)
X

## [,1] [,2] [,3]


## [1,] 0 4 7
## [2,] 2 0 8
## [3,] 3 6 0

Àðèôìåòè÷íi òà ëîãi÷íi äi¨ âèêîíóþòüñÿ ç ìàòðèöÿìè ïîåëåìåíòíî.


Äëÿ òîãî, ùîá âèêîíàòè ìàòðè÷íå ìíîæåííÿ, ïîòðiáíî çàñòîñóâàòè îïå-
ðàöiþ %*%. Ôóíêöiÿ t() òðàíñïîíó¹ ìàòðèöþ.
Ôóíêöiÿ solve(A,b) ðîçâ'ÿçó¹ ðiâíÿííÿ 𝐴𝑥 = 𝑏. ßêùî âèêëèêàòè ¨ ¨
áåç äðóãîãî ïàðàìåòðà, âîíà ïiäðàõîâó¹ îáåðíåíó ìàòðèöþ: çíà÷åííÿì
solve(A) áóäå 𝐴−1 . (Çðîçóìiëî, ùî ìàòðèöÿ 𝐴 ì๠áóòè íåâèðîäæåíîþ,
iíàêøå solve(A) ïîâiäîìèòü ïðî ïîìèëêó).
Îáåðíåíó ìàòðèöþ ìîæíà òàêîæ ïiäðàõóâàòè, âèêîðèñòîâóþ÷è ôóíê-
öiþ ginv(), ÿêà íå âõîäèòü ó ÿäðî R, à ìiñòèòüñÿ ó ïàêåòi (áiáëiîòåöi)
MASS. ßêùî öÿ áiáëiîòåêà íå áóëà ïiäêëþ÷åíà ðàíiøå, ¨ ¨ ïîòðiáíî ïiä-
êëþ÷èòè ïåðåä âèêîðèñòàííÿì ginv().
2.2. Типи даних та елементарнi функцiї 41

Òî÷íiøå, ginv() îá÷èñëþ¹ ïñåâäîîáåðíåíó ìàòðèöþ Ìóðà-Ïåíðîóçà,


ÿêà äëÿ íåâèðîäæåíèõ ìàòðèöü äîðiâíþ¹ çâè÷àéíié îáåðíåíié.

X<-matrix(1:6,ncol=2)
X

## [,1] [,2]
## [1,] 1 4
## [2,] 2 5
## [3,] 3 6

Y<-t(X)
Z<-Y%*%X
Z

## [,1] [,2]
## [1,] 14 32
## [2,] 32 77

library(MASS)
iZ<-ginv(Z) # iZ матриця обернена до Z
Z%*%iZ # матричне множення дає одиничну матрицю:

## [,1] [,2]
## [1,] 1 1.776357e-15
## [2,] 0 1.000000e+00

Z*Z # тут множення поелементне:

## [,1] [,2]
## [1,] 196 1024
## [2,] 1024 5929

Ïðè ïiäðàõóíêàõ îáåðíåíî¨ ìàòðèöi ginv() áóäå áiëüø ñòàáiëüíîþ,


íiæ solve(): âîíà ä๠òî÷íiøi ðåçóëüòàòè êîëè âèçíà÷íèê ìàòðèöi áëèçü-
êèé äî 0. Öå äîáðå, ÿêùî âè âèêîðèñòîâó¹òå ôóíêöi¨ ïðàâèëüíî. Àëå,
ÿêùî âè ïîìèëèòåñÿ i ïàðàìåòð ôóíêöi¨ áóäå âèðîäæåíîþ àáî íå êâàä-
ðàòíîþ ìàòðèöåþ, òî solve() ïîâiäîìèòü âàñ ïðî ïîìèëêó, à ginv() 
íi, òîìó ùî óçàãàëüíåíà îáåðíåíà âèçíà÷åíà i äëÿ òàêèõ ìàòðèöü.
2.2. Типи даних та елементарнi функцiї 42

Фрейми даних âiäðiçíÿþòüñÿ âiä ìàòðèöü ó ïåðøó ÷åðãó òèì, ùî â


íèõ ñòîâï÷èêè ìîæóòü ìàòè ðiçíi òèïè. Òàêèé ôîðìàò îñîáëèâî çðó÷íèé
äëÿ çàïèñó òèïîâèõ ñòàòèñòè÷íõ äàíèõ ó âèãëÿäi òàáëèöi, â ÿêié êîæíî-
ìó ñïîñòåðåæóâàíîìó îá'¹êòó âiäïîâiä๠îäèí ðÿäî÷îê, à çìiííi, ùî õà-
ðàêòåðèçóþòü îá'¹êòè, çàïèñóþòüñÿ ó âiäïîâiäíi ñòîâï÷èêè. Ïðè öüîìó
êîæíà çìiííà ìîæå áóòè ñâîãî òèïó  ÷èñëîâîãî, ëîãi÷íîãî, ñèìâîëüíîãî
÷è ôàêòîðíîãî.

Приклад 2.2.1. Íàáið iris âõîäèòü ó êîëåêöiþ äàíèõ Datasets, ùî


îôîðìëåíà ÿê îäèí ç ïàêåòiâ äëÿ R. ßê ïðàâèëî, öåé ïàêåò çàâàíòà-
æó¹òüñÿ ñèñòåìîþ àâòîìàòè÷íî, ÿêùî öå íå òàê, éîãî ìîæíà çàâàíòàæè-
òè êîìàíäîþ library(Datasets)).
Ïiñëÿ çàâàíòàæåííÿ äî öüîãî íàáîðó ìîæíà çâåðòàòèñü ÿê äî ôðåé-
ìó äàíèõ iris . Ó íüîìó ìiñòèòüñÿ iíôîðìàöiÿ ïðî êâiòè ïiâíèêè
(iðèñè). Êîæåí ðÿäî÷îê öèõ äàíèõ âiäïîâiä๠îäíié êâiòöi. Äëÿ êîæ-
íî¨ äîñëiäæåíî¨ êâiòêè ó âiäïîâiäíîìó ñòîâï÷èêó çàïèñàíi õàðàêòåðè-
ñòèêè Sepal.Length, Sepal.Width (äîâæèíà òà øèðèíà ÷àøîëèñòêiâ),
Petal.Length, Petal.Width (äîâæèíà òà øèðèíà ïåëþñòîê) à òàêîæ õà-
ðàêòåðèñòèêà Species  âèä ðîäó Iris, äî ÿêîãî íàëåæèòü äàíà êâiò-
êà: setosa (iðèñ ùåòèíèñòèé), versicolor (ðiçíîêîëüîðîâèé) i virginica (âið-
ãiíñüêèé).
Íàñòóïíèé ïðèêëàä ïîêàçó¹, ÿê ìîæíà âèâåñòè íà åêðàí çíà÷åííÿ,
ùî ìiñòÿòüñÿ ó 4555 ðÿäî÷êàõ öüîãî íàáîðó äàíèõ.

print(iris[45:55,])

## Sepal.Length Sepal.Width Petal.Length Petal.Width Species


## 45 5.1 3.8 1.9 0.4 setosa
## 46 4.8 3.0 1.4 0.3 setosa
## 47 5.1 3.8 1.6 0.2 setosa
## 48 4.6 3.2 1.4 0.2 setosa
## 49 5.3 3.7 1.5 0.2 setosa
## 50 5.0 3.3 1.4 0.2 setosa
## 51 7.0 3.2 4.7 1.4 versicolor
## 52 6.4 3.2 4.5 1.5 versicolor
## 53 6.9 3.1 4.9 1.5 versicolor
## 54 5.5 2.3 4.0 1.3 versicolor
## 55 6.5 2.8 4.6 1.5 versicolor
2.2. Типи даних та елементарнi функцiї 43

J
Ñòâîðèòè ôðåéì äàíèõ ç îêðåìèõ âåêòîðiâ-ñòîâï÷èêiâ çìiííèõ ìîæíà
âèêîðèñòîâóþ÷è ôóíêöiþ data.frame():

numb<-1:5
let<-letters[numb]
Name<-c('Alfa','Bravo','Charlie','Delta','Echo')
type<-factor(c('vowel','consonant','consonant',
'consonant','vowel'))
L<-data.frame(numb,let,type,row.names=Name,
stringsAsFactors = FALSE)
print(L)

## numb let type


## Alfa 1 a vowel
## Bravo 2 b consonant
## Charlie 3 c consonant
## Delta 4 d consonant
## Echo 5 e vowel

Ïàðàìåòð row.names âêàçó¹ iìåíà îá'¹êòiâ (ðÿäî÷êiâ òàáëèöi). Iìåíà-


ìè çìiííèõ ñòàþòü iìåíà âåêòîðiâ ñòîâï÷èêiâ, ç ÿêèõ ñêëàëè ôðåéì. Ïðè
íåîáõiäíîñòi iìåíà ðÿäî÷êiâ i ñòîâï÷èêiâ ìîæíà ïðîäèâèòèñü i çìiíèòè
ôóíêöiÿìè row.names() i names().
Ïàðàìåòð stringsAsFactors ïîêàçó¹, ÷è ñëiä ïðè ñòâîðåííi ôðåéìó
ïåðåòâîðþâàòè âåêòîðè ñèìâîëüíèõ ðÿäî÷êiâ ó çìiííi òèïó ôàêòîð. Çà
óìîâ÷àííÿì òàêå ïåðåòâîðåííÿ âèêîíó¹òüñÿ, òîìó, ÿêùî âàì ïîòðiáíi ñà-
ìå ñèìâîëüíi çìiííi, âêàçóéòå stringsAsFactors = FALSE.
Äëÿ òîãî, ùîá ïðîäèâëÿòèñü, à ïðè íåîáõiäíîñòi  i âèïðàâëÿòè âåëè-
êi ôðåéìè äàíèõ, ìîæíà âèêîðèñòîâóâàòè âáóäîâàíèé ðåäàêòîð R, ÿêèé
âèêëèêà¹òüñÿ ôóíêöi¹þ edit().
Ç äàíèìè, ùî ñêëàäàþòü ôðåéì, ìîæíà ïðàöþâàòè ÿê ç åëåìåíòàìè
ìàòðèöi, íàïðèêëàä:

L[2,]

## numb let type


## Bravo 2 b consonant
2.2. Типи даних та елементарнi функцiї 44

L[,2]

## [1] "a" "b" "c" "d" "e"

L[,'let']

## [1] "a" "b" "c" "d" "e"

Êðiì òîãî, çìiííi ¹ àòðèáóòàìè ôðåéìó, òîìó äî íèõ ìîæíà çâåðòà-


òèñü, âèêîðèñòîâóþ÷è ôîðìàò
iм’я об’єкта$iм’я атрибуту
íàïðèêëàä, çàäàâøè êîìàíäó

L$let

## [1] "a" "b" "c" "d" "e"

îòðèìó¹ìî âåêòîð çíà÷åíü çìiííî¨ let äëÿ îá'¹êòà (ôðåéìà) L.


Ïðè ðîáîòi ç ôðåéìàìè iíêîëè âèíèê๠ïîòðåáà ïåðåâiðèòè, ÿêèé
òèï ó òi¹¨ ÷è iíøî¨ çìiííî¨. Öå ìîæíà çðîáèòè, âèêîðèñòîâóþ÷è ôóíêöi¨
ïåðåâiðêè òèïiâ is.numeric, is.logical, is.integer òà ïîäiáíi ¨ì. Öi
ôóíêöi¨ âèäàþòü ëîãi÷íå çíà÷åííÿ T ÿêùî ¨õ ïàðàìåòð ì๠âiäïîâiäíèé
òèï i F  ÿêùî òèï íå òîé. Íàïðèêëàä:

is.numeric(L$num)

## [1] TRUE

is.factor(L['let'])

## [1] FALSE

is.character(L$let)

## [1] TRUE

Çìiíó òèïó ìîæíà ðîáèòè, âèêîðèñòîâóþ÷è âiäïîâiäíî ôóíêöi¨


as.numeric, as.character òà ií. Íàïðèêëàä:
2.2. Типи даних та елементарнi функцiї 45

x<-c('12','3')
x[1]+x[2]

## Error in x[1] + x[2]: non-numeric argument to binary operator


y<-as.numeric(x)
y[1]+y[2]

## [1] 15

Âàðòî ìàòè íà óâàçi, ùî R âèêîíó¹ àâòîìàòè÷íå ïåðåòâîðåííÿ òèïiâ


ó åëåìåíòàðíèõ îïåðàöiÿõ, íàïðèêëàä,

1+TRUE

## [1] 2

TRUE&(-0.5)

## [1] TRUE

(TRUE òðàêòó¹òüñÿ ÿê 1, FALSE ÿê 0 ó àðèôìåòè÷íèõ îïåðàöiÿõ.


Íåíóëüîâi ÷èñëà òðàêòóþòüñÿ ÿê TRUE, à 0  ÿê FALSE ó ëîãi÷íèõ
îïåðàöiÿõ).

2.2.5 Векторнi i матричнi функцiї. Функцiя apply. Пропу-


щенi значення.
ßê âæå âiäìi÷àëîñü, åëåìåíòàðíi îïåðàöi¨ òà ôóíêöi¨ âèêîíóþòüñÿ íàä
ìàñèâàìè ïîåëåìåíòíî. Öþ âëàñòèâiñòü ìàþòü íå âñi ôóíêöi¨. ßêùî ïî-
òðiáíî ÿâíî âêàçàòè, ùî äåÿêà ôóíêöiÿ ïîâèííà çàñòîñîâóâàòèñü äî êîæ-
íîãî åëåìåíòà âåêòîðà, çàñòîñîâóþòü ôóíêöiþ sapply() àáî lapply() .
5

Ïåðøèì ïàðàìåòðîì sapply() ì๠áóòè âåêòîð x, äî ÿêîãî çàñòîñîâó¹òü-


ñÿ ôóíêöiÿ, äðóãèì  ôóíêöiÿ FUN, ÿêà çàñòîñîâó¹òüñÿ äî êîæíîãî åëå-
ìåíòà x. Òî÷íiøå, åëåìåíòè x ïiäñòàâëÿþòüñÿ ó FUN çàìiñòü ïåðøîãî ¨ ¨
ïàðàìåòðà. ßêùî ó FUN ¹ iùå ïàðàìåòðè, ¨õ ìîæíà âêàçàòè ÿê äîäàòêîâi

5
Iнша можливiсть змусити функцiю обчислюватись поелементно при застосуваннi до
масиву — векторизацiя, див. п. 2.7.2
2.2. Типи даних та елементарнi функцiї 46

ïàðàìåòðè-îïöi¨ sapply, i âîíè áóäóòü ïåðåäàíi ó FUN çà ¨õ íàçâàìè. Íà-


ïðèêëàä, òóò ìè çàñòîñîâó¹ìî äâiéêîâèé ëîãàðèôì äî âåêòîðà ñòóïåíiâ
äâiéêè:

sapply(c(1,2,4,8),log,base=2)

## [1] 0 1 2 3

(Ó öüîìó ïðèêëàäi çàñòîñóâàííÿ sapply() íå îáîâ'ÿçêîâå, òàêèé ñà-


ìèé åôåêò áóäå ïðè âèêëèêó log(c(1,2,4,8),base=2)).
Ôóíêöiÿ lapply() àíàëîãi÷íà sapply() àëå ¨ ¨ ìîæíà çàñòîñîâóâàòè
äî ñïèñêiâ ç äîâiëüíèõ åëåìåíòiâ.
Iíêîëè áóâ๠ïîòðiáíî îäèí i òîé æå âèðàç îá÷èñëèòè áàãàòî ðàçiâ. Öå
çäà¹òüñÿ òðîõè äèâíèì  ÷îìó á íå çðîáèòè îá÷èñëåííÿ îäèí ðàç, à ïîòiì
ðîçìíîæèòè ðåçóëüòàò ôóíêöi¹þ rep()? Àëå ñïðàâà â òîìó, ùî çíà÷åí-
íÿ âèðàçó ìîæå çìiíþâàòèñü íà êîæíîìó êðîöi îá÷èñëåíü. Äëÿ öüîãî
â íüîãî ïîâèííi âõîäèòè ãëîáàëüíi çìiííi, ÿêi çìiíþþòüñÿ øëÿõîì ãëî-
6
áàëüíîãî ïðèâëàñíåííÿ . Äëÿ öi¹¨ ïîòðåáè ìîæíà âèêîðèñòàòè ôóíêöiþ
replicate(). Ïåðøèé ïàðàìåòð öi¹¨ ôóíêöi¨, n  êiëüiêiñòü ïîâòîðåíü,
äðóãèé, expr  âèðàç, êîòðèé îá÷èñëþ¹òüñÿ n ðàçiâ. Ðåçóëüòàò îá÷èñëåíü
 âåêòîð ç n ïîñëiäîâíèõ çíà÷åíü expr:

I<-1
# глобальне I змiнюється глобальним привласненням:
replicate(5,I<<-I+1)

## [1] 2 3 4 5 6

# а тут змiнюється лише локальне I всерединi виклику функцiї:


replicate(5,I<-I+1)

## [1] 7 7 7 7 7

×àñòî çóñòði÷àþòüñÿ ôóíêöi¨, ÿêi ïðàöþþòü ç âåêòîðîì â öiëîìó.


Íàïðèêëàä,
length()  ôóíêöiÿ, ùî ïîâåðò๠êiëüêiñòü åëåìåíòiâ ìàñèâó;

6
Див. п. 2.7.1.
2.2. Типи даних та елементарнi функцiї 47

max(), min(), sum(), prod()  ôóíêöi¨, ùî çíàõîäÿòü âiäïîâiäíî


íàé-
7
áiëüøå, íàéìåíøå çíà÷åííÿ, ñóìó àáî äîáóòîê âñiõ åëåìåíòiâ ìàñèâó ;
sort()  ôóíêöiÿ, ùî ïåðåñòàâëÿ¹ (âiäñîðòîâó¹) åëåìåíòè ìàñèâó ó
ïîðÿäêó çðîñòàííÿ (àáî ñïàäàííÿ, ÿêùî âêàçàíà îïöiÿ decreasing=T).
ßêùî àðãóìåíòîì òàêî¨ ôóíêöi¨ ¹ ìàòðèöi, òî ìàòðèöÿ òðàêòó¹òüñÿ
ÿê äîâãèé âåêòîð, ñêëàäåíèé ç óñiõ ¨ ¨ åëåìåíòiâ.

u1<-c(3,1,2)
u2<-c(0,-1,-2)
z<-cbind(u1,u2)
z

## u1 u2
## [1,] 3 0
## [2,] 1 -1
## [3,] 2 -2

sum(z)

## [1] 3

sort(z)

## [1] -2 -1 0 1 2 3

sort(z,decreasing=T)

## [1] 3 2 1 0 -1 -2

7
Цi функцiї (а також функцiя range()) мають цiкаву особливiсть, що вiдрiзняє їх вiд
iнших функцiй R, призначених для знаходження узагальнених характеристик даних (таких
як mean()): цi функцiї об’єднують всi свої аргументи у один набiр i далi працюють iз цим
набором. Наприклад, результатм виконання sum(1,2,3,4) буде 10. Якщо спробувати ана-
логiчно обчислити середнє значення — mean(1,2,3,4), отримаємо хибний результат 1:
mean() iгнорує всi перелiченi через кому аргументи крiм першого.
Ця властивiсть часом виявляється незручною, коли, наприклад, є два числових вектори
(𝑥1 , . . . , 𝑥𝑛 ) i (𝑦1 , . . . , 𝑦𝑛 ) i треба знайти вектор, складений з попарних мiнiмумiв їх елемен-
тiв: (min(𝑥1 , 𝑦1 ), . . . , min(𝑥𝑛 , 𝑦𝑛 )). У цьому випадку можна скористатись функцiєю pmin()
(pmax() для максимумiв).
2.2. Типи даних та елементарнi функцiї 48

×àñòî áóâ๠ïîòðiáíî çàñòîñóâàòè ôóíêöiþ âiä âåêòîðíîãî åëåìåíòà


äî êîæíîãî ðÿäî÷êà, àáî äî êîæíîãî ñòîâï÷èêà ìàòðèöi îêðåìî. Ó òàêîìó
âèïàäêó âèêîðèñòîâó¹òüñÿ ôóíêöiÿ apply(), ùî ì๠ñïåöèôiêàöiþ
apply(X, MARGIN, FUN, ...)
äå X  ìàñèâ, äî ÿêîãî áóäå çàñòîñîâóâàòèñü ôóíêöiÿ; MARGIN=1 ÿêùî
ôóíêöiÿ çàñòîñîâó¹òüñÿ äî ðÿäî÷êiâ i MARGIN=2  ÿêùî äî ñòîâï÷èêiâ;
FUN  iì'ÿ ôóíêöi¨, ÿêó ïîòðiáíî çàñòîñóâàòè.
... ïîçíà÷à¹, ùî ó âèêëèêó ôóíêöi¨ apply() ìîæíà òàêîæ çàäàâàòè
áóäü-ÿêi iíøi îïöi¨. Öi îïöi¨ apply() ïåðåäàñòü ó ôóíêöiþ FUN áåç çìií.
Ïåðøèì ïàðàìåòðîì ôóíêöi¨ FUN ïîâèíåí áóòè âåêòîð. Çàìiñòü öüîãî
âåêòîðà apply() ïiäñòàâëÿ¹ ïîñëiäîâíî ðÿäî÷êè (àáî ñòîâï÷èêè) ìàòðèöi
X i ðåçóëüòàò òàêîæ çàïèñó¹ ó ñïèñîê ðåçóëüòàòiâ. Íàïðèêëàä, âèêîðèñòî-
âóþ÷è ìàòðèöþ z ç ïîïåðåäíüîãî ïðèêëàäó, îòðèìó¹ìî

apply(z,1,sum)

## [1] 3 0 0

apply(z,2,sum)

## u1 u2
## 6 -3

apply(z,2,sort)

## u1 u2
## [1,] 1 -2
## [2,] 2 -1
## [3,] 3 0

Ó òðåòüîìó ïðèêëàäi åëåìåíòè ìàòðèöi z âiäñîðòóâàëèñü îêðåìî âñå-


ðåäèíi êîæíîãî ñòîâï÷èêà. À îò äëÿ òîãî, ùîá îòðèìàòè ìàòðèöþ ç åëå-
ìåíòàìè, âiäñîðòîâàíèìè âñåðåäèíi êîæíîãî ðÿäî÷êà, ðåçóëüòàò ðîáîòè
apply ïîòðiáíî òðàíñïîíóâàòè:

apply(z,1,sort)

## [,1] [,2] [,3]


2.2. Типи даних та елементарнi функцiї 49

## u2 0 -1 -2
## u1 3 1 2

t(apply(z,1,sort))

## u2 u1
## [1,] 0 3
## [2,] -1 1
## [3,] -2 2

Ïðèêëàä ïåðåäà÷i îïöi¨ ïðè âèêëèêó sort() ÷åðåç apply():

apply(z,2,sort,decreasing=T)

## u1 u2
## [1,] 3 0
## [2,] 2 -1
## [3,] 1 -2

Ùå îäèí âàðiàíò ïîåëåìåíòíî¨ îáðîáêè âåêòîðiâ ðåàëiçó¹ ôóíêöiÿ


outer(). Ïåðøi äâà ¨ ¨ ïàðàìåòðè x, y ¹ âåêòîðàìè, òðåòié FUN  ôóíê-
öi¹þ, ó ÿêî¨ íå ìåíøå äâîõ ïàðàìåòðiâ. Çàìiñòü öèõ ïàðàìåòðiâ outer()
ïiäñòàâëÿ¹ ïîñëiäîâíî âñi ìîæëèâi ïàðè åëåìåíòiâ x i y (x çàìiñòü ïåð-
øîãî ïàðàìåòðà, y  çàìiñòü äðóãîãî). Îòðèìàíi çíà÷åííÿ óòâîðþþòü
ìàòðèöþ. Íàïðèêëàä,

x<-1:4
y<-5:7
f<-function(x,y){x^2+y^2}
z<-outer(x,y,f)
z

## [,1] [,2] [,3]


## [1,] 26 37 50
## [2,] 29 40 53
## [3,] 34 45 58
## [4,] 41 52 65
2.3. Деякi кориснi функцiї 50

Òóò ìè ñòâîðèëè íîâó ôóíêöiþ f, ÿêà îá÷èñëþ¹ ñóìó êâàäðàòiâ äâîõ


i çàñòîñóâàëè ¨ ¨ äî âñiõ ïàð åëåìåíòiâ âåêòîðiâ x i
8
ñâî¨õ àðãóìåíòiâ
y. apply(), outer() âìi¹ ïåðåäàâàòè äîäàòêîâi ïàðàìåòðè
ßê i ôóíêöiÿ
âñåðåäèíó ôóíêöi¨ FUN.
Òàêi ôóíêöi¨ ÿê sum() òà prod() ìîæóòü îáðîáëÿòè ïðîïóùåíi çíà÷åí-
íÿ (NA) ïî ðiçíîìó. Ìîæíà ââàæàòè, ùî êîëè ÿêåñü çíà÷åííÿ ó âåêòîði
íåâiäîìå, òî i ñóìà íåâiäîìà. À ìîæíà âèëó÷èòè âñi ïðîïóùåíi çíà÷åííÿ i
ïiäðàõóâàòè ñóìó íå ïðîïóùåíèõ. Âèáið ðåàëiçó¹òüñÿ çà äîïîìîãîþ îïöi¨
na.rm (NA remove  âèäàëåííÿ ïðîïóùåíèõ):

x<-c(2,NA,1,4,3)
sum(x)

## [1] NA

sum(x,na.rm=T)

## [1] 10

sort() çíà÷åííÿ NA âèäàëÿþòüñÿ çà óìîâ-


Ïðè çàñòîñóâàííi ôóíêöi¨
÷àííÿì. Ìîæíà ñêîðèñòàòèñü îïöi¹þ na.last=T, ùîá ïðè ñîðòóâàííi çíà-
÷åííÿ NA ïîòðàïëÿëè ó êiíåöü âåêòîðà. Ïðè öüîìó çíà÷åííÿ NA òà NaN
îáðîáëÿþòüñÿ îäíàêîâî:

x<-c(2,NA,1,NaN,4,NA,3,NaN)
sort(x,na.last=T)

## [1] 1 2 3 4 NA NaN NA NaN

2.3 Деякi кориснi функцiї


Ó öüîìó ïiäðîçäiëi ìè ðîçãëÿíåìî ðÿä ïðîñòèõ ôóíêöié, ùî ïðàöþ-
þòü ç âåêòîðàìè, ìàòðèöÿìè òà ôðåéìàìè äàíèõ.  ïðèíöèïi, çíà÷íó
÷àñòèíó òîãî, ùî ðîáëÿòü öi ôóíêöi¨ íåâàæêî çàïðîãðàìóâàòè ñàìîìó,
àëå êðàùå âèêîðèñòîâóâàòè ñòàíäàðòíi ãîòîâi çàñîáè: öå ðîáèòü ïðîãðà-
ìó çðîçóìiëiøîþ, à ÷àñòî  i åôåêòèâíiøîþ.

8
Про створення власних функцiй див. далi, у п. 2.7.1.
2.3. Деякi кориснi функцiї 51

2.3.1 Функцiї покрокового обчислення


Ó ñòàòèñòèöi ÷àñòî âèíèê๠ïîòðåáà ïiäðàõîâóâàòè íàêîïè÷åíi ñó-
ìè/äîáóòêè ïîñëiäîâíèõ çíà÷åíü ñïîñòåðåæóâàíèõ âåëè÷èí. ßêùî çà-
äàíà ïîñëiäîâíiñòü 𝑥1 , 𝑥2 ,. . . , 𝑥𝑛 , òî ïîñëiäîâíiñòþ ¨ ¨ íàêîïè÷åíèõ ñóì
áóäå
𝑆1 = 𝑥1 , 𝑆2 = 𝑥1 + 𝑥2 , . . . , 𝑆𝑛 = 𝑥1 + 𝑥2 + · · · + 𝑥𝑛 .
Íàêîïè÷åíi äîáóòêè âèçíà÷àþòüñÿ ÿê

𝑃1 = 𝑥1 , . . . , 𝑃2 = 𝑥1 · 𝑥2 . . . , 𝑃𝑛 = 𝑥1 · 𝑥2 · · · · · 𝑥𝑛 .
Ôóíêöiÿ äëÿ ïiäðàõóíêó íàêîïè÷åíèõ (êóìóëÿòèâíèõ) ñóì çâåòüñÿ
cumsum(), à íàêîïè÷åíèõ äîáóòêiâ  cumprod().
Àíàëîãi÷íî ââîäÿòüñÿ ïîñëiäîâíîñòi íàêîïè÷åíèõ ìàêñèìóìiâ i ìiíi-
ìóìiâ, ÿêi ïiäðàõîâóþòüñÿ ôóíêöiÿìè cummax() i cummin():

x<-c(1,-2,3,-4,5,-6,7,-8)
names(x)<-c("a","b","c","d","e","f","g","h")
cumsum(x)

## a b c d e f g h
## 1 -1 2 -2 3 -3 4 -4

cumprod(x)

## a b c d e f g h
## 1 -2 -6 24 120 -720 -5040 40320

cummax(x)

## a b c d e f g h
## 1 1 3 3 5 5 7 7

cummin(x)

## a b c d e f g h
## 1 -2 -2 -4 -4 -6 -6 -8

(Çâåðíiòü óâàãó, ùî âñi öi ôóíêöi¨ çáåðiãàþòü iìåíà åëåìåíòiâ ïîñëi-


äîâíîñòi).
2.3. Деякi кориснi функцiї 52

ßêùî àðãóìåíò cumsum() ¹ ìàòðèöåþ, òî ¨ ¨ ñòîâï÷èêè îá'¹äíóþòüñÿ


â îäèí äîâãèé âåêòîð, äëÿ ÿêîãî i ïiäðàõîâóþòüñÿ íàêîïè÷åíi ñóìè:

X<-cbind(1:5,6:10)
cumsum(X)

## [1] 1 3 6 10 15 21 28 36 45 55

ßêùî ïîòðiáíî ïiäñóìîâóâàòè îêðåìî ïî êîæíîìó ñòîâïöþ (àáî


ïî êîæíîìó ðÿäî÷êó), öå ìîæíà çðîáèòè, âèêîðèñòîâóþ÷è ôóíêöiþ
apply():

apply(X,2,cumsum)

## [,1] [,2]
## [1,] 1 6
## [2,] 3 13
## [3,] 6 21
## [4,] 10 30
## [5,] 15 40

apply(X,1,cumsum)

## [,1] [,2] [,3] [,4] [,5]


## [1,] 1 2 3 4 5
## [2,] 7 9 11 13 15

Äiÿ, îáåðíåíà äî ïiäðàõóíêó êóìóëÿòèâíèõ ñóì  îá÷èñëåííÿ ïðèðî-


ñòiâ (ñêií÷åííèõ ðiçíèöü). ˆ¨ ìîæíà âèêîíàòè, âèêîðèñòîâóþ÷è ôóíêöiþ
diff().
Ñêií÷åííèìè ïðèðîñòàìè ïåðøîãî ïîðÿäêó ç ëàãîì 𝑘 äëÿ ïîñëiäîâ-
íîñòi 𝑥𝑖 íàçèâàþòü ïîñëiäîâíiñòü

𝐷1 = 𝑥1+𝑘 − 𝑥1 , 𝐷2 = 𝑥2+𝑘 − 𝑥2 , . . . , 𝐷𝑛−𝑘 = 𝑥𝑛 − 𝑥𝑛−𝑘 .

Íàïðèêëàä,
2.3. Деякi кориснi функцiї 53

x<-(1:8)^2
names(x)<-c("a","b","c","d","e","f","g","h")
diff(x)

## b c d e f g h
## 3 5 7 9 11 13 15

diff(x,lag=2)

## c d e f g h
## 8 12 16 20 24 28

Âiäìiòèìî, ùî ñêií÷åííi ðiçíèöi ïåðøîãî ïîðÿäêó ç ëàãîì 1 äëÿ ìà-


ñèâó x ìîæíà îòðèìàòè òàê:
x[-1]-x[-length(x)].
Ðiçíèöi (ïðèðîñòè) ïîðÿäêó 𝑑 ìîæíà îòðèìàòè ïîâòîðèâøè 𝑑-êðàòíî
îïåðàöiþ âçÿòòÿ ðiçíèöü ïåðøîãî ïîðÿäêó. Àëå ó ôóíêöi¨ diff() äëÿ
öüîãî âèêîðèñòàíà áiëüø åôåêòèâíà ïðîöåäóðà:

diff(x,differences = 2)

## c d e f g h
## 2 2 2 2 2 2

diff(diff(x))

## c d e f g h
## 2 2 2 2 2 2

2.3.2 Впорядкування та пошук у масивах


Ìè âæå ðîçãëÿäàëè ó ï. 2.2.5 ôóíêöiþ sort(), ÿêà ïåðåñòàâëÿ¹ åëå-
ìåíòè ìàñèâiâ ó ïîðÿäêó çðîñòàííÿ (ñïàäàííÿ). Iíêîëè áóâ๠êîðèñíî
ïåðåñòàâëÿòè íå ñàì ìàñèâ, à ïîñëiäîâíiñòü íîìåðiâ éîãî åëåìåíòiâ, òàê,
ùîá îòðèìàíà ïåðåñòàíîâêà âiäïîâiäàëà ïîðÿäêó çðîñòàííÿ ó ìàñèâi.
Öå ðîáèòü ôóíêöiÿ order(). Êîìàíäà ind<-order(x) ñòâîðþ¹ ìàñèâ
íîìåðiâ ind, òàêèé, ùî ind[1] öå íîìåð íàéìåíøîãî åëåìåíòà ó ìàñèâi
x, ind[2]  íîìåð íàñòóïíîãî ïî ïîðÿäêó åëåìåíòà, i.ò.ä.:
2.3. Деякi кориснi функцiї 54

x<-c(6,1,5,2,4,3)
order(x)

## [1] 2 4 6 5 3 1

(Âêàçàâøè îïöiþ decreasing=T îòðèìó¹ìî ïåðåñòàíîâêó ïî ñïàäàí-


íþ).
Öþ ôóíêöiþ çðó÷íî âèêîðèñòîâóâàòè, íàïðèêëàä, òîäi, êîëè ïîòðiá-
íî ïåðåñòàâèòè ðÿäî÷êè ìàòðèöi (ôðåéìó äàíèõ) ó ïîðÿäêó çðîñòàííÿ
åëåìåíòiâ ç ïåâíîãî ¨ ¨ ñòîâïöÿ. Ó íàñòóïíîìó ïðèêëàäi  ïåðåñòàíîâêà
çà äðóãèì ñòîâïöåì:

first<-c("a","b","c")
second<-c(3,1,2)
y<-data.frame(first,second)
y

## first second
## 1 a 3
## 2 b 1
## 3 c 2

y[order(y$second),]

## first second
## 2 b 1
## 3 c 2
## 1 a 3

Äëÿ ñèìâîëüíèõ ðÿäî÷êiâ ôóíêöiÿ order() âèêîðèñòîâó¹ ëåêñèêîãðà-


ôi÷íèé ïîðÿäîê, òîìó ¨ ¨ ìîæíà âèêîðèñòîâóâàòè äëÿ ñîðòóâàííÿ â àë-
9
ôàâiòíîìó ïîðÿäêó
ßêùî âàì ïîòðiáåí íîìåð íàéáiëüøîãî åëåìåíòà ìàñèâó x, éîãî ìîæ-
íà îòðèìàòè ÿê order(x)[length(x)]. Àëå íàñïðàâäi íå ïîòðiáíî âïîðÿä-
êîâóâàòè âñi åëåìåíòè ìàñèâó äëÿ òîãî, ùîá çíàéòè íàéáiëüøèé. Êðàùå
ñêîðèñòàòèñü ñòàíäàðòíîþ ôóíêöi¹þ which.max(). Âiäïîâiäíî, äëÿ çíà-

9
Точнiше, у порядку латинського алфавiту. З кирилiчними лiтерами будуть проблеми.
2.3. Деякi кориснi функцiї 55

õîäæåííÿ íîìåðà íàéìåíøîãî åëåìåíòà ìîæíà âèêîðèñòîâóâàòè ôóíê-


öiþ which.min():

which.min(c(2,-3,4,-2))

## [1] 2

ßêùî ìiíiìóì ó ìàñèâi äîñÿãà¹òüñÿ äëÿ êiëüêîõ åëåìåíòiâ, ðåçóëüòà-


òîì which.min() áóäå íàéìåíøèé ç iíäåêñiâ, ùî âiäïîâiäàþòü ìiíiìóìó.
(Àíàëîãi÷íî äëÿ which.max()). Äëÿ ëîãi÷íèõ çíà÷åíü öi ôóíêöi¨ âèêî-
ðèñòîâóþòü ïîðÿäîê FALSE<TRUE. Òîìó ¨õ ìîæíà çàñòîñîâóâàòè äëÿ çíà-
õîäæåííÿ ïîëîæåííÿ ïåðøîãî åëåìåíòà ìàñèâó, äëÿ ÿêîãî âèêîíó¹òüñÿ
äåÿêà óìîâà:

x<-seq(0,pi,0.001)
x0<-which.max(sin(x)>0.5)
x0

## [1] 525

x[x0]

## [1] 0.524

sin(x[x0])

## [1] 0.5003474

 âïåðøå 𝑠𝑖𝑛(𝑥) > 0.5 íà 525-ìó åëåìåíòi ìàñèâó x.


ßêùî ïîòðiáíèé ïåðåëiê iíäåêñiâ âñiõ åëåìåíòiâ ìàñèâó, äëÿ ÿêèõ âè-
êîíó¹òüñÿ ïåâíà óìîâà, ìîæíà ñêîðèñòàòèñü ôóíêöi¹þ which():

x<-seq(0,6*pi,0.5)
which(sin(x)>0.95)

## [1] 4 17 29

 ñåðåä åëåìåíòiâ ìàñèâó x ëèøå äëÿ 4-ãî, 17-ãî i 29-ãî âèêîíó¹òüñÿ


óìîâà sin(𝑥) > 0.95.
2.3. Деякi кориснi функцiї 56

2.3.3 Злиття наборiв даних — merge


Ó ñòàòèñòèöi ÷àñòî âèíèê๠ïîòðåáà îá'¹äíóâàòè iíôîðìàöiþ ç ðiçíèõ
äæåðåë. ßêùî ó äâîõ ôðåéìàõ äàíèõ ìiñòèòüñÿ ðiçíà iíôîðìàöiÿ ïðî
îäíi i òi æ îá'¹êòè, ¨ ¨ ìîæíà ïåðåíåñòè â îäèí ôðåéì âèêîðèñòîâóþ÷è
ôóíêöiþ merge() (çëèòòÿ ôðåéìiâ).
Ó íàñòóïíîìó ïðèêëàäi ìà¹ìî äâà ôðåéìè weights  ç äàíèìè ïðî
âàãó ëþäåé i heights  ç äàíèìè ïðî ¨õ çðiñò. Ó êîæíîìó ç öèõ ôðåéìiâ
ïåðøà çìiííà  name ìiñòèòü iì'ÿ ëþäèíè, à äðóãà (weight àáî height)
 ¨ ¨ âàãó àáî çðiñò. Ìè õî÷åìî îòðèìàòè ôðåéì, ó ÿêîìó êîæåí ðÿäî÷îê
âiäïîâiäàòèìå îäíié ëþäèíi, à çìiííèìè áóäóòü name, weight i height.
Îò ÿê öå ðîáèòüñÿ:

# створюємо два фрейми:


weights<-data.frame(name=c("John","Ivan","Kate"),weight=c(80,75,48))
heights<-data.frame(name=c("Kate","Ivan","Mary"),height=c(160,180,182))
# робимо злиття фреймiв:
merge(weights,heights,all=T)

## name weight height


## 1 Ivan 75 180
## 2 John 80 NA
## 3 Kate 48 160
## 4 Mary NA 182

ßê áà÷èìî, íàáið ëþäåé ó ïåðøîìó i äðóãîìó ôàéëàõ äåùî ðiçíèé:


äëÿ John ìè çíà¹ìî weight, àëå íå çíà¹ìî height. Äëÿ Mary  íàâïàêè.
Ó ôàéë, ùî áóâ óòâîðåíèé çëèòòÿì, ââiéøëè âñi ëþäè i ç ïåðøîãî i ç äðó-
ãîãî ôðåéìó, à ¨õ çìiííi, ïî ÿêèõ íåì๠iíôîðìàöi¨, îòðèìàëè çíà÷åííÿ
NA.
Òàêèé ñïîñiá çëèòòÿ âèçíà÷åíèé îïöi¹þ all=T. ßêùî all=F, òî ó
ôðåéì-ðåçóëüòàò áóäóòü âíåñåíi òiëüêè ëþäè, ÿêi îïèñàíi i ó ïåðøîìó
10
i ó äðóãîìó ôðåéìi .
Çìiííà, ùî âèêîðèñòîâó¹òüñÿ äëÿ óçãîäæåííÿ ðÿäî÷êiâ (name ó íà-
øîì ïðèêëàäi) çâåòüñÿ êëþ÷åì (key). Òàêèõ çìiííèõ ìîæå áóòè äåêiëüêà

10
Можна також використати опцiю all.x=T, якщо потрiбно включити у результат всiх
людей, перелiчених у першому фреймi, а тих, хто згаданий лише у другому — пропустити. I
навпаки — all.y=T.
2.4. Експорт та iмпорт даних у R 57

(íàïðèêëàä  iì'ÿ, ïðiçâèùå òà ðiê íàðîäæåííÿ). Çà óìîâ÷àííÿì merge


âèêîðèñòîâó¹ ÿê êëþ÷i âñi çìiííi, ÿêi ìàþòü îäíàêîâi iìåíà ó ïåðøîìó
òà äðóãîìó ôðåéìi. Ïðè áàæàííi ñïèñîê êëþ÷iâ ìîæíà çàäàòè îïöi¹þ
by, ÿêùî âîíè ìàþòü îäíàêîâi iìåíà ó îáîõ ôðåéìàõ, àáî îïöiÿìè by.x
(êëþ÷i ïåðøîãî ôðåéìó) i by.y (êëþ÷i äðóãîãî ôðåéìó). Â îñòàííüîìó
âèïàäêó ïåðøié çìiííié çi ñïèñêó by.x áóäå âiäïîâiäàòè ïåðøà ó by.y,
äðóãié  äðóãà i ò.ä.
Îïöiÿsort âêàçó¹, ÷è ïîòðiáíî ñîðòóâàòè îòðèìàíèé çëèòòÿì ôðåéì
ó ïîðÿäêó çðîñòàííÿ êëþ÷iâ. Çà óìîâ÷àííÿì sort=T, òîáòî ñîðòóâàííÿ
âèêîíó¹òüñÿ.

2.4 Експорт та iмпорт даних у R


2.4.1 Експорт та iмпорт даних у внутрiшньому форматi
Iíêîëè áóâ๠ïîòðiáíî çáåðiãòè äåÿêi ðåçóëüòàòè ðîáîòè ïðîãðàìè ó
ôîðìàòi R, íàïðèêëàä, äëÿ âèêîðèñòàííÿ ¨õ iíøèì êîðèñòóâà÷åì R ó ñâî¨é
ïðîãðàìi. Äëÿ öüîãî ìîæíà ñêîðèñòàòèñü ôóíêöi¹þ save():

a<-1:10
save(a,file="c:/rem/term/example.Rdata")

Ó öüîìó ïðèêëàäi ìè ñòâîðèëè âåêòîð a, à ïîòiì çàïèñàëè éîãî ó


ôàéëi example.Rdata ó êàòàëîçi rem/term íà äèñêó c. (Çâåðíiòü óâàãó,
ùî ïðè çàïèñi øëÿõó äî ôàéëó âèêîðèñòîâó¹òüñÿ ñèìâîë /, ïðèéíÿòèé â
Unix, à íå \, ÿê öå ïðèéíÿòî ó Windows).
save() çáåðiã๠îá'¹êòè ó âíóòðiøíüîìó êîäóâàííi ñèñòåìè R. Ïðî-
÷èòàòè çàïèñàíèé ôàéë ìîæíà òiëüêè ó R. ßêùî ïðîäèâëÿòèñü éîãî ó
ÿêîìó-íåáóäü òåêñòîâîìó ðåäàêòîði, áóäóòü âiäîáðàæàòèñü ëèøå íåçðî-
çóìiëi ñèìâîëè. Äëÿ ÷èòàííÿ ìîæíà âèêîðèñòàòè ôóíêöiþ load().
a<-0
a
## [1] 0
load(file="c:/rem/term/example.Rdata")
a
## [1] 1 2 3 4 5 6 7 8 9 10
2.4. Експорт та iмпорт даних у R 58

(Ìè ñïî÷àòêó íàäàëè íîâå çíà÷åííÿ a, à ïîòiì âiäíîâèëè ñòàðå, ïðî-


÷èòàâøè éîãî ç ôàéëó). Îá'¹êòè çàïèñóþòüñÿ ðàçîì iç ñâî¨ìè iìåíàìè,
òîìó load() ðîçóìi¹ áåç äîäàòêîâèõ ïîÿñíåíü, ùî ñàìå ïîòðiáíî çìiíèòè.
ßêùî â îäíîìó ôàéëi ïîòðiáíî çáåðiãòè áàãàòî îá'¹êòiâ, ¨õ ïåðåëi÷ó-
þòü ÷åðåç êîìó ó ñïèñêó ïàðàìåòðiâ save().
ßêùî ôàéë äëÿ çàïèñó àáî ÷èòàííÿ ïîòðiáíî âèáðàòè ïiä ÷àñ ðîáîòè
ïðîãðàìè iíòåðàêòèâíî, âèêîðèñòîâóþòü ôóíêöi¹þ file.choose(), ÿêà
âiäêðèâ๠ñòàíäàðòíå âiêíî âèáîðó ôàéëó. Ñêàæiìî, äëÿ çàâàíòàæåííÿ
ç ôàéëó, ÿêèé âè õî÷åòå îáðàòè âðó÷íó, ìîæíà íàïèñàòè:
load(file=file.choose()).

2.4.2 Експорт та iмпорт текстових таблиць з даними.


Ïðàêòè÷íî êîæíà ñòàòèñòè÷íà ïðîãðàìà çàãàëüíîãî ïðèçíà÷åííÿ ìà¹
ìîæëèâîñòi ñòâîðåííÿ òà ÷èòàííÿ ôàéëiâ äàíèõ ó âèãëÿäi òåêñòîâèõ òàá-
ëèöü. Çìiñò òàêèõ ôàéëiâ ëåãêî çðîçóìiòè, ïðîãëÿäàþ÷è ¨õ ó çâè÷àéíèõ
òåêñòîâèõ ðåäàêòîðàõ. Òîìó ïðèðîäíî âèêîðèñòîâóâàòè òàêi ôàéëè äëÿ
îáìiíó ñòàòèñòè÷íèìè äàíèìè ìiæ ïðîãðàìàìè.
Íåõàé òàáëèöÿ çàïèñàíà ó òåêñòîâîìó ôàéëi ó çðó÷íîìó äëÿ ëþäñü-
êîãî ñïðèéíÿòòÿ âèãëÿäi:

Name Weight Married


Ahmad 70 T
John 82 F
Victoria 60 T
Olga 54 F

Òóò ó ïåðøîìó ðÿäî÷êó çàïèñàíi íàçâè çìiííèõ, à ó êîæíîìó íàñòóïíî-


ìó ðÿäî÷êó  çíà÷åííÿ öèõ çìiííèõ äëÿ ïåâíî¨ ëþäèíè. Äëÿ ÷èòàííÿ
òàêèõ òàáëèöü âèêîðèñòîâóþòü ôóíêöiþ read.table(). ßêùî òàáëèöÿ
çàïèñàíà ó ôàéëi c:/rem/term/table.txt, òî ïðî÷èòàòè ¨ ¨ ìîæíà òàê:

tbl<-read.table(file="c:/rem/term/table.txt",header=T)
tbl

## Name Weight Married


## 1 Ahmad 70 TRUE
2.4. Експорт та iмпорт даних у R 59

## 2 John 82 FALSE
## 3 Victoria 60 TRUE
## 4 Olga 54 FALSE

(Ðåçóëüòàò ÷èòàííÿ çàïèñàíî ó ôðåéì tbl. Îïöiÿ header=T âêàçó¹ íà


òå, ùî ó ïåðøîìó ðÿäî÷êó ìiñòÿòüñÿ íàçâè çìiííèõ).
ßêùî îäèí çi ñòîâï÷èêiâ òàáëèöi òðåáà ïðî÷èòàòè ÿê iìåíà îá'¹êòiâ-
ðÿäî÷êiâ, öå ìîæíà çðîáèòè çàäàâøè îïöiþ row.names. Ó íié ìîæíà âêà-
çàòè àáî íîìåð ñòîâï÷èêà iìåí, àáî éîãî íàçâó, íàïðèêëàä:

tbl<-read.table(file="c:/rem/term/table.txt",
header=T,row.names="Name")
tbl

## Weight Married
## Ahmad 70 TRUE
## John 82 FALSE
## Victoria 60 TRUE
## Olga 54 FALSE

Çàïèñàòè òàêó òàáëèöþ ìîæíà âèêîðèñòîâóþ÷è ôóíêöiþ write.table():


write.table(tbl,file="c:/rem/term/table.txt")
Çà óìîâ÷àííÿì, ó ïåðøîìó ñòîâï÷èêó òàáëèöi áóäóòü çàïèñàíi iìå-
íà îá'¹êòiâ-ðÿäî÷êiâ ôðåéìó, à ó ïåðøîìó ðÿäî÷êó  íàçâè çìiííèõ-
ñòîâï÷èêiâ ôðåéìó. ßêùî öå íå ïîòðiáíî, ñëiä âêàçàòè îïöi¨ row.names=F,
col.names=F.
Ïðè ÷èòàííi ç ôàéëó read.table() âèçíà÷๠êiëüêiñòü çìiííèõ
(ñòîâï÷èêiâ) ó òàáëèöi çà êiëüêiñòþ íàçâ ó ïåðøîìó ðÿäî÷êó. Òèï çìiííî¨
âèçíà÷à¹òüñÿ çà ôîðìàòîì çàïèñó åëåìåíòiâ ó âiäïîâiäíîìó ñòîâï÷èêó.
Ñêàæiìî, ÿêùî âñi åëåìåíòè ñòîâï÷èêà ìàþòü âèãëÿä TRUE, FALSE àáî NA,
òî âiäïîâiäíà çìiííà îòðèì๠ó ïðî÷èòàíîìó ôðåéìi äàíèõ òèï logical.
ßêùî õî÷à á îäèí åëåìåíò íå ìîæíà òðàêòóâàòè ÿê ëîãi÷íèé  òèï áóäå
character íàâiòü, ÿêùî âñi iíøi åëåìåíòè âèãëÿäàþòü ÿê ëîãi÷íi.
Ðiçíà êiëüêiñòü åëåìåíòiâ, ðîçäiëåíèõ ïðîáiëàìè ó ðiçíèõ ðÿäî÷êàõ
òàáëèöi, ïðèâîäèòü äî ïîìèëêè ÷èòàííÿ. ßêùî ó ôàéëi çóñòði÷àþòüñÿ
ñèìâîëüíi ðÿäî÷êè ç ïðîáiëàìè âñåðåäèíi, öi ðÿäî÷êè òðåáà âìiùóâàòè ó
ëàïêè, ÿê ó íàñòóïíîìó ïðèêëàäi:
2.4. Експорт та iмпорт даних у R 60

Name Weight Married


Ahmad 70 T
"John R.C." 82 F
Victoria 60 T
"Olga V." 54 F

Iíøèé òåêñòîâèé ôîðìàò  csv (comma separated values) â ÿêîìó


îêðåìi çíà÷åííÿ çìiííèõ ðîçäiëÿþòüñÿ êîìàìè. Öåé ôîðìàò ìåíø çðó÷-
íèé äëÿ ëþäñüêîãî ñïðèéíÿòòÿ, íiæ òàáëè÷íèé, àëå âií ä๠áiëüøå ìîæ-
ëèâîñòåé äëÿ ïåðåäà÷i äàíèõ ðiçíèõ òèïiâ.
Ùîá çàïèñàòè (àáî ïðî÷èòàòè) ôàéë ó ôîðìàòi csv, ìîæíà âèêîðè-
ñòîâóâàòè ôóíêöi¨ write.csv() (read.csv). Â îñíîâíîìó, âîíè âëàøòî-
âàíi àíàëîãi÷íî write.table() òà read.table(). (Ïî ñóòi, âiäìiííiñòü
ìiæ ôóíêöiÿìè, ùî îáðîáëÿþòü table òà csv, ïîëÿã๠ëèøå â iíøîìó âè-
áîði çíà÷åíü çà óìîâ÷àííÿì òèõ îïöié, ÿêi ðåãóëþþòü âèáið ñèìâîëiâ,
ùî ðîçäiëÿþòü çíà÷åííÿ. Âèáèðàòè öi îïöi¨ (âîíè îïèñàíi ó help) ìîæíà
ñàìîìó, ÿêùî ïîòðiáíî ñòâîðèòè àáî ïðî÷èòàòè ôàéë ç íåñòàíäàðòíîãî
ôîðìàòó.
Ó ôîðìàòi csv ÷èñëà ðîçäiëÿþòüñÿ êîìàìè, à äëÿ âiäîêðåìëåííÿ äðî-
áîâî¨ ÷àñòèíè äåñÿòêîâîãî ÷èñëà âèêîðèñòîâó¹òüñÿ êðàïêà. Ó ôîðìàòi
csv2 äðîáîâà ÷àñòèíà âiääiëÿ¹òüñÿ êîìîþ, à ÿê ðîçäiëîâèé çíàê ìiæ ÷èñ-
ëàìè âèêîðèñòîâó¹òüñÿ êðàïêà ç êîìîþ  ;. Öåé ôîðìàò çðó÷íèé äëÿ
ïåðåäà÷i òàáëèöü ç EXCEL, îñêiëüêè ó EXCEL ¹ ìîæëèâiñòü çáåðåæåí-
íÿ/÷èòàííÿ ôàéëiâ ó ôîðìàòi csv2, à â R òàêi òàáëèöi, ÿê âè âæå çäîãà-
äàëèñü, ÷èòàþòüñÿ/çàïèñóþòüñÿ ôóíêöiÿìè read.csv2()/write.csv2().
Ïàðàìåòð file ó ôóíêöi¨ read.table òà ïîäiáíèõ ¨é íå îáîâ'ÿçêîâî
ì๠áóòè iìåíåì ôàéëó íà âàøîìó êîìï'þòåði. Òàê, âêàçàâøè îïöiþ
file="clipboard", ìîæíà ïðî÷èòàòè òàáëèöþ, ÿêà çíàõîäèòüñÿ ó áó-
ôåði îáìiíó Windows (àáî iíøî¨ îïåðàöiéíî¨ ñèñòåìè ÿêà ïðàöþ¹ íà
êîìï'þòåði). Çðîçóìiëî, ùî öþ òàáëèöþ ñïî÷àòêó òðåáà ïîìiñòèòè ó áó-
ôåð îáìiíó, âèêîíàâøè copy.
Íàïðèêëàä, ÿêùî âè âiäêðè¹òå Excel-ôàéë, âèäiëèòå ó íüîìó ÷èñëî-
âó òàáëèöþ i âèêîíà¹òå ôóíêöiþ copy, öÿ òàáëèöÿ îïèíèòüñÿ ó áóôåði
îáìiíó. Òåïåð ¨ ¨ ìîæíà ïðî÷èòàòè i çáåðiãòè ó çìiííié x â R, âèêîíàâøè
êîìàíäó
x<-read.table(file="clipboard",dec=",")
2.5. Переформатування фреймiв даних 61

(Îïöiÿ dec="," âêàçó¹, ùî äëÿ âiääiëåííÿ äðîáîâî¨ ÷àñòèíè ÷èñëà


âèêîðèñòàíî êîìó).
ßêùî âêàçàòè ó file iíòåðíåò-àäðåñó ðåñóðñó (URL), R ïðî÷òè๠òàá-
ëèöþ â iíòåðíåòi, ùî çíàõîäèòüñÿ çà öi¹þ àäðåñîþ. (Çâè÷àéíî, òàáëèöÿ
ì๠áóòè ó âiäïîâiäíîìó òåêñòîâîìó ôîðìàòi. HTML-òàáëèöþ òàê íå ïðî-
÷èòàòè.) Íàïðèêëàä, ÿêùî âèêîíàòè êîìàíäè
fl<-"http://datasets.flowingdata.com/crimeRatesByState2005.tsv"
crime <- read.csv(fl, header=TRUE, sep="\t")
òî R ïðî÷èò๠ó ôðåéì crime äàíi êðèìiíàëüíî¨ ñòàòèñòèêè 2005 ðî-
êó ïî øòàòàõ ÑØÀ, ÿêi çíàõîäÿòüñÿ íà íàâ÷àëüíîìó ñàéòi Íàòàíà ßó
Flowingdata ó ôàéëi crimeRatesByState2005.tsv.
11

2.5 Переформатування фреймiв даних


Ïðè ðîáîòi ç ôðåéìàìè äàíèõ, ÿê ïðàâèëî, êîæåí ðÿäî÷îê âiäïîâi-
ä๠îäíîìó ñïîñòåðåæåííþ (subject, case  öå ìîæå áóòè ñïîñòåðåæó-
âàíèé îá'¹êò, àáî äåíü, êîëè ïðîâîäèëèñü ñïîñòåðåæåííÿ, òîùî). Êîæåí
ñòîâï÷èê òðàêòóþòü ÿê çìiííó, ïåâíó õàðàêòåðèñòèêó, ùî îïèñó¹ ñïîñòå-
ðåæóâàíèé îá'¹êò. Ñàìå çà öi¹þ ñõåìîþ ïðàöþ¹ áiëüøiñòü ôóíêöié ñòà-
òèñòè÷íîãî àíàëiçó äàíèõ. Àëå âèçíà÷åííÿ òîãî, ùî ââàæàòè îá'¹êòîì, à
ùî çìiííîþ, çàëåæèòü âiä òî÷êè çîðó. Ïðè çìiíi òî÷êè çîðó òå, ùî áóëî
îá'¹êòîì, ìîæå ñòàòè õàðàêòåðèñòèêîþ îá'¹êòà i íàâïàêè. Ïðè öüîìó âè-
íèê๠ïîòðåáà ïåðåôîðìàòóâàòè âiäïîâiäíèé ôðåéì äàíèõ, ùîá éîãî áóëî
çðó÷íî îáðîáëÿòè ñòàíäàðòíèì ñïîñîáîì. Äëÿ öüîãî ìîæíà ñêîðèñòàòèñü
ôóíêöiÿìè áiáëiîòåêè tidyr. Ìè ðîçãëÿíåìî ïðèêëàä çàñòîñóâàííÿ äâîõ
òàêèõ ôóíêöié.

Приклад 2.5.1. Ó ôàéëi potato1.txt çíàõîäÿòüñÿ äàíi ïðî öiíè íà êàð-


12
òîïëþ íà ðiçíèõ ðèíêàõ ìiñòà Êè¹âà . Êîæíîìó ðèíêó âiäïîâiä๠îäèí
ðÿäî÷îê. Ïåðøèé ñòîâï÷èê  íàçâà ðèíêó, íàñòóïíi ìiñòÿòü öiíó 1 êiëî-
ãðàìà êàðòîïëi ðiçíèõ òèïiâ íà äàíîìó ðèíêó. Ðîçãëÿäàþòüñÿ ÷îòèðè òè-
ïè êàðòîïëi  ìîëîäà áiëà (new.white), ìîëîäà ðîæåâà (new.pink), ñòàðà
áiëà (old.white) i ñòàðà ðîæåâà. Êîæíîìó òèïó âiäïîâiä๠ñâié ñòîâï÷èê-
çìiííà. Çàâàíòàæèìî öåé ôàéë ó ôðåéì potato i íàäðóêó¹ìî:

11
Цей файл був доступний в iнтернетi у серпнi 2017р. Не можу гарантувати, що так буде
коли ви спробуєте зробити перевiрку.
12
Данi умовнi. Скажiмо, можна уявити, що вони вiдповiдають середнiм цiнам кiнця травня
2016 р. у гривнях.
2.5. Переформатування фреймiв даних 62

potato<-read.table(file="c:/rem/term/potato1.txt",header=T)
print(potato)

## Market new.white new.pink old.white old.pink


## 1 Odessa 15.5 16.5 4.5 5.0
## 2 Goloseevo 17.5 18.0 5.0 5.0
## 3 Central 20.0 22.0 6.0 6.5

Òàêà ñòðóêòóðà ôðåéìó äîöiëüíà, ÿêùî äîñëiäíèê õî÷å îïèñàòè çâ'ÿ-


çîê ìiæ öiíàìè íà ðiçíi òèïè êàðòîïëi. Íàïðèêëàä, çà íèì çðó÷íî ïðîâå-
ñòè ðåãðåñiéíèé àíàëiç çàëåæíîñòi öiíè íà ìîëîäó ðîæåâó êàðòîïëþ âiä
öií íà ñòàðó áiëó. Àëå ìîæóòü áóòè i iíøi âàðiàíòè ñòàòèñòè÷íèõ äîñëiä-
æåíü öèõ äàíèõ. Ñêàæiìî, ìîæíà âèâ÷àòè ïèòàííÿ ïðî òå, ÿê íà öiíó
êàðòîïëi âïëèâàþòü òàêi ôàêòîðè, ÿê ¨ ¨ òèï i ðèíîê íà êîòðîìó âîíà
ïðîäà¹òüñÿ. Äëÿ òàêîãî äîñëiäæåííÿ äîöiëüíî êîæíèé ðÿäî÷îê ïðèñâÿ-
òèòè îäíié ñèòóàöi¨, ùî âèçíà÷๠öiíó êàðòîïëi. Ñàìi öiíè ó òàêîìó ôàéëi
ïîâèííi âìiùóâàòèñü â îäèí ñòîâï÷èê-çìiííó, à iíøi ñòîâï÷èêè ïîâèííi
âêàçóâàòè íà îáñòàâèíè, ùî ôîðìóâàëè öiíó: ìiñöå ïðîäàæó òà òèï êàð-
òîïëi. Öiíà êàðòîïëi ó öüîìó âèïàäêó  òå, ùî çâåòüñÿ çàëåæíà (êëþ-
÷îâà) çìiííà, à âñi iíøi çìiííi  ôàêòîðè, ùî âïëèâàþòü íà çàëåæíó
çìiííó.
Öå çâåòüñÿ ïåðåòâîðåííÿì ôðåéìó ç øèðîêîãî ôîðìàòó ó äîâãèé.
Çàñòîñó¹ìî äëÿ öüîãî ôóíêöiþ gather(data,key,value,...) ç áiá-
ëiîòåêè tidyr. Ïåðøèì ïàðàìåòðîì (data) öi¹¨ ôóíêöi¨ ¹ ôðåéì, ÿêèé
ïîòðiáíî ïåðåôîðìàòóâàòè. Ïàðàìåòð key âêàçó¹ íîâó íàçâó ñòîâï÷èêà
ó ïåðåôîðìàòîâàíîìó ôðåéìi, ó ÿêîìó áóäå ñòâîðåíèé ôàêòîð ç íàçâ
çìiííèõ ó ñòàðîìó ôðåéìi, value  íàçâà íîâî¨ çàëåæíî¨ çìiííî¨, ó ÿêié
çáåðóòüñÿ çíà÷åííÿ îá'¹äíàíèõ ñòàðèõ çìiííèõ, çàìiñòü ... ïîòðiáíî ïå-
ðåëi÷èòè íàçâè ñòîâï÷èêiâ ó ñòàðîìó ôðåéìi, ç ÿêèõ áóäå ôîðìóâàòèñü
íîâà çàëåæíà çìiííà.
Îò ÿê öå âèãëÿä๠äëÿ ôðåéìó potato:

library(tidyr)
pt<-gather(potato,type,price,new.white:old.pink)
print(pt)

## Market type price


## 1 Odessa new.white 15.5
2.5. Переформатування фреймiв даних 63

## 2 Goloseevo new.white 17.5


## 3 Central new.white 20.0
## 4 Odessa new.pink 16.5
## 5 Goloseevo new.pink 18.0
## 6 Central new.pink 22.0
## 7 Odessa old.white 4.5
## 8 Goloseevo old.white 5.0
## 9 Central old.white 6.0
## 10 Odessa old.pink 5.0
## 11 Goloseevo old.pink 5.0
## 12 Central old.pink 6.5

(äâîêðàïêà ó âèêëèêó gather() ìiæ new.white i old.pink ïîçíà÷à¹,


ùî òðåáà âçÿòè öi ñòîâï÷èêè i âñi, ùî ëåæàòü ìiæ íèìè).
ßê áà÷èìî, íàçâè ÷îòèðüîõ çìiííèõ âiä new.white äî old.pink ïåðå-
òâîðèëèñü íà çíà÷åííÿ çìiííî¨ type, êîòðà âêàçó¹ òåïåð, ç ÿêîãî ñòàðî-
ãî ñòîâï÷èêà áóëà îòðèìàíà âiäïîâiäíà öiíà ó íîâîìó ñòîâï÷èêó price.
Çíà÷åííÿ çìiííî¨ Market òàêîæ ðîçìíîæèëèñü, ùîá âiäïîâiäàòè êîæíié
îêðåìié öiíi.
Àëå ó íèíiøíié çìiííié type çàðàç çìiøàíi äâi ðiçíi õàðàêòåðèñòèêè
êàðòîïëi: âiê (age: ìîëîäàñòàðà) òà êîëið (color: áiëàðîæåâà). Ùîá
äîñëiäæóâàòè âïëèâ êîæíî¨ ç öèõ õàðàêòåðèñòèê îêðåìî, âàðòî ñòâîðèòè
äëÿ íèõ äâi îêðåìi çìiííi.
Äëÿ öüîãî ïðèçíà÷åíà ôóíêöiÿseparate(data,col,into,sep). Ó öié
ôóíêöi¨ ïàðàìåòð data ïîçíà÷๠ôðåéì, ùî ïåðåôîðìàòîâó¹òüñÿ, col 
íàçâà ñòîâï÷èêà-çìiííî¨, ÿêà ðîçáèâà¹òüñÿ íà êiëüêà íîâèõ, into  ïå-
ðåëiê íàçâ íîâèõ çìiííèõ, sep  ñèìâîë, ùî ðîçäiëÿ¹ ó ñòàðié çìiííié
íàçâè íîâèõ ôàêòîðiâ. (Ïàðàìåòð sep ìîæå òàêîæ áóòè âåêòîðîì, ùî
ñêëàäà¹òüñÿ ç íîìåðiâ ïîçèöié ïî÷àòêiâ íàçâ íîâèõ ôàêòîðiâ ó ñèìâîëü-
íîìó ðÿäî÷êó-íàçâi ñòàðîãî ôàêòîðó).
Îò ÿê öå âèãëÿä๠äëÿ íàøîãî ôðåéìó pt:

library(dplyr)
pt2<-separate(pt,type,into = c("age","color"),sep="\\.")
print(slice(pt2,3:5))

## Market age color price


2.6. Пiдстановки (pipes) 64

## 1 Central new white 20.0


## 2 Odessa new pink 16.5
## 3 Goloseevo new pink 18.0

(ìè ïîêëàëè ïåðåôîðìàòîâàíèé ôðåéì ó çìiííó pt2 i âèâåëè ëèøå


òðè ðÿäî÷êè öüîãî ôðåéìó. Ôóíêöiÿ slice() âèäiëÿ¹ îáðàíi ðÿäî÷êè  ç
3-ãî ïî 5-é ç ôðåéìó pt2. Âîíà âèçíà÷åíà ó áiáëiîòåöi dplyr. Ïî ñóòi, ¨ ¨ äiÿ
åêâiâàëåíòíà pt2[2:3,]. Ìîæëèâîñòi ¨ ¨ âèêîðèñòàííÿ i ðîáîòà áiáëiîòåêè
dplyr ïîÿñíþþòüñÿ ó ïiäðîçäiëi 2.6) J

2.6 Пiдстановки (pipes)


Òóò ìè ðîçãëÿíåìî ìîâíèé çàñiá R, ÿêèé çâåòüñÿ pipe i âèêîðèñòîâó¹
îïåðàòîð %>%. Öå, ôàêòè÷íî, îñîáëèâèé ñïîñiá çàïèñó âèêëèêó ôóíêöié.
Ùîá çðîçóìiòè, äëÿ ÷îãî âií ïîòðiáåí, ïîâåðíåìîñü äî ðîçãëÿäó ïðè-
êëàäó 2.5.1. Òàì ìè ðîáèëè ïåðåòâîðåííÿ ôðåéìó äàíèõ potato, çàïè-
ñóþ÷è ïðîìiæíi ðåçóëüòàòè ó ôðåéìè pt i pt2. Öå áóëî çðîáëåíî äëÿ
íàî÷íîñòi âèêëàäó. Âçàãàëi, ÿêùî ïðîìiæíi ðåçóëüòàòè íå ïîòðiáíi ïiñëÿ
çàêií÷åííÿ ïåðåòâîðåíü, ¨õ êðàùå çàëèøàòè áåçiìåííèìè.
Öå, ïî-ïåðøå, ïðèñêîðèòü ðîáîòó êîìï'þòåðà: éîìó íå ïîòðiáíî áóäå
âíîñèòè iìåíà çìiííèõ ó òàáëèöi iìåí i ðîáèòè âiäïîâiäíi ïðèâëàñíåííÿ.
Ïî äðóãå, çàâäÿêè öüîìó ëþäèíà, ùî ðîçáèð๠ðîáîòó ïðîãðàìè, íå áóäå
âiäâîëiêàòèñü íà ç'ÿñóâàííÿ ïðèçíà÷åííÿ çìiííèõ, ÿêi ìèòò¹âî âòðà÷à-
þòü çìiñò ó ïðîöåñi ïåðåòâîðåíü.
ßêùî íå âæèâàòè iìåí äëÿ ïîìiæíèõ çìiííèõ, à îäðàçó ïiäñòàâëÿòè
ðåçóëüòàòè âèêîíàííÿ ïîïåðåäíüîãî ïåðåòâîðåííÿ ó ôóíêöiþ, ùî âèêî-
íó¹ íàñòóïíó äiþ, ïðîãðàìó ïðèêëàäó 2.5.1 ìîæíà îôîðìèòè òàê:

library(tidyr)
library(dplyr)
print(
slice(
separate(
gather(
read.table(file="c:/rem/term/potato1.txt",header=T),
type,price,new.white:old.pink),
type,into = c("age","color"),sep="\\."),
2.6. Пiдстановки (pipes) 65

3:5)
)

(Ïåðåêîíàéòåñü, ùî öÿ ïðîãðàìà äiéñíî âèä๠òàêèé ñàìèé îñòàòî÷íèé


ðåçóëüòàò, ÿê i ó ïðèêëàäi 2.5.1).
Òàêèé çàïèñ ì๠î÷åâèäíi íåäîëiêè. Íàçâè ôóíêöié ó ïðîãðàìi ðîçòà-
øîâàíi ó ïîðÿäêó, îáåðíåíîìó ïîðÿäêó ¨õ âèêîíàííÿ  ðîáîòà ïî÷èíà¹òü-
ñÿ ç read.table, àëå ùîá öå ïîáà÷èòè, òðåáà ïðîñëiäêóâàòè ëàíöþæîê
âèêëèêiâ âiä ïî÷àòêó äî êiíöÿ. Öå âèãëÿä๠ïðèðîäíèì äëÿ ìàòåìàòè-
êiâ, ÿêi çâèêëè ìàòè ñïðàâó ç ôîðìóëàìè. Ñïåöiàëiñòàì ó ïðèêëàäíèõ
ãàëóçÿõ, ÿêi ðîáëÿòü ñòàòèñòè÷íó îáðîáêó ñâî¨õ äàíèõ, âií íåçðó÷íèé, áî
âèãëÿä๠êîíòðiíòó¨òèâíèì.
Êðiì òîãî, ïðè òàêîìó çàïèñi âàæêî çðîçóìiòè, äî ÿêî¨ ôóíêöi¨ âiä-
íîñÿòüñÿ ïàðàìåòðè i îïöi¨, çàïèñàíi ó âèêëèêàõ ïiñëÿ ïiäñòàíîâêè ÷åð-
ãîâîãî ïðîìiæíîãî ðåçóëüòàòó. Ñêàæiìî, type i price  öå ïàðàìåòðè
gather, separate, ÷è slice? Äëÿ òî÷íî¨ âiäïîâiäi íà öå ïèòàííÿ ïîòðiá-
íî àêóðàòíî ïiäðàõóâàòè äóæêè, ùî âiäêðèâàþòüñÿ òà çàêðèâàþòüñÿ.
Äëÿ ïîëåãøåííÿ ñïðèéíÿòòÿ òàêèõ ëàíöþãîâèõ âèêëèêiâ ðiçíèõ ïå-
ðåòâîðåíü ó áiáëiîòåöi dplyr ñòâîðåíà ñòðóêòóðà, ÿêà çâåòüñÿ pipe
13
(pipeline) . Óêðà¨íñüêîþ ÿ íàçâó ¨ ¨ пiдстановка.
Îïåðàòîð ïiäñòàíîâêè ì๠âèãëÿä %>%. Ëiâîðó÷ âiä íüîãî çàïèñó¹òüñÿ
òå, ùî òðåáà ïiäñòàâèòè, à ïðàâîðó÷  ôóíêöiÿ, ó ÿêó âîíî ïiäñòàâëÿ¹òü-
ñÿ ÿê ïåðøèé ïàðàìåòð. Âñi iíøi ïàðàìåòðè ôóíêöi¨ çàïèñóþòüñÿ, ÿê ïðè
çâè÷àéíîìó âèêëèêó:

library(tidyr)
library(dplyr)
c(1:4,NA)%>%sum(na.rm=T)

## [1] 10

(Ìè ïiäñòàâèëè âåêòîð (1,2,3,4,NA) ó ôóíêöiþ sum() ïðè÷îìó âêà-


çàëè îïöiþ âèëó÷åííÿ ïðîïóùåíèõ çíà÷åíü. Îòðèìàëè ñóìó âñiõ íåïðî-
ïóùåíèõ. Ôàêòè÷íî, öå òåæ ñàìå, ùî âèêëèê sum(c(1:4,NA),na.rm=T).
Îò ÿê ìîæíà çàïèñàòè ïåðåòâîðåííÿ ïðèêëàäó 2.5.1, âèêîðèñòîâóþ÷è
îïåðàòîð ïiäñòàíîâêè:

13
“труба” або “трубопровiд”
2.7. Програмування у R 66

read.table(file="c:/rem/term/potato1.txt",header=T)%>%
gather(type,price,new.white:old.pink)%>%
separate(type,into = c("age","color"),sep="\\.")%>%
slice(3:5)%>%
print
Òåïåð ôóíêöi¨ çàïèñàíi ó ïîðÿäêó ¨õ âèêîíàííÿ: ïðîãðàìà ïîñëiäîâíî
÷èò๠ôðåéì, ïåðåôîðìàòîâó¹ éîãî ó äîâãèé ôîðìàò, ðîçäiëÿ¹ ôàêòîð
type, âèðiç๠÷àñòèíó ôðåéìó i äðóêó¹ ¨ ¨. Äîäàòêîâi ïàðàìåòðè êîæíî¨
ôóíêöi¨ çàïèñàíi ó âèêëèêó îäðàçó ïiñëÿ ¨ ¨ iìåíi. Ðåçóëüòàò ïîïåðåäíüî-
ãî ïåðåòâîðåííÿ çàâæäè ïiäñòàâëÿ¹òüñÿ ó íàñòóïíó ôóíêöiþ ÿê ïåðøèé
ïàðàìåòð.
Çàïèñ âèêëèêiâ ôóíêöié ç ïiäñòàíîâêàìè äîöiëüíèé ïðè âèêîíàííi òà-
êèõ ëàíöþãiâ ïåðåòâîðåíü ç áàçàìè äàíèõ. Òàì, äå ïðîãðàìè âèêîíóþòü
äi¨ ìàòåìàòè÷íîãî õàðàêòåðó, ìàáóòü êðàùå âèêîðèñòîâóâàòè êëàñè÷íèé
çàïèñ. Çðîçóìiëî, ùî öå íå ¹ çàãàëüíèì ïðàâèëîì i ïðîãðàìiñò âiëüíèé
ó âèáîði ìîâíîãî îôîðìëåííÿ ñâ ïðîãðàìè. Àëå áàæàíî íå çàñòîñî-
âóâàòè öi äâà ñòèëi óïåðåìiø âñåðåäèíi êîðîòêèõ ëîãi÷íèõ ôðàãìåíòiâ
ïðîãðàìè.
Ïðè çàñòîñóâàííi ïiäñòàíîâîê òåõíiêà iíäåêñàöi¨ äàíèõ çà äîïîìîãîþ
ïðÿìèõ äóæîê ç ï. 2.2.2 ñò๠íåçðó÷íîþ. Òîìó äëÿ âèäiëåííÿ ïåâíèõ ÷à-
ñòèí äàíèõ äëÿ äîñëiäæåííÿ êðàùå êîðèñòóâàòèñü ñïåöiàëüíèìè ôóíê-
öiÿìè. Îäíà ç íèõ  silce() ç áiáëiîòåêè dplyr, âæå áóëà âèêîðèñòàíà
ðàíiøå. Âîíà äîçâîëÿ¹ âèðiçàòè ïîòðiáíi ðÿäî÷êè ç ôðåéìó äàíèõ çà
ïåðåëiêîì ¨õ íîìåðiâ. ßêùî ïîòðiáíî âèðiçàòè ïåâíi ñòîâï÷èêè (çìiííi),
ìîæíà ñêîðèñòàòèñü ôóíêöi¹þ select(). Äëÿ òîãî, ùîá âèðiçàòè ÷àñòèíó
äàíèõ, âèêîðèñòîâóþ÷è ëîãi÷íi óìîâè, çàñòîñîâóþòü ôóíêöiþ subset().
Áiëüø äîêëàäíî ïðî öå ìîæíà ïîäèâèòèñü ó help R.

2.7 Програмування у R
2.7.1 Створення власних функцiй
Ôóíêöi¨ ó R ¹ îá'¹êòàìè, òîìó äëÿ òîãî, ùîá ââåñòè íîâó ôóíêöiþ,
òðåáà ñòâîðèòè îá'¹êò òèïó function i ïðèâëàñíèòè éîãî çíà÷åííÿ äåÿ-
êié çìiííié. Íàïðèêëàä, òóò ìè ó ïåðøîìó ðÿäî÷êó ñòâîðþ¹ìî ôóíêöiþ
t.sum(), à ó íàñòóïíîìó  âèêëèêà¹ìî ¨ ¨ ç ïàðàìåòðàìè х=1:10 òà t=8:
2.7. Програмування у R 67

t.sum<-function(x,t){sum(x[x>t])}
t.sum(1:10,8)

## [1] 19

Ïðèçíà÷åííÿ öi¹¨ ôóíêöi¨ çðîçóìiëå  âîíà ïiäðàõîâó¹ ñóìó òèõ åëå-


ìåíòiâ âåêòîðà-ïàðàìåòðà x, ÿêi ïåðåâèùóþòü ïîðiã çàäàíèé ïàðàìåòðîì
t.  çàãàëüíîìó âèãëÿäi êîìàíäà ñòâîðåííÿ íîâî¨ ôóíêöi¨ (ñïåöèôiêàöiÿ)
ì๠ôîðìàò
function(список формальних параметрiв ){тiло функцiї }
Òiëî ôóíêöi¨  öå ïîñëiäîâíiñòü êîìàíä, ÿêi áóäóòü âèêîíàíi ïðè
âèêëèêó ôóíêöi¨. Ðåçóëüòàò îñòàííüî¨ âèêîíàíî¨ ó òiëi ôóíêöi¨ êîìàíäè
¹ значенням ôóíêöi¨. Öå çíà÷åííÿ i áóäå ðåçóëüòàòîì âèðàçó âèêëèêó
ôóíêöi¨.
Ïðè âèêëèêó ôóíêöi¨ ôàêòè÷íi çíà÷åííÿ ïàðàìåòðiâ, çàäàíi ó äóæ-
êàõ ïiñëÿ iìåíi ôóíêöi¨, ïiäñòàâëÿþòüñÿ çàìiñòü ôîðìàëüíèõ ïàðàìåòðiâ,
âêàçàíèõ ó ñïåöèôiêàöi¨ ôóíêöi¨. Ìîæíà âèêîðèñòîâóâàòè íåiìåíîâàíèé
ñïîñiá ïiäñòàíîâêè, êîëè ôîðìàëüíi ïàðàìåòðè çàìiíÿþòüñÿ ôàêòè÷íè-
ìè â ïîðÿäêó ¨õ ïåðåëiêó ó ñïåöèôiêàöi¨. Òàê çðîáëåíî ó ïîïåðåäíüîìó
ïðèêëàäi. Ìîæíà çàñòîñóâàòè iìåíîâàíó ïiäñòàíîâêó, âêàçóþ÷è iì'ÿ ôîð-
ìàëüíîãî ïàðàìåòðà, ÿêèé ïîòðiáíî çàìiíèòè ïðè âèêëèêó:

t.sum(t=9,x=1:10)

## [1] 10

Âèêîíàííÿ òàêîãî âèêëèêó íi÷èì íå âiäðiçíÿ¹òüñÿ âiä ïîïåðåäíüîãî.


Ìîæíà êîìáiíóâàòè öi äâà ñïîñîáè:

t.sum(1:10,t=9)

## [1] 10

R äîçâîëÿ¹ çàäàâàòè ïðè âèêëèêó ôóíêöi¨ ìåíøå ïàðàìåòðiâ, íiæ âêà-


çàíî ó ñïåöèôiêàöi¨. Ïðè öüîìó ôóíêöiÿ ìóñèòü çíàòè, ÿêèõ çíà÷åíü öi
ïàðàìåòðè íàáóâàþòü çà óìîâ÷àííÿì (òîáòî êîëè âîíè íå âêàçàíi). Ó ñïå-
öèôiêàöi¨ òàêi çíà÷åííÿ çà óìîâ÷àííÿì ìîæíà âêàçàòè, âèêîðèñòîâóþ÷è
çíàê = ïiñëÿ iìåíi ôîðìàëüíîãî ïàðàìåòðà:
2.7. Програмування у R 68

t.sum<-function(x,t=0){sum(x[x>t])}
t.sum(-5:5)

## [1] 15

t.sum(1:10,t=9)

## [1] 10

Òóò çà óìîâ÷àííÿì ôóíêöiÿ t.sum ïiäðàõîâó¹ ñóìó äîäàòíèõ åëå-


ìåíòiâ âåêòîðà, àëå ïîðiã ìîæíà çìiíèòè, çàäàâøè çíà÷åííÿ ïàðàìåòðà
t ÿâíî. Ïàðàìåòðè, ùî, ÿê ïðàâèëî, âèêîðèñòîâóþòüñÿ çà óìîâ÷àííÿì,
ïðèéíÿòî íàçèâàòè опцiями функцiї. Ç òî÷êè çîðó êîìï'þòåðà îïöi¨ íi-
÷èì íå âiäðiçíÿþòüñÿ âiä iíøèõ ïàðàìåòðiâ.
Ïðè çàäàííi çíà÷åíü çà óìîâ÷àííÿì ìîæíà âèêîðèñòîâóâàòè âèðàçè,
â ÿêi âõîäÿòü iíøi ôîðìàëüíi ïàðàìåòðè ôóíêöi¨:

t.sum<-function(x,t=sum(x)/length(x)){sum(x[x>t])}
t.sum(1:10)

## [1] 40

Òóò çà óìîâ÷àííÿì, ôóíêöiÿ ïiäðàõîâó¹ ñóìó âñiõ åëåìåíòiâ x, ÿêi


ïåðåâèùóþòü ñåðåäí¹ x.
Ó òiëi ôóíêöi¨ ìîæå áóòè áàãàòî êîìàíä (¨õ ìîæíà çàïèñóâàòè ó îêðå-
ìèõ ðÿäî÷êàõ ïðîãðàìè àáî ðîçäiëÿòè êðàïêîþ ç êîìîþ). Ìîæíà òàêîæ
âèêîðèñòîâóâàòè çìiííi, ùî íå âõîäÿòü äî ñïèñêó ôîðìàëüíèõ ïàðàìåò-
ðiâ. Òàê ôóíêöiÿ t.sum() ç ïîïåðåäíiõ ïðèêëàäiâ ìîæå áóòè ðåàëiçîâàíà
íàñòóïíèì ÷èíîì:

t.sum<-function(x,t=0)
{
z<-x>t
sum(z)
}

Òóò z  äîïîìiæíà çìiííà, ùî âèêîðèñòîâó¹òüñÿ ó ôóíêöi¨. Çà ïðàâè-


ëàìè R âñi òàêi çìiííi ¹ локальними, òîáòî âîíè iñíóþòü ëèøå âñåðåäèíi
2.7. Програмування у R 69

ôóíêöi¨ i çíèùóþòüñÿ ïðè çàâåðøåííi âèêîíàííÿ ¨ ¨ âèêëèêó. ßêùî ïîçà


òiëîì ôóíêöi¨ áóëî ââåäåíî çìiííó ç òèì ñàìèì iìåíåì (глобальну змiнну)
 ¨ ¨ çíà÷åííÿ íå çìiíèòüñÿ ïiñëÿ âèêëèêó ôóíêöi¨:

z<-0
t.sum(1:10,t=8)

## [1] 2

## [1] 0
(Çíà÷åííÿ ãëîáàëüíîãî z çàëèøèëîñü 0, íå çâàæàþ÷è íà âèêëèê ôóíê-
öi¨, â ÿêié ëîêàëüíié çìiííié z áóëî çðîáëåíå ïðèâëàñíåííÿ).
Òàêèé ïiäõiä äîçâîëÿ¹ óñóíóòè ìîæëèâiñòü íåáàæàíèõ ïîái÷íèõ åôåê-
òiâ (side eect), êîëè ôóíêöiÿ çìiíþ¹ çíà÷åííÿ çìiííèõ, ùî íå ìàþòü
âiäíîøåííÿ äî ¨ ¨ âèêëèêó. Iíêîëè áóâ๠ïîòðiáíî, ùîá ôóíêöiÿ ìàëà ïî-
ái÷íèé åôåêò, âïëèâàþ÷è íà ïåâíó ãëîáàëüíó çìiííó. Äëÿ öüîãî ìîæ-
íà âèêîðèñòàòè глобальне привласнення <<-. Íåõàé, íàïðèêëàä, ïîòðiáíî
ïiäðàõóâàòè, ñêiëüêè ðàçiâ âiäáóâàâñÿ âèêëèê ôóíêöi¨ t.sum() ó ïðîãðà-
ìi. Äëÿ öüîãî ìîæíà çàâåñòè ãëîáàëüíó çìiííó n i ìîäèôiêóâàòè ôóíêöiþ
òàê:

n<-0
t.sum<-function(x,t=0){n<<-n+1;sum(x>t)}
t.sum(1:10)

## [1] 10

## [1] 1

t.sum(1:10)

## [1] 10

## [1] 2
2.7. Програмування у R 70

Ãëîáàëüíi ïðèâëàñíåííÿ ðåêîìåíäó¹òüñÿ âèêîðèñòîâóâàòè äóæå îáå-


ðåæíî, îñêiëüêè âîíè ìîæóòü çðîáèòè ëîãiêó âèêîíàííÿ ôóíêöi¨ íåçðî-
14
çóìiëîþ .
Íàñïðàâäi, ïðè âèêëèêó ôóíêöi¨, ç óñiõ ôàêòè÷íèõ ïàðàìåòðiâ ðîá-
ëÿòüñÿ êîïi¨ i ñàìå öi êîïi¨ ïiäñòàâëÿþòüñÿ ó ôóíêöiþ çàìiñòü ôîðìàëü-
íèõ ïàðàìåòðiâ. Òîìó, íàâiòü ÿêùî â òiëi ôóíêöi¨ äåÿêîìó ôîðìàëüíîìó
ïàðàìåòðó ïðèâëàñíþ¹òüñÿ íîâå çíà÷åííÿ, öå íå âïëèíå íà âiäïîâiäíèé
ôàêòè÷íèé ïàðàìåòð ó çîâíiøíié ïðîãðàìi:

my.sort<-function(x){x<-sort(x)}
z<-c(3,5,1)
y<-my.sort(z)
y

## [1] 1 3 5

## [1] 3 5 1

(Çìiííà z íå âiäñîðòóâàëàñü, õî÷à âîíà âèêîðèñòàíà ó âèêëèêó ôóíê-


öi¨, ÿêà ñîðòó¹ ñâié ôîðìàëüíèé ïàðàìåòð ó òiëi). Öåé ñïîñiá ïåðåäà÷i
15
ïàðàìåòðiâ за значенням à íå за назвою òàêîæ çàïîáiã๠íåáàæàíèì
ïîái÷íèì åôåêòàì. Âñþ iíôîðìàöiþ, ÿêó ïîòðiáíî áóäå âèêîðèñòîâóâàòè
ïiñëÿ âèêîíàííÿ âèêëèêó ôóíêöi¨ ñëiä çàïèñóâàòè ó ¨ ¨ çíà÷åííÿ.
Ó ñïèñêó ôîðìàëüíèõ ïàðàìåòðiâ ôóíêöi¨ ìîæíà âèêîðèñòîâóâàòè
ñèìâîë ...  òðèêðàïêà. Âií ïîçíà÷à¹, ùî ôóíêöiþ ìîæíà âèêëèêà-
òè ç äîâiëüíîþ êiëüêiñòþ ïàðàìåòðiâ. Ïàðàìåòðè, ùî ñòîÿòü íà ìiñöi
... ìîæíà âèêîðèñòîâóâàòè ó òiëi ôóíêöi¨ òàê ñàìî, ÿê iíøi, ¹äèíà ¨õ
âiäìiííiñòü ïîëÿã๠â òîìó, ùî âîíè íå ìàþòü iíäèâiäóàëüíèõ iìåí. Ó
íàñòóïíîìó ïðèêëàäi ñòâîðþ¹òüñÿ ôóíêöiÿ, ùî ì๠îäèí iìåíîâàíèé ïà-
ðàìåòðx òà ìîæå âèêëèêàòèñü iç äîâiëüíîþ êiëüêiñòþ iíøèõ ïàðàìåòðiâ.
Ïàðàìåòð x íå âèêîðèñòîâó¹òüñÿ, à âñi ïàðàìåòðè, ùî ïiäñòàâëÿþòüñÿ ó

14
Цi пояснення щодо локальних i глобальних змiнних є “вiрними у першому наближеннi”.
Бiльш детально логiка R у роботi з об’єктами з рiзних середовищ описана у роздiлi 8 [54].
15
При передачi параметра у функцiю за назвою функцiя використовує безпосередньо
той глобальний параметр, iм’я якого їй передається. Якщо функцiя його змiнює, то вiн
залишається змiненим i пiсля виклику функцiї.
2.7. Програмування у R 71

âèêëèêó íà ìiñöi ..., çáèðàþòüñÿ â îäèí ñïèñîê, ÿêèé i ¹ ðåçóëüòàòîì


âèêîíàííÿ ôóíêöi¨.

f<-function(x,...){list(...)}
z<-f(2,1:5,"aaa",T)
z

## [[1]]
## [1] 1 2 3 4 5
##
## [[2]]
## [1] "aaa"
##
## [[3]]
## [1] TRUE

z[1]

## [[1]]
## [1] 1 2 3 4 5

2.7.2 Векторизацiя функцiй


ßê ìè çíà¹ìî, áiëüøiñòü åëåìåíòàðíèõ ôóíêöié, òàêèõ, ÿê sin() ÷è
log(), ïðè çàñòîñóâàííi äî ìàñèâiâ âèêîíóþòüñÿ ïîåëåìåíòíî. Öþ âëà-
ñòèâiñòü óñïàäêîâóþòü i ôîðìóëè, ÿêi êîìáiíóþòüñÿ ç òàêèõ ôóíêöié:

sin(log(1:3))+cos(1:3)

## [1] 0.54030231 0.22281444 -0.09941545

Öÿ âëàñòèâiñòü ìîæå çáåðiãàòèñü i òîäi, êîëè ââåäåíî âëàñíó ôóíêöiþ.


Íàïðèêëàä, ôóíêöiÿ

f<-function(x){sin(log(x))+cos(x)}

îá÷èñëþ¹òüñÿ äëÿ âåêòîðíèõ x áåç ïîìèëêè:


2.7. Програмування у R 72

f(1:3)

## [1] 0.54030231 0.22281444 -0.09941545


Àëå ÿêùî ó òiëi ôóíêöi¨ çóñòði÷àþòüñÿ óìîâíi îïåðàòîðè àáî iíøi îïå-
ðàòîðè óïðàâëiííÿ, ìîæëèâiñòü ïîåëåìåíòíîãî âèêîíàííÿ âòðà÷à¹òüñÿ:

f<-function(x){if(x>0) 1 else 0 }
f(c(2,-1,0.5))

## [1] 1
Äëÿ òîãî, ùîá R çàñòîñîâóâàâ òàêi ôóíêöi¨ ïîåëåìåíòíî, ìîæíà âèêî-
ðèñòàòè òåõíiêó âåêòîðèçàöi¨:

fv<-Vectorize(f)
fv(c(2,-1,0.5))

## [1] 1 0 1
Ôóíêöiÿ Vectorize() ó öüîìó ïðèêëàäi ðîáèòü ç ôóíêöi¨ f ¨ ¨ âåêòîðè-
çîâàíèé âàðiàíò fv. ßêùî íå âåêòîðèçîâàíà ôóíêöiÿ f íå áóäå âèêîðèñòî-
âóâàòèñü ñàìà ïî ñîái, òî ¨ ¨ ìîæíà íå íàçèâàòè, à âèêëèêàòè Vectorize()
ç àíîíiìíîþ ôóíêöi¹þ:

fv<-Vectorize(function(x){if(x>0) 1 else 0 })

Öå äàñòü òîé æå ðåçóëüòàò, ùî i ïîïåðåäíié ïðèêëàä.


Ïðè âèêîðèñòàííi Vectorize() áåç äîäàòîêâèõ îïöié, ôóíêöiÿ âåêòî-
ðèçó¹òüñÿ ïî âñiõ àðãóìåíòàõ. Íàïðèêëàä:

g<-function(x,t){if(x>t) 1 else 0}
gv<-Vectorize(g)
gv(c(1,-1,2),0)

## [1] 1 0 1

gv(c(1,-1,2),c(0,1,4))

## [1] 1 0 0
2.7. Програмування у R 73

Òóò êîæåí åëåìåíò âåêòîðà x ïîðiâíþ¹òüñÿ ç âiäïîâiäíèì åëåìåíòîì


âåêòîðà t (ÿêùî öi âåêòîðè ðiçíî¨ äîâæèíè, êîðîòøèé âèêîðèñòîâó¹òüñÿ
öèêëi÷íî). Iíêîëè âèíèê๠ïîòðåáà ìàòè ôóíêöi¨, âåêòîðèçîâàíi ëèøå çà
êiëüêîìà ñâî¨ìè àðãóìåíòàìè i íå âåêòîðèçîâàíi çà iíøèìè. Íàïðèêëàä,
ÿêùî ìè õî÷åìî ìàòè ôóíêöiþ ifin(x,d), ÿêà ïåðåâiðÿ¹, ÷è íàëåæàòü
åëåìåíòè âåêòîðà x iíòåðâàëó d= (𝑑1 , 𝑑2 ), òî âåêòîð d òðåáà âèêîðèñòî-
âóâàòè ÿê ¹äèíèé îá'¹êò, à íå ïîåëåìåíòíî. Äëÿ öüîãî ìîæíà âêàçàòè ó
îïöi¨ vectorize.args ñïèñîê àðãóìåíòiâ, ïî ÿêèõ ïîòðiáíà âåêòîðèçàöiÿ:

ifin<-Vectorize(function(x,d){if(x>d[1]&x<d[2]) 1 else 0},


vectorize.args="x")
ifin(1:6,c(2,5))

## [1] 0 0 1 1 0 0

2.7.3 Структури управлiння виконанням програм у мовi R


Ó R ïîðiâíÿíî íåáàãàòî ìîâíèõ ñòðóêòóð, ÿêi çàáåçïå÷óþòü çìiíó ïî-
ðÿäêó âèêîíàííÿ êîìàíä ó ïðîãðàìi. Ìîâà ðîçðîáëåíà òàê, ùîá ìiíiìiçó-
âàòè ïîòðåáó ¨õ âèêîðèñòàííÿ. Íàïðèêëàä, òàì, äå ó iíøèõ ìîâàõ ïðîãðà-
ìiñò çìóøåíèé âèêîðèñòîâóâàòè öèêë for, ó R ÷àñòî ìîæíà ñêîðèñòàòèñü
âåêòîðíèìè âèðàçàìè. Ìîæëèâiñòü âèêîðèñòàííÿ ëîãi÷íèõ ìàñèâiâ ïðè
iíäåêñàöi¨ òà ïàðàìåòðiâ-îïöié çi çíà÷åííÿìè ïî óìîâ÷àííþ ïîìiòíî çâó-
æó¹ îáëàñòü çàñòîñóâàííÿ ñòðóêòóð óìîâíèõ ïåðåõîäiâ òèïó if...else.
Õîðîøèé ñòèëü ïðîãðàìóâàííÿ ó R ïîëÿã๠â òîìó, ùîá íå âèêîðèñòîâó-
âàòè ïîäiáíi ñòðóêòóðè òàì, äå ìîæíà îáiéòèñü iíøèìè.
Òèì íå ìåíøå, ó äåÿêèõ âèïàäêàõ ñàìå âèêîðèñòàííÿ öèõ ñòðóêòóð
ðîáèòü ïðîãðàìó åôåêòèâíîþ, à êîä  çðîçóìiëèì. Îïèøåìî öi ñòðóê-
òóðè ïîñëiäîâíî.

Умовне виконання: if
Ó R ¹ òðè âàðiàíòè ñòðóêòóð, ùî ðåàëiçóþòü êëàñè÷íèé óìîâíèé ïå-
ðåõiä:
if(умова)команда  ÿêùî умова iñòèíà, команда âèêîíó¹òüñÿ, iíàê-
øå  íå âèêîíó¹òüñÿ (òóò i äàëi команда ìîæå áóòè ñêëàäíîþ, òîáòî
ñêëàäàòèñü iç ïîñëiäîâíîñòi êîìàíä, îá'¹äíàíèõ ôiãóðíèìè äóæêàìè)
2.7. Програмування у R 74

 if(умова) команда1 else команда2  òóò команда1 âèêîíó¹òüñÿ,


ÿêùî умова iñòèíà, команда2 âèêîíó¹òüñÿ, ÿêùî умова  õèáíà.
 ifelse( умова,команда1,команда2)  ëîãiêà âèêîíàííÿ òàêà æ, ÿê
i ó ïîïåðåäíüîìó âàðiàíòi.
Íàïðèêëàä:

x<-1
y<-2
if(x<y) x else y

## [1] 1
(Ðåçóëüòàòîì âèêîíàííÿ if òóò áóäå ìåíøå ç ÷èñåë 𝑥 òà 𝑦 ).
Ó òðåòüîìó âàðiàíòi ifelse() ïðàöþ¹ ÿê ôóíêöiÿ, çîêðåìà, ïðè çà-
ñòîñóâàííi äî âåêòîðiâ, âîíà ä๠âåêòîðíi çíà÷åííÿ:

x<-c(-4,4)
sqrt(x)

## [1] NaN 2

sqrt(ifelse(x>0,x,NA))

## [1] NA 2
 óìîâàõ if òà iíøèõ ñòðóêòóð óïðàâëiííÿ ìîæíà âèêîðèñòîâóâàòè
ëîãi÷íi îïåðàöi¨ & (ëîãi÷íå i) òà | (ëîãi÷íå àáî). Ïðè âèçíà÷åííi ðåçóëü-
òàòó öèõ îïåðàöié ñïî÷àòêó îá÷èñëþ¹òüñÿ çíà÷åííÿ âèðàçiâ ëiâîðó÷ òà
ïðàâîðó÷ âiä çíàêó îïåðàöi¨, à ïîòiì âèêîíó¹òüñÿ ñàìà îïåðàöiÿ. Iíêî-
ëè ðåçóëüòàò îïåðàöi¨ ìîæíà âèçíà÷èòè ëèøå çà çíà÷åííÿì, ùî ñòî¨òü
ëiâîðó÷, íàïðèêëàä çíà÷åííÿ T|x çàâæäè T, ÿêèì áè íå áóâ x. ßêùî ó
òàêèõ ñèòóàöiÿõ âàì íå ïîòðiáíî îá÷èñëþâàòè âèðàç ïðàâîðó÷ âiä çíàêó
îïåðàöi¨, ìîæíà ñêîðèñòàòèñü îïåðàöiÿìè && òà ||:
> T|(sqrt(-5)>0)
Warning in sqrt(-5): NaNs produced
[1] TRUE
> T||(sqrt(-5)>0)
[1] TRUE
(Ó äðóãîìó âàðiàíòi íå áóëî ñïðîáè îá÷èñëèòè sqrt(-5)).
2.7. Програмування у R 75

2.7.4 Вибiр з кiлькох умов: switch


Ôóíêöiÿ switch() äîçâîëÿ¹ îáèðàòè îäèí ç áàãàòüîõ âàðiàíòiâ âèêî-
íàííÿ ïðîãðàìè â çàëåæíîñòi âiä çíà÷åííÿ äåÿêîãî âèðàçó. ˆ¨ ôîðìàò
switch(вираз-умова,список варiантiв)
ßê ïðèêëàä, ðîçãëÿíåìî çàñòîñóâàííÿ switch() ó ôóíêöi¨ f(), ùî
îá÷èñëþ¹ ñóìó àáî äîáóòîê åëåìåíòiâ âåêòîðà â çàëåæíîñòi âiä çíà÷åííÿ
ïàðàìåòðà type:

f <- function(x, type)


{
switch(type, add = sum(x), multiply = prod(x), NA)
}
f(1:4,type="add")

## [1] 10

f(1:4,type="multiply")

## [1] 24

f(1:4,type="x")

## [1] NA

Ó öüîìó ïðèêëàäi switch() îá÷èñëþ¹ çíà÷åííÿ âèðàçó type, çíàõî-


äèòü äàëi ó ñïèñêó ïàðàìåòðiâ òàêèé ïàðàìåòð, íàçâà ÿêîãî âiäïîâiäà¹
type, i îá÷èñëþ¹ âèðàç, ùî ñòî¨òü ïiñëÿ çíàêó = äëÿ öüîãî ïàðàìåòðó
(òîáòî çíà÷åííÿ öüîãî ïàðàìåòðó ïî óìîâ÷àííþ). Ðåçóëüòàò îá÷èñëåííÿ
¹ çíà÷åííÿì, ÿêå ä๠switch().
Îñòàííié åëåìåíò ó ñïèñêó ïàðàìåòðiâ switch ó öüîìó ïðèêëàäi (NA),
çàïèñàíèé áåç çíàêó =, çàä๠äi¨, êîòði áóäóòü âèêîíàíi, ÿêùî çíà÷åííÿ
âèðàçó-óìîâè íå äîðiâíþ¹ æäíîìó ç ïîïåðåäíiõ âàðiàíòiâ. ßêùî òàêîãî
îñòàííüîãî åëåìåíòà íåìà¹, æîäíi äi¨ íå âèêîíóþòüñÿ à çíà÷åííÿ switch
äîðiâíþ¹ NULL.
2.7. Програмування у R 76

2.7.5 Цикли while та repeat


R, ÿê i iíøi ìîâè ïðîãðàìóâàííÿ, âèêîðèñòîâó¹ öèêëè äëÿ îðãàíiçàöi¨
ñåðié ïîâòîðíèõ îá÷èñëåíü. Çàãàëüíèé ôîðìàò öèêëó while:
while(умова)команда
Ñïî÷àòêó ïåðåâiðÿ¹òüñÿ умова, i ÿêùî âîíà ä๠ðåçóëüòàò TRUE, âè-
êîíó¹òüñÿ команда. Öåé ïðîöåñ ïîâòîðþ¹òüñÿ öèêëi÷íî i çóïèíÿ¹òüñÿ ÿê
òiëüêè умова ïðèéìå çíà÷åííÿ FALSE
Ó íàñòóïíîìó ïðèêëàäi öåé öèêë âèêîðèñòàíî äëÿ íàáëèæåíîãî îá-
÷èñëåííÿ êîðåíÿ ðiâíÿííÿ 𝑥 = cos(𝑥) (eps  òî÷íiñòü îá÷èñëåíü):

x<-1
eps<-0.0000001
while(abs(x-cos(x))>eps)x<-cos(x)
x

## [1] 0.7390851

cos(x)

## [1] 0.7390852

Iíêîëè áóâ๠ïîòðiáíî ðîçìiñòèòè ïåðåâiðêó óìîâè íå íà ïî÷àòêó öèê-


ëó, à â êiíöi, àáî íàâiòü ïîñåðåäèíi. Äëÿ îðãàíiçàöi¨ òàêèõ öèêëiâ çðó÷íî
âèêîðèñòîâóâàòè ñòðóêòóðó repeat ç êîìàíäàìè break òà next.
Ôîðìàò êîìàíäè
repeat команда
äå команда  öå òiëî öèêëó, òîáòî ïîñëiäîâíiñòü êîìàíä, ÿêi ïîâèííi
âèêîíóâàòèñü öèêëi÷íî. Ùîá êîìï'òåð ìiã çóïèíèòèñü, âñåðåäèíi òiëà
öèêëó ïîâèííà áóòè êîìàíäà break, ÿêà ïåðåðèâ๠âèêîíàííÿ öèêëó i
ïåðåä๠óïðàâëiííÿ íà êîìàíäó, ùî éäå îäðàçó ïiñëÿ òiëà öèêëó.

x<-NULL
t<-100
i<-0
repeat
{
i<-i+1
if(i^2>t) break
2.7. Програмування у R 77

x<-c(x,i^2)
}
x

## [1] 1 4 9 16 25 36 49 64 81 100

(êâàäðàòè íàòóðàëüíèõ ÷èñåë äîäàþòüñÿ äî ñïèñêó äîòè, äîêè âîíè


íå ïåðåâèùóþòü ïîðiã t).
Êîìàíäà next âñåðåäèíi òiëà öèêëó ïåðåðèâ๠âèêîíàííÿ äàíîãî öèê-
ëó i ïåðåä๠óïðàâëiííÿ íà ïåðøó êîìàíäó òiëà.

2.7.6 Цикл for


Öèêë for âèêîðèñòîâó¹òüñÿ òîäi, êîëè îäíó i òó ñàìó äiþ ïîòðiáíî âè-
êîíàòè äëÿ ïåâíî¨ ïîñëiäîâíîñòi (âåêòîðà) iíäåêñiâ. Ôîðìàò âiäïîâiäíî¨
ñòðóêòóðè
for(iндекс in послiдовнiсть) команда
òóò iндекс  íàçâà çìiííî¨, ùî âèêîðèñòîâó¹òüñÿ äëÿ iíäåêñàöi¨ ó òiëi
öèêëó; послiдовнiсть  âåêòîð çíà÷åíü, ùî áóäóòü ïiäñòàâëåíi çàìiñòü
iíäåêñó ïðè âèêîíàííi öèêëó; команда  òiëî öèêëó, òîáòî êîìàíäà, àáî
íàáið êîìàíä, âìiùåíèõ ó ôiãóðíi äóæêè, ÿêèé áóäå âèêîíàíî äëÿ âñiõ
çíà÷åíü iíäåêñó.
Íàïðèêëàä, ÿêùî äëÿ âåêòîðà 𝑥 = (𝑥1 , . . . , 𝑥𝑛 ) ïîòðiáíî ïiäðàõóâàòè
âåêòîð ðiçíèöü 𝑦 = (𝑥2 − 𝑥1 , . . . , 𝑥𝑛 − 𝑥𝑛−1 ), öå ìîæíà çðîáèòè, âèêîðè-
ñòîâóþ÷è öèêë:

x<-(1:10)^2
y<-rep(NA,length(x)-1)
for(i in 1:(length(x)-1))y[i]<-x[i+1]-x[i]
x

## [1] 1 4 9 16 25 36 49 64 81 100

## [1] 3 5 7 9 11 13 15 17 19
2.7. Програмування у R 78

Âåêòîð çíà÷åíü, ïî ÿêèõ áóäå ïðîâîäèòèñü iòåðàöiÿ ó for íå


îáîâ'ÿçêîâî ì๠ñêëàäàòèñü ç öiëèõ ÷èñåë. Öå ìîæóòü áóòè, â ïðèíöè-
ïi, áóäü-ÿêi îá'¹êòè:

for(i in c("a","b","c"))cat(i)

## abc

(Ôóíêöiÿ cat() äðóêó¹ ñâî¨ àðãóìåíòè íà êîíñîëi).


Òèì, õòî çâèê ïðîãðàìóâàòè íà êëàñè÷íèõ ìîâàõ ïîäiáíèõ äî C, âàðòî
çâåðíóòè óâàãó íà iùå îäíó îñîáëèâiñòü öèêëó for ó R:

for(i in 1:3){
cat("before ",i)
i<-10
cat(" after ",i,"; ")
}

## before 1 after 10 ; before 2 after 10 ; before 3 after 10 ;

cat("end",i)

## end 10

Õî÷à çìiííà iòåðàöi¨ i çìiíþ¹òüñÿ âñåðåäèíi òiëà öèêëó, öå íå âïëèâà¹


íà çíà÷åííÿ, ÿêi ¨é ïðèâëàñíþþòüñÿ íà íàñòóïíié iòåðàöi¨.
Ïîòðåáà âèêîðèñòàííÿ öèêëiâ for ó R çíà÷íî ìåíøà, íiæ ó áiëüøî-
ñòi êëàñè÷íèõ ìîâ ïðîãðàìóâàííÿ, çàâäÿêè ìîæëèâîñòÿì çàñòîñóâàííÿ
âåêòîðíèõ ôóíêöié òà ãíó÷êié iíäåêñàöi¨ ìàñèâiâ. Òàê, ó ïîïåðåäíüîìó
ïðèêëàäi, âåêòîð ðiçíèöü ìîæíà ïiäðàõóâàòè ÿê

x[-1]-x[-length(x)]

## [1] 3 5 7 9 11 13 15 17 19

(Íàãàäà¹ìî, ùî âiä'¹ìíèé iíäåêñ íàêàçó¹ âèëó÷èòè âiäïîâiäíèé åëå-


ìåíò ç âåêòîðà: x[-1]  âåêòîð ç óñiõ åëåìåíòiâ x êðiì ïåðøîãî).
Õîðîøèé ñòèëü ïðîãðàìóâàííÿ ó R âèìàã๠íå âèêîðèñòîâóâàòè öèêëè
for, ÿêùî áåç íèõ ìîæíà îáiéòèñü.
2.8. Формули: y ˜ x 79

2.8 Формули: y ˜ x
Ó R ¹ ùå îäèí ñïåöèôi÷íèé êëàñ îá'¹êòiâ  ôîðìóëè. Çà äîïîìîãîþ
ôîðìóë êîðèñòóâà÷ ïîâiäîìëÿ¹ ñòàòèñòè÷íèì ôóíêöiÿì специфiкацю мо-
делi, íà îñíîâi ÿêî¨ áóäå ïðîâîäèòèñü îáðîáêà äàíèõ. Êîæíà ôóíêöiÿ
ìîæå ðîçóìiòè ôîðìóëó ïî ñâî¹ìó, òîìó äîêëàäíèé îïèñ âèêîðèñòàííÿ
ôîðìóë ìè âiäêëàäåìî äî âèâ÷åííÿ âiäïîâiäíèõ ôóíêöié. Òóò ñêàæåìî
ëèøå êiëüêà ñëiâ ïðî íàéáiëüø çàãàëüíi ¨õ ðèñè.
Çàçâè÷àé, ôîðìóëè âèêîðèñòîâóþòü òàì, äå ïðîâîäèòüñÿ äîñëiäæåí-
íÿ çàëåæíîñòi îäíi¹¨ çìiííî¨ âiä ÿêèõîñü iíøèõ. Çìiííà, çàëåæíiñòü ÿêî¨
äîñëiäæó¹òüñÿ çâåòüñÿ вiдгуком, àáî çàëåæíîþ çìiííîþ. Çìiííi, âiä ÿêèõ
ìîæå çàëåæàòè âiäãóê  регресорами, ïîÿñíþþ÷èìè àáî íåçàëåæíèìè
çìiííèìè.
Ó òåêñòi ïðîãðàìè ôîðìóëó ëåãêî ïîìiòèòè çàâäÿêè íàÿâíîñòi ñèìâî-
ëó ~, êîòðèé ìîæíà ÷èòàòè ÿê çàëåæèòü âiä. Çàãàëüíèé ôîðìàò çàïèñó
ôîðìóë:
вiдгук ~ опис моделi залежностi вiд регресорiв
Íàïðèêëàä, ÿêùî ¹ äâà âåêòîðè x i y îäíàêîâî¨ äîâæèíè 𝑛, i ìè õî-
÷åìî ãðàôi÷íî âèðàçèòè çàëåæíiñòü çíà÷åíü 𝑦 âiä 𝑥, íàìàëþâàâøè íà
êîîðäèíàòíié ïëîùèíi òî÷êè (𝑥𝑗 , 𝑦𝑗 ), 𝑗 = 1, . . . , 𝑛, öå ìîæíà çðîáèòè òàê:

x<-seq(-1,1,0.1)
y<-x^2
plot(y~x)

Òóò ìè ñïî÷àòêó âèçíà÷èëè x òà y, à ïîòiì âèêëèêàëè ôóíêöiþ ðèñó-


, ÿêié ïåðåäàëè ôîðìóëó: íàðèñóâàòè çàëåæíiñòü y âiä x. Ðåçóëü-
16
âàííÿ
òàò  íà ðèñ. 2.1.
Ñõîæîþ ¹ ëîãiêà âèêîðèñòàííÿ ôîðìóë ó ôóíêöi¨ boxplot(), ùî ðè-
ñó¹ ñêðèíüêè ç âóñàìè (äèâ. ï. 7.5), àëå òóò äîñëiäæó¹òüñÿ çàëåæíiñòü
âiäãóêà âiä äåÿêîãî ôàêòîðà, òîáòî çìiííà-ðåãðåñîð ìîæå ïðèéìàòè ëèøå
çíà÷åííÿ ç äåÿêîãî ñêií÷åííîãî íàáîðó.
Äëÿ ðåàëiçàöi¨ òåõíiêè ëiíiéíîãî ðåãðåñiéíîãî àíàëiçó â R âèêîðèñòî-
âó¹òüñÿ ôóíêöiÿ lm() (äèâ. ï. 10.2). Ôîðìóëè äîçâîëÿþòü çðó÷íî çàäà-
âàòè ìîäåëü ðåãðåñi¨ äëÿ öi¹¨ ôóíêöi¨. Íàïðèêëàä, ôîðìóëà

16
Див. п. 3.2.
2.8. Формули: y ˜ x 80

1.0
0.8
0.6
y

0.4
0.2
0.0

−1.0 −0.5 0.0 0.5 1.0

Рис. 2.1. Залежнiсть y вiд х

y~x+u+v
âiäïîâiä๠ðåãðåñiéíié ìîäåëi

𝑦 𝑗 = 𝑏0 + 𝑏 1 𝑥 𝑗 + 𝑏2 𝑢 𝑗 + 𝑏3 𝑣 𝑗 + 𝜀 𝑗 ,
äå 𝑏𝑖 , 𝑖 = 0, . . . , 3  íåâiäîìi êîåôiöi¹íòè ðåãðåñi¨, ÿêi ôóíêöiÿ lm() áóäå
ïiäãàíÿòè çà ìåòîäîì íàéìåíøèõ êâàäðàòiâ, 𝜀𝑗  ïîõèáêè ðåãðåñi¨.
Òàêèì ÷èíîì, ó ðîçãëÿíóòèõ ïðèêëàäàõ ôîðìóëà íå ¹ ÿâíèì çàïèñîì
ôîðìè çàëåæíîñòi, à ëèøå ïîÿñíþ¹, äå âçÿòè âiäãóê, à äå  ðåãðåñîðè.
À îò ïðè ïiäãîíöi íåëiíiéíî¨ ðåãðåñi¨ çà äîïîìîãîþ ôóíêöi¨ nls() , ó
17

ôîðìóëi ïîòðiáíî áåçïîñåðåäíüî çàïèñàòè òó ôóíêöiþ, ÿêó ïiäãàíÿþòü:


y~C*exp(a*x)
áóäå ôîðìóëîþ äëÿ ïiäãîíêè íåëiíiéíî¨ ðåãðåñiéíî¨ ìîäåëi

𝑦𝑗 = 𝐶 exp(𝑎 * 𝑥𝑗 ) + 𝜀𝑗 ,

ïðè÷îìó 𝐶 i 𝑎 áóäóòü ââàæàòèñü íåâiäîìèìè êîåôiöi¹íòàìè, ÿêi ïîòðiáíî


ïiäiãíàòè, ÿêùî íà ìîìåíò âèêëèêó ôóíêöi¨ nls(y~C*exp(a*x)) îá'¹êòè
C i a íå áóëè âèçíà÷åíi. (Çâè÷àéíî, x òà y ìàþòü áóòè âèçíà÷åíèìè âåê-
òîðàìè îäíàêîâî¨ äîâæèíè äëÿ òîãî, ùîá ïiäãîíêó ìîæíà áóëî çðîáèòè).
Òàêèì ÷èíîì, çàïèñóþ÷è ôîðìóëó òðåáà çàâæäè âðàõîâóâàòè, ÿêà
ñàìå ôóíêöiÿ áóäå ¨ ¨ âèêîðèñòîâóâàòè.

17
Див. п. 10.5.
Роздiл 3

Базова графiка в R

Öåé ðîçäië ïðèñâÿ÷åíèé îñíîâíèì çàñîáàì ãðàôi÷íîãî âiäîáðàæåííÿ


äàíèõ â R, ÿêi äàëi áóäóòü âèêîðèñòîâóâàòèñü ó äàíié êíèæöi. R ì๠íàä-
çâè÷àéíî ðîçâèíåíó ãðàôiêó ç ÿêî¨ òóò îïèñàíà ëèøå äóæå ìàëà ÷àñòèíà.
Ìè ïîçíàéîìèìîñü ç áàçîâèìè ôóíêöiÿìè, ùî äîçâîëÿþòü ðèñóâàòè òî÷-
êè i ëiíi¨ íà ïëîùèíi, âiäîáðàæàòè òðèâèìiðíi ãðàôiêè, ðîáèòè íàïèñè
íà ðèñóíêàõ.
Êðiì òîãî ðîçãëÿäàþòüñÿ ñòîâïöåâi òà êðóãîâi äiàãðàìè, ùî ¹ äóæå
ïîøèðåíèì çàñîáîì âiäîáðàæåííÿ ñòàòèñòè÷íèõ äàíèõ.
Îêðåìî ìè ðîçãëÿíåìî ïèòàííÿ ïðî âiäîáðàæåííÿ ñòàòèñòè÷íî¨ ií-
ôîðìàöi¨ íà ãåîãðàôi÷íié êàðòi i íà ïðèêëàäi ïîáà÷èìî, ÿê òàêå âiäîáðà-
æåííÿ äîçâîëÿ¹ ïîìi÷àòè îñîáëèâîñòi ó äàíèõ i âèñóâàòè ãiïîòåçè ùîäî
¨õ ïðèðîäè.
Áiëüø ñïåöèôi÷íi ãðàôi÷íi çàñîáè, ÿêi äîçâîëÿþòü àíàëiçóâàòè ðîç-
ïîäië îäíîâèìiðíèõ äàíèõ, ðîçãëÿäàþòüñÿ äàëi ó ðîçäiëi 7. Âiçóàëiçàöiÿ
çàëåæíîñòåé ìiæ ðiçíèìè çìiííèìè, ùî îïèñóþòü ñïîñòåðåæåííÿ ðîçã-
ëÿíóòà ï. 5.

3.1 Стовпцевi та круговi дiаграми


Îäèí ç íàéáiëüø ïîïóëÿðíèõ ñïîñîáiâ âiäîáðàæåííÿ íå äóæå âåëèêèõ
íàáîðiâ ÷èñåë  äiàãðàìè, íà ÿêèõ êîæíîìó ÷èñëó âiäïîâiä๠îäèí ñòîâï-
÷èê. Àíãëiéñüêîþ ìîâîþ òàêi ðèñóíêè çâóòü barplot àáî barchart. Äëÿ ¨õ
âiäîáðàæåííÿ ìîæíà âèêîðèñòîâóâàòè ôóíêöiþ barplot(). Íàïðèêëàä,
ó íàáîði äàíèõ ldeaths âìiùåíi ùîìiñÿ÷íi äàíi ïðî êiëüêîñòi ñìåðòåé

81
3.1. Стовпцевi та круговi дiаграми 82

(a) (b)
3000

12
11
2500

10
9
2000

8
7
1500

6
5
1000

4
3
500

2
1
0

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 0 500 1000 1500 2000 2500 3000

Рис. 3.1. Стовпцева дiаграма загальної смертностi

ó Âåëèêié Áðèòàíi¨ âiä áðîíõiòiâ, àñòìè òà åìôiçåìè ëåãåíiâ. Ïåðøi 12


åëåìåíòiâ íàáîðó âiäíîñÿòüñÿ äî 1974 ðîêó. Çîáðàçèìî ¨õ íà ñòîâïöåâié
äiàãðàìi:

barplot(ldeaths[1:12],names.arg =month.abb,main="(a)")
barplot(ldeaths[1:12],names.arg =1:12,
horiz=T,col=2:4,main="(b)")

Ðåçóëüòàòè âèêîíàííÿ âiäîáðàæåíi íà ðèñ. 3.1 (a)  ïåðøèé âèêëèê


barplot(), (b)  äðóãèé.
Ïåðøèé ïàðàìåòð ôóíêöi¨ barplot(), height çàä๠âèñîòè ñòîâï÷è-
êiâ, ÿêùî ñòîâï÷èêè âåðòèêàëüíi, ÿê íà ðèñóíêó (à) àáî äîâæèíè  êîëè
ñòîâï÷èêè ãîðèçîíòàëüíi, ÿê íà (b). Âèáið îði¹íòàöi¨ ñòîâï÷èêiâ çàä๠ïà-
ðàìåòð horiz (T  ãîðèçîíòàëüíi, F  âåðòèêàëüíi). Ïàðàìåòð col çàäà¹
êîëið ñòîâï÷èêà, names.arg  íàçâè, ÿêi áóäóòü ïiäïèñàíi ïiä ñòîâï÷è-
êàìè. (Ó ïåðøîìó ïðèêëàäi öi íàçâè âçÿòi ç ìàñèâó month.abb, ÿêèé
ìiñòèòü ñêîðî÷åíi iìåíà ìiñÿöiâ).
Ïàðàìåòð main çàä๠çàãîëîâîê, ùî âèâîäèòüñÿ íàä ðèñóíêîì. Ìîæíà
òàêîæ çàäàòè òåêñò ïiäïèñó ïiä ðèñóíêîì  âèêîðèñòîâóþ÷è ïàðàìåòð
sub.
Ïàðàìåòð height ìîæíà çàäàòè ÿê ìàòðèöþ. Öå ä๠ìîæëèâiñòü
ïîðiâíþâàòè ðiçíi íàáîðè äàíèõ íà îäíié äiàãðàìi. Íàïðèêëàä, ó íàáîðàõ
mdeaths i fdeaths çíàõîäÿòüñÿ äàíi ïðî ñìåðòíiñòü îêðåìî ÷îëîâiêiâ òà
3.1. Стовпцевi та круговi дiаграми 83

(a) (b)
3000

2000
male
female
2500

female

1500
male
2000
1500

1000
1000

500
500
0

0
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

Рис. 3.2. Стовпцева дiаграма смертностi чоловiкiв та жiнок

æiíîê. Çáåðåìî öi äàíi â îäíó ìàòðèöþ i âèâåäåìî:

h<-rbind(fdeaths[1:12],mdeaths[1:12])
rownames(h)<-c("female","male")
colnames(h)<-month.abb
barplot(h,main="(a)",
legend.text=T,args.legend = list(x = "top"),
col=c(2,3))
barplot(h,main="(b)",legend.text=T,
args.legend = list(x = "topright",inset=0.2),
col=c(2,3),beside=T)

Ðåçóëüòàòè âèêîíàííÿ âiäîáðàæåíi íà ðèñ. 3.2 (a)  ïåðøèé âèêëèê


barplot(), (b)  äðóãèé.
Òóò ïåðøèé ðÿäî÷îê ìàòðèöi âiäïîâiä๠æiíî÷ié ñìåðòíîñòi ïî ìiñÿ-
öÿõ, äðóãèé - ÷îëîâi÷ié. Ìè íàäàëè öèì ðÿäî÷êàì iìåíà female i male,
à ñòîâï÷èêè ìàòðèöi äàíèõ íàçâàëè ñêîðî÷åíèìè iìåíàìè ìiñÿöiâ. Ó
âàðiàíòi (a) ñòîâï÷èêè íà äiàãðàìi, ùî âiäïîâiäàþòü ÷îëîâiêàì, âèâåäåíi
ÿê ïðîäîâæåííÿ ñòîâï÷èêiâ äëÿ æiíîê. Öå çðó÷íî òèì, ùî îäðàçó ìîæíà
ïîðiâíþâàòè ñóìàðíi ñìåðòíîñòi ÷îëîâiêiâ òà æiíîê ïðîòÿãîì ðiçíèõ ìi-
ñÿöiâ. Ó âàðiàíòi (b) ñòîâï÷èêè ÷îëîâiêiâ òà æiíîê âèâîäÿòüñÿ ïîðó÷, òàê
çðó÷íiøå ïîðiâíþâàòè ¨õ ìiæ ñîáîþ. Âèáið ç öèõ âàðiàíòiâ âiäîáðàæåííÿ
ðîáèòü ïàðàìåòð beside.
3.1. Стовпцевi та круговi дiаграми 84

Ùîá ïîÿñíèòè ÷èòà÷ó, äå íà äiàãðàìi âèâîäèòüñÿ ÿêèé ðÿäîê ìàòðèöi,


ìîæíà âiäîáðàçèòè ïîÿñíåííÿ (ëåãåíäó). Òåêñò ïîÿñíåííÿ âêàçó¹òüñÿ ó
ïàðàìåòði legend.text. legend.text=T, òî äëÿ ïî-
ßêùî ïðîñòî çàäàòè
ÿñíåííÿ áóäóòü âèêîðèñòàíi íàçâè ðÿäî÷êiâ ìàòðèöi height, ÿê öå çðîáëå-
íî ó íàøîìó âèïàäêó. Äëÿ ðèñóíêó (à) ìè çàäàëè ïîëîæåííÿ ëåãåíäè íà
ðèñóíêó, çàäàâøè êîíñòðóêöiþ ç îïöié args.legend = list(x = "top"),
ÿêà âêàçó¹, ùî ëåãåíäà ì๠áóòè âãîði. Ìîæëèâi âàðiàíòè "bottomright",
"bottom", "topleft "center" òà àíàëîãi÷íi. Äëÿ ðèñóíêó (b) âiäñòàíü âiä
ñåðåäèíè ëåãåíäè äî ïðàâîãî ïîëÿ ðèñóíêó çàäàíî îïöi¹þ inset.
Ó ôóíêöi¨ barplot() ¹ áàãàòî iíøèõ îïöié, çîêðåìà ïàðàìåòðè
density, angle, border ðåãóëþþòü øòðèõîâêó ñòîâï÷èêiâ òà ðèñóâàííÿ
êîíòóðó àíàëîãi÷íî òîìó, ÿê öå ðîáèòüñÿ ó ôóíêöi¨ ðèñóâàííÿ ïðÿìî-
êóòíèêiâ rect(). Îïöi¨, ùî êåðóþòü ðèñóâàííÿì îñåé êîîðäèíàò: axes,
xlab, ylab òà ðîçìiðîì ðèñóíêó: xlim, ylim àíàëîãi÷íi âiäïîâiäíèì îï-
öiÿì ôóíêöi¨ plot() (äèâ. ïiäðîçäië 3.2).
Ëîãi÷íà îïöiÿ add âêàçó¹: òðåáà âiäêðèâàòè íîâå âiêíî äëÿ ðèñóâàííÿ
äiàãðàìè (add=F), ÷è äiàãðàìà âiäîáðàæà¹òüñÿ ó âæå âiäêðèòîìó âiêíi
äîïîâíþþ÷è iñíóþ÷èé ðèñóíîê (add=T).
Iíêîëè äëÿ âiäîáðàæåííÿ äàíèõ âèêîðèñòîâóþòü íå ñòîâïöåâi, à êðó-
ãîâi äiàãðàìè. Iäåÿ ïîëÿã๠â òîìó, ùîá çîáðàçèòè ÷àñòêè ñïiëüíîãî ïè-
ðîãà, ÿêi äiñòàëèñü ðiçíèì ¨äîêàì. Âiäïîâiäíî àíãëiéñüêà íàçâà òàêèõ
äiàãðàì  pie charts. Íàïðèêëàä, çà äàíèìè ïåðåïèñó 1939 ðîêó ó Êè¹âi
ïðîæèâàëî
óêðà¨íöiâ  450 556,
¹âðå¨â  224 236,
ðîñiÿí  139 495,
ëþäåé iíøèõ íàöiîíàëüíîñòåé  27991.
Êðóãîâó äiàãðàìó äëÿ öèõ äàíèõ ìîæíà çîáðàçèòè òàê:

population<-c(450556,224236,139495,27991)
names(population)<-c("Ukrainian", "Jews","Russian","others")
pie(population)

Ðåçóëüòàò  íà ðèñ. 3.3.


Êðóãîâi äiàãðàìè ââàæàþòüñÿ ìåíø âiçóàëüíî ñïðèéíÿòíèìè, íiæ ðè-
ñóíêè, ñêëàäåíi çi ñòîâï÷èêiâ, òîìó ó ñåðéîçíèõ äîñëiäæåííÿõ ÿê îêðå-
ìèé çàñiá ãðàôi÷íîãî âiäîáðàæåííÿ çàñòîñîâóþòüñÿ íå ÷àñòî. ßê ïðàâè-
ëî, ñòîâïöåâi äiàãðàìè âèêîðèñòîâóâàòè äîöiëüíiøå. Àëå êðóãîâi äiàãðà-
3.2. Точки та лiнiї на площинi 85

Ukrainian

others

Russian

Jews

Рис. 3.3. Нацiональний склад населення Києва у 1939р.

ìè çàâäÿêè ñâî¨é êîìïàêòíîñòi ìîæóòü áóòè çðó÷íèìè äëÿ ïîðiâíÿííÿ


âåëèêî¨ êiëüêîñòi íàáîðiâ äàíèõ, íàïðèêëàä, ïðè âiäîáðàæåííi íà ãåîãðà-
ôi÷íié êàðòi ñêëàäó íàñåëåííÿ ðiçíèõ ìiñò êðà¨íè, òîùî.

3.2 Точки та лiнiї на площинi


Ó R äëÿ ãðàôi÷íîãî âiäîáðàæåííÿ îá'¹êòiâ ÷àñòî âèêîðèñòîâó¹òüñÿ
ôóíêöiÿ plot(). Öÿ ôóíêöiÿ ¹ ðîäîâîþ (generic function), òîáòî âîíà
ïðàöþ¹ ïî-ðiçíîìó äëÿ ðiçíèõ êëàñiâ îá'¹êòiâ. Çàðàç ðîçãëÿíåìî ïðîñòiøå
çàñòîñóâàííÿ plot() ó âèïàäêó, êîëè òðåáà âiäîáðàçèòè ÿêi-íåáóäü òî÷êè
àáî ëiíi¨ íà ïëîùèíi. Ó òàêîìó âèïàäêó êîîðäèíàòè òî÷îê ìîæíà çàäàòè
ó âèãëÿäi âåêòîðíèõ ïàðàìåòðiâ ôóíêöi¨:

x<-sin(1:20)
y<-cos(1:20)
plot(x,y)

Ðåçóëüòàò âèêîíàííÿ öi¹¨ ôóíêöi¨  çîáðàæåííÿ íà êîîðäèíàòíié ïëî-


ùèíi íàáîðó òî÷îê, ó ÿêèõ ãîðèçîíòàëüíi êîîðäèíàòè âçÿòi ç âåêòîðà x,
à âåðòèêàëüíi  ç y (ðèñ. 3.4). Çðîçóìiëî, ùî äëÿ íîðìàëüíî¨ ðîáîòè
ôóíêöi¨ öi âåêòîðè ïîâèííi ìàòè îäíàêîâó äîâæèíó.
Ôóíêöiÿ plot() ñïî÷àòêó ñòâîðþ¹ íîâå âiêíî âèâîäó, à ïîòiì âèâî-
äèòü ó íüîãî îá'¹êòè (ó íàøîìó âèïàäêó  òî÷êè). ßêùî òðåáà äîäàòè
3.2. Точки та лiнiї на площинi 86

1.0
0.5
0.0
y

−0.5
−1.0

−1.0 −0.5 0.0 0.5 1.0

Рис. 3.4. Набiр точок, виведений функцiєю plot()

íîâi îá'¹êòè íà ñòàðîìó ðèñóíêó, çàìiñòü plot() êðàùå âèêîðèñòàòè iíøó


ôóíêöiþ , íàïðèêëàä  points(x,y,...) àáî lines(x,y,...).
1

x<--4:4
y<-x^2
plot(x,y,pch=2)
x1<-c(-1,1)
y1<-c(10,10)
points(x1,y1,pch=3)

Íà ðèñ. 3.5 ëiâîðó÷  ðåçóëüòàò, ùî áóäå âiäîáðàæåíèé ïiñëÿ âèêîíàí-


íÿ plot(x,y,pch=2), ïðàâîðó÷  ÿê çìiíèòüñÿ ðèñóíîê ïiñëÿ äîäàâàííÿ
òî÷îê points(x1,y1,pch=3).
Îïöiÿ pch çàä๠ñèìâîë, ÿêèì áóäóòü âiäîáðàæàòèñü òî÷êè íà ðèñóí-
êó.
ßêùî äî ðèñóíêà òðåáà äîäàòè ëiíi¨, ìîæíà ñêîðèñòàòèñü ôóíêöi¹þ
lines(x,y,...).
Ôóíêöiÿ plot() ì๠áàãàòî îïöié, ÿêi äîçâîëÿþòü îáèðàòè ôîðìàò
âiäîáðàæåííÿ ðèñóíêà. Ïåðåëi÷èìî íàéáiëüø âæèâàíi.
axes  ëîãi÷íà, ÿêùî T  îñi êîîðäèíàò âiäîáðàæàþòüñÿ, ÿêùî F 
íi.

Або скористатись функцiєю plot(), але перед цим встановити параметр вiдображення
1

new=T за допомогою функцiї par(). Наприклад: par(new=T);plot(x,y).


3.2. Точки та лiнiї на площинi 87

15

15
10

10
y

y
5

5
0

0
−4 −2 0 2 4 −4 −2 0 2 4

x x

Рис. 3.5. Додали точки, використовуючи points()

xlab, ylab  ñèìâîëüíi, çàäàþòü òåêñò, ÿêèì áóäóòü ïiäïèñàíi êîîð-


äèíàòíi îñi.
sub  çàä๠ïiäïèñ çíèçó ïiä ðèñóíêîì;
main  çàä๠çàãîëîâîê íàä ðèñóíêîì.
xlim, ylim  çàäàþòü ìåæi äëÿ çíà÷åíü ïî ãîðèçîíòàëüíié òà âåðòè-
êàëüíié îñÿõ.
asp  aspect ratio  ñïiââiäíîøåííÿ ìàñøòàáíèõ îäèíèöü ïî âåð-
òèêàëi òà ãîðèçîíòàëi. ßêùî íå çàäàâàòè öþ îïöiþ, òî ìàñøòàá ïî âåð-
òèêàëi òà ãîðèçîíòàëi áóäå çàäàâàòèñü íåçàëåæíî, âèõîäÿ÷è iç çðó÷íîñòi
ðîçìiùåííÿ ðèñóíêà. ßêùî çàäàòè asp=1, ìàñøòàáíi îäèíèöi ïî îáîõ îñÿõ
ìàòèìóòü îäíàêîâó äîâæèíó.
log  âêàçó¹, ïî ÿêié îñi âèáðàòè ëîãàðèôìi÷íèé ìàñøòàá, íàïðè-
êëàä, log="y" çàä๠ëîãàðèôìi÷íèé ìàñøòàá ïî âåðòèêàëi, log="xy" 
ïî îáîõ îñÿõ.
Íàñòóïíi îïöi¨ ìîæíà âèêîðèñòîâóâàòè ÿê ó plot(), òàê i ó points(),
lines() òà ðÿäi iíøèõ ãðàôi÷íèõ ôóíêöié.
type  òèï òî÷îê/ëiíié. Öÿ îïöiÿ ìîæå íàáóâàòè çíà÷åíü:
"p"  âiäîáðàæàòè ëèøå òî÷êè;
"l"  âiäîáðàæàòè ëèøå ïðÿìi ëiíi¨, ùî ç'¹äíóþòü çàäàíi òî÷êè;
"b"  âiäîáðàæàòè i òî÷êè, i ëiíi¨, ïðè÷îìó ëiíi¨ òîðêàþòüñÿ òî÷îê;
"o"  âiäîáðàæàòè ëiíi¨, ùî ïåðåêðèâàþòü òî÷êè;
"s", "S"  ç'¹äíàòè òî÷êè ñòóïií÷àñòèìè ëiíiÿìè, ("s"  ñòðèáîê
ëiâîðó÷, "S"  ïðàâîðó÷);
3.2. Точки та лiнiї на площинi 88

"h"  âiäîáðàæàþòüñÿ âåðòèêàëüíi âiäðiçêè, ùî ç'¹äíóþòü çàäàíi òî÷-


êè ç âiññþ àáñöèñ.
"n"  íà ðèñóíêó áóäå âiäîáðàæåíà êîîðäèíàòíà ïëîùèíà, ó ÿêié âìi-
ùóþòüñÿ âñi çàäàíi òî÷êè, àëå àíi ñàìi òî÷êè, àíi ëiíi¨, ùî ¨õ ç'¹äíóþòü,
íå âiäîáðàæàþòüñÿ. (Öÿ îïöiÿ âèêîðèñòîâó¹òüñÿ äëÿ òîãî, ùîá ïiäãîòó-
âàòè ìiñöå íà ÿêîìó ðèñóíîê áóäå âiäîáðàæåíèé iíøèìè ôóíêöiÿìè).
col  êîëið àáî êîëüîðè, ÿêèì áóäóòü âiäîáðàæàòèñü îá'¹êòè (öå ìî-
æå áóòè ÷èñëîâèé âåêòîð, àáî êîëüîðè ìîæíà çàäàâàòè ¨õ àíãëiéñüêèìè
íàçâàìè "red", "blue", òîùî).
pch  ñèìâîë, ÿêèì âiäîáðàæàþòüñÿ òî÷êè.
cex  êîíòðîëþ¹ ðîçìið ñèìâîëiâ.
lwd  êîíòðîëþ¹ øèðèíó ëiíié (ñòàíäàðòíié øèðièíi âiäïîâiäà¹
lwd=1).
lty  òèï ëiíi¨. Ìîæå áóòè "solid", "dashed", "dotted", "dotdash",
"longdash" àáî "twodash". Ìîæíà òàêîæ çàäàòè ïîñëiäîâíiñòþ ñèìâîëiâ
âiä 1 äî 9 òà âiä A äî F, ÿêi ïîçíà÷àþòü äîâæèíó øòðèõà òà iíòåðâà-
ëó ìiæ øòðèõàìè ó øiñòíàäöÿòêîâié ñèñòåìi ÷èñëåííÿ: lty="2F" çàäà¹
øòðèõîâó ëiíiþ ç äîâæèíîþ øòðèõà 2 òà iíòåðâàëîì ìiæ øòðèõàìè 15.
Íàïðèêëàä, òàêèé ñêðèïò:

plot(1,1,xlim=c(1,16),ylim=c(-1.5,5),type="n",xlab="",ylab="",
xaxt="n",yaxt="n")
points(seq(1,15,2),rep(4,8),cex=1:8,col=1:8,pch=0:7)
text(seq(1,15,2),rep(2,8),labels=paste(0:7),cex=1:8,col=1:8)
points(seq(1,15,2),rep(0,8),pch=8:15,cex=2)
text(seq(1,15,2)+0.7,rep(0,8),labels=paste(8:15),cex=1.5)
points(seq(1,15,2),rep(-1,8),pch=16:23,cex=2)
text(seq(1,15,2)+0.7,rep(-1,8),labels=paste(16:23),cex=1.5)

âiäîáðàæ๠ñèìâîëè, ïðåäñòàâëåíi íà ðèñ. 3.6.


Äëÿ òîãî, ùîá âiäîáðàæàòè íà ðèñóíêàõ íàïèñè ó çàäàíèõ òî÷êàõ,
âèêîðèñòîâó¹òüñÿ ôóíêöiÿ text(x,y,labels,...). Òóò âåêòîðè x òà y
çàäàþòü êîîðäèíàòè òî÷îê, äå ðîçìiùó¹òüñÿ òåêñò, labels  âåêòîð ñèì-
âîëüíèõ ðÿäêiâ, ÿêi áóäóòü âèâîäèòèñü ó çàäàíèõ òî÷êàõ.
Äëÿ öi¹¨ ôóíêöi¨ îïöiÿ pos âêàçó¹, ÿê ðîçìiùó¹òüñÿ òåêñò ïî âiäíî-
øåííþ äî çàäàíî¨ òî÷êè (1  ïiä òî÷êîþ, 2  ëiâîðó÷, 3  íàä, 4 
ïðàâîðó÷). ofset çàä๠çìiùåííÿ òåêñòó ïî âiäíîøåííþ äî òî÷êè.
3.2. Точки та лiнiї на площинi 89

0 1 2 3 4 5 67
8 9 10 11 12 13 14 15

16 17 18 19 20 21 22 23

Рис. 3.6. Символи розмiри та кольори

Îïöi¨ cex òà col çàäàþòü ðîçìið ñèìâîëiâ òà ¨õ êîëið ó text() òàê


ñàìî, ÿê ó ôóíêöi¨ plot().
Iíêîëè áóâ๠òðåáà âiäîáðàçèòè îäðàçó êiëüêà íàáîðiâ òî÷îê, çàäàíèõ
ñâî¨ìè êîîðäèíàòàìè, ùî çàïèñàíi ó ñòîâï÷èêàõ äåÿêî¨ ìàòðèöi. Öå ìîæ-
íà çðîáèòè âèêëèêàþ÷è ôóíêöiþ points() ó öèêëi, îêðåìî äëÿ êîæíîãî
ñòîâï÷èêà. Àëå çðó÷íiøå ñêîðèñòàòèñü ôóíêöi¹þ matplot(), ðîáîòó ÿêî¨
äåìîíñòðó¹ íàñòóïíèé ïðèêëàä:

x <- seq(-3,3,0.1)
y1 <- 0.3*x^2
y2 <- 1.5*cos(x) + 1
y3<- -x
matplot(x, cbind(y1,y2,y3), type="l",
col=c("red","brown","blue"),
lty=c("solid","dashed","dotdash"),ylab="y")
legend("bottomleft", inset=.05, legend=c("y1", "y2","y3"),
col=c("red","brown","blue"),
lty=c("solid","dashed","dotdash"))
3.2. Точки та лiнiї на площинi 90

3
2
1
0
y

−1
−2

y1
y2
y3
−3

−3 −2 −1 0 1 2 3

Рис. 3.7. Лiнiї, виведенi функцiєю matplot()

Ðåçóëüòàò âèêîíàííÿ öüîãî ñêðèïòó  íà ðèñ. 3.7.


Ó öüîìó ñêðèïòi ìè ñïî÷àòêó ñòâîðèëè íàáið êîîðäèíàò ïî ãîðèçîí-
òàëi  x à ïîòiì ïiäðàõóâàëè çíà÷åííÿ òðüîõ ôóíêöié y1, y2, y3 äëÿ öèõ
çíà÷åíü x. Äàëi ãðàôiêè öèõ ôóíêöié âèâîäÿòüñÿ ôóíêöi¹þ matplot().
Ïåðøi äâà ïàðàìåòðè öi¹¨ ôóíêöi¨  ìàòðèöi, ñòîâï÷èêè ÿêèõ ìiñòÿòü
êîîðäèíàòè òî÷îê ïî ãîðèçîíòàëi i ïî âåðòèêàëi. Iíøi ïàðàìåòðè-îïöi¨
ìàþòü òå æ çíà÷åííÿ, ùî i ó ôóíêöi¨ plot().
Äàëi ìè âèêîðèñòàëè ôóíêöiþ legend() ùîá âiäîáðàçèòè òàáëè÷êó
(ëåãåíäó) ç ïîÿñíåííÿì òîãî, ÿêi êîëüîðè i òèïè ëiíié íà ãðàôiêó âiäïî-
âiäàþòü êîæíié ç ôóíêöié y1, y2, y3. Ïåðøèé ïàðàìåòð çàä๠ïîëîæåííÿ
ëåãåíäè (ó ëiâîìó íèæíüîìó êóòêó), inset âêàçó¹, íàñêiëüêè òðåáà âiä-
ñóíóòè ëåãåíäó âiä ðàìêè, ùî îòî÷ó¹ ðèñóíîê. Ïàðàìåòð legend çàäà¹
òåêñò ëåãåíäè, iíøi ïàðàìåòðè  òi æ, ùî ó ôóíêöi¨ matplot().
Ôóíêöiÿ segments(x0,y0,x1,y1) ðèñó¹ íàáið âiäðiçêiâ. Ó âåêòîðàõ
x0, y0 çíàõîäÿòüñÿ x i y êîîðäèíàòè òî÷îê-ïî÷àòêiâ âiäðiçêiâ, ó x1, y1
 òî÷îê-êiíöiâ.
Àíàëîãi÷íî, ôóíêöiÿ arrows(x0,y0,x1,y1,length,angle) ðèñó¹ ñòðië-
êè, lenght çàä๠äîâæèíó íàêîíå÷íèêà ñòðiëè, angle  ãîñòðîòó êóòà
íàêîíå÷íèêà.
Ôóíêöiÿ
rect(xleft, ybottom, xright, ytop, density = NULL,
border = angle = 45,col = NA,NULL,...)
ðèñó¹ ïðÿìîêóòíèêè, êîîðäèíàòè ëiâèõ íèæíiõ êóòiâ áåðóòüñÿ ç
3.2. Точки та лiнiї на площинi 91

10

e
8

c
6
c(0, 10)

a
4
2
0

0 2 4 6 8 10

c(0, 10)

Рис. 3.8. Рисування прямокутникiв, стрiлок та написiв

xleft, ybottom, ïðàâèõ âåðõíiõ  ç xright, ytop. Ïðÿìîêóòíèê ìî-


æå çàïîâíþâàòèñü øòðèõîâêîþ, ùiëüíiñòü öi¹¨ øòðèõîâêè çàäà¹òüñÿ
density, êóò íàõèëó  angle, êîëið  col. Ïàðàìåòð border âèçíà÷à¹
êîëið êîíòóðó ïðÿìîêóòíèêà.
Íàïðèêëàä, ðåçóëüòàò âèêîíàííÿ íàñòóïíèõ êîìàíä çîáðàæåíî íà
ðèñ. 3.8

plot(c(0,10),c(0,10),type="n")
rect(1:9,rep(1,9),2:10,2:10,density=5:13,col=1:9,border=10:19)
arrows(rep(2,4),4:8,4:8,5:9,angle=20,length=0.1)
text(rep(2,4),4:8,labels=c("a","b",'c',"d","e"),pos=2)

Ôóíêöiÿ abline(a,b) ðèñó¹ ïðÿìó ëiíiþ, ùî îïèñó¹òüñÿ ðiâíÿííÿì


𝑦 = 𝑎 + 𝑏𝑥. ßêùî òðåáà ïðîâåñòè âåðòèêàëüíó ëiíiþ ç ãîðèçîíòàëüíîþ
êîîðäèíàòîþ 𝑥, öå ìîæíà çðîáèòè ôóíêöi¹þ abline(h=x).
3.3. Елементи тривимiрної графiки 92

Äëÿ âiäîáðàæåííÿ ãðàôiêiâ íåëiíiéíèõ ôóíêöié ìîæíà âèêîðèñòîâó-


âàòè ôóíêöiþ

curve(expr,from=NULL,to=NULL,n=101,add=FALSE,
type="l",xname="x",xlab=xname,ylab = NULL)

Ïàðàìåòðè öi¹¨ ôóíêöi¨:


expr  iì'ÿ ôóíêöi¨, ùî çàëåæèòü âiä ïàðàìåòðà x, àáî âèðàç, ùî
çàëåæèòü âiä çìiííî¨ x;
from, to  ëiâèé òà ïðàâèé êiíöi iíòåðâàëó çìiíè x, íà ÿêîìó áóäó¹òü-
ñÿ ãðàôiê;
n  êiëüêiñòü òî÷îê äëÿ ìàëþâàííÿ ãðàôiêó;
add  ëîãi÷íèé ïàðàìåòð, ÿêùî âií TRUE, ãðàôiê áóäó¹òüñÿ íà ñòà-
ðîìó ðèñóíêó, ÿêùî FALSE  äëÿ ðèñóíêó âiäêðèâà¹òüñÿ íîâå âiêíî;
type, xlab, ylab  òàêi æ, ÿê ó ôóíêöi¨ plot;
xname  iì'ÿ ùî âèêîðèñòîâó¹òüñÿ äëÿ îñi 𝑥.
Íàïðèêëàä (äèâ. ðèñ. 3.9),

curve(pnorm,-3,3,add=FALSE,col="blue")
curve((x/3)^2,col="red",add=TRUE)
abline(0.5,1)

Òóò pnorm  ôóíêöiÿ ðîçïîäiëó äëÿ ñòàíäàðòíîãî íîðìàëüíîãî ðîç-


ïîäiëó (äèâ. òàáë. 6.1).
Ó öüîìó ïðèêëàäi äðóãèé âèêëèê ôóíêöi¨ ðèñóâàííÿ êðèâèõ 
curve((x/3)^2,col="red",add=TRUE) ì๠îïöiþ add=TRUE, òîáòî íîâèé
ðèñóíîê íå ñòâîðþ¹òüñÿ, êðèâà âiäîáðàæà¹òüñÿ íà ñòàðîìó. Ïðè öüîìó
íå çàäàíi ïàðàìåòðè, ùî âêàçóþòü äiàïàçîí ïî ãîðèçîíòàëi (òàêi ÿê from,
to). Ó òàêié ñèòóàöi¨ êðèâó ðèñóþòü ÷åðåç âåñü ñòàðèé ðèñóíîê  âiä éîãî
ëiâîãî äî ïðàâîãî ïîëÿ.

3.3 Елементи тривимiрної графiки


Ó ñòàòèñòèöi äîñèòü ÷àñòî ñïîñòåðåæóâàíi äàíi âiäîáðàæàþòü ó
âèãëÿäi òî÷îê ó ïðîñòîði. ßêùî êîæíié òî÷öi âiäïîâiä๠îäíå ñïîñòåðå-
æåííÿ, à çìiííèì  êîîðäèíàòè öi¹¨ òî÷êè, òî òàêèé ðèñóíîê íàçèâàþòü
äiàãðàìîþ ðîçñiþâàííÿ. ßêùî äëÿ âiäîáðàæåííÿ âèêîðèñòîâóþòü ëèøå
3.3. Елементи тривимiрної графiки 93

1.0
0.8
0.6
pnorm(x)

0.4
0.2
0.0

−3 −2 −1 0 1 2 3

Рис. 3.9. Рисування кривих та прямих

äâi çìiííi, óòâîðþ¹òüñÿ äâîâîèìiðíà äiàãðàìà ðîçñiþâàííÿ, ÿêó ìîæíà


âèâåñòè íà åêðàí ôóíêöi¹þ plot() ÿê îïèñàíî âèùå.Äëÿ âiäîáðàæåííÿ
òðüîõ çìiííèõ îäðàçó âèêîðèñòîâóþòü òðèâèìiðíi äiàãðàìè ðîçñiþâàííÿ.
Ó R ¨õ ìîæíà âèâîäèòè áàãàòüìà ðiçíèìè ñïîñîáàìè, îäèí ç íàéïðîñòiøèõ
 âèêîðèñòàííÿ ôóíêöi¨ scatterplot3d() ç ïàêåòó scatterplot3d
Ïðèêëàä âèêëèêó öi¹¨ ôóíêöi¨:

library(scatterplot3d)
z <- seq(-20, 20, 0.15)
x <- z*cos(z)
y <- z*sin(z)
scatterplot3d(x, y, z, highlight.3d=TRUE, col.axis="blue",
col.grid="lightblue", main="Spiral",
pch=1,angle=30)
3.3. Елементи тривимiрної графiки 94

Spiral

20
10
0
z

20

y
−10

10

−10
−20

−20
−20 −10 0 10 20

Рис. 3.10. Тривимiрна дiаграма розсiювання

Ó âèêëèêó öi¹¨ ôóíêöi¨ ïåðøi òðè ïàðàìåòðè x, y, z çàäàþòü ïîëî-


æåííÿ òî÷îê ó òðèâèìiðíîìó ïðîñòîði. Ïàðàìåòð highlight.3d âèçíà-
÷à¹, ÷è òðåáà ðîçôàðáîâóâàòè òî÷êè â çàëåæíîñòi âiä òîãî, ÿê âîíè ðîçòà-
øîâàíi ïî îñi x. Äâà íàñòóïíèõ ïàðàìåòðè âèçíà÷àþòü êîëið îñåé êîîðäè-
íàò òà êîîðäèíàòíî¨ ñiòêè, çîáðàæåíî¨ ó ïëîùèíi x-y. Íàðåøòi, ïàðàìåòð
angle âèçíà÷๠êóò, ÿêèé áóäóòü óòâîðþâàòè íà äâîâèìiðíié ïðîåêöi¨ âiñi
Ox òà Oy. (Ïðîåêöiÿ çàâæäè áóäó¹òüñÿ òàê, ùîá âiñü Ox íà íié ðîçòàøî-
âóâàëàñü ãîðèçîíòàëüíî, âiñü Oz  âåðòèêàëüíî, à îò íàïðÿìîê Oy íà
ðèñóíêó âèçíà÷à¹òüñÿ íàïðÿìêîì ïðîåêòóâàííÿ. Ìiíÿþ÷è angle ìîæíà
ðîçãëÿäàòè äàíi ç ðiçíèõ òî÷îê çîðó.
ßê áà÷èìî, ìîæëèâîñòi scatterplot3d() ïðè âèáîði íàïðÿìêó ïðî-
åêöi¨ äîñèòü îáìåæåíi. Äëÿ òîãî, ùîá ìàòè çìîãó ïîâåðòàòè çîáðàæåííÿ
äàíèõ iíòåðàêòèâíî, ìîæíà ñêîðèñòàòèñü ôóíêöi¹þ plot3d() ç ïàêåòó
rgl. Íàïðèêëàä, âèêëèêàâøè öþ ôóíêöiþ íà äàíèõ ïîïåðåäíüîãî ïðè-
êëàäó ó òàêèé ñïîñiá
3.3. Елементи тривимiрної графiки 95

Рис. 3.11. Тривимiрна дiаграма розсiювання за допомогою plot3d

library(rgl)
plot3d(x,y,z)

i ïîêðóòèâøè îòðèìàíèé ðèñóíîê ìèøåþ, ìîæíà îòðèìàòè çîáðàæåííÿ


ç ðèñ. 3.11.
Iíêîëè ñòàòèñòèêó áóâ๠òðåáà âiäîáðàçèòè íà ðèñóíêó ïîâåäiíêó äå-
ÿêî¨ ÷èñëîâî¨ ôóíêöi¨ äâîâèìiðíîãî àðãóìåíòó. Äîñèòü ïîïóëÿðíèì çà-
ñîáîì òàêîãî âiäîáðàæåííÿ ¹ êîíòóðíi ãðàôiêè (contour plot), íà ÿêèõ
çîáðàæàþòü ëiíi¨ ðiâíÿ ôóíêöi¨.
Ëiíiÿ ðiâíÿ ôóíêöi¨ 𝑓 (𝑥, 𝑦), ùî âiäïîâiä๠ðiâíþ 𝑐  öå ìíîæèíà âñiõ
òî÷îê íà ïëîùèíi ç òàêèìè êîîðäèíàòàìè (𝑥, 𝑦), ùî 𝑓 (𝑥, 𝑦) = 𝑐. Íà êîí-
òóðíèõ ãðàôiêàõ âiäîáðàæàþòü ëiíi¨ ðiâíÿ äëÿ ðiçíèõ ðiâíiâ, ïiäáèðàþ÷è
¨õ òàê, ùîá ìîæíà áóëî ïîáà÷èòè ãîðáè òà çàïàäèíè ôóíêöi¨ ïîäiáíî äî
òîãî, ÿê öå ðîáëÿòü íà ãåîãðàôi÷íèõ êàðòàõ. Ó R êîíòóðíi ãðàôiêè çîá-
ðàæàþòü, âèêîðèñòîâóþ÷è ôóíêöiþ contour().
Iíøèé âàðiàíò òðèâèìiðíîãî ãðàôiêà  çîáðàæåííÿ éîãî ïðîåêöi¨ íà
ïëîùèíó àíàëîãi÷íî òîìó, ÿê öå áóëî çðîáëåíî âèùå äëÿ äiàãðàì ðîçñiþ-
3.3. Елементи тривимiрної графiки 96

7
1.6 0.6 1.6
0.8
1.8 0.8

1
1
6

1.8

1.4 1.4

1.2 1.2
5

z
1

0.2 1.2 0.2


1
0.4 1.4 0.4
4

0.6 1.6 0.6

0.8 1.8 0.8

y
3

0.8 0.8 1.8

0.6
0.6 1.6 x
0.4 1.4
0.4
1 1 0.2 1.2
2

0 1 2 3 4 5

Рис. 3.12. Контурний та тривимiрний графiки

âàííÿ. Òàêå âiäîáðàæåííÿ òðèâèìiðíèõ ãðàôiêiâ ó ïåðñïåêòèâi çàáåçïå-


÷ó¹ ôóíêöiÿ persp().
I contour(), i persp() ïðàöþþòü íå áåçïîñåðåäíüî ç ôóíêöi¹þ 𝑓 , ÿêó
òðåáà âiäîáðàçèòè, à iç ìàòðèöåþ z çíà÷åíü öi¹¨ ôóíêöi¨ ó âóçëàõ ïðÿìî-
êóòíî¨ ñiòêè, âèçíà÷åíî¨ âåêòîðàìè êîîðäèíàò x, y, òîáòî
z[i,k]=f(x[i],y[k]), i=1,...,length(x), k=1,...,length(y).
Äëÿ òîãî, ùîá ïiäðàõîâóâàòè çíà÷åííÿ z, çðó÷íî âèêîðèñòîâóâàòè
ôóíêöiþ outer(). Ïðèêëàä çàñòîñóâàííÿ contour() i persp() äëÿ âi-
2 2
äîáðàæåííÿ ôóíêöi¨ 𝑓 (𝑥, 𝑦) = sin 𝑥 + cos 𝑦 êîëè 𝑥 ∈ (0, 5), 𝑦 ∈ (2, 7):

x<-(1:50)/10
y<-(20:70)/10
f<-function(x,y){sin(x)^2+cos(y)^2}
z<-outer(x,y,f)
contour(x,y,z)
persp(x, y, z, theta = 30, phi = 30, expand = 0.75,
col = "lightblue")

Ðåçóëüòàò âèêîíàííÿ öüîãî ñêðèïòó íà ðèñ. 3.12. Ôóíêöiÿ persp() ìà¹


áiëüøå ìîæëèâîñòåé âèáîðó íàïðÿìêó ïðîåêöi¨, íiæ scatterplot3d(). Â
íié öåé íàïðÿìîê çàäà¹òüñÿ äâîìà êóòàìè theta (àçèìóò) òà phi (90𝑜
ìiíóñ øèðîòà). Êðiì òîãî, ïàðàìåòð expand (ÿê ïðàâèëî, éîãî îáèðàþòü
3.4. Географiчнi карти 97

âiä 0 äî 1) ìîæíà âèêîðèñòîâóâàòè äëÿ ñòèñíåííÿ ãðàôiêà ïî îñi z.

3.4 Географiчнi карти


Ñòàòèñòè÷íà iíôîðìàöiÿ ÷àñòî ì๠ãåîãðàôi÷íó ïðèâ'ÿçêó, òîìó äëÿ
¨ ¨ âiäîáðàæåííÿ ïðèðîäíî âèêîðèñòîâóâàòè ãåîãðàôi÷íi êàðòè. Ó R ïå-
ðåäáà÷åíèé âåëèêèé âèáið ìîæëèâîñòåé òàêîãî âiäîáðàæåííÿ. Ó öüîìó
ïiäðîçäiëi ðîçãëÿäàþòüñÿ ëèøå äâà íàéïðîñòiøi ïðèêëàäè: âiäîáðàæåííÿ
iíôîðìàöi¨ ôàðáóâàííÿì ðiçíèõ îáëàñòåé ðiçíèìè êîëüîðàìè òà âiäîáðà-
æåííÿ êðóãîâèõ äiàãðàì íà ãåîãðàôi÷íèõ êàðòàõ.
Ñïî÷àòêó ðîçáåðåìîñü, ÿê ó R ìàëþþòüñÿ ãåîãðàôi÷íi êàðòè. Öå ìîæ-
íà ðîáèòè áàãàòüìà ðiçíèìè ñïîñîáàìè. Äëÿ íàøî¨ ìåòè îäíèì ç íàé-
ïðîñòiøèõ ¹ âèêîðèñòàííÿ ïàêåòiâ (áiáëiîòåê) sp, maptools òà raster.
Âîíè íå âõîäÿòü ó ñòàíäàðòíó ïîñòàâêó R, òîìó ¨õ òðåáà iíñòàëþâàòè íà
êîìï'þòåði çâè÷àéíèì ñïîñîáîì òà çàâàíòàæóâàòè ïåðåä âèêîðèñòàííÿì
ó ðîáî÷ó îáëàñòü, âèêîðèñòîâóþ÷è ôóíêöiþ library().
Приклад 3.4.1 (Полiтична карта свiту та її частини). Ó ïàêåòi maptools
ìiñòèòüñÿ ïîëiòè÷íà êàðòà çåìíî¨ êóëi ïiä íàçâîþ wrld_simpl. Äëÿ òîãî,
ùîá âèâåñòè ¨ ¨ ó âèãëÿäi ðèñóíêó ìîæíà ñêîðèñòàòèñü çâè÷àéíîþ ôóíê-
öi¹þ plot(), íàïðèêëàä:

library('sp')
library('maptools')
data(wrld_simpl)
par(mai=c(0,0,0,0))
par(mar=c(0,0,0,0))
plot(wrld_simpl, xlim=c(-10,50),
ylim=c(-40,35), bg='azure2', col='khaki',
border='black')

Òóò ìè ñïî÷àòêó ôóíêöi¹þ data() çàâàíòàæèëè ïîòðiáíó çìiííó ó


ïàì'ÿòü. Ïîòiì çàäàëè êîìàíäîþ par íóëüîâèé ðîçìið ïîëiâ ðèñóíêó.
I, íàðåøòi, íàäðóêóâàëè êàðòó ôóíêöi¹þ plot(), âèêîðèñòîâóþ÷è ïà-
ðàìåòðè:
col  êîëið, ÿêèì ôàðáó¹òüñÿ îñíîâíà ÷àñòèíà (ñóõîäië),
bg  êîëið çàäíüîãî ïëàíó (background)  ìîðå,
border  êîëið äëÿ ãðàíèöü ïîçíà÷åíèõ íà êàðòi êðà¨í,
3.4. Географiчнi карти 98

Рис. 3.13. Карта Африки

xlim, ylim  ìåæi ðåãiîíó, ÿêèé òðåáà âiäîáðàçèòè íà êàðòi ïî ãîðè-


çîíòàëi òà âåðòèêàëi. J

Íà êàðòàõ âèêîðèñòîâó¹òüñÿ ãåîãðàôi÷íà øêàëà êîîðäèíàò, ãîðè-


çîòíàëüíà âiñü âiäïîâiä๠äîâãîòi (longitude), âåðòèêàëüíà  øèðîòi
(latitude). ßê âiäîìî, öå êóòîâi ìiðè, âîíè âèçíà÷àþòüñÿ ó ãðàäóñàõ òà
õâèëèíàõ. Îäèí ãðàäóñ ñêëàä๠60 õâèëèí. Ó R âèêîðèñòîâó¹òüñÿ çâè-
÷àéíå äåñÿòêîâå ïîçíà÷åííÿ äëÿ öèõ êîîðäèíàò, òîáòî, ñêàæiìî, latitude
-10.5 öå 10 ãðàäóñiâ 30 õâèëèí ïiâäåííî¨ øèðîòè.
Ðåçóëüòàò çîáðàæåíî íà ðèñ. 3.13. (Êàðòà âæå äåùî çàñòàðiëà, íà íié
íå âiäìi÷åíî, íàïðèêëàä, òàêó êðà¨íó, ÿê Ïiâäåííèé Ñóäàí).
Êàðòè êîðäîíiâ îêðåìèõ êðà¨í òàêîæ ìiñòÿòüñÿ ó îá'¹êòi wrld_simpl.
ˆõ ìîæíà âèêîðèñòîâóâàòè, çâåðòàþ÷èñü ïî íîìåðàõ êðà¨í ó ñïèñêó,
ðîçòàøîâàíîìó ïðèáëèçíî çà àëôàâiòíèì ïîðÿäêîì. Öåé ñïèñîê ìiñòèòü-
ñÿ ó àòðèáóòi wrld_simpl$NAME. Âèâiâøè öåé ñïèñîê ó R, ìîæíà ïîáà÷èòè,
ùî Äåìîêðàòè÷íà ðåñïóáëiêà Êîíãî ì๠íîìåð 28, Íiãåðiÿ  153, Ìàäà-
ãàñêàð  108. Íåõàé ìè õî÷åìî íà âæå iñíóþ÷ié êàðòi Àôðèêè âiäìiòèòè
öi êðà¨íè ðiçíèìè êîëüîðàìè: Íiãåðiþ  çåëåíèì, Ìàäàãàñêàð  ÷åð-
âîíèì, Êîíãî  áiëèì. Öå ìîæíà çðîáèòè âèêëèêâàøè çíîâó ôóíêöiþ
3.4. Географiчнi карти 99

plot() ç ïàðàìåòðîì add=T, ùî îçíà÷๠ äîðèñóâàòè íîâèé ðèñóíîê


ïîâåðõ ïîïåðåäíüîãî:
plot(wrld_simpl[c(28,153,108),],col=c('white','green','blue'),
add=T).
Íàïèñè íà êàðòàõ ìîæíà íàíîñèòè âèêîðèñòîâóþ÷è ôóíêöiþ text
òàê, ÿê öå áóëî îïèñàíî ó ï. 3.2.

Приклад 3.4.2 (Круговi дiаграми на картi). Ïîêàæåìî, ÿê âiäîáðàæàòè


íà êàðòàõ êðóãîâi äiàãðàìè, ïîäiáíi äî òèõ, ùî îïèñàíi ó ï. 3.1. Äëÿ öüîãî
ìè âèêîðèñòà¹ìî ôóíêöiþ floating.pie() ç ïàêåòó plotrix (éîãî òðåáà
iíñòàëþâàòè íà êîìï'þòåði òà çàâàíòàæèòè).
Öþ ôóíêöiþ ìîæíà âèêëèêàòè òàê:
floating.pie(xpos,ypos,x,col,radius)
äå
xpos, ypos  êîîðäèíàòè öåíòðó êðóãîâî¨ äiàãðàìè íà ðèñóíêó (íà
êàðòi),
x  âåêòîð, êîîðäèíàòè ÿêîãî âiäïîâiäàþòü ðîçìiðàì ñåêòîðiâ íà êðó-
ãîâié äiàãðàìi,
col  êîëüîðè ñåêòîðiâ,
radius  ðàäióñ äiàãðàìè.
Íåõàé, íàïðèêëàä, ìè õî÷åìî äëÿ âèáðàíèõ íàìè êðà¨í âiäîáðàçèòè
êðóãîâèìè äiàãðàìàìè ðîçïîäië íàñåëåííÿ çà ðåëiãiéíîþ îçíàêîþ. Äëÿ
Íiãåði¨, ñêàæiìî, öå âèãëÿä๠òàê: 58% õðèñòèÿí, 41%  ïðèái÷íèêè iñ-
ëàìó, 1%  iíøi ðåëiãi¨. Ïðîãðàìà ìîæå ìàòè òàêèé âèãëÿä:

par(mai=c(0,0,0,0))
par(mar=c(0,0,0,0))
plot(wrld_simpl, xlim=c(-10,50),
ylim=c(-40,35), bg='azure2', col='khaki',
border='black')
# Розфарбовуємо Конго, Нiгерiю, Мадагаскар
plot(wrld_simpl[c(28,153,108),],
col=c('white','green','blue'),add=T)
library(plotrix)
# Nigeria
floating.pie(7,9,c(58,41,1),col=c("red","yellow","magenta"),
radius=2.5)
# Congo
3.4. Географiчнi карти 100

Christian
Islam
Other

Рис. 3.14. Карта Африки з розподiлом релiгiй

floating.pie(22,-4,c(79.8,11.3,8.9),
col=c("red","yellow","magenta"),radius=2.5)
# Madagaskar
floating.pie(47,-18,c(41,7,52),
col=c("red","yellow","magenta"),radius=2.5)
legend("bottomleft",
legend=c("Christian","Islam","Other"),
fill=c("red","yellow","magenta"))

Ñïî÷àòêó ðèñó¹ìî êàðòó Àôðèêè ÿê ó ïîïåðåäíüîìó ïðèêëàäi, ïîòiì


ðîçôàðáîóâó¹ìî òðè êðàiíè i ðèñó¹ìî êðóãîâi äiàãðàìè. Îñòàííÿ âèêîíà-
íà ôóíêöiÿ  legend() ñòâîðþ¹ ëåãåíäó (ïîÿñíåííÿ) äî êàðòè. Ïåðøèé
ïàðàìåòð "bottomleft" âèçíà÷๠ïîëîæåííÿ ëåãåíäè ó ëiâîìó íèæíüî-
ìó êóòêó êàðòè. Ïàðàìåòð legend  öå âåêòîð ñèìâîëüíèõ ðÿäî÷êiâ,
êîæåí ç ÿêèõ âiäïîâiä๠îäíîìó ðÿäî÷êó ëåãåíäè. Ïàðàìåòð fill çàäà¹
êîëüîðè, ÿêi áóäóòü ïîÿñíþâàòèñü ëåãåíäîþ. J

Приклад 3.4.3 (Регiони країни). Êàðòè êðà¨í, ùî ìiñòÿòüñÿ ó íàáîði


wrld_simpl, ¹ äîñèòü ãðóáèìè, âîíè íå ìiñòÿòü àäìiíiñòðàòèâíîãî ïîäi-
3.4. Географiчнi карти 101

ëó. Òîìó äëÿ òîãî, ùîá âiäîáðàæàòè ñòàòèñòèêó ïî ðåãiîíàõ ÿêî¨-íåáóäü


êðà¨íè, ïîòðiáíi áiëüø äåòàëüíi êàðòè. Êîðèñòóâàííÿ òàêèìè êàðòàìè
íàä๠ïàêåò raster. (Íå çàáóäüòå éîãî çàâàíòàæèòè). Ó öüîìó ïàêåòi ¹
ôóíêöiÿ getData(), ÿêà çàâàíòàæó¹ ç iíòåðíåòó êàðòè ðiçíèõ êðà¨í çà ¨õ
êîäàìè ISO. Îòðèìàòè ïåðåëiê âñiõ êðà¨í ç ¨õ êîäàìè ìîæíà, âèêëèêàâøè
getData('ISO3')
Íàïðèêëàä, êîä Óêðà¨íè  UKR. Äëÿ çàâàíòàæåííÿ êàðòè âèêëèêà¹ìî
getData():
library(raster)
ukraine <- getData('GADM', country='UKR', level=1)

Ïàðàìåòð 'GADM' ïîêàçó¹, ùî êàðòà áóäå çàâàíòàæåíà ç áàçè äàíèõ


ïðî àäìiíiñòðàòèâíi êîðäîíè (¹ iùå áàçè êëiìàòè÷íèõ òà òîïîãðàôi÷íèõ
êàðò). Ïàðàìåòð country='UKR' âêàçó¹, ùî áóäå çàâàíòàæóâàòèñü êàðòà
Óêðà¨íè. Ïàðàìåòð level âèçíà÷๠äåòàëiçàöiþ êàðòè. Çíà÷åííþ 0 âiä-
ïîâiä๠êàðòà ç ëèøå äåðæàâíèìè êîðäîíàìè, 1  ðåãiîíàëüíi êîðäîíè
(äëÿ Óêðà¨íè  îáëàñòíi, äëÿ ÑØÀ  øòàòiâ, äëÿ Ïîëüùi  âî¹âîäñòâ),
2 âiäïîâiä๠ðàéîíàì äëÿ Óêðà¨íè, ãðàôñòâàì äëÿ ÑØÀ, ïîâiòàì äëÿ
Ïîëüùi. Ìîæëèâèé òàêîæ 3é ðiâåíü äëÿ iùå äðiáíiøèõ îäèíèöü (ãìiíè
ó Ïîëüùi).
Òàêèì ÷èíîì, ìè çàâàíòàæèëè êàðòó Óêðà¨íè ç ãðàíèöÿìè îáëàñòåé
i çáåðåãëè ¨ ¨ ó âèãëÿäi çìiííî¨ ukraine. Öÿ çìiííà çíàõîäèòüñÿ ó ðîáî÷ié
îáëàñòi R. ßêùî ðîáî÷ó îáëàñòü íå çáåðiãàòè íàïðèêiíöi ñåàíñó, êàðòà
çàãóáèòüñÿ. Äîöiëüíî çáåðåãòè ¨ ¨ îêðåìî ó ôàéëi äëÿ ïîäàëüøîãî êîðè-
ñòóâàííÿ. öå ìîæíà çðîáèòè, âèêîðèñòîâóþ÷è ôóíêöiþ save():
save(ukraine,file="c:/rem/term/ukrmap.Rdata")
 çáåðiã๠êàðòó ó âèãëÿäi îá'¹êòà R íà äèñêó c ó êàòàëîçi term ïiä
íàçâîþ ukrmap.Rdata. Íàçâà i êàòàëîã ìîæóòü áóòè äîâiëüíèìè, ðîçøè-
ðåííÿ Rdata ñòàíäàðòíå äëÿ R, âòiì, ïðè áàæàííi ìîæíà âèêîðèñòîâóâà-
òè i iíøi ðîçøèðåííÿ, àëå ôîðìàò ôàéëó ïðè öüîìó íå çìiíèòüñÿ (òîáòî,
ÿêùî âêàçàòè ukrmap.pdf, R çáåðåæå êàðòó ó òàêîìó ôàéëi, àëå íå ó
ôîðìàòi pdf, à ó ñâî¹ìó âíóòðiøíüîìó ôîðìàòi).
Äëÿ òîãî, ùîá çàâàíòàæèòè çáåðåæåíó êàðòó ïiä ÷àñ íîâî¨ ñåñi¨ ðîáîòè
ç R òåïåð äîñèòü íàáðàòè
load(file="c:/rem/term/ukrmap.Rdata")
Ïiñëÿ öüîãî êàðòà ñòàíå äîñòóïíîþ ó âèãëÿäi îá'¹êòà ç íàçâîþ
ukraine. ˆ¨ ìîæíà âiäîáðàçèòè, âèêîðèñòîâóþ÷è plot().
3.4. Географiчнi карти 102

Âiäîáðàæàòè êàðòè îêðåìèõ ðåãiîíiâ òåïåð ìîæíà, âèêëèêàþ÷è öþ


ôóíêöiþ, íàïðèêëàä, òàê: plot(ukraine[list_reg],col=list_col), äå
list_reg list_col 
 ñïèñîê íîìåðiâ ðåãiîíiâ, ÿêi òðåáà âiäîáðàçèòè,
ñïèñîê êîëüîðiâ, ÿêèìè öi ðåãiîíè áóäóòü çàôàðáîâàíi. Ðåãiîíè ó çìiííié
ukraine ðîçòàøîâàíi ó àëôàâiòíîìó ïîðÿäêó ¨õ àíãëiéñüêèõ íàçâ. Ùîá
ïîáà÷èòè öi íàçâè i ¨õ ïîðÿäîê, ìîæíà âèâåñòè àòðèáóò NAME_1 çìiííî¨
ukraine, òîáòî ukraine$NAME_1.
ßê ïðèêëàä, ðîçãëÿíåìî âiäîáðàæåííÿ ãóñòîòè íàñåëåííÿ Óêðà¨íè ó
ðiçíèõ îáëàñòÿõ (äèâ. ðèñ. 3.15).

library(raster)
load(file="c:/rem/term/ukrmap.Rdata")
dens<-read.csv(file="c:/rem/term/gustotan.csv")
brk<-seq(30,170,20)
int<-8-findInterval(dens[,2],brk)
palette(gray(0:7/7))
par(mai=c(0,0,0,0))
par(mar=c(0,0,0,0))
plot(ukraine,col=int)
plot(ukraine[c(11,20),],col="red",add=T)
legend("bottomleft",title="Population Density",
legend=c("150-170","130-150","110-130",
"90-110","70-90","50-70","30-50"),
fill=gray(0:7/7))

Äàíi ïî ãóñòîòi íàñåëåííÿ çíàõîäÿòüñÿ ó ôàéëi gustotan.csv. Ïåð-


øèé ñòîâï÷èê òàáëèöi äàíèõ çâåòüñÿ region i ìiñòèòü àíãëiéñüêi íàçâè
îáëàñòåé (ðåãiîíiâ Óêðà¨íè) â àëôàâiòíîìó ïîðÿäêó. Äðóãèé  ãóñòîòó
íàñåëåííÿ (êiëüêiñòü ÷îëîâiê íà êâ.êì) ó äàíîìó ðåãiîíi. Öi äàíi êîëèâà-
þòüñÿ ó äiàïàçîíi âiä 32.9 ó ×åðíiãiâñüêié îáëàñòi äî 3442.6 ó ìiñòi Êè¹âi.
Çðîçóìiëî, ùî ìiñòà Êè¨â òà Ñåâàñòîïîëü ó öüîìó íàáîði äàíèõ ðiçêî âèäi-
ëÿþòüñÿ (¹ âèêèäàìè) òîìó ïðè ïîáóäîâi øêàëè ãóñòîò ¨õ êðàùå íå âðà-
õîâóâàòè. Ñåðåä îáëàñòåé íàéáiëüøó ãóñòîòó íàñåëåííÿ ì๠Äîíåöüêà 
161.3. Òîìó ìè âèáðàëè iíòåðâàë âiä 30 äî 170 i ðîçáèëè éîãî íà ïiäiíòåð-
âàëè øèðèíè 20. Êîæíîìó ïiäiíòåðâàëó âiäïîâiä๠ïåâíà íàñè÷åíiñòü ái-
ëîãî/ñiðîãî/÷îðíîãî êîëüîðó, ÿêèì çàôàðáîâó¹òüñÿ îáëàñòü. Òàêà ïàëiò-
ðà êîëüîðiâ ñòâîðþ¹òüñÿ ôóíêöi¹þ grey(0:7/7) (0 âiäïîâiä๠÷îðíèé, 1
 áiëèé êîëið). Ôóíêöiÿ palette(grey(0:7/7)) âñòàíîâëþ¹ òàêèé íàáið
3.4. Географiчнi карти 103

Population Density
150−170
130−150
110−130
90−110
70−90
50−70
30−50

Рис. 3.15. Густота населення України

êîëüîðiâ ÿê ïàëiòðó, ùî âèêîðèñòîâó¹òüñÿ iíøèìè ôóíêöiÿìè, ïîäiáíè-


ìè äî plot(). Ùîá âèçíà÷èòè, ÿêèé íîìåð êîëüîðó âiäïîâiä๠ãóñòîòi
íàñåëåííÿ êîæíî¨ îáëàñòi, âèêîðèñòîâó¹òüñÿ ôóíêöiÿ findInterval, êî-
òðà âèçíà÷à¹, ÿêîìó ç iíòåðâàëiâ, çàäàíèõ íàáîðîì òî÷îê brk, íàëåæàòü
ãóñòîòè ðiçíèõ îáëàñòåé (öi ãóñòîòè çíàõîäÿòüñÿ ó äðóãîìó ñòîâï÷èêó
ôðåéìó dens).
Äàëi ìè ðîçôàðáîâó¹ìî âñi ðåãiîíè ôóíêöi¹þ plot(). Ùîá âèäiëèòè
Êè¨â òà Ñåâàñòîïîëü (11-é i 20-é ðåãiîíè), çàôàðáîâó¹ìî ¨õ ÷åðâîíèì
êîëüîðîì, âèêîðèñòîâóþ÷è plot() ç ïàðàìåòðîì add=T  òîáòî çâåðõó
ïîïåðåäíüîãî ðèñóíêó. Íàðåøòi, legend() äîä๠ïîÿñíåííÿ êîëüîðîâî¨
øêàëè ó ëiâîìó íèæíüîìó êóòêó êàðòè. J

Приклад 3.4.4 (Кому подобаються джинсовi шорти). Ó öüîìó ïðèêëàäi


ìè ïîäèâèìîñü, ÿêó êîðèñòü ìîæå äàòè ñòàòèñòèêîâi âiäîáðàæåííÿ ií-
ôîðìàöi¨ íà êàðòi. Iäåÿ ïðèêëàäó âçÿòà çi ñòàòòi, ðîçìiùåíî¨ íà ñàéòi
2
ãàçåòè Wasington Post [32]. Àâòîð ñòàòòi àíàëiçó¹ äàíi ç Google Trends
ïðî êiëüêiñòü ïîøóêîâèõ çàïèòiâ, ÿêi íàäñèëàëè æèòåëi ÑØÀ äî Google ç

2
www.google.com/trends/ — це сайт, що показує статистику рiзних пошукових запитiв,
якi рiзнi користувачi iнтернету надсилають у Google.
3.4. Географiчнi карти 104

äâîìà íàáîðàìè êëþ÷îâèõ ñëiâ: (1) çàïèòè çi ñëîâàìè jean shorts (äæèí-
ñîâi øîðòè) i (2) çàïèòè çi ñëîâàìè cargo shorts (øîðòè ó ñòèëþ cargo).
Google Trends äîçâîëÿ¹ ïîäèâèòèñü, ñêiëüêè çàïèòiâ íàäiéøëî ïî äàíèõ
ñëîâàõ çà ïåâíèé ïåðiîä ÷àñó ç êîæíîãî ðåãiîíó ÑØÀ (àáî iíøî¨ êðà¨íè,
ÿêùî âàì öiêàâî). Îòðèìàíi äàíi àâòîð âiäîáðàçèâ íà êàðòi.
ß ïîâòîðèâ öåé åêñïðèìåíò. Ìî¨ äàíi äåùî âiäðiçíÿþòüñÿ âiä îïèñà-
íèõ ó ñòàòòi, áî çiáðàíi çà òðîõè iíøèé ïåðiîä (ó ìåíå  ç 01.01.2004
ïî 20.08.2016). Ìî¨ äàíi çíàõîäÿòüñÿ ó ôàéëi shortU.txt.  íüîìó êî-
æåí ðÿäî÷îê âiäïîâiä๠îäíîìó øòàòó ÑØÀ. Ï'ÿòü ñòîâï÷èêiâ-çìiííèõ
âêàçóþòü:
n  íîìåð øòàòó ÑØÀ ó ñïèñêó âiäïîâiäíî¨ êàðòè;
state  óêðà¨íñüêà íàçâà øòàòó;
cargo êiëüêiñòü ïîøóêîâèõ çàïèòiâ cargo shorts ç äàíîãî øòàòó;
jean  êiëüêiñòü çàïèòiâ jean shorts;
urban  âiäñîòîê ìiñüêèõ æèòåëiâ ñåðåä íàñåëåííÿ øòàòó;
stateen  ñòàíäàðòíå ñêîðî÷åíå ïîçíà÷åííÿ øòàòó àíãëiéñüêîþ ìî-
âîþ.
Íàñòóïíà ïðîãðàìà âiäîáðàæ๠íà êàðòi ÑØÀ ÷åðâîíèì êîëüîðîì
øòàòè, ó ÿêèõ ïåðåâàæàþòü êàðãî-øîðòè i ñèíiì  òi, äå áiëüøå öiêàâ-
ëÿòüñÿ äæèíñîâèìè øîðòàìè. Ðåçóëüòàò  íà ðèñ. 3.16. Ãðàôi÷íi äàíi
äëÿ ðèñóâàííÿ êàðòè çàâàíòàæåíi ç ôàéëó usamap.Rdata, êîòðèé ìîæ-
íà ñòâîðèòè àíàëîãi÷íî îïèñàíîìó ó ïîïåðåäíüîìó ïðèêëàäi äëÿ êàðòè
Óêðà¨íè.

library(raster)
load(file="c:/rem/term/usamap.Rdata")
tb<-read.table("c:/rem/term/shortU.txt",header=T)
color<-c("red","blue")
stcol<-color[(tb$cargo<tb$jean)+1]
par(mai=c(0,0,0,0))
par(mar=c(0,0,0,0))
plot(usamap[tb$n,],col=stcol,ylim=c(27,43),xlim=c(-124,-65))

(äëÿ ïðîñòîòè Àëÿñêà òà Ãàâਠíå âiäîáðàæåíi. Ïî äâîõ øòàòàõ 


Âàéîìiíãó i Ïiâíi÷íié Äàêîòi äàíèõ íåìà¹, âîíè áiëi). ßê áà÷èìî, ñèíi
øòàòè, äå ïåðåâàæàþòü äæèíñè, çiáðàëèñü êîìïàêòíîþ ãðóïîþ, ùî ïðè-
áëèçíî âiäïîâiä๠ði÷êîâîìó áàñåéíó Ìiññiñiïi-Ìiññóði (äèâ. êàðòó íà ðèñ
3.17).
3.4. Географiчнi карти 105

Рис. 3.16. Карго-шорти проти джинсових

Ïîáà÷èòè öåé åôåêò áåç âiäîáðàæåííÿ íà êàðòi íàâðÿä ÷è ìîæëèâî. Ç


÷èì âií ìîæå áóòè ïîâ'ÿçàíèé? Àâòîð [32] êàæå, ùî ó öèõ øòàòàõ çîñåðå-
äæåíå ôåðìåðñüêå çåìëåðîáñòâî ÑØÀ, òîáòî ñàìå òóò æèâóòü ñïðàâæíi
àìåðèêàíöi, ÿêèì äî âïîäîáè ñïðàâæíié àìåðèêàíñüêèé îäÿã  äæèí-
ñè. Ùîá ïåðåâiðèòè öþ ãiïîòåçó, ìîæíà ïîãëÿíóòè íà êàðòó ðiâíiâ óð-
áàíiçàöi¨ (òîáòî âiäñîòêó ìiñüêîãî íàñåëåííÿ) ðiçíèõ øòàòiâ. Äëÿ öüîãî
ñêîðèñòà¹ìîñü íàñòóïíîþ ïðîãðàìîþ (ðèñ. 3.18):

numc<-10
palette(topo.colors(numc))
z<-tb$urban
colorU<-floor(numc*(z-min(z))/(max(z)-min(z)))+1
plot(usamap[tb$n,],col=colorU,ylim=c(27,43),xlim=c(-124,-65))

(×èì áiëüø óðáàíiçîâàíèé øòàò, òèì âií áðóíàòíiøèé, íàéáiëüø àã-


ðàðíi  áëàêèòíi). Ïåâíà ñõîæiñòü öi¹¨ êàðòè ç ïîïåðåäíüîþ ïîìiòíà, àëå
ïîìiòíi i âiäìiííîñòi.
Íàñêiëüêè îá ðóíòîâàíå öèìè äàíèìè ïðèïóùåííÿ ïðî çâ'ÿçîê ìiæ
iíòåðåñîì äî äæèíñîâèõ øîðòiâ i íàÿâíiñòþ àãðàðíîãî íàñåëåííÿ? Âiä-
3.4. Географiчнi карти 106

Рис. 3.17. Басейн Мiссiсiпi-Мiссурi

ïîâiäü íåïðîñòà, âiäêëàäåìî ¨ ¨ äî êðàùîãî çíàéîìñòâà ç ìàòåìàòè÷íèì


àïàðàòîì ñòàòèñòèêè. J
3.4. Географiчнi карти 107

Рис. 3.18. Рiвень урбанiзацiї у США


Роздiл 4

Одновимiрна описова статистика

Ñòàòèñòèê, ÿê ïðàâèëî, ì๠ñïðàâó ç âåëèêèìè îáñÿãàìè äàíèõ. ˆõ


íåìîæëèâî îõîïèòè îêîì, âàæêî ïîðiâíþâàòè ç iíøèìè àíàëîãi÷íèìè íà-
áîðàìè äàíèõ. Òîìó ÷àñòî âèíèê๠ïîòðåáà îïèñàòè îñíîâíi îñîáëèâîñòi
äàíèõ îäíi¹þ àáî êiëüêîìà ÷èñëîâèìè õàðàêòåðèñòèêàìè. Òåõíiêà òàêî-
ãî îïèñó çâåòüñÿ îïèñîâîþ (äåñêðèïòèâíîþ) ñòàòèñòèêîþ, à ñàìi ÷èñëîâi
õàðàêòåðèñòèêè äàíèõ  (äåñêðèïòèâíèìè) ñòàòèñòèêàìè. Ïðè âèêîðè-
ñòàííi òà àíàëiçi òàêèõ ñòàòèñòèê äîñëiäíèê íàìàãà¹òüñÿ âèâ÷àòè äàíi íå
íà îñíîâi ÿêî¨ñü íàïåðåä çàäàíî¨ òåîðåòè÷íî¨ ìîäåëi, à âèõîäÿ÷è çi ñòðóê-
òóðè ñàìèõ äàíèõ. Ó öüîìó ðîçäiëi ìè ðîçãëÿäà¹ìî òåõíiêó äåñêðèïòèâ-
íî¨ ñòàòèñòèêè ñàìå ç òàêî¨ òî÷êè çîðó. Çíà÷íà êiëüêiñòü äåñêðèïòèâíèõ
ñòàòèñòèê ìîæå âèêîðèñòîâóâàòèñü òàêîæ ó ðàìêàõ ïåâíèõ òåîðåòè÷íèõ
ìîäåëåé, ñêàæiìî, ÿê îöiíêè ïàðàìåòðiâ ìîäåëi, ñòàòèñòèêè òåñòiâ äëÿ
ïåðåâiðêè ãiïîòåç, ïðîãíîçè äëÿ î÷iêóâàíèõ ñïîñòåðåæåíü. Òàêi çàñòîñó-
âàííÿ ðîçãëÿäàþòüñÿ ó íàñòóïíèõ ðîçäiëàõ, àëå iíêîëè, äëÿ ïîÿñíåííÿ
ïåðåâàã òî¨ ÷è iíøî¨ ñòàòèñòèêè, ìè áóäåìî çãàäóâàòè òðàêòóâàííÿ äà-
íèõ ÿê кратної вибiрки  íàáîðó íåçàëåæíèõ, îäíàêîâî ðîçïîäiëåíèõ
1
âèïàäêîâèõ âåëè÷èí . ×èòà÷i, ÿêèì òàêà òðàêòîâêà íå çîâñiì çðîçóìiëà,
àáî çäà¹òüñÿ íåäîðå÷íîþ ïðè çàñòîñóâàííi äî ¨õ äàíèõ, ìîæóòü ïðîñòî
ïðîïóñêàòè öi ïîÿñíåííÿ.
Ó öüîìó ðîçäiëi ìè îáãîâîðèìî îñíîâíi äåñêðèïòèâíi ñòàòèñòèêè íà-
áîðiâ ÷èñëîâèõ ñòàòèñòè÷íèõ äàíèõ, ó ÿêèõ äëÿ êîæíîãî ñïîñòåðåæåííÿ
2
âèìiðþ¹òüñÿ îäíà ÷èñëîâà õàðàêòåðèñòèêà (çìiííà) .

1
Формальне означення кратної вибiрки див. у п. 8.1.
2
Описова статистика багатовимiрних даних розглядається у роздiлi 5, а графiчнi засоби

108
4.1. Статистики середнього положення 109

Íàïðèêëàä, ñïîñòåðåæóâàíèìè îá'¹êòàìè ìîæóòü áóòè ïðèçîâíèêè


äî àðìi¨, à çìiííîþ, ùî äîñëiäæó¹òüñÿ  ¨õ çðiñò. (Âëàñòèâîñòi öi¹¨ õà-
ðàêòåðèñòèêè âàæëèâi äëÿ òèõ, õòî çàéìà¹òüñÿ çàáåçïå÷åííÿì âiéñüêî-
âîñëóæáîâöiâ îäÿãîì). Iíøèé ïðèêëàä  âèìiðþâàííÿ òåìïåðàòóðè ïî-
âiòðÿ íà âóëèöi, ÿêi ïðîâîäÿòüñÿ ïðîòÿãîì ðîêó ùîäíÿ î ïåâíié ãîäèíi.
Òóò êîæíå ñïîñòåðåæåííÿ âiäïîâiä๠äíþ âèìiðþâàííÿ, à òåìïåðàòóðà ¹
çìiííîþ, ùî äîñëiäæó¹òüñÿ.
Ó âèïàäêó çðîñòó ïðèçîâíèêiâ ïîðÿäîê, â ÿêîìó ðîçòàøîâàíi îá'¹êòè
ó íàáîði íåñóòò¹âèé, âií ñêëàâñÿ âèïàäêîâî i íå ïîâ'ÿçàíèé ç äîñëiäæó-
âàíèì ÿâèùåì. Ïåðåòàñóâàâøè âèìiðÿíi çíà÷åííÿ çðîñòó ó äîâiëüíîìó
ïîðÿäêó, ìè íå âòðà÷à¹ìî êîðèñíî¨ iíôîðìàöi¨. Òàêi íàáîðè äàíèõ ïðèé-
íÿòî íàçèâàòè âèáiðêàìè.
Äëÿ âèìiðþâàíü òåìïåðàòóðè ïîðÿäîê ñóòò¹âèé: òåìïåðàòóðà íà âó-
ëèöi çàëåæèòü âiä ïîðè ðîêó, ñüîãîäíiøíÿ òåìïåðàòóðà çàëåæèòü âiä â÷î-
ðàøíüî¨ i ò.ä. Äàíi, äëÿ ÿêèõ âàæëèâèìè ¹ òàêi åôåêòè, íàçèâàþòü ÷àñî-
âèìè ðÿäàìè. Çðîçóìiëî, ùî ïåðåòàñóâàâøè åëåìåíòè ÷àñîâîãî ðÿäó ìè
âòðàòèìî iíôîðìàöiþ ïðî öi çàëåæíîñòi. Àëå iíôîðìàöiÿ ïðî äåÿêi âàæ-
ëèâi îñîáëèâîñòi äîñëiäæóâàíî¨ òåìïåðàòóðè çáåðåæåòüñÿ: ÿêùî, íàïðè-
êëàä, íàñ öiêàâèòü íàéáiëüøà òåìïåðàòóðà ïðîòÿãîì ðîêó, íà ïîðÿäîê
âèìiðþâàíü ìîæíà íå çâåðòàòè óâàãè. Ïðè äîñëiäæåííi òàêèõ îñîáëè-
âîñòåé ÷àñîâi ðÿäè ìîæíà (ç ïåâíèìè çàñòåðåæåííÿìè) ðîçãëÿäàòè ÿê
âèáiðêè.
Ó öüîìó ïiäðîçäiëi ìè çîñåðåäèìîñü íà àíàëiçi âèáiðîê, òîáòî òàêèõ
íàáîðiâ äàíèõ, äëÿ ÿêèõ ïîðÿäîê ñïîñòåðåæåíü íåñóòò¹âèé.
Íàäàëi ìè áóäåìî ïîçíà÷àòè 𝑋𝑗  çíà÷åííÿ äîñëiäæóâàíî¨ çìií-
íî¨ ó 𝑗 -òîìó ñïîñòåðåæåííi, 𝑛  êiëüêiñòü åëåìåíòiâ ó âèáiðöi, X =
(𝑋1 , . . . , 𝑋𝑛 )  âèáiðêà.

4.1 Статистики середнього положення


Íàéïðîñòiøèé ñïîñiá ñõàðàêòåðèçóâàòè âèáiðêó â öiëîìó îäíèì ÷èñ-
ëîì ïîëÿã๠â òîìó, ùîá âêàçàòè ñåðåäí¹ ïîëîæåííÿ, öåíòð âèáiðêè
íàâêîëî ÿêîãî êîëèâàþòüñÿ âèáiðêîâi çíà÷åííÿ. Iñíó¹ áàãàòî ñïîñîáiâ
âèçíà÷åííÿ òàêîãî ÷èñëà i, âiäïîâiäíî, ðiçíi ñòàòèñòèêè ñåðåäíüîãî ïî-
ëîæåííÿ. Äàëi ìè ðîçãëÿíåìî íàéáiëüø ïîøèðåíi ç íèõ òà îáãîâîðèìî ¨õ
âëàñòèâîñòi.

аналiзу одновимiрних даних — у роздiлi 7.


4.1. Статистики середнього положення 110

Таблиця 4.1. Кiлькостi покупцiв у магазинi протягом тижня.

Äåíü ïí. âò. ñð. ÷ò. ïò. ñá. íä.


Êiëüê. ïîêóïöiâ 8 12 23 14 7 92 24

Вибiркове середне  ñòàòèñòèêà, ùî ïåðøîþ ñïàä๠íà äóìêó, êîëè


òðåáà âèçíà÷èòè öåíòð âèáiðêè. Äëÿ âèáiðêè X âîíî âèçíà÷à¹òüñÿ çà
ôîðìóëîþ
𝑛
¯= 1
∑︁
𝑋 𝑋𝑗 .
𝑛 𝑗=1
(Ó ñòàòèñòèöi âèáiðêîâå ñåðåäí¹ ñòàíäàðòíî ïîçíà÷à¹òüñÿ òi¹þ æ ëiòå-
ðîþ, ùî i óñåðåäíþâàíà çìiííà ç ðèñêîþ íàä íåþ.)
Ïîøèðåíiñòü öi¹¨ ñòàòèñòèêè ïîâ'ÿçàíà iç çàãàëüíîâæèâàíèì ñïîñî-
áîì ìiðêóâàííÿ íà çðàçîê: ñåðåäíÿ âðîæàéíiñòü öüîãî ñîðòó êàðòîïëi
ó íàøèõ óìîâàõ ñêëàä๠20 òîí ç ãåêòàðó, îòæå ç íàøèõ òðüîõ ãåêòàðiâ
ìîæíà ñïîäiâàòèñü ïðèáëèçíî 60 ò. âðîæàþ. Â îñíîâi òàêîãî ïðîãíî-
çóâàííÿ ëåæèòü óÿâëåííÿ ïðî ñòàáiëüíiñòü ñåðåäíiõ ïî âåëèêèõ îáñÿãàõ
äàíèõ: âðîæàé ç îäíîãî êóùà êàðòîïëi ìiíÿ¹òüñÿ ïiä âïëèâîì áàãàòüîõ
ïðè÷èí. Àëå ïðè óñåðåäíåííi ïî âñiõ êóùàõ ç îäíîãî ãåêòàðó ïîëÿ ií-
äèâiäóàëüíi îñîáëèâîñòi, ùî çìiíþþòü âðîæàé ðiçíèõ êóùiâ ó ðiçíèõ
íàïðÿìêàõ, âçà¹ìíî âðiâíîâàæóþòüñÿ i îòðèìó¹òüñÿ ðåçóëüòàò, êîòðèé
ì๠áóòè ïðèáëèçíî îäíàêîâèì äëÿ âñiõ òðüîõ ãåêòàðiâ íàøîãî ïîëÿ. Â
òåîði¨ éìîâiðíîñòåé öåé åôåêò íàçèâàþòü çàêîíîì âåëèêèõ ÷èñåë i âií
¹ âëàñòèâiñòþ âèáiðêîâèõ ñåðåäíiõ äëÿ äàíèõ, ùî îïèñóþòüñÿ ïåâíèìè
òåîðåòè÷íèìè ìîäåëÿìè.
Êðiì çàêîíó âåëèêèõ ÷èñåë ó íàøîìó ìiðêóâàííi áóëà âèêîðèñòàíà
iùå âëàñòèâiñòü àäèòèâíîñòi âðîæàþ: ïîâíèé âðîæàé ç óñiõ äiëÿíîê
äîðiâíþ¹ ñóìi âðîæà¨â êîæíî¨ îêðåìî¨ äiëÿíêè. Öþ âëàñòèâiñòü ìîæíà
òàêîæ íàçâàòè ïîäiáíiñòþ, àáî ïðèáëèçíîþ ïðîïîðöiéíiñòþ àíàëiçîâàíèõ
ÿâèù: ïðè çðîñòàííi äiëÿíêè âòðè÷i, âðîæàé òàêîæ ì๠çðîñòè ïðèáëèçíî
âòðè÷i.

Приклад 4.1.1. Ó äåÿêîìó ìàãàçèíi ïðîòÿãîì òèæíÿ ùîäíÿ ôiêñóâàëè


êiëüêiñòü ïîêóïöiâ. Îòðèìàíi äàíi  ó òàáëèöi 4.1.
Ïîòðiáíî îöiíèòè, ñêiëüêîõ ïîêóïöiâ ìîæíà î÷iêóâàòè ïðîòÿãîì êâàð-
òàëó (90 äíiâ). Çðîçóìiëî, ùî íàéïðîñòiøà îöiíêà  âèçíà÷èòè ñåðåäíþ
êiëüêiñòü ïîêóïöiâ íà äåíü i ïîìíîæèòè ¨ ¨ íà 90.
4.1. Статистики середнього положення 111

Îò ÿê öå ìîæíà çðîáèòè â R:

# Середня кiлькiсть покупцiв на день:


MeanBuy<-(8+12+23+14+7+92+24)/7
MeanBuy

## [1] 25.71429

# Оцiнка кiлькостi покупцiв за квартал:


90*MeanBuy

## [1] 2314.286

Ñåðåäí¹ âèéøëî ðiâíèì 25.71429, à ïðîãíîç äëÿ êiëüêîñòi ïîêóïöiâ çà


3
êâàðòàë  2314.286. ßêùî äëÿ iíøèõ ïîòðåá öi äàíi âèêîðèñòîâóâàòèñü
íå áóäóòü, òî, ïðè òàêîìó îáñÿçi, öå, ìàáóòü, íàéáiëüø çðó÷íèé âàðiàíò
îá÷èñëåííÿ âèáiðêîâîãî ñåðåäíüîãî.
ßêùî âè çáèðà¹òåñü ùîñü iùå ðîáèòè ç äàíèìè, òî ¨õ êðàùå çà-
ïàì'ÿòàòè ó îêðåìié çìiííié. Òîäi ç íèìè ìîæíà áóäå ïðàöþâàòè âè-
êîðèñòîâóþ÷è ñòàíäàðòíi ôóíêöi¨ R. Íàïðèêëàä:

NumBuy<-c(8,12,23,14,7,92,24) # запам'ятали данi пiд назвою NumBuy


sum(NumBuy)/7 # пiдрахували середнє

## [1] 25.71429

 ðåçóëüòàò, çâè÷àéíî, òîé æå, ùî i ó ïîïåðåäíüîìó âàðiàíòi.


Ó R òàêîæ ¹ ñïåöiàëüíà ôóíêöiÿ, ùî îá÷èñëþ¹ âèáiðêîâi ñåðåäíi 

mean(NumBuy)

## [1] 25.71429
3
Зрозумiло, що цей приклад чисто iлюстративний. Вибiрка з семи спостережень обрана
для того, щоб зручно було записати пiдрахунки. За даними такого обсягу прогноз не може
бути точним. Бiльше того, вiн спирається на припущення про стабiльнiсть середнiх, але
якщо, скажiмо, наш магазин торгує морозивом, то середня кiлькiсть покупцiв у березнi
повинна вiдрiзнятись вiд середнього за травень. Такого роду мiркування не слiд забувати
коли працюєш з реальними даними.
4.1. Статистики середнього положення 112

Äîêëàäíiøå ïðî ðîáîòó öi¹¨ òà iíøèõ àíàëîãi÷íèõ ôóíêöié äèâ. ó ï.


4.6. J
Iíøå ïðîñòå ïîÿñíåííÿ öi¹¨ õàðàêòåðèñòèêè  по справедливостi: ÿê-
ùî ó âñiõ âiäiáðàòè i ðîçäiëèòè ïîðiâíó, òî êîæåí îòðèì๠âèáiðêîâå ñå-
ðåäí¹. Öå ïîÿñíåííÿ äîçâîëÿ¹ çðîçóìiòè, ÷îìó ó äåÿêèõ âèïàäêàõ âè-
áiðêîâå ñåðåäí¹ çàìiíÿþòü iíøèìè õàðàêòåðèñòèêàìè.
Середнє геометричне âèçíà÷à¹òüñÿ äëÿ âèáiðîê X = (𝑋1 , . . . , 𝑋𝑛 ),
ó ÿêèõ çíà÷åííÿ çìiííî¨ 𝑋𝑗 ïðèéìàþòü ëèøå äîäàòíi çíà÷åííÿ. Âîíî
äîðiâíþ¹
(︃ 𝑛
)︃1/𝑛
∏︁
GM(X) = 𝑋𝑗 . (4.1)
𝑗=1

Приклад 4.1.2. (Çàñòîñóâàííÿ ãåîìåòðè÷íîãî ñåðåäíüîãî ó ôiíàíñîâié ìà-


òåìàòèöi). Íåõàé óêëàäåíî êðåäèòíó óìîâó íà 𝑛 ðîêiâ, ó ÿêié áîðæíèê íà
ïî÷àòêó òåðìiíó óìîâè îòðèìó¹ ñóìó 𝑆 . Çà ïåðøèé ðiê êðåäèòóâàííÿ íà-
ðàõîâó¹òüñÿ âiäñîòîê 𝑝1 , çà äðóãèé  𝑝2 i ò.ä. Íàðàõóâàííÿ âiäáóâà¹òüñÿ
çà ñõåìîþ ñêëàäíèõ âiäñîòêiâ. Ñïëàòà áîðãó ç óñiìà âiäñîòêàìè ïåðåäáà-
÷à¹òüñÿ íàïðèêiíöi òåðìiíó äi¨ óãîäè. ßê âèçíà÷èòè ñåðåäíié âiäñîòîê ïî
êðåäèòóâàííþ çà öi¹þ óãîäîþ?
Ùî òàêå ñåðåäíié âiäñîòîê? Öå òàêå 𝑝ˆ, ùî, ÿêáè ìè óêëàëè óãîäó íà
𝑛 ðîêiâ ç ôiêñîâàíèì âiäñîòêîì 𝑝ˆ, òî âèïëàòà ïðè ïîâåðíåííi áîðãó áóëà
á òàêà ñàìà, ÿê i â ðîçãëÿíóòié óãîäi çi çìiííèìè âiäñîòêàìè.
Âèïëàòà ó ñõåìi çìiííèõ âiäñîòêiâ äîðiâíþ¹

𝑛
∏︁
𝑆𝑛 = 𝑆 (1 + 𝑝𝑗 /100),
𝑗=1

à âèïëàòà ç ôiêñîâàíèì âiäñîòêîì 𝑝ˆ, âî÷åâèäü, áóëà á

𝑆𝑛′ = 𝑆(1 + 𝑝ˆ/100)𝑛 .

Ïðèðiâíþþ÷è 𝑆𝑛 i 𝑆𝑛′ , îòðèìó¹ìî

𝑛
(︃ )︃1/𝑛
∏︁
𝑝ˆ = 100 (1 + 𝑝𝑗 /100) − 100. (4.2)
𝑗=1

Ó öüîìó âèðàçi ëåãêî ïîáà÷èòè ãåîìåòðè÷íå ñåðåäí¹ âåëè÷èí 𝑋𝑗 = (1 +


𝑝𝑗 /100)  ïðèðîñòiâ áîðãó ïðîòÿãîì 𝑗 -òîãî ðîêó äi¨ óãîäè. J
4.1. Статистики середнього положення 113

Îòæå, ãåîìåòðè÷íå ñåðåäí¹ ïðèðîäíî çàñòîñîâóâàòè òàì, äå çàãàëüíèé


åôåêò âèðàæà¹òüñÿ íå ÿê ñóìà, à ÿê äîáóòîê åôåêòiâ îêðåìèõ ñïîñòåðå-
æåíü.
Âiäìiòèìî òàêîæ, ùî ëîãàðèôì ãåîìåòðè÷íîãî ñåðåäíüîãî ¹ âèáiðêî-
âèì ñåðåäíiì ëîãàðèôìiâ ñïîñòåðåæåíü:

log(GM(𝑋)) = log(𝑋).

Ìîæíà ñêàçàòè, ùî ëîãàðèôìi÷íå ïåðåòâîðåííÿ äàíèõ ïåðåâîäèòü ãåî-


ìåòðè÷íi ñåðåäíi ó âèáiðêîâi.

Приклад 4.1.3. Íåõàé îáñÿã ïðîäàæ ìàãàçèíó çà ñi÷åíü çðiñ ïî âiäíî-


øåííþ äî ïîïåðåäíüîãî ìiñÿöÿ íà 5%, çà ëþòèé - íà 10%, à çà áåðåçåíü
 çìåíøèâñÿ íà 5%. ßêèì áóâ ñåðåäíié òåìï ðîñòó ùîìiñÿ÷íîãî îáñÿãó
ïðîäàæ ïðîòÿãîì ïåðøîãî êâàðòàëó?
Íàñ öiêàâèòü ñåðåäíié âiäñîòîê ó ñõåìi, ùî öiëêîì âiäïîâiä๠ëîãiöi
ñêëàäíèõ âiäñîòêiâ. Òîìó ïðèðîäíî ñêîðèñòàòèñü ôîðìóëîþ (4.2):


𝑝середнє = 100 3 1.05 × 1.10 × 0.95 − 100.

Îá÷èñëþ¹òüñÿ öå íà R òàê:

100*(1.05*1.1*0.95)^(1/3)-100

## [1] 3.141916

àáî, ÿêùî ïîòðiáíî áóäå çà öi¹þ ôîðìóëîþ ðàõóâàòè ñåðåäíié âiäñîòîê


äëÿ áàãàòüîõ ðiçíèõ íàáîðiâ äàíèõ:

x<-c(5,10,-5) # вводимо данi


100*(prod((1+0.01*x))^(1/length(x))-1) # середнiй вiдсоток

## [1] 3.141916

Âèéøëî 3.141916. Åêîíîìiñòè ÷àñòî îêðóãëþþòü òàêi ðåçóëüòàòè, íà-


ïðèêëàä, äî äâîõ öèôð ïiñëÿ êîìè. Öå ìîæíà çðîáèòè àâòîìàòè÷íî, âè-
êîðèñòîâóþ÷è ôóíêöiþ :
4.1. Статистики середнього положення 114

round(100*(prod((1+0.01*x))^(1/length(x))-1),2 )

## [1] 3.14

Çàóâàæèìî, ùî ÿêùî âèêîðèñòàòè äëÿ óñåðåäíåííÿ âiäñîòêiâ çâè-


÷àéíå âèáiðêîâå ñåðåäí¹, îòðèìà¹ìî ó öüîìó ïðèêëàäi 𝑥¯ = 3.333333. Âiä-
ìiííiñòü âiä ãåîìåòðè÷íîãî ñåðåäíüîãî íåâåëèêà, àëå ïîìiòíà. J

Середнє гармонiйне  öå âåëè÷èíà, îáåðíåíà äî âèáiðêîâîãî ñåðåä-


íüîãî îáåðíåíèõ âåëè÷èí ñïîñòåðåæåíü:

𝑛 1
HM(X) = ∑︀𝑛 1 = . (4.3)
𝑗=1 𝑋𝑗 1/𝑋

Ãàðìîíiéíi ñåðåäíi ïðèðîäíî çàñòîñîâóâàòè äëÿ õàðàêòåðèçàöi¨ ñåðåäíiõ


ïîëîæåíü çìiííèõ, ÿêi ñàìi ìîæíà âèçíà÷èòè, ÿê âiäíîøåííÿ äâîõ õà-
ðàêòåðèñòèê îäíîãî îá'¹êòà, ÿêùî ÷èñåëüíèê ¹ ìåíø ìiíëèâèì íiæ çíà-
ìåííèê.

Приклад 4.1.4. (Ñåðåäí¹ ãàðìîíiéíå ó ïiäðàõóíêó mpg) Âàæëèâîþ õà-


ðàêòåðèñòèêîþ åêîíîìi÷íîñòi àâòîìîáiëÿ ¹ øëÿõ, ÿêèé âií ïðîõîäèòü,
âèòðàòèâøè îäèíèöþ îá'¹ìó ïàëüíîãî. Ó êðà¨íàõ ç áðèòàíñüêîþ ñèñòå-
ìîþ ìið öÿ âåëè÷èíà âèçíà÷à¹òüñÿ ó ìiëÿõ øëÿõó íà ãàëîí ïàëüíîãî i
ïîçíà÷à¹òüñÿ mpg.
Äëÿ âèçíà÷åííÿ mpg äàíîãî àâòîìîáiëÿ âèêîðèñòîâóþòüñÿ òåñòîâi
ïî¨çäêè ïî çàäàíîìó ìàðøðóòó. ßêùî äîâæèíà ìàðøðóòó ó ìiëÿõ äîðiâ-
íþ¹ 𝑆 , à îá'¹ì âèòðà÷åíîãî ïàëüíîãî ó ãàëîíàõ  𝑉 , òî mpg = 𝑆/𝑉 . Äëÿ
íàäiéíîñòi òåñòîâi ïî¨çäêè ïîâòîðþþòü äåêiëüêà ðàçiâ ïî îäíîìó ìàðø-
ðóòó, îòðèìóþ÷è ðiçíi îá'¹ìè âèòðà÷åíîãî ïàëüíîãî 𝑉1 , 𝑉2 ,. . . ,𝑉𝑛 . Âiäïî-
âiäíî, äëÿ êîæíîãî òåñòó ìîæíà âèçíà÷èòè ñâî¹ çíà÷åííÿ mpg𝑗 = 𝑆/𝑉𝑗 .
Ñåðåäí¹ çíà÷åííÿ mpg çà âñiìà òåñòàìè ïðèðîäíî âèçíà÷èòè ÿê âiäíî-
øåííÿ çàãàëüíî¨ äîâæèíè ïðîéäåíîãî â óñiõ òåñòàõ øëÿõó äî îá'¹ìó âñüî-
ãî âèòðà÷åíîãî ïàëüíîãî:
∑︀𝑛
𝑗=1 𝑆 𝑛
̂︂ = ∑︀𝑛
mpg = ∑︀𝑛 = HM(mpg).
𝑗=1 𝑉𝑗 𝑗=1 1/mpg𝑗

Òàêèì ÷èíîì, äëÿ óñåðåäíåííÿ mpg îòðèìàíèõ ó ñåði¨ òåñòîâèõ ïî¨çäîê


ñëiä âèêîðèñòîâóâàòè ñåðåäí¹ ãàðìîíiéíå. J
4.1. Статистики середнього положення 115

Íà îñíîâi ñõîæèõ ìiðêóâàíü ðåêîìåíäó¹òüñÿ çàñòîñîâóâàòè ñåðåä-


í¹ ãàðìîíiéíå äëÿ âèçíà÷åííÿ ñåðåäíüîãî çíà÷åííÿ êîåôiöi¹íòó öi-
íà/ïðèáóòîê (P/E, earnings multiple) ïðè ïîðiâíÿííi iíâåñòèöiéíî¨ ïðè-
âàáëèâîñòi àêöiîíåðíèõ êîìïàíié[38].

Приклад 4.1.5. Íà ñêëàä äëÿ ðåàëiçàöi¨ ïðèáóëà ïàðòiÿ õàð÷îâî¨ ñîëi,


ðîçôàñîâàíî¨ ó ïàêåòè âàãîþ 1 êã. Òðè ïàêåòè âèáðàëè ç ïàðòi¨ i ïðîâå-
4
ëè âèìiðþâàííÿ íàñèïíî¨ ãóñòèíè ñîëi, ÿêà â íèõ ìiñòèëàñü. Îòðèìàëè
3
íàñòóïíi çíà÷åííÿ äëÿ êîæíîãî ïàêåòó: 1123, 1115 i 1284 (êã/ì ). ×îìó
äîðiâíþ¹ ñåðåäíÿ ãóñòèíà ñîëi ó äîñëiäæåíèõ ïàêåòàõ?
Çâè÷àéíî ó òàêèõ äîñëiäàõ îá÷èñëþþòü ïðîñòî âèáiðêîâå ñåðåäí¹ (ó
3
íàñ âîíî ñêëàä๠1174 êã/ì ). Àëå ìîæíà ïîìiòèòè, ùî â äàíîìó âèïàäêó
ìàñà âñiõ çðàçêiâ îäíàêîâà, îòæå âiäìiííîñòi ãóñòèíè ïîâ'ÿçàíi ç ðiçíèì
îá'¹ìîì ñîëi ó ðiçíèõ ïàêåòàõ. Îñêiëüêè ãóñòèíà îáåðíåíî ïðîïîðöiéíà
îá'¹ìó, ïðèðîäíî âèêîðèñòàòè ãàðìîíiéíå ñåðåäí¹:

3/(1/1123+1/1115+1/1284)

## [1] 1169.067

àáî òàê:

x<-c(1123,1115,1284)
1/mean(1/x)

## [1] 1169.067

Îòðèìàëè 1169.067  ïîìiòíî ìåíøå íiæ âèáiðêîâå ñåðåäí¹.


J

Забруднення i робастнiсть. Ïðè âèáîði ñòàòèñòèêè äëÿ õàðàêòåðè-


çàöi¨ ñåðåäíüîãî ïîëîæåííÿ âèáiðêè äîöiëüíî âðàõîâóâàòè ìîæëèâiñòü
çàáðóäíåíü. Çàáðóäíåíîþ çâåòüñÿ âèáiðêà, ó ÿêié ïðèñóòíi çíà÷åííÿ, ùî
íå ïîâ'ÿçàíi ç äîñëiäæóâàíèì ÿâèùåì, à ïîòðàïèëè äî íå¨ âíàñëiäîê ïî-
ìèëêè. ßêùî òàêå íåàäåêâàòíå çíà÷åííÿ ìîæíà ðîçïiçíàòè i âèëó÷èòè ç

4
Нагадаємо, що густина речовини, це маса, яка припадає на одиницю об’єму. При визна-
ченнi насипної густини сипких матерiалiв (пiску, цукру, меленої кави, солi. . . ) вимiрюють той
об’єм, який займає речовина насипана вiльно без стискання. Насипна густина солi залежить
вiд помелу та вологостi, тобто її значення важливе для перевiрки якостi продукту.
4.1. Статистики середнього положення 116

âèáiðêè, éîãî íàçèâàþòü ãðóáîþ ïîìèëêîþ (íàïðèêëàä, ÿêùî âèáiðêà


ñêëàäà¹òüñÿ ç çðîñòiâ ëþäåé, âñi âiä'¹ìíi çíà÷åííÿ ó íié áóäóòü ãðóáèìè
ïîìèëêàìè).
Àëå áóâàþòü çàáðóäíåííÿ, ÿêi íå ìîæíà îäíîçíà÷íî ðîçïiçíàòè, òî-
ìó âîíè âïëèâàþòü íà çíà÷åííÿ ñóìàðíèõ ñòàòèñòèê, ùî îá÷èñëþþòüñÿ
çà âèáiðêîþ. ßêùî äîñëiäíèê íå ìîæå ç òåîðåòè÷íèõ ìiðêóâàíü âèêëþ-
÷èòè ìîæëèâiñòü çàáðóäíåííÿ, òî äëÿ çàãàëüíî¨ õàðàêòåðèçàöi¨ âèáiðêè
áàæàíî âèêîðèñòîâóâàòè ñòàòèñòèêè, ÿêi íå äóæå ñèëüíî çìiíþþòüñÿ ïðè
íàÿâíîñòi íåâåëèêî¨ êiëüêîñòi çàáðóäíåíü. Òàêi ñòàòèñòèêè íàçèâàþòü ðî-
áàñòíèìè (ñòiéêèìè ïî âiäíîøåííþ äî çàáðóäíåíü).
Íàïðèêëàä, âèáiðêîâå ñåðåäíå ¯
𝑋 íå ¹ ðîáàñòíèì: çàáðóäíåííÿ, ïðè
ÿêîìó çìiíþ¹òüñÿ îäíå ¹äèíå çíà÷åííÿ ó âèáiðöi 𝑋 ìîæå çìiíèòè ¯
𝑋 ÿê
çàâãîäíî ñèëüíî, ÿêùî çìiíåíå çíà÷åííÿ îáðàòè äóæå âåëèêèì.
Òàêi ñïîñòåðåæåííÿ  íàçäâè÷àéíî âåëèêi àáî íàäçâè÷àéíî ìàëi
ïîðiâíÿíî ç îñíîâíîþ ìàñîþ ñïîñòåðåæåíü, íàçèâàþòü викидами. Çà-
áðóäíåííÿ, ÿêi ¹ âèêèäàìè, ÿê ïðàâèëî, ¹ íåáåçïå÷íèìè ç òî÷êè çîðó
5
ìîæëèâèõ âïëèâiâ íà îïèñîâi ñòàòèñòèêè .
Òå æ ìîæíà ñêàçàòè i ïðî ñåðåäí¹ ãåîìåòðè÷íå: çáiëüøóþ÷è ëèøå
îäèí ìíîæíèê ó äîáóòêó (4.1), ìîæíà çðîáèòè âåñü äîáóòîê, à îòæå i ñå-
ðåäí¹, ÿê çàâãîäíî âåëèêèì. À îò äëÿ ñåðåäíüîãî ãàðìîíiéíîãî öå íåâið-
íî. Äiéñíî, ÿêùî ó (4.3) îäíå ñïîñòåðåæåííÿ, íàïðèêëàä, 𝑋𝑛 ñïðÿìóâàòè
äî íåñêií÷åííîñòi, òî ñåðåäí¹ ãàðìîíiéíå ïðÿìóâàòèìå äî

𝑛
∑︀𝑛−1 ,
𝑗=1 1/𝑋𝑗

òîáòî äî âåëè÷èíè, ÿêà ïðè âåëèêèõ 𝑛, ïðèáëèçíî äîðiâíþ¹ ãàðìîíié-


íîìó ñåðåäíüîìó, îá÷èñëåíîìó çà äàíèìè 𝑋1 , . . . , 𝑋𝑛−1 . Òîáòî íàÿâíiñòü
îäíîãî âåëèêîãî âèêèäó çìiíþ¹ ãàðìîíiéíå ñåðåäí¹ íå äóæå ñèëüíî. Àëå
ÿêùî ñïðÿìóâàòè 𝑋𝑛 äî 0, òî ãàðìîíiéíå ñåðåäí¹ âèáiðêè ïðÿìóâàòèìå
äî 0, òîáòî äî âåëè÷èíè, øî ìîæå ÿê çàâãîäíî ñèëüíî âiäðiçíÿòèñü âiä
ãàðìîíiéíîãî ñåðåäíüîãî ïî÷àòêîâî¨ âèáiðêè. Îòæå, äëÿ ãàðìîíiéíîãî ñå-
ðåäíüîãî íåáåçïå÷íèìè ¹ íå âåëèêi, à ìàëi (áëèçüêi äî 0) âèêèäè.
Зрiзанi середнi. Ðîçãëÿíóòi ñåðåäíi õàðàêòåðèñòèêè ìîæíà çðîáèòè
ñòiéêèìè äî íåâåëèêî¨ êiëüêîñòi çàáðóäíåíü, ÿêùî çàñòîñóâàòè òåõíiêó
çðiçàííÿ (truncation, trimming).

5
Важливо розумiти, що викиди не обов’язково є наслiдком забруднення вибiрки. Вони
можуть виникати природним чином, як її елементи. Наприклад, вибiрки з логнормального
розподiлу (6.2.3) як правило, мають викиди.
4.1. Статистики середнього положення 117

Ïåðåñòàâèìî åëåìåíòè íàøî¨ âèáiðêè ó ïîðÿäêó çðîñòàííÿ:

𝑋[1] ≤ 𝑋[2] ≤ · · · ≤ 𝑋[𝑛−1] ≤ 𝑋[𝑛] .

Òóò 𝑋[1]  íàéìåíøå çíà÷åííÿ ó âèáiðöi, 𝑋[2]  íàñòóïíå çà âåëè÷èíîþ,


i ò.ä. àæ äî 𝑋[𝑛]  íàéáiëüøîãî çíà÷åííÿ. 𝑋[𝑗] íàçèâàþòü 𝑗 -òîþ поряд-
ковою статистикою âèáiðêè X, à ïîñëiäîâíiñòü ïîðÿäêîâèõ ñòàòèñòèê 
варiацiйним рядом.
Äëÿ òîãî, ùîá çíàéòè çðiçàíå ñåðåäí¹ âèáiðêè ç ðiâíåì çðiçàííÿ 𝛼, ïî-
6
òðiáíî âiäêèíóòè ⌈𝑛𝛼/2⌉ íàéáiëüøèõ òà ⌈𝑛𝛼/2⌉ íàéìåíøèõ ïîðÿäêîâèõ
ñòàòèñòèê i óñåðåäíèòè òå, ùî çàëèøèëîñü:

𝑛−⌈𝑛𝛼/2⌉
1 ∑︁
TM𝛼 (𝑋) = 𝑋[𝑗] . (4.4)
𝑛 − 2⌈𝑛𝛼/2⌉
𝑗=⌈𝑛𝛼/2⌉+1

Àíàëîãi÷íî ìîæíà âèêîðèñòîâóâàòè çðiçàíå ãåîìåòðè÷íå àáî ãàðìîíiéíå


ñåðåäí¹.
×èì áiëüøîþ âèáðàòè ÷àñòêó âiäêèíóòèõ ïîðÿäêîâèõ ñòàòèñòèê, òèì
áiëüø ñòiéêèì äî çàáðóäåííÿ áóäå çðiçàíå ñåðåäí¹. Ãðàíè÷íèé âèïàäîê
äîñÿãà¹òüñÿ, êîëè âiäêèäàþòü âñi ñïîñåðåæåííÿ êðiì òîãî îäíîãî àáî
äâîõ, ùî çíàõîäÿòüñÿ ïîñåðåäèíi âàðiàöiéíîãî ðÿäó. Â ðåçóëüòàòi îòðè-
ìó¹ìî õàðàêòåðèñòèêó ñåðåäíüîãî ïîëîæåííÿ, ÿêà çâåòüñÿ âèáiðêîâîþ
ìåäiàíîþ.
Вибiркова медiана öå ñòàòèñòèêà, ùî îá÷èñëþ¹òüñÿ çà ôîðìóëîþ
{︃
𝑋[(𝑛+1)/2] , ÿêùî 𝑛 íåïàðíå,
med(𝑋) = 1 (4.5)
2
(𝑋 [𝑛/2] + 𝑋 [𝑛/2+1] ), ÿêùî 𝑛 íåïàðíå.

Êîðîòêî ìîæíà ñêàçàòè, ùî ìåäiàíà  öå ñåðåäèíà âàðiàöiéíîãî ðÿäó:


ëiâîðó÷ âiä ìåäiàíè çíàõîäèòüñÿ ñòiëüêè æ çíà÷åíü, ñêiëüêè i ïðàâîðó÷.
Ìåäiàíà  íàéáiëüø ðîáàñòíà õàðàêòåðèñòèêà ñåðåäíüîãî ïîëîæåííÿ
ó âèáiðöi. Öèì, çíà÷íîþ ìiðîþ, ïîÿñíþ¹òüñÿ ¨ ¨ ïîïóëÿðíiñòü ó áàãàòüîõ
çàñòîñóâàííÿõ.

Приклад 4.1.6. Ïiäðàõó¹ìî âèáiðêîâó ìåäiàíó íà äàíèõ ïðî êiëüêîñòi ïî-


êóïöiâ ìàãàçèíó ç òàáë. 4.1. Âïîðÿäêó¹ìî öþ âèáiðêó ó ïîðÿäêó çðîñòàí-
íÿ ùîá îòðèìàòè âàðiàöiéíèé ðÿä:

6
Тут ⌈𝑥⌉ — найменше цiле число, що є бiльшим або рiвним 𝑥.
4.1. Статистики середнього положення 118

sort(c(8,12,23,14,7,92,24))

## [1] 7 8 12 14 23 24 92

Ïîñåðåäèíi ó öüîìó ðÿäó ñòî¨òü ÷èñëî 14. Öå i ¹ ìåäiàíà.


Ìîæíà ïiäðàõóâàòè ìåäiàíó áåçïîñåðåäíüî, âèêîðèñòîâóþ÷è âiäïî-
âiäíó ôóíêöiþ R:

x<-c(8,12,23,14,7,92,24)
median(x)

## [1] 14

Îòðèìàíà íàìè ìåäiàíà ïîìiòíî ìåíøà íiæ âèáiðêîâå ñåðåäí¹ çíàé-


äåíå ó ïðèêëàäi 4.1.1  25.71429. Öå ïîâ'ÿçàíî ç âèêèäîì: êiëüêiñòü ïî-
êóïöiâ ó ñóáîòó (92) â íàñ áóëà ó êiëüêà ðàçiâ áiëüøà íiæ ó áóäü-ÿêèé
iíøèé äåíü. Òàêèé âèêèä íå ìîæíà ââàæàòè çàáðóäíåííÿì  ïðèðîäíî,
ùî ïî ñóáîòàõ â Óêðà¨íi ëþäè áiëüøå çàéìàþòüñÿ ïîêóïêàìè ïîðiâíÿ-
íî ç áóäíÿìè. Òîìó âèëó÷àòè öå ÷èñëî ç âèáiðêè íå âàðòî. Áiëüøå òîãî,
öåé åôåêò äîöiëüíî áóëî âðàõîâóâàòè ïðè îöiíöi çàãàëüíî¨ êiëüêîñòi ïî-
êóïöiâ çà êâàðòàë ó ïðèêëàäi 4.1.1, îñêiëüêè ñóáîòè áóäóòü ðåãóëÿðíî
ïîâòîðþâàòèñü ïðîòÿãîì êâàðòàëó.
Îäíàê, ÿêùî ìè õî÷åìî ñõàðàêòåðèçóâàòè òèïîâó êiëüêiñòü ïîêóï-
öiâ ó ìàãàçèíi ïðîòÿãîì äíÿ, ïðèðîäíî âèêîðèñòàòè äëÿ öüîãî ñàìå ìåäià-
íó  öå êiëüêiñòü ïîêóïöiâ ó äåíü, ÿêèé ëåæèòü ïîñåðåäèíi ìiæ ìåíø i
áiëüø âäàëèìè äíÿìè íàøîãî ìàãàçèíó. J
Ìîæíà ñêàçàòè, ùî ïîðÿäêîâi ñòàòèñòèêè, ÿêi ðîçòàøîâàíi ïîáëèçó
ñåðåäèíè âàðiàöiéíîãî ðÿäó, ¹ íàéáiëüø ðîáàñòíèìè. I íàâïàêè  íàé-
áiëüø ÷óòëèâèìè äî çàáðóäíåíü ¹ åêñòðåìàëüíi ïîðÿäêîâi ñòàòèñòèêè
𝑋[1] = min(𝑋1 , . . . , 𝑋𝑛 ) òà 𝑋[𝑛] = max(𝑋1 , . . . , 𝑋𝑛 ). Iíòåðâàë [𝑋[1] , 𝑋[𝑛] ]
íàçèâàþòü äiàïàçîíîì âèáiðêè, à âåëè÷èíó

𝑋[1] + 𝑋[𝑛]
MR(𝑋) =
2
 серединою дiапазону (midrange). MR(𝑋) òàêîæ ¹ õàðàêòåðèñòèêîþ
ñåðåäíüîãî ïîëîæåííÿ ó âèáiðöi, õî÷à i çîâñiì íå ðîáàñòíîþ. Ñêàæiìî,
ÿêùî ó âèáiðöi ¹ îäíå çàáðóäíåííÿ, âîíî ìîæå ïîìiòíî çìiíèòè âèáiðêî-
âå ñåðåäí¹. Àëå ïðè çðîñòàííi îáñÿãó âèáiðêè âïëèâ öüîãî çàáðóäíåííÿ
4.2. Статистики розкиду 119

áóäå çìåíøóâàòèñü. Äëÿ ñåðåäèíè äiàïàçîíó öå íå òàê: îäíå çíà÷åííÿ


çàáðóäíåííÿ, ÿêå ¹ áiëüøèì, íiæ âñi ñïîñòåðåæóâàíi çíà÷åííÿ äîñëiä-
æóâàíî¨ çìiííî¨, çàëèøèòüñÿ 𝑋[𝑛] , ñêiëüêè á íîâèõ ñïîñòåðåæåíü ìè íå
çðîáèëè. Îòæå, âèêîðèñòîâóâàòè ñåðåäèíó äiàïàçîíó äëÿ õàðàêòåðèçàöi¨
ñåðåäíüîãî ïîëîæåííÿ ñëiä äóæå îáåðåæíî.

Приклад 4.1.7. Äëÿ äàíèõ ç òàáëèöi 4.1 ñåðåäèíó äiàïàçîíó ìîæíà îá-
÷èñëèòè òàê (x âèçíà÷åíî ó ïîïåðåäíüîìó ïðèêëàäi):

(min(x)+max(x))/2

## [1] 49.5
 îòðèìàëè 49.5. Öå áiëüøå íiæ âñi ñïîñòåðåæåííÿ ó âèáiðöi êðiì
îäíîãî. Íàâðÿä ÷è â äàíîìó âèïàäêó ìîæíà êàçàòè ïðî âäàëó õàðàêòå-
ðèçàöiþ ñåðåäíüîãî ïîëîæåííÿ. Çðîçóìiëî, ùî öå ðåçóëüòàò âïëèâó ñóá-
îòíüîãî âèêèäó.
Àëå ÿêùî íàñ öiêàâèòü, ñêàæiìî, ÿêó ìîæëèâó êiëüêiñòü ïîêóïöiâ
ïðèéäåòüñÿ îáñëóãîâóâàòè ïðîòÿãîì îäíîãî äíÿ ó íàøîìó ìàãàçèíi, òàêå
âåëèêå çíà÷åííÿ ñåðåäèíè äiàïàçîíó áóäå âêàçóâàòè, ùî íàì ïîòðiáíî
ïåðåäáà÷èòè ìîæëèâèé íàïëèâ êëi¹íòiâ ó îêðåìi ïiêîâi äíi. Ç öi¹¨ òî÷êè
çîðó ñåðåäèíà äiàïàçîíó ìîæå áóòè êîðèñíîþ õàðàêòåðèñòèêîþ. J
Âiäìiòèìî, ùî ó òèõ âèïàäêàõ, êîëè çàáðóäíåíü íåìà¹, ñåðåäèíà äià-
ïàçîíó ìîæå âèÿâèòèñü çíà÷íî áiëüø òî÷íîþ îöiíêîþ òåîðåòè÷íîãî ñå-
ðåäíüîãî ïîëîæåííÿ, íiæ âèáiðêîâå ñåðåäí¹ (ñêàæiìî, äëÿ ìàòåìàòè÷íî-
ãî ñïîäiâàííÿ ðiâíîìiðíîãî ðîçïîäiëó çà êðàòíîþ âèáiðêîþ  äèâ. ïðè-
êëàä 8.4.5).

4.2 Статистики розкиду


Ùîá îäíèì ÷èñëîì ïîêàçàòè, ÿê äàëåêî âèáiðêîâi çíà÷åííÿ ìîæóòü
âiäõèëÿòèñü âiä ñåðåäíüîãî ïîëîæåííÿ, âèêîðèñòîâóþòü ñòàòèñòèêè ðîç-
êèäó.
Íàéáiëüø ïîïóëÿðíîþ òàêîþ ñòàòèñòèêîþ ¹ вибiркова дисперсiя
(sample variance). Âîíà âèçíà÷à¹òüñÿ ÿê ñåðåäí¹ êâàäðàòiâ âiäõèëåíü ñïî-
ñòåðåæåíü âiä âèáiðêîâîãî ñåðåäíüîãî:
𝑛
2 1 ∑︁ ¯ 2.
𝑆 (𝑋) = (𝑋𝑗 − 𝑋) (4.6)
𝑛 𝑗=1
4.2. Статистики розкиду 120

×àñòî âèêîðèñòîâó¹òüñÿ виправлена вибiркова дисперсiя, ÿêà âiäðiç-


7
íÿ¹òüñÿ âiä çâè÷àéíî¨ ëèøå íîðìóþ÷èì ìíîæíèêîì (𝑛 − 1)/𝑛:
𝑛
1 ∑︁ ¯ 2.
𝑆02 (𝑋) = (𝑋𝑗 − 𝑋)
𝑛 − 1 𝑗=1
Âèêîðèñòàííÿ âèïðàâëåíî¨ âèáiðêîâî¨ äèñïåðñi¨ ïîâ'ÿçàíå ç òèì, ùî âî-
íà ¹ íåçìiùåíîþ îöiíêîþ äëÿ òåîðåòè÷íî¨ äèñïåðñi¨ ïî êðàòíié âèáiðöi.
2
Ó áàãàòüîõ ïiäðó÷íèêàõ òà êîìï'þòåðíèõ ïðîãðàìàõ 𝑆0 (𝑋) íàçèâàþòü
2
ïðîñòî âèáiðêîâîþ äèñïåðñi¹þ, à 𝑆 (𝑋)  ïîïóëÿöiéíîþ äèñïåðñi¹þ, àáî
äèñïåðñi¹þ ãåíåðàëüíî¨ ñóêóïíîñòi. Âèáiðêîâó äèñïåðñiþ iíêîëè ïîçíà-
2
÷àþòü 𝜎 .
Ùîäî òîãî, ÿêó äèñïåðñiþ êðàùå âèêîðèñòîâóâàòè äëÿ îïèñó äàíèõ
 âèïðàâëåíó, ÷è íå âèïðàâëåíó, ìîæíà äàòè òàêó ðåêîìåíäàöiþ. ßêùî
äàíi ìiñòÿòü iíôîðìàöiþ ïðî âñi îá'¹êòè, ùî äîñëiäæóþòüñÿ, òî êðàùå êî-
ðèñòóâàòèñü íå âèïðàâëåíîþ äèñïåðñi¹þ. Àëå ÷àñòî áóâà¹, ùî äîñëiäíèê
ñïîñòåðiã๠ëèøå ç íåâåëèêó ÷àñòèíó (âèáiðêó) ç âñi¹¨ ñóêóïíîñòi äîñëiä-
æóâàíèõ îá'¹êòiâ (ïîïóëÿöi¨, ãåíåðàëüíî¨ ñóêóïíîñòi) i õî÷å çà âèáiðêîþ
îöiíèòè, ÿêèì ¹ ðîçêèä äîñëiäæóâàíî¨ âåëè÷èíè ó ãåíåðàëüíié ñóêóï-
íîñòi. Ó öüîìó âèïàäêó âèïðàâëåíà äèñïåðñiÿ âèáiðêè áóäå îöiíþâàòè
(íåâèïðàâëåíó) äèñïåðñiþ ãåíåðàëüíî¨ ñóêóïíîñòi íiæ íå âèïðàâëåíà.
Êîðiíü êâàäðàòíèé ç âèáiðêîâî¨ äèñïåðñi¨ íàçèâàþòü (âèáiðêîâèì) се-
рередньоквадратичним вiдхиленням (àáî ñòàíäàðòíèì âiäõèëåííÿì):

⎸1 𝑛
⎸ ∑︁
¯ 2
√︀
2
𝑆(𝑋) = 𝑆 (𝑋) = ⎷ (𝑋𝑗 − 𝑋)
𝑛 𝑗=1

i, àíàëîãi÷íî,

⎸ 𝑛
1 ∑︁
√︁
¯ 2.
2

𝑆0 (𝑋) = 𝑆0 (𝑋) = ⎷ (𝑋𝑗 − 𝑋)
𝑛 − 1 𝑗=1

Вибiрковим середнiм абсолютним вiдхиленням (mean absolute deviation


àáî ïðîñòî mean deviation) íàçèâàþòü ñåðåäí¹ àáñîëþòíèõ âiäõèëåíü âè-
áiðêîâèõ çíà÷åíü âiä âèáiðêîâîãî ñåðåäíüîãî:
𝑛
1 ∑︁ ¯
MAD(𝑋) = |𝑋𝑗 − 𝑋|.
𝑛 𝑗=1
7
Цей множник називають поправкою Бесселя.
4.2. Статистики розкиду 121

Iíêîëè âèêîðèñòîâóþòü òàêîæ ñåðåäí¹ àáñîëþòíå âiäõèëåííÿ âiä ìåäià-


íè:
𝑛
1 ∑︁
MAD𝜇 (𝑋) = |𝑋𝑗 − med(𝑋)|.
𝑛 𝑗=1

Çðîçóìiëî, ùî âèáiðêîâà äèñïåðñiÿ òà ñåðåäí¹ àáñîëþòíå âiäõèëåííÿ


íå ¹ ðîáàñòíèìè  îäíå çàáðóäíåííÿ, ùî ëåæèòü äàëåêî âiä iíøèõ ñïî-
ñòåðåæåíü, ìîæå çìiíèòè öi õàðàêòåðèñòèêè ÿê çàâãîäíî ñèëüíî. Òîìó
äëÿ çàáðóäíåíèõ âèáiðîê ðîçðîáëåíi ñïåöiàëüíi ðîáàñòíi õàðàêòåðèñòèêè
ðîçêèäó, ñåðåä ÿêèõ íàéáiëüø ïîøèðåíèé iíòåðêâàðòèëüíèé ðîçìàõ.
Квартилi та iнтерквартильний розмах (quartiles and interquartile
range). ßê ìè çíà¹ìî, ìåäiàíà ðîçáèâ๠âàðiàöiéíèé ðÿä íà äâi ÷àñòè-
íè îäíàêîâîãî ðîçìiðó. Ìåäiàíè êîæíî¨ ç öèõ äâîõ ÷àñòèí íàçèâàþòü
êâàðòèëÿìè. Çà òîþ ÷àñòèíîþ, äå çíà÷åííÿ ìåíøå àáî ðiâíå ìåäiàíi âñi¹¨
âèáiðêè, âèçíà÷àþòü íèæíié (êàæóòü òàêîæ ëiâèé àáî ïåðøèé) êâàðòèëü
𝑄1 (𝑋), à çà òi¹þ, ó ÿêié çíà÷åííÿ áiëüøi àáî ðiâíi ìåäiàíi  âåðõíié (ïðà-
âèé àáî òðåòié) êâàðòèëü 𝑄3 (𝑋). Ìåäiàíó iíêîëè çâóòü äðóãèì êâàðòèëåì
med(𝑋) = 𝑄2 (𝑋). Òàêèì ÷èíîì, êâàðòèëi ðîçáèâàþòü âèáiðêó íà ÷îòèðè
÷àñòèíè ïðèáëèçíî îäíàêîâîãî ðîçìiðó.
Iнтерквартильний розмах âèçíà÷à¹òüñÿ ÿê âiäñòàíü âiä íèæíüîãî äî
âåðõíüîãî êâàðòèëÿ:

IQ(𝑋) = 𝑄3 (𝑋) − 𝑄1 (𝑋).

 öå îäíà ç íàéáiëüø ïîïóëÿðíèõ ðîáàñòíèõ õàðàêòåðèñòèê ðîçêèäó âè-


áiðêè.
Iùå îäíà ðîáàñòíà õàðàêòåðèñòèêà ðîçêèäó  ìåäiàííå àáñîëþòíå âiä-
õèëåííÿ (median absolute deviation):

MedAD(𝑋) = med({|𝑋𝑗 − med(𝑋)|, 𝑗 = 1 . . . , 𝑛}).


Öÿ õàðàêòåðèñòèêà âèêîðèñòîâó¹òüñÿ íå ÷àñòî.
Шириною iнтервалу або розмахом вибiрки (range) íàçèâàþòü

Range(𝑋) = 𝑋[𝑛] − 𝑋[1] ,

òîáòî âiäñòàíü âiä íàéìåíøîãî äî íàéáiëüøîãî çíà÷åííÿ ó âèáiðöi. Çðî-


çóìiëî, ùî öå íàéìåíø ñòiéêà äî çàáðóäíåíü õàðàêòåðèñòèêà ðîçêèäó
âèáiðêè.
4.2. Статистики розкиду 122

Приклад 4.2.1. Îá÷èñëèìî ñòàòèñòèêè ðîçêèäó äëÿ äàíèõ ïðî êiëüêîñòi


ïîêóïöiâ ìàãàçèíó ç òàáëèöi 4.1.
Ïî÷íåìî ç äèñïåðñi¨. Ïiäðàõó¹ìî ¨ ¨ äâîìà ñïîñîáàìè  çà îçíà÷åííÿì
i âèêîðèñòîâó÷è ôóíêöiþ var() :
8

NumBuy<-c(8,12,23,14,7,92,24) # вводимо данi


# дисперсiя за означенням:
sum((NumBuy-mean(NumBuy))^2)/6

## [1] 898.9048

# стандартна функцiя:
var(NumBuy)

## [1] 898.9048

Öå çíà÷åííÿ ìàëî ùî ìîæå ñêàçàòè àäìiíiñòðàöi¨ ìàãàçèíó, àëå äëÿ


ñòàòèñòèêà äèñïåðñiÿ äàíèõ ãð๠âåëèêó ðîëü, íàïðèêëàä, ïðè àíàëiçi
òî÷íîñòi îöiíîê, ïîáóäîâi äîâið÷èõ iíòåðâàëiâ, òîùî (äèâ. ðîçäië 8).
ßê ìè ïîáà÷èìî ó íàñòóïíîìó ïiäðîçäiëi, äëÿ õàðàêòåðèçàöi¨ ðîçêèäó
äàíèõ áiëüø ïðèðîäíî âèêîðèñòîâóâàòè êîðiíü ç äèñïåðñi¨  ñåðåäíüî-
êâàäðàòè÷íå âiäõèëåííÿ:

sqrt(var(NumBuy))

## [1] 29.98174

sd(NumBuy) # спецiальна функцiя для с.кв. вiдхилення

## [1] 29.98174

Îòðèìàëè çíà÷åííÿ ≈30. Ìîæíà ñêàçàòè, ùî òèïîâèé ðîçêèä êiëüêî-


ñòi âiäâiäóâà÷iâ íàøîãî ìàãàçèíó íàâêîëî ñåðåäíüîãî çíà÷åííÿ 25.7 (äèâ.
ïðèêëàä 4.1.1) ñêëàä๠30 ÷îëîâiê. Öå äåùî äèâíå òâåðäæåííÿ: âèõî-
äèòü, ùî òèïîâà êiëüêiñòü âiäâiäóâà÷iâ êîëèâà¹òüñÿ âiä 25.7 − 30 = −4.3
äî 25.7 + 30 = 55.7. Àëå æ ó ìàãàçèíó íå ìîæå áóòè -4.3 âiäâiäóâà÷i. Öå
íå òèïîâî!
8
— скорочення англ. variance — дисперсiя.
4.3. Алгебраїчнi властивостi описових статистик 123

Ó äàíîìó âèïàäêó íåâäàëèì ðåçóëüòàòîì ìè çàâäÿ÷ó¹ìî âèêèäó ó


ñóáîòó: 92 âiäâiäóâà÷i íå òiëüêè âïëèíóëè íà ñåðåäí¹, àëå çáiëüøèëè i
äèñïåðñiþ. Ïðè÷îìó íà äèñïåðñiþ i ñåðåäíüîêâàäðàòè÷íå âiäõèëåííÿ âè-
êèä ìàâ áiëüøèé âïëèâ íiæ íà ñåðåäí¹, òîìó ùî ïiäíåñåííÿ äî êâàäðàòó
âèäiëÿ¹ îñîáëèâî âåëèêi çíà÷åííÿ, ðîáèòü ¨õ iùå áiëüøèìè ïîðiâíÿíî ç
îñíîâíîþ ìàñîþ ñïîñòåðåæåíü.
Ïîäèâèìîñü íà ðîáàñòíó õàðàêòåðèñòèêó ðîçêèäó  iíòåðêâàðòèëü-
íèé ðîçìàõ. Ó ïåðøîìó âàðiàíòi ïiäðàõóíêiâ ìè çíàõîäèìî ìåäiàíè âåðõ-
9
íüî¨ i íèæíüî¨ ïîëîâèí âèáiðêè . Ó äðóãîìó âàðiàíòi âèêîðèñòîâó¹ìî ñïå-
öiàëüíó ôóíêöiþ IQR():

median(sort(NumBuy)[4:7])-median(sort(NumBuy)[1:4])

## [1] 13.5

IQR(NumBuy)

## [1] 13.5
 ïðèáëèçíî ïîëîâèíà äàíèõ ðîçòàøîâàíà â ñåðåäèíi âàðiàöiéíîãî
ðÿäó, ëåæèòü ó ñìóçi øèðèíîþ 13.5. Öå áiëüø-ìåíø àäåêâàòíèé ïîêàçíèê
ðîçêèäó äëÿ íàøèõ äàíèõ.
Íàðåøòi, øèðèíà äiàïàçîíó ñêëàäà¹

max(NumBuy)-min(NumBuy)

## [1] 85
 85 ïîêóïöiâ. Öåé ïîêàçíèê äîçâîëÿ¹ ïîáà÷èòè, äî ÿêî¨ àðèòìi¨ ïî-
òîêó ïîêóïöiâ ïîòðiáíî ïiäãîòóâàòèñü ïåðñîíàëó ìàãàçèíó. J

4.3 Алгебраїчнi властивостi описових статистик


×îìó îäíi ñòàòèñòèêè äîöiëüíî âèêîðèñòîâóâàòè ñàìå äëÿ õàðàêòåðè-
çàöi¨ ñåðåäíüîãî ïîëîæåííÿ, à iíøi  äëÿ îïèñó ðîçêèäó? ßêi âëàñòèâîñòi

9
У нашiй вибiрцi 7 елементiв, тому у “половини” потрапляє по 4 елементи: медiана самої
вибiрки входить i у “верхню половину” i у “нижню”. Це як у дитинствi:
— Тобi яку половину пирiжка?
— Бiльшу!
4.3. Алгебраїчнi властивостi описових статистик 124

ïîâèííà ìàòè ñòàòèñòèêà, ùîá çàäîâiëüíî îïèñóâàòè ñåðåäí¹ ïîëîæåííÿ


ó âèáiðöi? Ó öüîìó ïiäðîçäiëi ìè ñïðîáó¹ìî íåôîðìàëüíî ïîÿñíèòè öå.
Ïî÷íåìî çi ñòàòèñòèê ñåðåäíüîãî ïîëîæåííÿ.

Приклад 4.3.1. Íåõàé äàíi ñêëàäàþòüñÿ ç âèìiðþâàíü òåìïåðàòóðè ïëàâ-


10 ∘
ëåííÿ äåÿêî¨ ðå÷îâèíè, îòðèìàíèõ â ÷îòèðüîõ åêñïåðèìåíòàõ : −110 Ñ,
−111∘ Ñ, −117∘ Ñ, −118∘ Ñ. Ìè õî÷åìî îõàðàêòåðèçóâàòè ñåðåäí¹ ïîëîæåí-
íÿ íàâêîëî ÿêîãî êîëèâàþòüñÿ âèìiðþâàííÿ. ×è ìîæíà âèêîðèñòàòè äëÿ

öüîãî, ñêàæiìî, ñåðåäí¹ ãàðìîíiéíå? Âîíî äîðiâíþ¹ −113.8903 Ñ:

x<-c(-110,-111,-117,-118)
4/sum(1/x) # середнє гармонiйне у шкалi Цельсiя:

## [1] -113.8903

Íà ïåðøèé ïîãëÿä, ðåçóëüòàò âèãëÿä๠ïðèðîäíî.


Àëå çãàäà¹ì, ùî òåìïåðàòóðè ìîæíà âèìiðþâàòè íå òiëüêè ó ãðàäóñàõ
Öåëüñiÿ, à i â iíøèõ øêàëàõ, íàïðèêëàä  Êåëüâiíà (K). Äëÿ ïåðåðàõóí-

êó òåìïåðàòóðè ç øêàëè C ó øêàëó K ïîòðiáíî äîäàòè 273.15:

𝑡𝐾 = 𝑡𝐶 + 273.15.
ßê ïîâèííî çìiíèòèñü ñåðåäí¹ ïîëîæåííÿ ó âèáiðöi, ÿêùî ìè ïåðåéäåìî
ó øêàëó Ê? Ïðèðîäíî áóëî á, ùîá âîíî òåæ çáiëüøèëîñü íà 273.15, ÿê i
êîæåí åëåìåíò âèáiðêè. Àëå íi:

y<-x+273.15
y # значення темпереатур у шкалi Кельвiна:

## [1] 163.15 162.15 156.15 155.15

4/sum(1/y) # середнє гармонiйне у шкалi Кельвiна:

## [1] 159.0715

4/sum(1/y)-4/sum(1/x) # зсув середнього гармонiйного:

## [1] 272.9618
10
Цифри умовнi, але це мiг би бути етиловий спирт (етанол). Його температура плавлення
за звичайних умов −114.15∘ С.
4.3. Алгебраїчнi властивостi описових статистик 125

 çñóâ âèéøîâ íà 272.9618.


À îò ÿêùî íà ðîëü ñåðåäíüîãî ïîëîæåííÿ ó âèáiðöi âèêîðèñòîâóâàòè
âèáiðêîâå ñåðåäí¹, òî âîíî áóäå çñóâàòèñü â òî÷íîñòi òàê ñàìî, ÿê çñó-
íóâñÿ ïî÷àòîê âiäëiêó íà øêàëi âèìiðþâàííÿ:

sum(y)/4-sum(x)/4

## [1] 273.15

Îòæå, ãàðìîíiéíå ñåðåäí¹ íå äîöiëüíî âèêîðèñòîâóâàòè äëÿ óñåðåä-


íåííÿ äàíèõ, ÿêi ìîæóòü âèìiðþâàòèñü ó ðiçíèõ øêàëàõ, ùî âiäðiçíÿ-
þòüñÿ ïîëîæåííÿì ïî÷àòêó âèìiðþâàííÿ. J
Ñôîðìóëþ¹ìî öå ó çàãàëüíîìó âèïàäêó.
X = (𝑋1 , . . . , 𝑋𝑛 )  äîâiëüíà âèáiðêà, 𝑇 (X)  äåÿêà ñòàòèñòèêà
Íåõàé
(òîáòî ôóíêöiÿ âiä X). Äëÿ 𝑐 ∈ R ïîçíà÷èìî X + 𝑐 = (𝑋1 + 𝑐, . . . , 𝑋𝑛 + 𝑐).
11
Ñòàòèñòèêà 𝑇 çâåòüñÿ еквiварiантною вiдносно додавання ÿêùî äëÿ
âñiõ 𝑐 ∈ R i âñiõ ìîæëèâèõ âèáiðîê X

𝑇 (X + 𝑐) = 𝑇 (X) + 𝑐.

Iíàêøå êàæó÷è, åêâiâàðiàíòíà ñòàòèñòèêà çñóâà¹òüñÿ òàê ñàìî, ÿê çñóâà-


þòüñÿ âñi åëåìåíòè âèáiðêè.
Ëåãêî áà÷èòè, ùî âèáiðêîâå ñåðåäí¹, çðiçàíå ñåðåäí¹, âèáiðêîâà ìåäià-
íà i ñåðåäèíà äiàïàçîíó ¹ ñòàòèñòèêàìè åêâiâàðiàíòíèìè âiäíîñíî çñóâó.
ˆõ ìîæíà âèêîðèñòîâóâàòè äëÿ âèçíà÷åííÿ ñåðåäíüîãî ïîëîæåííÿ ñïîñòå-
ðåæåíü, ÿêi âèìiðþþòüñÿ âiäíîñíî äîâiëüíî âèáðàíîãî ïî÷àòêó âiäëiêó.
12
(ßê òåìïåðàòóðà, êîîðäèíàòè ó ïðîñòîði, àñòðîíîìi÷íèé ÷àñ, òîùî) .
Ãåîìåòðè÷íå òà ãàðìîíiéíå ñåðåäí¹ íå ¹ åêâiâàðiàíòíèìè âiäíîñíî
çñóâó. ×è âèïëèâ๠ç öüîãî, ùî ¨õ íå ìîæíà âèêîðèñòîâóâàòè íà ðîëü
ñòàòèñòèê ñåðåäíüîãî ïîëîæåííÿ? Âçàãàëi êàæó÷è, íi. Ó ïðèêëàäi 4.1.2
ìè áà÷èëè, ùî ãåîìåòðè÷íå ñåðåäí¹ ïðèðîäíå ïðè óñåðåäíåííi ñêëàäíèõ
âiäñîòêiâ. Àëå âiäñîòêè öå õàðàêòåðèñòèêà, ÿêà ì๠àáñîëþòíèé ïî÷àòîê
âiäëiêó  0% âiäïîâiä๠âiäñóòíîñòi çìií. ßêùî ïî÷àòîê âiäëiêó ïåðå-
íåñòè ó iíøó òî÷êó, âiäñîòîê ïåðåñòàíå áóòè âiäñîòêîì. Îòæå ó öüîìó
âèïàäêó âiäñóòíiñòü åêâiâàðiàíòíîñòi íå ¹ íåäîëiêîì.

11
Або еквiварiантною вiдносно зсуву шкали вимiрювання.
12
Шкали вимiрювання, у яких положення 0 можна обирати довiльно, називають iнтер-
вальними шкалами.
4.3. Алгебраїчнi властивостi описових статистик 126

Êðiì ïîëîæåííÿ ïî÷àòêó øêàëè âiäëiêó ìîæóòü âiäðiçíÿòèñü òàêîæ


ìàñøòàáíîþ îäèíèöåþ. Íàïðèêëàä, âàãó ìîæíà âèìiðþâàòè ó êiëîãðà-
ìàõ, à ìîæíà  ó òîíàõ. Ïðè ïåðåõîäi âiä êiëîãðàìiâ äî òîí âñi ñïîñòå-
ðåæóâàíi çíà÷åííÿ ó âèáiðöi çìåíøàòüñÿ ó 1000 ðàçiâ. Ïðèðîäíî, ùîá i
çíà÷åííÿ ñåðåäíüîãî ïîëîæåííÿ òàêîæ çìåíøèëîñü íà öåé êîåôiöi¹íò.
13
Ñòàòèñòèêà 𝑇 (X) çâåòüñÿ еквiварiантною вiдносно множення , ÿêùî
äëÿ âñiõ 𝑎>0 i âñiõ ìîæëèâèõ X

𝑇 (𝑎X) = 𝑎𝑇 (X).

Âñi ðîçãëÿíóòi íàìè ó ï. 4.1 ñòàòèñòèêè ¹ åêâiâàðiàíòíèìè âiäíîñíî ìíî-


æåííÿ. Îòæå êîæíó ç íèõ ìîæíà âèêîðèñòîâóâàòè äëÿ óñåðåäíåííÿ äà-
íèõ, ÿêi ìîæíà âèìiðþâàòè ó ðiçíèõ îäèíèöÿõ âèìiðþâàííÿ.
Òàêèì ÷èíîì, äëÿ ñòàòèñòèê ñåðåäíüîãî ïîëîæåííÿ ïðèðîäíî âèìà-
ãàòè åêâiâàðiàíòíîñòi âiäíîñíî äîäàâàííÿ i ìíîæåííÿ.
Ïåðåéäåìî òåïåð äî ñòàòèñòèê ðîçêèäó. ßêùî âñi åëåìåíòè âèáiðêè
çáiëüøèòè âäâi÷i, òî i ðîçêèä ¨õ çáiëüøèòüñÿ âäâi÷i. Òîáòî âiä ñòàòèñòèê
ðîçêèäó ïðèðîäíî âèìàãàòè åêâiâàðiàíòíîñòi âiäíîñíî ìíîæåííÿ. Ñàìå ç
öèõ ìiðêóâàíü çàìiñòü âèáiðêîâî¨ äèñïåðñi¨ âèêîðèñòîâóþòü êîðiíü ç íå¨
 âèáiðêîâå ñåðåäíüîêâàäðàòè÷íå âiäõèëåííÿ. Äiéñíî

𝑆 2 (𝑎X) = 𝑎2 𝑆 2 (X)

 ñòàëèé ìíîæíèê âèíîñèòüñÿ ç ïiä çíàêó äèñïåðñi¨ ç êâàäðàòîì, òîáòî


äèñïåðñiÿ íå ¹ åêâiâàðiàíòíîþ âiäíîñíî ìíîæåííÿ. À äëÿ ñåðåäíüîêâàä-
ðàòè÷íîãî âiäõèëåííÿ 𝑆(𝑎X) = 𝑎𝑆(X) ïðè âñiõ äîäàòíèõ 𝑎.
Âñi iíøi õàðàêòåðèñòèêè ðîçêèäó, ðîçãëÿíóòi ó ï. 4.2, ¹ åêâiâàðiàíò-
íèìè âèiäíîñíî ìíîæåííÿ.
À îò äîäàâàííÿ îäíîãî é òîãî ÷èñëà äî âñiõ ñïîñòåðåæåíü ó âèáiðöi
íà ðîçêèä, âî÷åâèäü, íå âïëèâà¹. Îòæå ñòàòèñòèêà ðîçêèäó 𝑇 ì๠áóòè
iнварiантною вiдносно додавання:

𝑇 (X + 𝑐) = 𝑇 (X)

äëÿ âñiõ 𝑐∈R i âñiõ ìîæëèâèõ âèáiðîê X.


Âñi ñòàòèñòèêè ðîçêèäó, ÿêi ìè ðîçãëÿäàëè, çàäîâîëüíÿòü öþ óìîâó.

13
Еквiварiантною вiдносно змiни масштабу.
4.4. Статистики форми розподiлу 127

4.4 Статистики форми розподiлу


Ãðóáî êàæó÷è, âñå, ùî íå ¹ ñåðåäíiì ïîëîæåííÿì ÷è ðîçêèäîì, ìîæíà
íàçâàòè ôîðìîþ ðîçïîäiëó âèáiðêè. Ìè ðîçãëÿíåìî òóò êiëüêà ïîïóëÿð-
íèõ ñòàòèñòèê, ùî âèêîðèñòîâóþòüñÿ äëÿ îïèñó ôîðìè ðîçïîäiëó.
Коефiцiєнт варiацiї äëÿ âèáiðêè X  öå ñåðåäíüîêâàäðàòè÷íå âiäõè-
ëåííÿ, äiëåíå íà âèáiðêîâå ñåðåäí¹:

𝑆(X)
CV(X) = .

(Iíêîëè CV âêàçóþòü ó âiäñîòêàõ, òîáòî äîìíîæàþòü íà 100).
Öþ ñòàòèñòèêó ðåêîìåíäó¹òüñÿ âèêîðèñòîâóâàòè ëèøå äëÿ ñïîñòå-
ðåæåíü, ÿêi ìîæóòü ïðèéìàòè òiëüêè äîäàòíi çíà÷åííÿ. Âîíà ïîêàçó¹,
íàñêiëüêè âåëèêèì ¹ ðîçêèä âèáiðêè, ïîðiâíÿíî ç ñåðåäíiì çíà÷åííÿì.
Iíêîëè êàæóòü, ùî öå âiäíîñíà õàðàêòåðèñòèêà ðîçêèäó.
Çàñòîñóâàííÿ öi¹¨ ñòàòèñòèêè áàçó¹òüñÿ íà ïðèïóùåííi ïðî ïðèáëèçíó
ïðîïîðöiéíiñòü äîñëiäæóâàíèõ ÿâèù, ïîäiáíó äî òî¨, ÿêó ìè îáãîâîðþ-
âàëè, ðîçãëÿäàþ÷è âèáiðêîâi ñåðåäíi.
Íåõàé, íàïðèêëàä, ìè äîñëiäæó¹ìî ðîçêèä öií íà êàâó ïåâíîãî áðåí-
äó ó ðiçíèõ ìàãàçèíàõ îäíi¹¨ êðà¨íè. Ïðè äîñëiäæåííi ÑØÀ öiíè áóäóòü
ó äîëàðàõ, ïðè äîñëiäæåííi ßïîíi¨  ó ¹íàõ. Îñêiëüêè äîëàð êîøòó¹
14
ïðèáëèçíî 100 ¹í , ìîæíà ñïîäiâàòèñü, ùî i ñåðåäíi ÿïîíñüêi öiíè â
¹íàõ áóäóòü äåñü ó 100 ðàçiâ âèùi. Àëå ïðèðîäíî î÷iêóâàòè, ùî i ðîç-
êèä ÿïîíñüêèõ öií áóäå áiëüøèì, íiæ àìåðèêàíñüêèõ: ðiçíèöÿ öií ó 5 ¹í,
öå çîâñiì íå òå, ùî ðiçíèöÿ ó 5 äîëàðiâ. ßêùî âiäìiííîñòi öií öiëêîì
âèçíà÷àþòüñÿ âàëþòíèì êóðñîì, òî ÿïîíñüêå ñåðåäíüîêâàäðàòè÷íå âiä-
õèëåííÿ ì๠áóòè ó 100 ðàçiâ áiëüøèì, íiæ àìåðèêàíñüêå. Ïðè ïåðåõîäi
âiä äîëàðiâ äî i¹í ìíîæíèê 100 ó ÷èñåëüíèêó i çíàìåííèêó êîåôiöi¹í-
òà âàðiàöi¨ ñêîðîòèòüñÿ, òîáòî CV ÿïîíñüêèõ i àìåðèêàíñòêèõ öií ìàþòü
áóòè ïðèáëèçíî îäíàêîâèìè.
Çâè÷àéíî, äëÿ ïîðiâíÿííÿ ìîæíà áóëî á ïåðåðàõóâàòè âñi öiíè ó îä-
íié âàëþòi i ïîòiì ïîðiâíþâàòè, íàïðèêëàä, ñåðåäíüîêâàäðàòè÷íi âiäõè-
ëåííÿ. Àëå ïðè òàêîìó ïiäõîäi âèíèê๠ïèòàííÿ ïðî âèáið êóðñó âàëþò
(îôiöiéíèé, áiðæîâèé, ïîòî÷íèé, ñåðåäíié çà îñòàííié ðiê. . . ). Âèêîðè-
ñòàííÿ CV äëÿ ïîðiâíÿííÿ çíiì๠òàêi ïèòàííÿ ñòàíäàðòèçàöi¨ øêàëè,
îñêiëüêè CV  áåçðîçìiðíà âåëè÷èíà.

14
103.1370 за курсом Google 07.10.2016 o 18:03.
4.4. Статистики форми розподiлу 128

Таблиця 4.2. Цiни закриття на акцiї двох компанiй на Нью-Йоркськiй бiржi у 2013
роцi (у доларах США).

Äàòà 15.07 16.07 17.07 18.07 19.07


Google 923.67 918.88 917.90 910.19 896.30
Oracle 32.01 32.00 32.14 32.02 31.85

Òàêèì ÷èíîì, áëèçüêiñòü êîåôiöi¹íòiâ ðîçñiþâàííÿ öií äëÿ ðiçíèõ


êðà¨í  î÷iêóâàíå ÿâèùå, à îò ïðè âèÿâëåííi âiäìiííîñòåé öå ìîãëî á
ñâiä÷èòè ïðî ÿêiñü ñïåöèôi÷íi âiäìiííîñòi åêîíîìiê âiäïîâiäíèõ êðà¨í. Ç
àíàëîãi÷íèõ ìiðêóâàíü êîåôiöi¹íòè âàðiàöi¨ âèêîðèñòîâóþòü ó êëiìàòî-
ëîãi¨, íàïðèêëàä, ïðè àíàëiçi êîëèâàíü ði÷êîâèõ ñòîêiâ.
Âàðòî âiäìiòèòè, ùî CV(X) íå çìiíþ¹òüñÿ ïðè çìiíi ìàñøòàáó âè-
ìiðþâàííÿ (¹ iíâàðiàíòíîþ âiäíîñíî ìíîæåííÿ), àëå çìiíþ¹òüñÿ ïðè çìiíi
ïî÷àòêó âiäëiêó øêàëè. Òîìó, íàïðèêëàä, CV òåìïåðàòóð, âèìiðÿíèõ ó
ãðàäóñàõ Öåëüñiÿ, áóäå âiäðiçíÿòèñü âiä CV òèõ æå òåìïåðàòóð ó ãðàäó-
ñàõ Êåëüâiíà. Âiäïîâiäíî, çàñòîñîâóâàòè CV äëÿ îïèñó òàêèõ äàíèõ ñëiä
îáåðåæíî.
Êîåôiöi¹íòè âàðiàöi¨ ÷àñòî âèêîðèñòîâóþòü äëÿ ïîðiâíÿííÿ òî÷íî-
ñòi ðiçíèõ ìåòîäiâ âèìiðþâàííÿ ìåäèêî-áiîëîãi÷íèõ ïîêàçíèêiâ ñòàíó îð-
ãàíiçìó, ïñèõîìåòðè÷íèõ øêàë, ùî õàðàêòåðèçóþòü îñîáèñòiñòü, òîùî.
Íàïðèêëàä, îäíi¹þ ç çàãàëüíèõ õàðàêòåðèñòèê ðîáîòè iìóííî¨ ñèñòåìè
îðãàíiçìó ¹ øâèäêiñòü îñiäàííÿ åðèòðîöèòiâ (ØÎÅ). Iñíóþòü ðiçíi ìå-
òîäèêè éîãî âèìiðþâàííÿ: ìåòîäè Âåñòåðãðåíà (ñòàíäàðòíà) òà Âiíòðîáå
áàçóþòüñÿ íà âèìiðþâàííi ãëèáèíè, íà ÿêó îñiäàþòü åðèòðîöèòè ó êàïi-
ëÿði ïðîòÿãîì îäíî¨ ãîäèíè, àâòîìàòè÷íi ñèñòåìè, ÿêi âèêîðèñòîâóþòü
öåíðèôóãóâàííÿ (äàþòü ðåçóëüòàò çà 5 õâèëèí) òà ií. Ïðè àíàëiçi ðîáî-
òè òàêèõ ìåòîäiâ îäíó ïîðöiþ êðîâi ðîçäiëÿþòü íà êiëüêà çðàçêiâ, ÿêi
àíàëiçóþòü îêðåìî. Ïiñëÿ öüîãî ïiäðàõîâóþòü êîåôiöi¹íò âàðiàöi¨ çíà-
÷åíü ØÎÑ, îòðèìàíèõ çà öèìè çðàçêàìè. ×èì ìåíøèé CV äëÿ äàíîãî
ìåòîäó, òèì ìåòîä òî÷íiøèé. Òàêèé ïiäõiä äîçâîëÿ¹ ïîðiâíþâàòè òî÷-
íiñòü áåçïîñåðåäíiõ âèìiðþâàíü áåç çâåäåííÿ ¨õ äî ¹äèíî¨ ñòàíäàðòèçî-
âàíî¨ øêàëè.

Приклад 4.4.1. Ðîçãëÿíåìî äàíi ïðî êóðñè çàêðèòòÿ äëÿ àêöié, ùî òîðãó-
þòüñÿ íà Íüþ-Éîðêñüêié áiðæi. Ó òàáë. 4.2 ìiñòÿòüñÿ öiíè çàêðèòòÿ äëÿ
àêöié êîìïàíié Google òà Oracle, çàôiêñîâàíi ïðîòÿãîì ï'ÿòè äíiâ òîðãiâ
ó 2013 ðîöi. Äàòà òîðãiâ âêàçàíà ó ïåðøîìó ðÿäî÷êó òàáëèöi.
4.4. Статистики форми розподiлу 129

Iíâåñòîð õî÷å âèáðàòè êîìïàíiþ, àêöi¨ ÿêî¨ âií ïðèäáà¹.  çâ'ÿçêó ç


öèì, éîãî öiêàâèòü, çîêðåìà, ðîçêèä êîëèâàíü öií ðiçíèõ êîìïàíié íà
òîðãàõ. ßêùî õàðàêòåðèçóâàòè öåé ðîçêèä âèáiðêîâèì ñåðåäíüîêâàäðà-
òè÷íèì âiäõèëåííÿì, òî îòðèìó¹ìî:

Google<-c(923.67, 918.88, 917.90, 910.19, 896.30)


Oracle<-c(32.01, 32.00, 32.14, 32.02, 31.85)
sd(Google) # середньоквадратичне вiдхилення Google:

## [1] 10.70592

sd(Oracle) # середньоквадратичне вiдхилення Oracle:

## [1] 0.1031019

Ñåðåäíüîêâàäðàòè÷íèé ðîçêèä Google ó ñòî ðàçiâ áiëüøèé, íiæ


Oracle. ×è ñâiä÷èòü öå, ùî âêëàäåííÿ ãðîøåé ó Google ¹ ó 100 ðàçiâ
áiëüø ðèçèêîâàíèì? Ìàáóòü íi.
Äiéñíî, iíâåñòîð âêëàäàòèìå ïåâíó ñóìó ãðîøåé, ñêàæiìî, 10 000$. Íà
öi ãðîøi ìîæíà ïðèäáàòè ïàêåò ç ïðèáëèçíî 10 àêöié Google, à îò àêöié
Oracle òðåáà áóäå êóïèòè âæå áiëüøå 300. Çðîçóìiëî, ùî êîëèâàííÿ öiíè
îäíi¹¨ àêöi¨ Oracle ïðè öüîìó ñïðàâëÿòèìóòü çíà÷íî áiëüøèé âïëèâ íà
öiíó ïàêåòà àêöié, íiæ òàêi æ êîëèâàííÿ Google. Òîìó äëÿ ïîðiâíÿííÿ
ðèçèêiâ âêëàäåíü ïðèðîäíî âèêîðèñòîâóâàòè âiäíîñíèé ðîçêèä, ÿêèé ïî-
êàçó¹ ðîçìið êîëèâàíü, ùî ïðèïàä๠íà îäèí äîëàð iíâåñòèöié. Ñàìå öå i
õàðàêòåðèçó¹ êîåôiöi¹íò âàðiàöi¨.
Äëÿ îá÷èñëåííÿ êîåôiöi¹íòà âàðiàöi¨ çàäàìî ñâîþ âëàñíó ôóíêöiþ
cv() i çàñòîñó¹ìî ¨ ¨ äî íàøèõ äàíèõ:

cv<-function(x){sd(x)/mean(x)}
cv(Google) # коефiцiєнт варiацiї Google:

## [1] 0.01172111

cv(Oracle) # коефiцiєнт варiацiї Oracle:

## [1] 0.003221531
4.4. Статистики форми розподiлу 130

Таблиця 4.3. Цiни у рiзних мiстах Європи

city Meal2 Beef tennis country


Kyiv 500 137.53 245.92 ua
Lviv 500 145 244 ua
Dnipro 450 128.28 255.45 ua
Odessa 525.94 147.50 276.94 ua
Kharkiv 500 128.50 197.65 ua
Warsaw 120.00 38.19 60.53 pl
Gdansk 100.00 33.67 50.71 pl
Krakov 100.00 32.57 42.17 pl
Wroclaw 120.00 33.30 50.39 pl
Katowice 100.00 28.33 53.33 pl
Rome 55.00 15.06 17.70 it
Milan 60.00 15.68 22.95 it
Palermo 40.00 13.60 20.00 it
Turin 50.00 14.71 18.88 it
Naples 40.00 13.33 18.29 it

ßê áà÷èìî, âiäíîñíèé ðîçêèä öií àêöié Oracle òàêîæ ìåíøèé, íiæ ó


Google, àëå íå ó 100 ðàçiâ, à ëèøå ïðèáëèçíî âòðè÷i. J

Приклад 4.4.2. Íà ñàéòi www.numbeo.com ðîçìiùåíi äàíi ïðî âàðòiñòü ðiç-


íèõ ñïîæèâàöüêèõ òîâàðiâ òà ïîñëóã ó ðiçíèõ ìiñòàõ ç óñi¹¨ çåìíî¨ êóëi.
×èñëà íà ñàéòi îòðèìàíi óñåðåäíåííÿì äàíèõ, íàäiñëàíèõ äîáðîâiëüíèìè
iíôîðìàòîðàìè-äîïèñóâà÷à, ÷àñòî òóðèñòàìè àáî iíîçåìöÿìè, ùî ïðîæè-
âàþòü ó öèõ ìiñòàõ.
Ìè ðîçãëÿíåìî ëèøå íåâåëèêèé íàáið äàíèõ ç numbeo, âìiùåíèé ó
òàáë. 4.3 Öi äàíi ìiñòÿòüñÿ òàêîæ ó ôàéëi ukrplit.txt. Òóò êîæåí ðÿäîê
âiäïîâiä๠îäíîìó ¹âðîïåéñüêîìó ìiñòó. Íàçâà ìiñòà âêàçàíà ó ñòîâï÷èêó
city. Ñòîâï÷èê country âêàçó¹ êðà¨íó, äå ðîçòàøîâàíî öå ìiñòî (ua 
Óêðà¨íà, pl  Ïîëüùà, it  Iòàëiÿ). Ó ñòîâï÷èêó Meal2 âêàçàíà öiíà îái-
äó íà äâîõ ó ðåñòîðàíi ç ñåðåäíiì ðiâíåì öií ó äàíîìó ìiñòi, ó ñòîâï÷èêó
Beef  öiíà îäíîãî êiëîãðàìà ÿëîâè÷èíè, tennis  öiíà îäíi¹¨ ãîäèíè
àðåíäè òåíiñíîãî êîðòà (íà âèõiäíèõ). Öiíè âêàçàíi ó ìiñöåâié âàëþòi
(ãðèâíi â Óêðà¨íi, çëîòi ó Ïîëüùi i ¹âðî â Iòàëi¨). Âîíè âçÿòi ç ñàéòà
www.numbeo.com 22 ÷åðâíÿ 2019 ðîêó.
Ìè õî÷åìî ïîðiâíÿòè êîåôiöi¹íòè âàðiàöi¨ öií íà ðiçíi òîâàðè ó ðiçíèõ
4.4. Статистики форми розподiлу 131

êðà¨íàõ. Ñêàæiìî, ÷è âiäðiçíÿ¹òüñÿ ðîçêèä öií íà ÿëîâè÷èíó ó ðiçíèõ


ìiñòàõ Ïîëüùi âiä ðîçêèäó â Óêðà¨íi?
Âiäîáðàçèìî òàáëèöþ òàêèõ êîåôiöi¹íòiâ âàðiàöi¨:

# читаємо данi:
cost<-read.table("c:\\rem\\term\\ukrplit.txt",header=TRUE)
# пiдключаємо бiблiотеку з функцiєю перетворення фреймiв:
library(tidyr)
# перетворюємо фрейм з широкого формату у довгий:
costn<-gather(cost,goods,price,Meal2,Beef,tennis)
# рахуємо таблицю коефiцiєнтiв варiацiї:
attach(costn)
tapply(price,list(goods,country),cv) # CV:

## it pl ua
## Beef 0.06843893 0.1056457 0.06533441
## Meal2 0.18253616 0.1014301 0.05582840
## tennis 0.10605606 0.1281656 0.11892973

Ó öüîìó ñêðèïòi ìè ñïî÷àòêó ÷èòà¹ìî äàíi ó ôðåéì cost. Ïîòiì ïå-


ðåòâîðèìî öåé ôðåéì çà äîïîìîãîþ ôóíêöi¨ gather() (äèâ. ï. 2.5) ç
øèðîêîãî ó äîâãèé ôîðìàò. Ðåçóëüòàò ïåðåòâîðåííÿ âìiùó¹òüñÿ ó ôðåéì
costn, â ÿêîìó êîæíà öiíà çíàõîäèòüñÿ ó îêðåìîìó ðÿäêó, à çìiííà goods
âêàçó¹, äëÿ ÿêîãî òîâàðó ÷è ïîñëóãè öå öiíà.
Íàðåøòi çàñòîñó¹ìî ôóíêöiþ tapply() (äèâ. ï. 2.2.5) äëÿ îá÷èñëåííÿ
òàáëèöi çíà÷åíü CV äëÿ êîæíî¨ êîìáiíàöi¨ êðà¨íè i òîâàðó. Äëÿ áåçïî-
ñåðåäíüîãî îá÷èñëåííÿ êîåôiöi¹íòà âàðiàöi¨ tapply() âèêëèê๠ôóíêöiþ
cv(), ââåäåíó íàìè ó ïðèêëàäi 4.4.1:
Ìè áà÷èìî, ùî äëÿ àðåíäè òåíiñíèõ êîðòiâ êîåôiöi¹íòè âàðiàöi¨ ó ðiç-
íèõ êðà¨íàõ ìàéæå îäíàêîâi. À îò äëÿ öií íà îáiäè ó ðåñòîðàíàõ ðîçêèä
ó Iòàëi¨ âòðè÷i áiëüøèé íiæ â Óêðà¨íi (Ïîëüùà çàéì๠ïðîìiæíå ñòàíî-
âèùå). Ìîæíà ñïðîáóâàòè çíàéòè öüîìó ñîöiàëüíî-åêîíîìi÷íå îá ðóíòó-
âàííÿ. Íàïðèêëàä  çâåðíóòè óâàãó íà âèçíà÷åííÿ âiäïîâiäíèõ çìiííèõ:
ñïðèéíÿòòÿ ðåñòîðàíó ÿê òàêîãî, ùî ì๠öiíè ñåðåäíüîãî ðiâíÿ çàëå-
æèòü âiä ñóá'¹êòèâíî¨ îöiíêè äîïèñóâà÷à, ÿêà ó ðiçíèõ ìiñòàõ ìîæå áóòè
ðiçíîþ. Öå ì๠ïðèâîäèòè äî âåëèêîãî ðîçêèäó ñåðåäíiõ çíà÷åíü. À öiíà
ãîäèíè íà òåíiñíîìó êîðòi âèçíà÷à¹òüñÿ ïåðåâàæíî åêîíîìi÷íèìè ÷èí-
íèêàìè, ÿêi âñåðåäèíi îäíi¹¨ êðà¨íè çìiíþþòüñÿ íå ñèëüíî.
4.4. Статистики форми розподiлу 132

Çðîçóìiëî, ùî ðîçãëÿíóòèõ äàíèõ íåäîñòàòíüî, ùîá âèðiøèòè, íà-


ñêiëüêè âiðíèì ¹ öå ïîÿñíåííÿ. ×èòà÷ ìîæå ñïðîáóâàòè ñàì çiáðàòè äàíi
ïî iíøèõ êðà¨íàõ i ïåðåâiðèòè ÷è áóäóòü CV äëÿ öií íà àðåíäó êîðòiâ
âèÿâëÿòè áiëüøó ñòàáiëüíiñòü, íiæ CV öií íà îáiäè ó ðåñòîðàíàõ. J

Асиметрiя (skewness) ðîçïîäiëó âèáiðêè X = (𝑋1 , . . . , 𝑋𝑛 ) âèçíà÷à¹òü-


ñÿ ÿê
𝑛
1 1 ∑︁ ¯ 3.
𝛾1 (X) = 3
(𝑋𝑗 − 𝑋)
𝑆(X) 𝑛 𝑗=1

Öÿ âåëè÷èíà ïîêàçó¹, íàñêiëüêè ñèìåòðè÷íî ðîçòàøîâàíi âèáiðêîâi äàíi


íàâêîëî ñâîãî ñåðåäíüîãî çíà÷åííÿ. ßêùî ñèìåòðiÿ iäåàëüíà (äëÿ êîæ-
íîãî 𝑗 çíàéäåòüñÿ òàêå 𝑖, ùî ¯ =𝑋
𝑋𝑗 − 𝑋 ¯ − 𝑋𝑖 ) òî àñèìåòðiÿ äîðiâíþ¹
0.
Íîðìóâàííÿ íà 𝑆(X)3 ââåäåíî äëÿ òîãî, ùîá àñèìåòðiÿ áóëà ií-
âàðiàíòíîþ âiäíîñíî ìàñøòàáóâàííÿ. Êðiì òîãî, çàâäÿêè âiäíiìàííþ ¯
𝑋
âîíà ¹ òàêîæ iíâàðiàíòíîþ âiäíîñíî âèáîðó ïî÷àòêó âiäëiêó.  öüîìó ðî-
çóìiííi àñèìåòðiÿ ¹ òèïîâèì ïðåäñòàâíèêîì õàðàêòåðèñòèê ôîðìè ðîç-
ïîäiëó: ¨õ çàçâè÷àé âèçíà÷àþòü òàê, ùîá âîíè íå ìiíÿëèñü ïðè ëiíiéíèõ
çìiíàõ øêàëè âèìiðþâàííÿ. Ïðè òàêîìó ïiäõîäi õàðàêòåðèñòèêè ôîð-
ìè äîïîâíþþòü iíôîðìàöiþ ïðî ðîçïîäië âèáiðêîâèõ äàíèõ, ÿêó äàþòü
õàðàêòåðèñòèêè ñåðåäíüîãî ïîëîæåííÿ òà ðîçêèäó.

Приклад 4.4.3. Íåâàæêî íàïèñàòè âëàñíó ôóíêöiþ Räëÿ îá÷èñëåííÿ àñè-


ìåòði¨ âèáiðêè:

skew<-function(x){mean((x-mean(x))^3)/sd(x)^3}

Çàñòîñó¹ìî öþ ôóíêöiþ äî äàíèõ ç ïðèêëàäó 4.4.1:

skew(Oracle) # асиметрiя цiн акцiй Oracle:

## [1] -0.2066766

skew(Google) # асиметрiя цiн акцiй Google:

## [1] -0.5994547
4.5. Групування та навантаження 133

Ó îáîõ âèáiðêàõ àñèìåòðiÿ âèÿâèëàñü âiä'¹ìíîþ. Òàê áóâà¹, êîëè áiëü-


øà ÷àñòèíà ñïîñòåðåæåíü 𝑋𝑗 ëåæèòü ïðàâîðó÷ âiä âèáiðêîâîãî ñåðåäíüî-
ãî ¯,
𝑋 àëå ñåðåä 𝑋𝑗 , ÿêi ëåæàòü ëiâîðó÷ âiä ¯,
𝑋 ¹ òàêi, ùî âiäõèëÿþòüñÿ
äóæå äàëåêî (ïîðiâíÿíî ç òèìè, ùî ëåæàòü ïðàâîðó÷). Ó òàêîìó âèïàä-
êó êàæóòü, ùî ðîçïîäië âèáiðêè ì๠äîâãèé (àáî âàæêèé) ëiâèé õâiñò.
Ìîæíà ñêàçàòè, ùî ëiâèé õâiñò Google âèÿâèâñÿ ïîìiòíî âàæ÷èì, íiæ ó
Oracle.
Íà äàíèõ ç ïðèêëàäó 4.4.2 îá÷èñëåííÿ àñèìåòðié ìîæíà îôîðìèòè
òàê:

tapply(price,list(goods,country),skew)

## it pl ua
## Beef -0.04523837 0.03163356 0.01175592
## Meal2 0.02515576 0.29211870 -0.59497677
## tennis 0.67256970 -0.02305450 -0.50948576

ßê áà÷èìî, àñèìåòðiÿ äëÿ öií íà àðåíäó òåíiñíèõ êîðòiâ ñóòò¹âî âiä-


ìiííà â Óêðà¨íi (-0.50948576) i Iòàëi¨ (0.67256970). Óêðà¨íñüêà âèáiðêà
ì๠âàæêèé ëiâèé õâiñò, à iòàëiéñüêà  âàæêèé ïðàâèé. Öå ñóïåðå÷èòü
ãiïîòåçi, âèñëîâëåíié ó ïðèêëàäi 4.4.2, ïðî òå, ùî õàðàêòåðèñòèêè ðîç-
ïîäiëó öi¹¨ çìiííî¨ ïîâèííi áóòè ïîðiâíÿíî ñòàáiëüíèìè.
Âòiì, ñëiä ðîçóìiòè, ùî äëÿ âèáiðîê ç ï'ÿòè åëåìåíòiâ äîñëiäæåííÿ
ôîðìè ðîçïîäiëó íàâðÿä ÷è âàðòî ñïðèéìàòè ñåðéîçíî. Ðîçãëÿíóòi òóò
ïðèêëàäè ìàþòü íà ìåòi ïîêàçàòè òåõíiêó ðîçðàõóíêiâ, à íå äîñëiäèòè
îñîáëèâîñòi êîíêðåòíèõ äàíèõ. J

4.5 Групування та навантаження


Групування. Ñåðåä äàíèõ ó âèáiðöi ìîæóòü çóñòði÷àòèñü îäíàêîâi
çíà÷åííÿ. ßêùî ðiçíèõ çíà÷åíü, ÿêi íàáóâ๠çìiííà, ïîðiâíÿíî íåáàãà-
òî, i áiëüøiñòü ç íèõ çóñòði÷à¹òñÿ ó âèáiðöi êiëüêà ðàçiâ, òî çðó÷íî íå
âèïèñóâàòè âñþ âèáiðêó, à ïåðåëi÷èòè öi ðiçíi çíà÷åííÿ i âêàçàòè ¨õ ÷à-
ñòîòè (êiëüêiñòü ïîâòîðåíü). Çàïèñ âèáiðêè ó òàêîìó âèãëÿäi íàçèâàþòü
ãðóïóâàííÿì, à ñàìó âèáiðêó  ãðóïîâàíîþ (grouped).
Íåõàé 𝑥1 < · · · < 𝑥𝐾  âñi ðiçíi çíà÷åííÿ, ÿêèõ ìîæå íàáóâàòè äîñëiä-
æóâàíà çìiííà (âàðiàíòè). Àáñîëþòíà ÷àñòîòà 𝑛𝑖 âàðiàíòè 𝑥𝑖 ó âèáiðöi
4.5. Групування та навантаження 134

15
𝑋 = (𝑋1 , . . . , 𝑋𝑛 ) öå êiëüêiñòü íîìåðiâ 𝑗 = 1, . . . , 𝑛, äëÿ ÿêèõ 𝑋 𝑗 = 𝑥𝑖 .
Ãðóïîâàíi äàíi ÷àñòî çàïèñóþòü ó âèãëÿäi òàáëèöi, ÿêó íàçèâàþòü
ðÿäîì ðîçïîäiëó âèáiðêè:
Âàðiàíòè 𝑥1 𝑥2 ... 𝑥𝐾
×àñòîòè 𝑛1 𝑛2 ... 𝑛𝐾
Ñèòóàöiÿ ãðóïîâàíî¨ âèáiðêè ïðèðîäíî âèíèêà¹, íàïðèêëàä, òîäi,
êîëè äîñëiäæóâàíà âåëè÷èíà ¹ öiëî÷èñëîâîþ ïî ñâî¨é ñóòi. Ñêàæiìî, öå
ìîæå áóòè êiëüêiñòü áðàêîâàíèõ âèðîáiâ âèÿâëåíèõ íà êîíòðîëi ïðîòÿãîì
îäíîãî äíÿ âèðîáíèöòâà. Ó iíøèõ âèïàäêàõ ãðóïóâàííÿ âèíèê๠âíàñëi-
äîê îáìåæåíî¨ òî÷íîñòi âèìiðþâàííÿ äîñëiäæóâàíèõ âåëè÷èí: ÿêùî äîâ-
æèíó êîìàõ âèìiðþâàòè ëiíiéêîþ, íà ÿêié ¹ ëèøå ìiëiìåòðîâi ïîäiëêè, òî
ðåçóëüòàò âèìiðþâàííÿ ó ìiëiìåòðàõ áóäå öiëèì ÷èñëîì, õî÷à ñïðàâæíi
äîâæèíè ìîæóòü ïðèéìàòè â ïðèíöèïi, áóäü-ÿêi äîäàòíi çíà÷åííÿ.
16
Íàðåøòi, iíêîëè âèíèê๠ïîòðåáà ïðîâåñòè ïðèìóñîâå ãðóïóâàííÿ
17
(grouping àáî binning ), êîëè äàíi ñïåöiàëüíî îãðóáëþþòü. Ó öüîìó âè-
ïàäêó âåñü iíòåðâàë [𝑎, 𝑏] ìîæëèâèõ çíà÷åíü çìiííî¨ ðîçáèâàþòü íà ïiäií-
òåðâàëè 𝐴𝑘 = [𝑡𝑘−1 , 𝑡𝑘 ), äå 𝑎 = 𝑡0 < 𝑡1 < · · · < 𝑡𝐾 = 𝑏  äåÿêi òî÷êè. (Íà-
ïðèêëàä, ïðè ðiâíîìiðíîìó ðîçáèòòi áåðóòü 𝑡𝑘 = 𝑎+𝑘ℎ, äå ℎ = (𝑏−𝑎)/𝐾 
øèðèíà iíòåðâàëó ðîçáèòòÿ). ßêùî ñïîñòåðåæóâàíå çíà÷åííÿ 𝑋𝑗 ïîòðàï-
ëÿ¹ ó iíòåðâàë 𝐴𝑘 , éîãî çàìiíÿþòü íà çíà÷åííÿ ñåðåäèíè öüîãî iíòåðâàëó
𝑥𝑘 = (𝑡𝑘 + 𝑡𝑘−1 )/2. Óòâîðåíó îãðóáëåíó âèáiðêó ãðóïóþòü. Çðîçóìiëî,
ùî â òàêié âèáiðöi 𝑛𝑘  öå êiëüêiñòü òèõ ñïîñòåðåæåíü, ÿêi ïîòðàïèëè ó
iíòåðâàë 𝐴𝑘 .
Статистики групованих вибiрок.
Ëåãêî áà÷èòè, ùî âèáiðêîâå ñåðåäí¹ ïî ãðóïîâàíié âèáiðöi ìîæíà ïiä-
ðàõóâàòè òàê:

𝑛 𝐾 𝐾
¯𝑤 = 1 1 ∑︁
∑︁ ∑︁
𝑋 𝑋𝑗 = 𝑛 𝑘 𝑥𝑘 = 𝑤 𝑘 𝑥𝑘 ,
𝑛 𝑗=1 𝑛 𝑘=1 𝑘=1

äå 𝑤𝑘 = 𝑛𝑘 /𝑛  âàãîâi êîåôiöi¹íòè (íàâàíòàæåííÿ, âàãè, weights).

15
Кiлькiсть об’єктiв у вибiрцi
16
Наприклад, при побудовi гiстограм, див. п. 7.1, або при застосуваннi тестiв типу 𝜒2 , див.
п. 9.6.
17
iнтервали розбиття називають bins — кошики, вiдповiдно, примусово груповану вибiрку
— binned sample
4.5. Групування та навантаження 135

Àíàëîãi÷íî, ñåðåäí¹ ãåîìåòðè÷íå ðàõó¹òüñÿ çà ôîðìóëîþ

(︃ 𝐾
)︃1/𝑛 𝐾
∏︁ ∏︁
𝑛𝑘
GM𝑤 (𝑋) = (𝑥𝑘 ) = (𝑥𝑘 )𝑤𝑘 .
𝑘=1 𝑘=1

Äåùî ñêëàäíiøå âèçíà÷èòè ìåäiàíó ãðóïîâàíî¨ âèáiðêè. Äëÿ öüîãî ïî-


∑︀
òðiáíî çíàéòè òàêå çíà÷åííÿ
∑︀ 𝑖:𝑥𝑖 <𝑥𝑘 𝑤𝑖 < 1/2 i, â òîé æå ÷àñ,
𝑘 , äëÿ ÿêîãî
𝑖:𝑥𝑖 >𝑥𝑘 𝑤𝑖 ≤ 1/2. Òîäi 𝑥𝑘 áóäå âèáiðêîâîþ ìåäiàíîþ ãðóïîâàíî¨ âèáiðêè.
(Ïðè òàêîìó îçíà÷åííi âèáiðêîâà ìåäiàíà, ïiäðàõîâàíà ïî ãðóïîâàíié âè-
áiðöi, ìîæå òðîõè âiäðiçíÿòèñü âiä ìåäiàíè, ïiäðàõîâàíî¨ áåç ãðóïóâàííÿ).
Ãðóïîâàíå ñåðåäí¹ àáñîëþòíå âiäõèëåííÿ ìîæíà ðàõóâàòè ÿê

𝐾
∑︁
MAD𝑤 (𝑋) = ¯ 𝑤 |.
𝑤𝑘 |𝑥𝑘 − 𝑋
𝑘=1

Ãðóïîâàíà âèáiðêîâà äèñïåðñiÿ ì๠âèãëÿä

𝐾
∑︁
𝑆𝑤2 (𝑋) = ¯ 𝑤 )2 .
𝑤𝑘 (𝑥𝑘 − 𝑋
𝑘=1

ßêùî âèáiðêà ¹ ïðèðîäíî ãðóïîâàíîþ (ñêàæiìî, çìiííà ïðèéì๠ëèøå


2
öiëî÷èñëîâi çíà÷åííÿ) òî 𝑆𝑤 (𝑋) öå â òî÷íîñòi òåæ ñàìå, ùî çâè÷àéíà âè-
áiðêîâà äèñïåðñiÿ. Àëå, ÿêùî äàíi áóëè îãðóáëåíi ïðèìóñîâèì ãðóïóâàí-
íÿì, òî ãðóïîâàíà äèñïåðñiÿ ¹ îãðóáëåííÿì ñïðàâæíüî¨ âèáiðêîâî¨. ßêùî
ðîçáèòòÿ ïðè ãðóïóâàííi áóëî ðiâíîìiðíèì, ìîæíà ââåñòè ñïåöiàëüíó ïî-
ïðàâêó, ÿêà äîçâîëÿ¹ áiëüø òî÷íî íàáëèçèòè ñïðàâæíþ äèñïåðñiþ:

2 ℎ2
𝑆𝑐𝑜𝑟𝑟 (𝑋) = 𝑆𝑤2 (𝑋) + , (4.7)
12
äå ℎ  øèðèíà iíòåðâàëó ðîçáèòòÿ. Âåëè÷èíà ℎ2 /12 çâåòüñÿ ïîïðàâêîþ
Øåïïàðäà (Sheppard's correction).
Навантаженi статистики. Íàâàíòàæåíi ñåðåäíi âèãëÿäó

∑︁
¯𝑤 =
𝑋 𝑤𝑘 𝑋𝑘
𝑘

ïðèðîäíî âèêîðèñòîâóâàòè íå òiëüêè äëÿ ãðóïîâàíèõ äàíèõ. Òàêi ñóìè


÷àñòî âèíèêàþòü i ó àíàëiçi iíøèõ ñòàòèñòè÷íèõ äàíèõ.
4.5. Групування та навантаження 136

Приклад 4.5.1. Íîðìîþ ïðèáóòêó ïiäïðè¹ìñòâà íàçèâàþòü ïðèáóòîê, îò-


ðèìàíèé íèì ïðîòÿãîì ðîêó, äiëåíèé íà îáñÿã êàïiòàëó, iíâåñòîâàíîãî ó
öå ïiäïðè¹ìñòâî. Íåõàé ðåçóëüòàòîì ñïîñòåðåæåíü 𝑛 ïiäïðè¹ìñòâ ¹ ðîç-
ìið ïðèáóòêó 𝑝𝑗 òà ðîçìið iíâåñòîâàíîãî êàïiòàëó 𝑐𝑗 äëÿ 𝑗 -òîãî îáñòåæå-
íîãî ïiäïðè¹ìñòâà (𝑗 = 1, . . . , 𝑛). ßê âèçíà÷èòè ñåðåäíþ íîðìó ïðèáóòêó
öèõ ïiäïðè¹ìñòâ?
Ìîæëèâi äâà âàðiàíòè. Ïî-ïåðøå, ìîæíà ïiäðàõóâàòè íîðìè ïðèáóò-
êó ïî êîæíîìó ïiäïðè¹ìñòâó îêðåìî:
𝑝𝑗
𝑟𝑗 =
𝑐𝑗
i óñåðåäíèòè ¨õ, îòðèìàâøè
𝑛
1 ∑︁
𝑟¯ = 𝑟𝑗 .
𝑛 𝑗=1
Ïî-äðóãå, ìîæíà çíàéòè ñóìàðíèé ïðèáóòîê âñiõ îáñòåæåíèõ ïiäïðè-
¹ìñòâ îäðàçó i ðîçäiëèòè éîãî íà ñóìàðíèé êàïiòàë öèõ ïiäïðè¹ìñòâ:
∑︀𝑛 𝑛
𝑗=1 𝑝𝑗
∑︁
𝑟¯𝑤 = ∑︀𝑛 = 𝑤𝑗 𝑟𝑗 ,
𝑗=1 𝑐𝑗 𝑗=1
äå
𝑐𝑗
𝑤𝑗 = ∑︀𝑛 .
𝑖=1 𝑐𝑖
Òîáòî ó öüîìó âèïàäêó ìè îòðèìàëè íàâàíòàæåíå ñåðåäí¹ ç âàãîâèìè
êîåôiöi¹íòàìè, ïðîïîðöiéíèìè êàïiòàëàì ïiäïðè¹ìñòâ. Öå i çðîçóìiëî 
ìîæíà ñïîäiâàòèñü, ùî ÷èì áiëüøèé êàïiòàë ïiäïðè¹ìñòâà, òèì áiëüøèì
ïîâèíåí áóòè éîãî âíåñîê ó åêîíîìiêó, îòæå ïðè ïiäñóìîâóâàííi éîãî
âàðòî âðàõîâóâàòè ç áiëüøîþ âàãîþ.
ßêèé âàðiàíò ñåðåäíüîãî ¹ áiëüø ïðàâèëüíèì äëÿ öèõ äàíèõ? Âiä-
ïîâiäü çàëåæèòü âiä çàäà÷i, ÿêà ñòî¨òü ïåðåä äîñëiäíèêîì. ßêùî äîñëiä-
æåííÿ ïðîâîäèòüñÿ, íàïðèêëàä, äëÿ ìiíiñòåðñòâà ôiíàíñiâ, ÿêå õî÷å îöi-
íèòè ìîæëèâèé ìàéáóòíié ïðèáóòîê ïiäïðè¹ìñòâ êðà¨íè â çàëåæíîñòi
âiä âêëàäåíèõ iíâåñòèöié, òî ñêîðiøå ñëiä îði¹íòóâàòèñü íà íàâàíòàæåíå
ñåðåäí¹. ßêùî äîñëiäæåííÿ âèêîíó¹òüñÿ äëÿ ôiñêàëüíî¨ ñëóæáè, ÿêà ìà¹
íà ìåòi âèÿâèòè ïiäïðè¹ìñòâà ç àíîìàëüíèìè çíà÷åííÿìè íîðìè ïðèáóò-
êó, òî, ìîæëèâî, áiëüø ïðàâèëüíèì îði¹íòèðîì íîðìàëüíîãî ïiäïðè¹ì-
ñòâà áóäå ïðîñòå âèáiðêîâå ñåðåäí¹. À ìîæëèâî, äëÿ âèçíà÷åííÿ ñåðåä-
íüîãî ïîëîæåííÿ íîðìè ïðèáóòêó ó öüîìó âèïàäêó êðàùå ñêîðèñòàòèñü
âèáiðêîâîþ ìåäiàíîþ. J
4.5. Групування та навантаження 137

™ áàãàòî iíøèõ çàäà÷, ó ÿêèõ ïðèðîäíèì áóäå çàñòîñóâàííÿ íàâàíòà-


æåíèõ ñåðåäíiõ. Äëÿ ïîâíîãî ðîçóìiííÿ òîãî, ÷îìó ó öèõ çàäà÷àõ íàâàí-
òàæåííÿ íàáóâ๠ïåâíî¨ ôîðìè, ïîòðiáíî îïèñàòè âiäïîâiäíi äàíi ïåâíèìè
éìîâiðíiñíèìè ìîäåëÿìè, ÿêi îáãîâîðþþòüñÿ ïiçíiøå. Òîìó òóò ìè ëèøå
ïîáiæíî çãàäà¹ìî íàéáiëüø ïîøèðåíi âàðiàíòè íàâàíòàæåíü.

Приклад 4.5.2. Íåõàé ïðîâîäÿòüñÿ âèìiðþâàííÿ îäíi¹¨ i òi¹¨ æ ôiçè÷íî¨


âåëè÷èíè ðiçíèìè ïðèëàäàìè. 𝑋𝑗  ðåçóëüòàò âèìiðþâàííÿ 𝑗 -òèì ïðèëà-
äîì, 𝑗 = 1, . . . , 𝑛. Òî÷íiñòü âèìiðþâàíü ðiçíà ó ðiçíèõ ïðèëàäiâ. Äèñïåð-
ñiÿ ïîõèáêè
18
𝑗 -òîãî ïðèëàäó äîðiâíþ¹ 𝜎𝑗2 . Ìîæíà äîâåñòè, ùî ó öüîìó
âèïàäêó íàéáiëüø òî÷íîþ îöiíêîþ ñïðàâæíüîãî çíà÷åííÿ âèìiðþâàíî¨
19
âåëè÷èíè ¹
𝑛 𝑛
¯ 1 ∑︁ 𝑋𝑗 ∑︁
𝑋𝜎 = ∑︀𝑛 2 2
= 𝑤 𝑗 𝑋𝑗 ,
𝑗=1 1/𝜎𝑗 𝑗=1 𝜎𝑗 𝑗=1
äå
1/𝜎𝑗2
𝑤𝑗 = ∑︀𝑛 2
.
𝑖=1 1/𝜎𝑖
Iíòó¨òèâíèé çìiñò öi¹¨ ôîðìóëè çðîçóìiëèé: ÷èì áiëüøà äèñïåðñiÿ ïîõèá-
êè, òèì ìåíøà òî÷íiñòü âiäïîâiäíîãî âèìiðþâàííÿ, òîìó ñïîñòåðåæåííÿ,
ùî ìàþòü áiëüøi äèñïåðñi¨, âêëþ÷àþòüñÿ ó ñóìàðíó îöiíêó ç ìåíøèìè
êîåôiöi¹íòàìè. J

Приклад 4.5.3. Íåõàé äîñëiäæóâàíi îá'¹êòè ìàþòü ðiçíi øàíñè ïîòðàïèòè


äî âèáiðêè, ïðè÷îìó öi øàíñè ïîâ'ÿçàíi ç õàðàêòåðèñòèêîþ, ùî äîñëiä-
æó¹òüñÿ. Òàêi âèáiðêè çâóòüñÿ çìiùåíèìè.
Íàïðèêëàä, îá'¹êòàìè ìîæóòü áóòè ðèáè, âèëîâëåíi ó ñòàâêó, à õà-
ðàêòåðèñòèêîþ  äîâæèíà ðèáèíè. ×èì áiëüøîþ ¹ ðèáèíà, òèì áiëüøå
ó íå¨ øàíñiâ ïîòðàïèòè äî ðèáàëüñüêî¨ ñiòêè. ßêùî ìåòîþ äîñëiäæåííÿ
¹ îöiíþâàííÿ ñåðåäíüî¨ äîâæèíè ðèá ó ñòàâêó, òî ñåðåäí¹ äîâæèí âèëîâ-
ëåíèõ ðèá áóäå çàâèùåíîþ îöiíêîþ öi¹¨ õàðàêòåðèñòèêè. Òîáòî îöiíêà ïî
çìiùåíié âèáiðöi ¹ çìiùåíîþ.
Äëÿ âèïðàâëåííÿ öüîãî çìiùåííÿ âèêîðèñòîâóþòü íàâàíòàæåíi ñåðåä-
íi ç âàãîâèìè êîåôiöi¹íòàìè, îáåðíåíî ïðîïîðöiéíèìè éìîâiðíîñòi òîãî,

18
Маємо на увазi дисперсiю, вказану у паспортi приладу, яка характеризує точнiсть ви-
мiрювань цим приладом, визначену при його сертифiкацiї.
19
Це оцiнка методу найбiльшої вiрогiдностi у випадку нормального розподiлу даних, див.
приклад 8.3.3. Її дисперсiя є найменшою в класї всiх лiнiйних незмiщених оцiнок.
4.6. Обчислення описових статистик у R 138

ùî äàíå ñïîñòåðåæåííÿ ïîòðàïèòü äî âèáiðêè. Òàêi âàãîâi êîåôiöi¹íòè


íàçèâàþòü êîåôiöi¹íòàìè Ãîðâiöà-Òîìïñîíà. J

Êðiì íàâàíòàæåíèõ ñåðåäíiõ ìîæóòü âèêîðèñòîâóâàòèñü òàêîæ iíøi


íàâàíòàæåíi ñòàòèñòèêè, òàêi ÿê íàâàíòàæåíà ìåäiàíà àáî íàâàíòàæåíà
äèñïåðñiÿ. Ôîðìóëè äëÿ öèõ ñòàòèñòèê âèêîðèñòîâóþòüñÿ òàêi æ, ÿê íà-
âåäåíî âèùå äëÿ ãðóïîâàíèõ äàíèõ, àëå âàãîâi êîåôiöi¹íòè ìàþòü iíøèé
çìiñò.
Iíêîëè çìiñòîâíi âàãîâi êîåôiöi¹íòè ó ôîðìóëàõ äëÿ íàâàíòàæåíèõ
ñòàòèñòèê íå ¹ íîðìîâàíèìè, òîáòî ¨õ ñóìà íå äîðiâíþ¹ 1. Ó òàêîìó âè-
∑︀𝑛
ïàäêó íîðìóþòü ñàìó ñòàòèñòèêó. Íàïðèêëàä, ÿêùî 𝑗=1 𝑤𝑗 ̸= 1, òî
íàâàíòàæåíå âèáiðêîâå ñåðåäí¹ ñëiä ðàõóâàòè çà ôîðìóëîþ

𝑛
¯ = ∑︀𝑛 1
∑︁
𝑋 𝑤𝑗 𝑋𝑗 ,
𝑗=1 𝑤𝑗 𝑗=1

à íàâàíòàæåíå ãåîìåòðè÷íå ñåðåäí¹  çà ôîðìóëîþ

(︃ 𝑛
)︃1/ ∑︀𝑛𝑗=1 𝑤𝑗
∏︁
GM(𝑋) = (𝑋𝑗 )𝑤𝑗 .
𝑗=1

4.6 Обчислення описових статистик у R


Ïiäðàõóíîê áiëüøîñòi îñíîâíèõ îïèñîâèõ ñòàòèñòèê ó R ðåàëiçîâàíî ó
âèãëÿäi ôóíêöié îäíîòèïíî¨ ñòðóêòóðè. Äëÿ ìåíø ïîøèðåíèõ ñòàòèñòèê
÷àñòî ìîæíà íàïèñàòè ïðîñòèé âèðàç êîòðèé ¨õ îá÷èñëþ¹. Çâåäåííÿ ïî
öèõ ôóíêöiÿõ äàíî ó òàáëèöi 4.4.
Ó âñiõ öèõ ôóíêöié ïåðøèì ïàðàìåòðîì x ¹ âèáiðêà, çà ÿêîþ ðàõó¹òü-
ñÿ âiäïîâiäíà ñòàòèñòèêà. Öåé ïàðàìåòð ìîæå áóòè ÷èñëîâèì âåêòîðîì
àáî ìàòðèöåþ. Â îáîõ âèïàäêàõ ðåçóëüòàòîì âèêîíàííÿ ôóíêöi¨ ¹ îäíå
÷èñëî  çíà÷åííÿ âiäïîâiäíî¨ ñòàòèñòèêè ïiäðàõîâàíå çà âñiìà åëåìåíòà-
ìè x. Âèéíÿòêîì ç öüîãî ïðàâèëà ¹ ôóíêöiÿ var. ßêùî ¨ ¨ àðãóìåíòîì x
20
¹ ìàòðèöÿ, âîíà ïiäðàõîâó¹ ìàòðèöþ âèáiðêîâèõ êîâàðiàöié äëÿ ñòîâï-
÷èêiâ x.
Íàïðèêëàä:

20
Озачення вибiркових коварiацiй i коварiацiйної матрицi див. п. 5.2.
4.6. Обчислення описових статистик у R 139

Таблиця 4.4. Функцiї для пiдрахунку описових статистик

Ñòàòèñòèêà Ïîçíà÷åííÿ Ôóíêöiÿ


Âèáiðêîâå ñåðåäí¹ 𝑋¯ mean(x)
Ãåîìåòðè÷íå ñåðåäí¹ GM(𝑋) prod(x)^(1/length(x))
Ãàðìîíiéíå ñåðåäí¹ HM(𝑋) 1/mean(1/x)
Çðiçàíå ñåðåäí¹ TM2𝑎 (𝑋) mean(x,trim=a)
Ìåäiàíà med(𝑋) median(x)
Âèïðàâëåíà âèáiðêîâà äèñïåðñiÿ 𝑆02 (𝑋) var(x)
Ñåðåäíüîêâàäðàòè÷íå âiäõèëåííÿ 𝑆0 (𝑋) sd(x)
Ñåðåäí¹ àáñîëþòíå âiäõèëåííÿ MAD(𝑋) mean(abs(x-mean(x)))
Iíòåðêâàðòèëüíèé ðîçìàõ IQ(𝑋) IQR(x)

x=cbind(1:3,4:6)
x

## [,1] [,2]
## [1,] 1 4
## [2,] 2 5
## [3,] 3 6

mean(x)

## [1] 3.5

sd(x)

## [1] 1.870829

var(x)

## [,1] [,2]
## [1,] 1 1
## [2,] 1 1

Iíêîëè áóâ๠ïîòðiáíî ïiäðàõóâàòè ñåðåäí¹ çíà÷åííÿ ïî êîæíîìó


ñòîâï÷èêó ìàòðèöi îêðåìî. Öå ìîæíà çðîáèòè, âèêîðèñòîâóþ÷è ôóíê-
öiþ colMeans(). Ðåçóëüòàòîì ïiäðàõóíêó ¹ iìåíîâàíèé âåêòîð çíà÷åíü
4.6. Обчислення описових статистик у R 140

ñòàòèñòèê äëÿ âñiõ çìiííèõ. Ôóíêöiþ colMeans() ìîæíà òàêîæ çàñòîñî-


âóâàòè äî ôðåéìiâ äàíèõ:

x<-c(1:5)
y<-rep(3,5)
z<-x<y
dat<-data.frame(x,y,z)
colMeans(dat)

## x y z
## 3.0 3.0 0.4
(çâè÷àéíà ôóíêöiÿ mean() âèä๠ïîâiäîìëåííÿ ïðî ïîìèëêó ïðè çà-
ñòîñóâàííi äî ôðåéìiâ). ßêùî íà çìiííèõ ôðåéìó ïîòðiáíî ïiäðàõóâàòè
ÿêiñü iíøi ñòàòèñòèêè êðiì ñåðåäíüîãî, ìîæíà ñêîðèñòàòèñü ôóíêöi¹þ
apply()  äèâ. ïðèêëàä 4.6.1.
Ó âñiõ ðîçãëÿíóòèõ ôóíêöié ¹ òàêîæ ëîãi÷íèé ïàðàìåòð-îïöiÿ na.rm.
ßêùî âêàçàòè na.rm=T, òî ïåðåä ïiäðàõóíêîì ñòàòèñòèêè ç âèáiðêè áó-
äóòü âèëó÷àòèñü âñi ïðîïóùåíi çíà÷åííÿ (ñòàòèñòèêà ðàõó¹òüñÿ òiëüêè
çà íå ïðîïóùåíèìè). Çà óìîâ÷àííÿì na.rm=F, ó öüîìó âèïàäêó, çà íàÿâ-
íîñòi ïðîïóùåíèõ çíà÷åíü ó âèáiðöi, çíà÷åííÿì ôóíêöi¨ òåæ áóäå NA.
Ó R ¹ ôóíêöiÿ mad(). Àëå âîíà îá÷èñëþ¹ íå MAD(𝑋 )  ñåðåäí¹ àá-
ñîëþòíå âiäõèëåííÿ, ÿê ìîæíà áóëî á ñïîäiâàòèñü, à ìåäiàííå àáñîëþòíå
âiäõèëåííÿ  MedAD(𝑋 ) ó íàøèõ ïîçíà÷åííÿõ. Ó öié ôóíêöi¨ ¹ ïàðàìåòð
constant  êîíñòàíòà, íà ÿêó äîìíîæà¹òüñÿ ïiäðàõîâàíå ìåäiàííå àáñî-
ëþòíå âiäõèëåííÿ. Çà óìîâ÷àííÿì, constant=1.4826. Ïðè âèêîðèñòàííi
òàêîãî ìíîæíèêà mad(x), áóäå êîíñèñòåíòíîþ îöiíêîþ äëÿ ñåðåäíüîêâàä-
ðàòè÷íîãî âiäõèëåííÿ âèáiðêè ç íîðìàëüíèì ðîçïîäiëîì. ßêùî ïîòðiáíå
ñïðàâæí¹ çíà÷åííÿ MedAD(𝑋), ñëiä çàäàòè constant=1.
Ó ñòàíäàðòíié ïîñòàâöi R íåì๠îêðåìèõ ôóíêöié äëÿ îá÷èñëåííÿ íà-
âàíòàæåíèõ ñòàòèñòèê. Àëå áiëüøiñòü ç íèõ íåâàæêî çàïèñàòè, áåçïîñå-
ðåäíüî âèêîðèñòîâóþ÷è ôîðìóëè äëÿ ¨õ îá÷èñëåííÿ:

x<-1:5 # вибiрка
w<-c(2,2,2,1,1) # ваговi коефiцiєнти
#
sum(x*w)/sum(w) # навантажене вибiркове середнє

## [1] 2.625
4.6. Обчислення описових статистик у R 141

(prod(x^w))^(1/sum(w)) # навантажене гармонiйне середнє

## [1] 2.27597

Ñêëàäíiøå çàïðîãðàìóâàòè íàâàíòàæåíó ìåäiàíó. ßêùî âàãîâi êîå-


ôiöi¹íòè ïðèéìàþòü ëèøå öiëi çíà÷åííÿ, öå ìîæíà çðîáèòè òàê:

x<-1:5 # вибiрка
w<-c(2,2,2,1,1) # ваговi коефiцiєнти
#
median(rep(x,w)) # навантажена медiана

## [1] 2.5

Òóò ôóíêöiÿ rep(x,w) êîæåí åëåìåíò 𝑥𝑗 âèáiðêè x ðîçìíîæèëà 𝑤𝑗


ðàçiâ. Ïiñëÿ öüîãî median() ïiäðàõóâàëà ìåäiàíó öi¹¨ ðîçìíîæåíî¨ âèáið-
êè. Ìîæíà ñêàçàòè, ùî ìè òðàêòóâàëè íàøó âèáiðêó ÿê ãðóïîâàíó i ïî
öié ãðóïîâàíié âèáiðöi âiäíîâèëè ïî÷àòêîâó (iç ïîâòîðàìè).
Çðîçóìiëî, ùî òàêèé ñïîñiá ïiäðàõóíêó íàâàíòàæåíî¨ ìåäiàíè ¹ äóæå
íååôåêòèâíèì, îñîáëèâî êîëè âàãîâi êîåôiöi¹íòè âåëèêi. Ó ïàêåòi laeken
¹ ôóíêöiÿ , êîòðà ðàõó¹ íàâàíòàæåíó ìåäiàíó ïðè äîâiëüíèõ âàãîâèõ
êîåôiöi¹íòàõ.
×àñòî îïèñîâi ñòàòèñòèêè âèêîðèñòîâóþòüñÿ êîëè ïîòðiáíî ïîðiâíÿòè
áàãàòî âèáiðîê îäíîòèïíèõ äàíèõ. ßêùî öi âèáiðêè çiáðàíi ó ìàòðèöþ, òî
âèíèê๠ïîòðåáà ïiäðàõîâóâàòè ñòàòèñòèêè îêðåìî äëÿ êîæíîãî ñòîâï÷è-
êà (àáî ðÿäî÷êà) ìàòðèöi. Öå ìîæíà çðîáèòè, âèêîðèñòîâóþ÷è ôóíêöiþ
apply() òàê, ÿê îïèñàíî ó ïiäðîçäiëi 2.2.5.

Приклад 4.6.1.Íàïðèêëàä, çìiííà fmg ìiñòèòü çíà÷åííÿ êîíöåíòðàöié


3
ôîðìàëüäåãiäó (ìã íà ì ) ó àòìîñôåðíîìó ïîâiòði, âèìiðÿíi íà Áåñà-
ðàáñüêié ïëîùi ìiñòà Êè¹âà ó ðiçíi ãîäèíè äîáè (î ïåðøié, ñüîìié, òðè-
íàäöÿòié i äåâ'ÿòíàäöÿòié ãîäèíàõ) çà ïåðiîä ç 15 ïî 21 æîâòíÿ 2015
ðîêó (äàíi ç ñàéòó ÖÃÎ Óêðà¨íè http://www.cgo.kiev.ua/). Ðÿäîê ìàò-
ðèöi âiäïîâiä๠îäíié äîái ñïîñòåðåæåíü, ñòîâï÷èê  ïåâíié ãîäèíi äîáè.
Íàñ ìîæå öiêàâèòè, íàñêiëüêè çìiíþþòüñÿ êîíöåíòðàöi¨ ïðîòÿãîì äîáè i
íàñêiëüêè âîíè ìiíÿþòüñÿ ïðè âèìiðþâàííi ó ïåâíèé ÷àñ ó ðiçíi äíi ñïî-
ñòåðåæåíü. Âèáðàâøè íà ðîëü õàðàêòåðèñòèêè ðîçêèäó ñåðåäíüîêâàäðà-
òè÷íå âiäõèëåííÿ, ïiäðàõó¹ìî éîãî ïî êîæíîìó ðÿäêó i êîæíîìó ñòîâï-
÷èêó:
4.6. Обчислення описових статистик у R 142

# Концентрацiї формальдегiду по днях


d15=c(0.005,0.008,0.010,0.005)
d16=c(0.004,0.005,0.015,0.008)
d17=c(0.004,0.010,0.012,0.009)
d18=c(NA,NA,NA,NA)
d19=c(0.008,0.011,0.014,0.015)
d20=c(0.009,0.011,0.014,0.007)
d21=c(0.007,0.009,NA,NA)
# Створюємо матрицю концентрацiй:
fm=rbind(d15,d16,d17,d18,d19,d20,d21)
colnames(fm)<-(c("t01","t07","t13","t19"))
apply(fm,1,sd,na.rm=T)

## d15 d16 d17 d18 d19 d20


## 0.002449490 0.004966555 0.003403430 NA 0.003162278 0.002986079
## d21
## 0.001414214

apply(fm,2,sd,na.rm=T)

## t01 t07 t13 t19


## 0.002136976 0.002280351 0.002000000 0.003768289

Áà÷èìî, ùî ó ðiçíi äíi òà ó ðiçíèõ ìiñöÿõ ðîçêèä äàíèõ ìîæå âiäðiç-


íÿòèñü âäâi÷è. J

ßê ïàðàìåòð fun ó ôóíêöi¨ apply() ìîæíà âèêîðèñòîâóâàòè íå òiëü-


êè iì'ÿ ôóíêöi¨, à i ¨ ¨ îïèñ. Íàïðèêëàä, ÿêùî çà äàíèìè fm ïîòðiáíî
ïiäðàõóâàòè ãàðìîíiéíi ñåðåäíi ïî êîæíié äîái ñïîñòåðåæåíü, öå ìîæíà
çðîáèòè òàê:
apply(fm,1,function(x)(prod(x)^(1/length(x))))
Iíêîëè áóâà¹, ùî âñi äàíi äëÿ àíàëiçó çiáðàíi ó îäíîìó ôðåéìi, ïðè-
÷îìó äîñëiäæóâàíà õàðàêòåðèñòèêà ¹ îäíi¹þ çi çìiííèõ öüîãî ôðåéìó.
Ðîçáèòòÿ íà îêðåìi ïiäâèáiðêè ïîòðiáíî çðîáèòè çà iíøèìè çìiííèìè-
ôàêòîðàìè, ùî õàðàêòåðèçóþòü ïðèíàëåæíiñòü äîñëiäæóâàíèõ îá'¹êòiâ
äî ðiçíèõ ãðóï. Ó òàêèõ ñèòóàöiÿõ çðó÷íî âèêîðèñòîâóâàòè ôóíêöiþ .
Âîíà ïðèçíà÷åíà äëÿ çàñòîñóâàííÿ ïåâíî¨ ôóíêöi¨-ñòàòèñòèêè îêðåìî
äî êîæíî¨ ïiäâèáiðêè, çàäàíî¨ êîìáiíàöi¹þ ïåâíèõ ôàêòîðiâ. Çíà÷åííÿì
4.6. Обчислення описових статистик у R 143

ôóíêöi¨ ¹ òàáëèöÿ çíà÷åíü ñòàòèñòèêè äëÿ âñiõ ìîæëèâèõ êîìáiíàöié


ôàêòîðiâ.

Приклад 4.6.2. Ó ôðåéìi äàíèõ ToothGrowth ìiñòÿòüñÿ äàíi ïðî äîñëiä-


æåííÿ âïëèâó ðiçíèõ äi¹ò íà øâèäêiñòü ðîñòó çóáiâ ó ñâèíåé. Âñüîãî ó
ôðåéìi 60 ñïîñòåðåæåíü, êîæíå âiäïîâiä๠îäíié ñâèíi. Çìiííà len âêàçó¹
äîâæèíó çóáiâ, sup  õàð÷îâó äîáàâêó, ÿêó âèêîðèñòîâóâàëè äëÿ âíåñåí-
íÿ ó ðàöiîí ñâèíi âiòàìiíó Ñ (VC  õiìi÷íà àñêîðáiíîâà êèñëîòà, OJ 
ïîìàðàí÷îâèé ñiê), dose  ùîäåííà äîçà âiòàìiíó, ÿêó îòðèìóâàëà ñâè-
íÿ iç öi¹þ äîáàâêîþ (ëèøå òðè âàðiàíòè äîç: 0.5, 1 àáî 2 ìiëiãðàìè). Íàñ
öiêàâèòü  ÿê âiäðiçíÿþòüñÿ ñåðåäíi çíà÷åííÿ òà ñåðåäíüîêâàäðàòè÷íi
âiäõèëåííÿ len ïðè ðiçíèõ êîìáiíàöiÿõ ôàêòîðiâ sup i dose.

# Таблиця вибiркових середнiх:


tapply(ToothGrowth$len,
list(ToothGrowth$supp,ToothGrowth$dose),mean)

## 0.5 1 2
## OJ 13.23 22.70 26.06
## VC 7.98 16.77 26.14

# Таблиця середньоквадратичних вiдхилень:


tapply(ToothGrowth$len,
list(ToothGrowth$supp,ToothGrowth$dose),sd)

## 0.5 1 2
## OJ 4.459709 3.910953 2.655058
## VC 2.746634 2.515309 4.797731

(âiäîáðàæåííÿ òî÷îê íà ïëîùèíi ôóíêöi¹þ plot() îïèñàíî ó ï. 3.2.


Ùî ðîáèòü ôóíêöiÿ lm() ðîçïîâiäà¹òüñÿ ó ï. 10.2).
Роздiл 5

Опис залежностей

Ó ïîïåðåäíüîìó ðîçäiëi ìè ðîçãëÿíóëè äàíi, â ÿêèõ êîæíîìó ñïî-


ñòåðåæåííþ âiäïîâiä๠îäíà ÷èñëîâà âåëè÷èíà  çìiííà. Ó ïðèêëàäíèõ
ñòàòèñòè÷íèõ äîñëiäæåííÿõ ÷àñòî êîæåí ñïîñòåðåæóâàíèé îá'¹êò õàðàê-
òåðèçó¹òüñÿ êiëüêîìà ðiçíèìè çìiííèìè, ïðè÷îìó äîñëiäíèêó ïîòðiáíî
îïèñàòè çàëåæíiñòü ìiæ öèìè çìiííèìè. Òàêi çàäà÷i âèâ÷๠ñòàòèñòè-
êà áàãàòîâèìiðíèõ äàíèõ. Ó öüîìó ðîçäiëi ìè ðîçãëÿíåìî áàãàòîâèìiðíó
äåñêðèïòèâíó ñòàòèñòèêó, òîáòî áóäåìî íàìàãàòèñü äîñëiäæóâàòè çàëåæ-
íîñòi íå âèõîäÿ÷è ç ÿêî¨ñü òåîðåòè÷íî¨ ìîäåëi, à íàìàãàþ÷èñü âèÿâèòè
âíóòðiøíþ ñòðóêòóðó äàíèõ. Äîñëiäæåííÿ çàëåæíîñòåé ìiæ ÷èñëîâèìè
çìiííèìè íà îñíîâi ðåãðåñiéíèõ ìîäåëåé ðîçãëÿäà¹òüñÿ äàëi ó ðîçäiëi 10.
Ïðî ïåðåâiðêó çàëåæíîñòi ìiæ äâîìà çìiííèìè íå ÷èñëîâî¨ ïðèðîäè 
äèâ. ï. 9.6.4.

5.1 Дiаграми розсiювання


Íåõàé ¹ ôðåéì (íàáið) äàíèõ, â ÿêîìó ìiñòÿòüñÿ çíà÷åííÿ ðiçíèõ ÷èñ-
1
ëîâèõ çìiííèõ (õàðàêòåðèñòèê) äëÿ 𝑛 îá'¹êòiâ . Ïåðøå, ç ÷îãî âàðòî ïî-
÷àòè äîñëiäæåííÿ  öå ïîäèâèòèñü íà äàíi. ßêùî îá'¹êòiâ áàãàòî, ïðî-
ãëÿäàííÿ ÷èñëîâî¨ òàáëèöi ìàëî ùî äîïîìàãà¹.
Çíà÷íî êðàùå äàþòü óÿâëåííÿ ïðî îñîáëèâîñòi äàíèõ ðèñóíêè, íà
ÿêèõ êîæíîìó îá'¹êòó âiäïîâiä๠òî÷êà íà ïëîùèíi ç êîîðäèíàòàìè,
âèçíà÷åíèìè ïåâíèìè çìiííèìè öüîãî îá'¹êòà. Òàêi ðèñóíêè ó ñòàòèñòèöi

1
У фреймi можуть бути також i данi не числової природи, але зараз нас цiкавить, у першу
чергу, робота з числовими змiнними.

144
5.1. Дiаграми розсiювання 145

íàçèâàþòü дiаграмами розсiювання (àíãë. scatterplot).


Ïðîñòà äiàãðàìà ðîçñiþâàííÿ óòâîðþ¹òüñÿ, êîëè ç äâîõ çìiííèõ, ùî
îïèñóþòü îá'¹êò, ïåðøà âiäêëàäà¹òüñÿ ïî ãîðèçîíòàëi, à äðóãà  ïî âåð-
òèêàëi.

Приклад 5.1.1. Ôðåéì äàíèõ faithful, ùî âõîäèòü ó ñòàíäàðòíó ïîñòàâ-


êó R, ìiñòèòü äàíi ïðî âèâåðæåííÿ îäíîãî ãåéçåðà ç Éåëîóñòîíñüêîãî
2
ïàðêó ó ÑØÀ . Ó äàíèõ äëÿ 272 ïîñëiäîâíèõ âèâåðæåíü ãåéçåðà çàïè-
ñàíî òðèâàëiñòü âèâåðæåííÿ (çìiííà eruptions) i òðèâàëiñòü iíòåðâàëó
äî íàñòóïíîãî âèâåðæåííÿ (çìiííà waiting). Íàñ ìîæå öiêàâèòè, ÷è ¹
çàëåæíiñòü ìiæ öèìè çìiííèìè.
Ïîáóäó¹ìî äiàãðàìó ðîçñiþâàííÿ, âiäêëàäàþ÷è eruptions ïî ãîðè-
çîíòàëi, à waiting  ïî âåðòèêàëi3 (ðèñ. 5.1):

# Дiаграма розсiювання:
plot(faithful$waiting~faithful$eruptions,
xlab="erruption duration", ylab="Time waited")
# Пiдгонка прямою:
abline(lm(faithful$waiting~faithful$eruptions),col="red")

Íà ðèñóíêó âèäíî, ùî ñòðîãî¨ çàëåæíîñòi ìiæ äîñëiäæóâàíèìè çìií-


íèìè íåìà¹, àëå áiëüøèì çíà÷åííÿì waiting âiäïîâiäàþòü, â ñåðåäíüîìó,
áiëüøi erruptions. Öå  ïðèêëàä ñòàòèñòè÷íî¨ çàëåæíîñòi ìiæ çìiííè-
ìè. Òî÷êè íà äiàãðàìi ðîçòàøîâóþòüñÿ íàâêîëî ÷åðâîíî¨ ïðÿìî¨, òîáòî
íàøà çàëåæíiñòü ïðèáëèçíî ëiíiéíà  íå âèäíî îñîáëèâîñòåé, ÿêi âè-
ìàãàëè á çàñòîñóâàííÿ íåëiíiéíèõ ìîäåëåé äëÿ îïèñó çàëåæíîñòi.
Íà ðèñóíêó òàêîæ ïîìiòíî, ùî òî÷êè äîñèòü ÷iòêî ðîçäiëÿþòüñÿ íà
äâi ãðóïè  îäíà ëiâîðó÷ âíèçó, äðóãà  ïðàâîðó÷ âãîði. Ìiæ íèìè ëå-
æèòü êiëüêà òî÷îê, ÿêi âàæêî âiäíåñòè äî ïåâíî¨ ãðóïè. Àëå áiëüøiñòü
êëàñèôiêó¹òüñÿ îäíîçíà÷íî. Òàêi îêðåìi ãðóïè ñïîñòåðåæåíü íàçèâàþòü
кластерами. Öiêàâî, ùî ïðîâåäåíà íàìè ïðÿìà äîñèòü äîáðå âiäîáðàæà¹
çàëåæíiñòü ìiæ çìiííèìè â îáîõ êëàñòåðàõ îäðàçó  õî÷à á íà ïåðøèé
ïîãëÿä. Íàñêiëüêè ìîæíà äîâiðÿòè öüîìó ïåðøîìó ïîãëÿäó, ìè îáãîâî-
ðèìî ïiçíiøå, ó ïðèêëàäi 10.4.3. J
2
Цей гейзер зветься Old Faithful geyser i є одним з найбiльших та популярнiших у парку.
3
Рисування точок на площинi функцiєю plot() описано у п. 3.2. Опис функцiї lm()
(пiдгонка рiвняння прямої, шо описує залежнiсть мiж змiнними “в середньому”, за методом
найменших квадратiв) вiдкладемо на потiм — див. п. 10.2.
5.1. Дiаграми розсiювання 146

90
80
Time waited

70
60
50

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

erruption duration

Рис. 5.1. Дiаграма розсiювання Old Faithful geyser

ßêùî ïîòðiáíî ïðîàíàëiçóâàòè áiëüøå íiæ äâi çìiííi, âèêîðèñòîâó-


þòüñÿ òàê çâàíi матричнi дiаграми розсiювання (matrix plot).
Íà ìàòðè÷íié äiàãðàìi çîáðàæàþòüñÿ ïîïàðíi äiàãðàìè ðîçñiþâàí-
íÿ âñiõ ïàð ÷èñëîâèõ çìiííèõ. Äiàãðàìè ðîçòàøîâóþòüñÿ íà ðèñóíêó ó
âèãëÿäi ìàòðèöi, êîæåí ðÿäî÷îê ÿêî¨ âiäïîâiä๠îäíié çìiííié âiäêëà-
äåíié ïî âåðòèêàëi, à êîæåí ñòîâï÷èê  çìiííié ïî ãîðèçîíòàëi. Íàçâà
âiäïîâiäíî¨ çìiííî¨ âêàçó¹òüñÿ ó äiàãîíàëüíîìó åëåìåíòi ìàòðèöi.
Íàéïðîñòiøå öå ìîæíà çðîáèòè ïðîñòî âèêëèêàâøè ôóíêöiþ plot()
ç ïåðøèì ïàðàìåòðîì  ôðåéìîì äàíèõ, ÿêi òðåáà âiäîáðàçèòè.
Ïðè öüîìó êîæíà ïàðà âiäîáðàæà¹òüñÿ íà äâîõ äiàãðàìàõ, ñèìåòðè÷-
íèõ âiäíîñíî äiàãîíàëi ìàòðèöi. ßêùî âàì äîñèòü îäíi¹¨ äiàãðàìè íà êîæ-
íó ïàðó, ìîæíà çàëèøèòè ëèøå ÷àñòèíó ìàòðèöi, ÿêà çíàõîäèòüñÿ íàä
äiàãîíàëëþ. Ó íàñòóïíîìó ïðèêëàäi ïîêàçàíî, ÿê öå ðîáèòüñÿ çà äîïî-
ìîãîþ ôóíêöi¨ pairs()
Приклад 5.1.2. Ðîçãëÿíåìî çíîâó äàíi ïðî ðîçìiðè êâiòiâ-ïiâíèêiâ (Iris) ç
ïðèêëàäó 2.2.1. Ó ôðåéìi iris ìiñòÿòüñÿ äàíi ïðî 150 êâiòîê. Äëÿ êîæíî¨
êâiòêè ïåðøi ÷îòèðè çìiííi ¹ ÷èñëîâèìè (ïîçíà÷àþòü ðiçíi ðîçìiðè) à
ï'ÿòà (Species) âêàçó¹ îäèí ç òðüîõ âèäiâ ïiâíèêiâ, ÿêîìó íàëåæèòü äàíà
êâiòêà. Íàðèñó¹ìî âiäïîâiäíó ìàòðè÷íó äiàãðàìó (ðèñ. 5.2):

# вибираємо кольори для рисування рiзних видiв квiтiв:


color<-c("red","green","blue")
5.1. Дiаграми розсiювання 147

4.5 5.5 6.5 7.5 2.0 2.5 3.0 3.5 4.0 1 2 3 4 5 6 7 0.5 1.0 1.5 2.0 2.5
7.5

7.5
6.5

6.5
Sepal.Length
5.5

5.5
4.5

4.5
7 2.0 2.5 3.0 3.5 4.0
Sepal.Width

6
5
Petal.Length

4
Species:

3
setosa

2
versicolor

1
0.5 1.0 1.5 2.0 2.5
virginica

Petal.Width

0.5 1.0 1.5 2.0 2.5

Рис. 5.2. Матрична дiаграма для квiтiв-iрисiв

# рисуємо дiаграму перших чотирьох змiнних iris:


pairs(iris[,1:4],col=color[as.numeric(iris[,5])],lower.panel = NULL,
pch=as.numeric(iris[,5]))
# ця команда дозволяє рисувати легенду за межами основного рисунку:
par(xpd=TRUE)
# рисуємо легенду:
legend(0.02,0.4,title="Species:",
legend=c('setosa', 'versicolor', 'virginica'),
pch=c(1,2,3),
col=color)
5.1. Дiаграми розсiювання 148

Òóò ìè íà äiàãðàìàõ ðîçñiþâàííÿ âiäìiòèëè ðiçíèìè êîëüîðàìè òà


ðiçíèìè ñèìâîëàìè òî÷êè, ùî âiäïîâiäàþòü êâiòàì ðiçíèõ âèäiâ. Ëiâîðó÷
âíèçó âèâåäåíî ëåãåíäó, ùî ïîÿñíþ¹ ÿêèì âèäàì âiäïîâiäàþòü öi ñèìâîëè
i êîëüîðè. Òåïåð îäðàçó ìîæíà áà÷èòè, ùî ÷åðâîíi êîëà, ùî âiäïîâiäàþòü
êâiòàì âèäó setosa, ñêóï÷èëèñü ó îêðåìèé êëàñòåð-õìàðêó, ÿêà ïîìiòíî
âiäðiçíÿ¹òüñÿ çà õàðàêòåðèñòèêàìè âiä iíøèõ âèäiâ. Õìàðêè òî÷îê äëÿ
âèäiâ versicolor (çåëåíi òðèêóòíèêè) i virginica (ñèíi õðåñòèêè) ÷àñòêîâî
ïåðåêðèâàþòüñÿ, àëå òåæ ÿâíî âiäðiçíÿþòüñÿ çà ðîçòàøóâàííÿì. Îòæå
çàëåæíîñòüi ìiæ ÷èñëîâèìè õàðàêòåðèñòèêàìè ðiçíèõ âèäiâ iðèñiâ êðàùå
äîñëiäæóâàòè îêðåìî, íå îá'¹äíóþ÷è ¨õ â îäíó âèáiðêó.
Íàïðèêëàä, íà äiàãðàìi ó òðåòüîìó ïðÿìîêóòíèêó ó âåðõíüîìó ðÿ-
äî÷êó ïî ãîðèçîíòàëi âiäêëàäåíî äîâæèíó ïåëþñòîê (Petal.Length) à
ïî âåðòèêàëi  äîâæèíó ÷àøîëèñòêiâ (Sepal.Length). Õìàðè òî÷îê äëÿ
versicolor i virginica ïîìiòíî âèòÿãíóòi âçäîâæ ïðÿìèõ, ùî ïðîõîäÿòü ïiä
ïîìiòíèì êóòîì äî ãîðèçîíòàëi. Öå ñâiä÷èòü ïðî çàëåæíiñòü ìiæ öèìè
õàðàêòåðèñòèêàìè ó äàíèõ âèäiâ ïiâíèêiâ. Íiÿêèõ îñîáëèâîñòåé, ùî âè-
ìàãàëè á íåëiíiéíî¨ ìîäåëi äëÿ îïèñó òàêî¨ çàëåæíîñòi íåïîìiòíî. (ßê
âèãëÿäàþòü âèðàçíi íåëiíiéíîñòi íà äiàãðàìàõ ðîçñiþâàííÿ ìîæíà ïîáà-
÷èòè íà ðèñ. 10.11 i 10.19). Íå ïîìiòíî i âèêèäiâ, òîáòî îêðåìèõ òî÷îê,
ÿêi âiäõèëÿëèñÿ á âiä îñíîâíî¨ ìàñè ñïîñòåðåæåíü. (Ïðèêëàäè äiàãðàì
ðîçñiþâàííÿ ç âèêèäàìè  íà ðèñ. 10.4 i 10.5).
À îò çà õìàðîþ òî÷îê äëÿ setosa æîäíî¨ âèðàçíî¨ çàëåæíîñòi ìiæ
Petal.Length i Sepal.Length íå ïîìiòíî. Ìîæëèâî, íàì çàâàæàþòü ¨ ¨
ïîáà÷èòè òî÷êè äëÿ iíøèõ âèäiâ, ÷åðåç ÿêi setosa ñêóï÷èëèñü ó ëiâîìó
íèæíüîìó êóòêó ðèñóíêà? Íàðèñó¹ìî ¨õ íà îêðåìié äiàãðàìi ðîçñiþâàííÿ
(ðèñ. 5.3):

setosa<-iris[iris$Species=="setosa",]
plot(setosa$Sepal.Length~setosa$Petal.Length,
xlab="petal length",ylab="sepal length")
abline(lm(setosa$Sepal.Length~setosa$Petal.Length),col="red")

×åðâîíà ïðÿìà íà ðèñóíêó 5.3 âiäïîâiä๠çàëåæíîñòi ñåðåäíüî¨ äîâ-


æèíè ïåëþñòêè âiä çíà÷åííÿ äîâæèíè ÷àøîëèñòêiâ. Òî÷êè ïîêàçóþòü
çíà÷åííÿ öèõ õàðàêòåðèñòèê äëÿ êîíêðåòíèõ êâiòîê. Ëåãêî áà÷èòè, ùî
ðîçêèä äîâæèíè ïåëþñòêè íàâêîëî ñåðåäíüîãî çíà÷åííÿ çíà÷íî ïåðåâà-
æ๠çìiíó öüîãî ñåðåäíüîãî ïiä âïëèâîì çìiíè äîâæèíè ÷àøîëèñòêà.
(Ðóõàþ÷èñü âçäîâæ ÷åðâîíié ëiíi¨ çëiâà íàïðàâî ìè ïiäiéìåìîñü çíà÷-
5.1. Дiаграми розсiювання 149

5.5
sepal length

5.0
4.5

1.0 1.2 1.4 1.6 1.8

petal length

Рис. 5.3. Дiаграма розсiювання для iрисiв виду setosa

íî ìåíøå, íiæ ðîçêèäàíi òî÷êè íàâêîëî). Îòæå, ÿêùî çàëåæíiñòü ìiæ


çìiííèìè i ¹, âîíà ìàëî ïîìiòíà íà ôîíi ¨õ ðîçêèäó. Ñòðîãî ãîðèçîíòàëü-
íà ëiíiÿ âiäïîâiäàëà á ïîâíié âiäñóòíîñòi çàëåæíîñòi. Ñïîñòåðåæóâàíå
íåçíà÷íå âiäõèëåííÿ âiä ãîðèçîíòàëüíîñòi ìîæå áóòè íàñëiäêîì âèïàä-
êîâèõ êîëèâàíü. Äëÿ ïåðåâiðêè öüîãî ïîòðiáíî çàñòîñóâàòè âiäïîâiäíèé
ñòàòèñòè÷íèé òåñò, ïðî ùî äèâ. äàëi ó ïðèêëàäi 5.5.1.J

Ìàòðè÷íi äiàãðàìè ìîæíà áóäóâàòè íå òiëüêè ç âèêîðèñòàííÿì


plot() i pairs(). Ñïåöiàëüíi ôóíêöi¨ äëÿ öüîãî ¹ ó ðiçíèõ áiáëiîòåêàõ
R. Âîíè ÷àñòî äîçâîëÿþòü âèâèîäèòè áiëüøå âàæëèâî¨ iíôîðìàöi¨ íà òà-
êèõ äiàãðàìàõ. Çàñòîñóâàííÿ ôóíêöi¨ scatterplotMatrix() ç áiáëiîòåêè
car ðîçãëÿäà¹òüñÿ ó ïðèêëàäi 10.2.1.
Ìàòðè÷íi äiàãðàìè ðîçóìíî âèêîðèñòîâóâàòè, ÿêùî ïîòðiáíî äîñëi-
äèòè çàëåæíiñòü íåâåëèêî¨ êiëüêîñòi çìiííèõ  òðüîõ-ï'ÿòè, â óñÿêîìó
âèïàäêó, íå áiëüøå äåñÿòè. Êîëè äîñëiäæóþòüñÿ äàíi ç äåñÿòêàìè àáî
ñîòíÿìè çìiííèõ, äîöiëüíî ñïî÷àòêó ñïðîáóâàòè âèáðàòè ñåðåä íèõ íàé-
áiëüø çàëåæíi, à âæå ïîòiì àíàëiçóâàòè çàëåæíiñòü ìiæ âèáðàíèìè. Äëÿ
öüîãî ïîòðiáíà ÿêàñü ïðîñòà ÷èñëîâà õàðàêòåðèñòèêà çàëåæíîñòi äâîõ
çìiííèõ. Òàêèìè õàðàêòåðèñòèêàìè ¹ êîåôiöi¹íòè êîðåëÿöi¨, ùî ðîçãëÿ-
äàþòüñÿ ó íàñòóïíèõ ïiäðîçäiëàõ.
5.2. Коефiцiєнт кореляцiї Пiрсона 150

5.2 Коефiцiєнт кореляцiї Пiрсона


Íàéáiëüø ïîïóëÿðíîþ ìiðîþ çàëåæíîñòi ìiæ äâîìà çìiííèìè ¹ (ïàð-
íèé) коефiцiєнт кореляцiї Пiрсона (Pearson correlation)4 . Ó öüîìó ïiä-
ðîçäiëi ìè ñïî÷àòêó äàìî éîãî ôîðìàëüíå îçíà÷åííÿ, êîðîòêî îïèøåìî
îñíîâíi âëàñòèâîñòi, ïîòiì ïîêàæåìî, ÿê âií ïiäðàõîâó¹òüñÿ â R, à âæå
ïîòiì ñïðîáó¹ìî ïîÿñíèòè, ÿêó ñàìå çàëåæíiñòü âií îïèñó¹.
Означення коварiацiї i кореляцiї.
Íåõàé äëÿ êîæíîãî ñïîñòåðåæóâàíîãî îá'¹êòà âèìiðþþòüñÿ äâi ÷èñ-
ëîâi õàðàêòåðèñòèêè-çìiííi  𝑋 i 𝑌. 𝑋𝑗 , 𝑌𝑗  çíà÷åííÿ öèõ
Ïîçíà÷èìî
õàðàêòåðèñòèê äëÿ 𝑗 -òîãî îá'¹êòà ó âèáiðöi (𝑗 = 1, . . . , 𝑛).
Вибiрковою коварiацiєю (sample covariance) çìiííèõ 𝑋 i 𝑌 íàçèâàþòü
âåëè÷èíó
𝑛
1 ∑︁ ¯ 𝑗 − 𝑌¯ ),
cov(𝑋, 𝑌 ) = (𝑋𝑗 − 𝑋)(𝑌
𝑛 𝑗=1

äå ¯ , 𝑌¯  ñåðåäíi çíà÷åííÿ âiäïîâiäíèõ çìiííèõ, 𝑛 


𝑋 îáñÿã âèáiðêè.
Виправленою âèáiðêîâîþ êîâàðiàöi¹þ íàçèâàþòü5
𝑛
1 ∑︁ ¯ 𝑗 − 𝑌¯ ),
cov0 (𝑋, 𝑌 ) = (𝑋𝑗 − 𝑋)(𝑌
𝑛 − 1 𝑗=1

Коефiцiєнтом кореляцiї Пiрсона íàçèâàþòü

cov(𝑋, 𝑌 ) cov0 (𝑋, 𝑌 )


𝑟(𝑋, 𝑌 ) = √︀ = √︀ 2 ,
2 2
𝑆 (𝑋)𝑆 (𝑌 ) 𝑆0 (𝑋)𝑆02 (𝑌 )

äå 𝑆 2 (𝑋), 𝑆 2 (𝑌 )  âèáiðêîâi äèñïåðñi¨ 𝑋 i 𝑌 , 𝑆02 (𝑋), 𝑆02 (𝑌 )  âèïðàâëåíi


âèáiðêîâi äèñïåðñi¨ (äèâ. (4.6)).
Властивостi коефiцiєнтiв кореляцiї Пiрсона.
1. Êîåôiöi¹íò êîðåëÿöi¨ çà àáñîëþòíèì çíà÷åííÿì íå ïåðåâèùó¹ îäè-
íèöþ:
|𝑟(𝑋, 𝑌 )| ≤ 1.
4
Iснує багато iншик коефiцiєнтiв кореляцiї, але якщо цей термiн вживається без додат-
кових означень, або просто кажуть “кореляцiя дорiвнює”, то, як правило, йдеться саме про
парний коефiцiєнт кореляцiї Пiрсона.
5
Виправлена вибiркова коварiацiя є незмiщеною оцiнкою для теоретичної коварiацiї за
кратною вибiркою.
5.2. Коефiцiєнт кореляцiї Пiрсона 151

2. Êîåôiöi¹íò êîðåëÿöi¨ äîðiâíþ¹ ±1 òîäi i òiëüêè òîäi, êîëè ìiæ 𝑋 i𝑌


ó âèáiðöi ì๠ìiñöå ñòðîãà ëiíiéíà çàëåæíiñòü, òîáòî ¹ òàêi ÷èñëà 𝑏0 , 𝑏1 ,
ùî
𝑌𝑗 = 𝑏0 + 𝑏1 𝑋𝑗 .
(Ó öüîìó âèïàäêó âñi òî÷êè íà äiàãðàìi ðîçñiþâàííÿ áóäóòü ëåæàòè íà
îäíié ïðÿìié). Çíàê 𝑟(𝑋, 𝑌 ) âiäïîâiä๠çíàêó 𝑏1 .
3. Êîåôiöi¹íò êîðåëÿöi¨ íå çìiíþ¹òüñÿ ïðè ëiíiéíié çðîñòàþ÷ié çìiíi

øêàëè âèìiðþâàííÿ 𝑋 i 𝑌 : ÿêùî, íàïðèêëàä, ðîçãëÿíóòè 𝑋𝑗 = 𝑎1 𝑋𝑗 +𝑎0 ,

𝑎1 > 0, òî 𝑟(𝑋 , 𝑌 ) = 𝑟(𝑋, 𝑌 ). (Ìîæíà ñêàçàòè, ùî 𝑟(𝑋, 𝑌 ) ¹ åêâiâàðiàíò-
íèì âiäíîñíî äîäàâàííÿ i ìíîæåííÿ ïî îáîõ ñâî¨õ àðãóìåíòàõ  ïîð. ï.

4.3). (ßêùî 𝑎1 < 0, êîðåëÿöiÿ çìiíþ¹ çíàê: 𝑟(𝑋 , 𝑌 ) = −𝑟(𝑋, 𝑌 )).
4. ßêùî çìiííi 𝑋 i 𝑌 íåçàëåæíi, òî, ïðè âåëèêèõ îáñÿãàõ âèáiðêè,
𝑟(𝑋, 𝑌 ) áóäå áëèçüêèì äî 0. Íåçàëåæíiñòü òóò òðåáà ðîçóìiòè ó ñòàòè-
ñòè÷íîìó çíà÷åííi: ââàæà¹òüñÿ, ùî 𝑌 i 𝑋  íåçàëåæíi, ÿêùî çíàííÿ 𝑋
íiÿê íå äîïîìàã๠ïðîãíîçóâàòè çíà÷åííÿ 𝑌.
Âiäìiòèìî, ùî êîåôiöi¹íò êîðåëÿöi¨ Ïiðñîíà íå ¹ ðîáàñòíîþ ñòàòè-
ñòèêîþ: îäíå çàáðóäíåííÿ-âèêèä ìîæå ñèëüíî çìiíèòè éîãî. Òîìó äëÿ
àíàëiçó çàëåæíîñòi çà çàáðóäíåíèìè äàíèìè êðàùå êîðèñòóâàòèñü iíøè-
ìè ñòàòèñòèêàìè.
Обчислення кореляцiй.
Ó R êîåôiöi¹íò êîðåëÿöi¨ Ïiðñîíà ìiæ çìiííèìè 𝑋 i 𝑌 ìîæíà îá-
÷èñëþâàòè âèêîðñòîâóþ÷è ôóíêöiþ cor(). Âåêòîðè çíà÷åíü 𝑋 i 𝑌 ïðè
öüîìó âêàçóþòü ÿê ïåðøèé i äðóãèé àðãóìåíòè ôóíêöi¨.

Приклад 5.2.1. Ó ïðèêëàäi 3.4.4 ìè ðîçãëÿíóëè êîëèâàííÿ iíòåðåñó äî


äæèíñîâèõ i êàðãî-øîðòiâ ó ðiçíèõ øòàòàõ ÑØÀ. Ç ïîðiâíÿííÿ íà ãåî-
ãðàôi÷íèõ êàðòàõ âèÿâèëîñü, ùî ïåðåâàãà iíòåðåñó äî äæèíñîâèõ øîðòiâ
ìîæå áóòè ïîâ'ÿçàíà ç íèçüêèì ðiâíåì óðáàíiçàöi¨ øòàòó. Ïîäèâèìîñü,
ÿê êîðåëüîâàíi öi ïîêàçíèêè.
Äàíi âiçüìåìî ç ôàéëó shortU.txt, äå ó çìiííié urban ìiñòÿòüñÿ ðiâíi
óðáàíiçàöi¨ øòàòiâ, ó çìiííié jean  êiëüêiñòü ãóãë-çàïèòiâ íà äæèíñîâi
øîðòè, ó cargo  êiëüêiñòü çàïèòiâ íà êàðãî øîðòè ó äàíîìó øòàòi.
Äëÿ ïîðiâíÿííÿ çurban ñòâîðèìî çìiííó
x<-jean/(jean+cargo)
 ÷àñòêà iíòåðåñó äî äæèíñîâèõ øîðòiâ ó çàãàëüíîìó iíòåðåñi äî øîð-
òiâ.
Ðàõó¹ìî êîåôiöi¹íò êîðåëÿöi¨:
5.2. Коефiцiєнт кореляцiї Пiрсона 152

tb<-read.table("c:/rem/term/shortU.txt",header=T)
x<-tb$jean/(tb$jean+tb$cargo)
cor(x,tb$urban)

## [1] -0.3234017

Îòðèìàëè êîðåëÿöiþ 𝑟 = −0.3234017. Öå íåâåëèêå çíà÷åííÿ, àëå ïî-


ìiòíî âiäìiííå âiä 0. Âîíî âiä'¹ìíå, òîáòî çðîñòàííÿ óðáàíiçàöi¨ øòàòó â
ñåðåäíüîìó ïðèâîäèòü äî çìåíøåííÿ iíòåðåñó äî äæèíñîâèõ øîðòiâ.
×è ìîæíà âïåâíåíî ñêàçàòè, ùî ìè âñòàíîâèëè íàÿâíiñòü çàëåæíî-
ñòi ìiæ iíòåðåñîì äî äæèíñîâèõ øîðòiâ i óðáàíiçàöi¹þ? Íi. Â ïðèíöèïi,
òàêå çíà÷åííÿ êîåôiöi¹íòà êîðåëÿöi¨ ìîãëî á áóòè íàñëiäêîì âèïàäêîâèõ
êîëèâàíü ó äàíèõ, ùî íå ïîâ'ÿçàíi çi ñïðàâæíüîþ çàëåæíiñòþ. Íàñêiëü-
êè öå éìîâiðíî? Ìè ïîâåðíåìîñü äî öüîãî ïèòàííÿ ó ïðèêëàäàõ 10.1.2 i
10.2.3. J
×àñòî êîæåí îá'¹êò ó âèáiðöi îïèñó¹òüñÿ íå äâîìà, à çíà÷íî áiëüøîþ
êiëüêiñòþ çìiííèõ. Ó öüîìó âèïàäêó äëÿ àíàëiçó çàëåæíîñòåé ïiäðàõîâó-
þòü ïîïàðíi êîðåëÿöi¨ äëÿ âñiõ ìîæëèâèõ ïàð çìiííèõ. Îòðèìàíi çíà÷åí-
íÿ çàïèñóþòü ó âèãëÿäi òàáëèöi, ÿêó íàçèâàþòü âèáiðêîâîþ êîðåëÿöiéíîþ
ìàòðèöåþ.
Ïîçíà÷èìî çìiííi, ùî îïèñóþòü îá'¹êò 𝑋 1, 𝑑
. . . 𝑋 . Òîäi êîðåëÿöiéíà
ìàòðèöÿ öüîãî íàáîðó çìiííèõ  öå ìàòðèöÿ ñêëàäåíà ç ïîïàðíèõ êîå-
6
ôiöi¹íòiâ êîðåëÿöi¨ Ïiðñîíà :
⎛ ⎞
𝑟(𝑋 1 , 𝑋 1 ) 𝑟(𝑋 1 , 𝑋 2 ) . . . 𝑟(𝑋 1 , 𝑋 𝑑 )
⎜ 𝑟(𝑋 2 , 𝑋 1 ) 𝑟(𝑋 2 , 𝑋 2 ) . . . 𝑟(𝑋 2 , 𝑋 𝑑 ) ⎟
R=⎜
⎜ ⎟
. . .. .
. . .

⎝ . . . . ⎠
𝑟(𝑋 , 𝑋 ) 𝑟(𝑋 , 𝑋 ) . . . 𝑟(𝑋 , 𝑋 𝑑 )
𝑑 1 𝑑 2 𝑑

Äëÿ ïiäðàõóíêó êîðåëÿöiéíî¨ ìàòðèöi òàêîæ ìîæíà âèêîðèñòàòè ôóíê-


öiþ cor(), ïðè÷îìó äîñèòü ïåðåäàòè ¨é îäèí ïàðàìåòð  ôðåéì äàíèõ,
äëÿ çìiííèõ ÿêîãî ïiäðàõîâóþòüñÿ êîðåëÿöi¨.

Приклад 5.2.2. Ïiäðàõó¹ìî êîðåëÿöiéíó ìàòðèöþ çà äàíèìè ïðî ðîçìiðè


êâiòiâ-ïiâíèêiâ ç ïðèêëàäó 5.1.2. Ó äàíîìó ïðèêëàäi îáìåæèìîñü ïiäðà-
õóíêîì äëÿ êâiòiâ âèäó Setosa.

6
Аналогiчну матрицю, складену з попарних коварiацiй, називають вибiрковою коварiа-
цiйною матрицею.
5.2. Коефiцiєнт кореляцiї Пiрсона 153

cor(iris[iris$Species=="setosa",1:4])

## Sepal.Length Sepal.Width Petal.Length Petal.Width


## Sepal.Length 1.0000000 0.7425467 0.2671758 0.2780984
## Sepal.Width 0.7425467 1.0000000 0.1777000 0.2327520
## Petal.Length 0.2671758 0.1777000 1.0000000 0.3316300
## Petal.Width 0.2780984 0.2327520 0.3316300 1.0000000
Ç òàáëèöi áà÷èìî, ùî âñi êîðåëÿöi¨ äîäàòíi  ïðè çðîñòàííi îäíî-
ãî ç âèìiðiâ êâiòêè, â ñåðåäíüîìó, çðîñòàþòü i iíøi. (Öüîãî i ñëiä áóëî
ñïîäiâàòèñü, ïiâíèêè  äîñèòü ïðîïîðöiéíi êâiòè). Íàéáiëüø êîðåëüîâà-
íèìè âèÿâèëèñü øèðèíà i äîâæèíà ÷àøîëèñòêà  êîðåëÿöiÿ 0.7425467.
(Òàêèé ðiâåíü êîðåëÿöi¨ ñâiä÷èòü ïðî ÷iòêî âèðàæåíó çàëåæíiñòü). Äëÿ
øèðèíè i äîâæèíè ïåëþñòêè êîðåëÿöiÿ âäâi÷i ìåíøà  0.3316300. (Ïî-
äèâèâøèñü íà êâiòêó ïiâíèêà, ëåãêî çðîçóìiòè  ÷îìó). Êîðåëÿöi¨ ìiæ
õàðàêòåðèñòèêàìè ÷àøîëèñòêà i õàðàêòåðèñòèêàìè ïåëþñòîê iùå ìåíøi,
õî÷à îäíîçíà÷íî íàçâàòè ¨õ íåçíà÷óùèìè íå ìîæíà. J
Iíêîëè áóâ๠ïîòðiáíî ïiäðàõóâàòè ïîïàðíi êîðåëÿöi¨ âñiõ çìiííèõ îä-
íîãî íàáîðó ç óñiìà çìiííèìè iíøîãî. Öå òåæ ìîæíà çðîáèòè, âèêîðè-
ñòîâóþ÷è ôóíêöiþ cor(). Íàïðèêëàä,

cor(iris[iris$Species=="setosa",1:2],
iris[iris$Species=="setosa",3:4])

ïiäðàõîâó¹ êîðåëÿöi¨ ìiæ õàðàêòåðèñòèêàìè ÷àøîëèñòêiâ i õàðàêòåðè-


ñòèêàìè ïåëþñòîê Iris Setosa (ïåðåâiðòå).
Трактовка кореляцiй.
Ðîçáåðåìîñü òåïåð, ÿê ñàìå êîðåëÿöiÿ Ïiðñîíà õàðàêòåðèçó¹ çàëåæ-
íiñòü ìiæ çìiííèìè. Ìè ðîçãëÿíåìî òðè òðàêòîâêè 𝑟(𝑋, 𝑌 ).
1. ßêùî ïîòðiáíî õàðàêòåðèçóâàòè çàëåæíiñòü ìiæ äâîìà çìiííèìè
𝑋𝑗 , 𝑌𝑗 , ùî îïèñóþòü îá'¹êòè ó âèáiðöi, òî ïðèðîäíî îáðàòè ìiðó çàëåæ-
íîñòi òàê, ùîá âîíà íå çìiíþâàëàñü ïðè çìiíi îäèíèöü âèìiðþâàííÿ öèõ
çìiííèõ. Òîáòî ìiðà çàëåæíîñòi ì๠áóòè iíâàðiàíòíîþ âiäíîñíî ìíîæåí-
íÿ. Àíàëîãi÷íî, ïðèðîäíî âèìàãàòè i iíâàðiàíòíîñòi âiäíîñíî äîäàâàííÿ.
Òîìó çðó÷íî ïåðåéòè âiä ïî÷àòêîâèõ çìiííèõ äî íîðìîâàíèõ:

¯ ¯
˜ 𝑗 = 𝑋𝑗 − 𝑋 , 𝑌˜𝑗 = 𝑌𝑗 − 𝑌 .
𝑋
𝑆(𝑋) 𝑆(𝑌 )
5.2. Коефiцiєнт кореляцiї Пiрсона 154

(Ìè âiäíÿëè âiä êîæíîãî çíà÷åííÿ ñåðåäí¹ ïî âñiõ ñïîñòåðåæåííÿõ i


ðîçäiëèëè íà ñòàíäàðòíå âiäõèëåííÿ. Ìîæíà ñêàçàòè, ùî ìè âèáðàëè
øêàëó âèìiðþâàííÿ íàøèõ çìiííèõ òàê, ùîá ó íié âîíè ìàëè íóëüîâå
ñåðåäí¹ i îäèíè÷íó äèñïåðñiþ).
Ìiðó çàëåæíîñòi ìîæíà òåïåð âèçíà÷àòè ñïåöiàëüíî äëÿ íîðìîâàíèõ
çìiííèõ. Äëÿ öüîãî ñïðîáó¹ìî ñïðîãíîçóâàòè 𝑌˜𝑗 , âèêîðèñòîâóþ÷è ÿê ïðî-
ãíîç 𝑏𝑋𝑗 , äå 𝑏  ÷èñëî, ÿêå íàì ïîòðiáíî ïiäiáðàòè òàê, ùîá ïðîãíîç
âèéøîâ íàéòî÷íiøèì. Òî÷íiñòü áóäåìî âèìiðþâàòè ñåðåäíiì êâàäðàòiâ
âiäõèëåíü ïðîãíîçó âiä ñïðàâæíiõ çíà÷åíü, òîáòî øóêàòèìåì òàêå 𝑏, ïðè
ÿêîìó
𝑛
1 ∑︁ ˜ ˜ 𝑗 )2 = 1 − 2𝑏𝑟(𝑋,
˜ 𝑌˜ ) + 𝑏2
(𝑌𝑗 − 𝑏𝑋
𝑛 𝑗=1
áóäå íàéìåíøîþ. (Íàãàäà¹ìî, ùî 𝑛  êiëüêiñòü ñïîñòåðåæåíü ó âèáiðöi).
Ëåãêî áà÷èòè, ùî ìiíiìóì äîñÿãà¹òüñÿ ÿêðàç íà 𝑏 = 𝑟(𝑋, ˜ 𝑌˜ ) =
𝑟(𝑋, 𝑌 ).
Îòæå êîåôiöi¹íò êîðåëÿöi¨ Ïiðñîíà ìiæ äâîìà çìiííèìè  öå íàéê-
ðàùèé êîåôiöi¹íò ïðîïîðöiéíîñòi äëÿ ïðîãíîçóâàííÿ îäíi¹¨ íîðìîâàíî¨
çìiííî¨ çà äîïîìîãîþ äðóãî¨. ßêùî, íàïðèêëàä, 𝑟(𝑋, 𝑌 ) = 0.5, òî ïðè
çðîñòàííi ˜
𝑋 â 6 ðàçiâ, 𝑌˜ çðîñòå ïðèáëèçíî âòðè÷i.
2. Íåõàé ìè âèêîðèñòîâó¹ìî áåçïîñåðåäíüî 𝑋𝑗 äëÿ ïðîãíîçóâàííÿ 𝑌𝑗
çà ëiíiéíîþ ôîðìóëîþ
𝑌 𝑗 ≈ 𝑏1 𝑋 𝑗 + 𝑏0 .
Ïiäãîíêó êîåôiöi¹íòiâ ïðîãíîçó çðîáèìî çà ìåòîäîì íàéìåíøèõ êâàä-
ðàòiâ (äèâ. ï. 10.1). Îòðèìà¹ìî ïðîãíîç

𝑌ˆ𝑗 = ˆ𝑏1 𝑋𝑗 + ˆ𝑏0 ,

äå ˆ𝑏0 , ˆ𝑏1  ïiäiãíàíi çíà÷åííÿ êîåôiöi¹íòiâ.


Òî÷íiñòü öüîãî ïðîãíîçó õàðàêòåðèçó¹òüñÿ âiäíîøåííÿì äèñïåðñi¨ éî-
ãî ïîìèëîê äî äèñïåðñi¨ ïðîãíîçîâàíî¨ çìiííî¨:
∑︀𝑛 ˆ 2
𝑆 2 (𝑌 − 𝑌ˆ ) 𝑗=1 (𝑌𝑗 − 𝑌𝑗 ) 2
𝑆 2 (𝑌 )
= ∑︀𝑛
(𝑌𝑗 − ¯ )2 = 1 − (𝑟(𝑋, 𝑌 )) .
𝑌
𝑗=1

Òàêèì ÷èíîì, êâàäðàò êîåôiöi¹íòà êîðåëÿöi¨ õàðàêòåðèçó¹ òî÷íiñòü


ëiíiéíîãî ïðîãíîçó îäíi¹¨ çìiííî¨ çà äðóãîþ. ×èì áëèæ÷èé (𝑟(𝑋, 𝑌 ))2 äî
1, òèì ìåíøèé ðîçêèä ïîìèëêè ïðîãíîçó ïîðiâíÿíî ç ðîçêèäîì ïðîãíî-
çîâàíî¨ çìiííî¨.
5.2. Коефiцiєнт кореляцiї Пiрсона 155


3. Ðîçãëÿíåìî öåíòðîâàíi âåêòîðè äàíèõ X = (𝑋1′ , . . . , 𝑋𝑛′ ), Y =
(𝑌1′ , . . . , 𝑌𝑛′ ), äå
¯ 𝑌 ′ = 𝑌𝑗 − 𝑌¯ .
𝑋𝑗′ = 𝑋𝑗 − 𝑋, 𝑗

(Íîðìóâàòè äèñïåðñiÿìè íå áóäåìî).


Òîäi
⟨X′ , Y′ ⟩
𝑟(𝑋, 𝑌 ) = = cos(𝛼),
‖X′ ‖ · ‖Y′ ‖
′ ′ ′ ′
äå ⟨X , Y ⟩  ñêàëÿðíèé äîáóòîê âåêòîðiâ X , Y ó 𝑛-âèìiðíîìó ïðîñòîði
R𝑛 , ‖ · ‖ ïîçíà÷๠äîâæèíó (åâêëiäîâó íîðìó) âåêòîðà â R𝑛 , 𝛼  êóò ìiæ
′ ′ 𝑛
âåêòîðàìè X i Y â R .
Îòæå, êîåôiöi¹íò êîðåëÿöi¨ âèçíà÷๠êóò ìiæ öåíòðîâàíèìè âåêòîðà-
ìè çìiííèõ ó ïðîñòîði ñïîñòåðåæåíü. 𝑟(𝑋, 𝑌 ) = 0 âiäïîâiä๠îðòîãîíàëü-
′ ′
íîñòi (ïåðïåíäèêóëÿðíîñòi) âåêòîðiâ X i Y . Çíà÷åííÿ 𝑟(𝑋, 𝑌 ) = ±1
ñâiä÷àòü ïðî òå, ùî âåêòîðè X′ i Y′ êîëiíåàðíi.
ßê áà÷èìî, âñi ðîçãëÿíóòi òðàêòóâàííÿ êîåôiöi¹íòà êîðåëÿöi¨ Ïiðñîíà
ïîâ'ÿçàíi ç ðîçãëÿäîì çàëåæíîñòi ñõîæî¨ íà ëiíiéíó. I äiéñíî, ÿêùî ìiæ
çìiííèìè ¹ ñèëüíà íåëiíiéíà çàëåæíiñòü, êîðåëÿöiÿ Ïiðñîíà ìîæå ¨ ¨ íå
ïîìiòèòè.

Приклад 5.2.3. Íåõàé 𝑋𝑗  àðèôìåòè÷íà ïðîãðåñiÿ âiä -1 äî 1 ç 𝑛 åëå-


2
ìåíòiâ, à 𝑌𝑗 = (𝑋𝑗 ) . Âî÷åâèäü, ìiæ 𝑋 i 𝑌 ¹ ñòðîãà ôóíêöiîíàëüíà çà-
ëåæíiñòü. Àëå 𝑟(𝑋, 𝑌 ) = 0 äëÿ áóäü-ÿêîãî 𝑛. Íàïðèêëàä:

n<-1000
X<-seq(from=-1,to=1,length.out =n)
Y<-X^2
cor(X,Y)

## [1] -3.261627e-17

Ç öüîãî íå òðåáà ðîáèòè âèñíîâîê, ùî êîðåëÿöiÿ Ïiðñîíà çîâñiì íå


áà÷èòü íåëiíiéíèõ çàëåæíîñòåé. Àëå äëÿ àíàëiçó òàêèõ çàëåæíîñòåé ¨ ¨
òðåáà çàñòîñîâóâàòè îáåðåæíî.
Ìè ïîâåðíåìîñü äî ðîçãëÿäó öüîãî ïèòàííÿ ó ï. 9.7.3. J
5.3. Вiзуалiзацiя кореляцiй 156

5.3 Вiзуалiзацiя кореляцiй


ßêùî ïîòðiáíî äîñëiäèòè çàëåæíiñòü ìiæ áàãàòüìà ðiçíèìè çìiííè-
ìè, òî àíàëiç òàáëèöi ïîïàðíèõ êîðåëÿöié (êîðåëÿöiéíî¨ ìàòðèöi) ñòà¹
íåòðèâiàëüíîþ ïðîáëåìîþ. Äëÿ öüîãî çðó÷íî êîðèñòóâàòèñü ñïåöiàëü-
íèìè ìåòîäàìè âiäîáðàæåííÿ êîðåëÿöié íà âiäïîâiäíèõ ðèñóíêàõ. Ìè
ðîçãëÿíåìî äâà ïðèçíà÷åíi äëÿ öüîãî çàñîáè R êàðòó êîðåëÿöié i êîðå-
ëÿöiéíó ìåðåæó.
Карта кореляцiй  öå ïðîñòî çîáðàæåííÿ êîðåëÿöié íà ïëîùèíi
êëiòèíêàìè ðiçíîãî êîëüîðó. Äëÿ öüîãî çðó÷íî âèêîðèñòîâóâàòè ôóíê-
öiþ corrplot() ç áiáëiîòåêè corrplot. ßê öå ðîáèòüñÿ ìè ïîêàæåìî ó
íàñòóïíèõ ïðèêëàäàõ.

Приклад 5.3.1. Ó ñòàíäàðòíó ïîñòàâêó R


âõîäèòü ôðåéì äàíèõ mtcars,
7
ùî ìiñòèòü äàíi ïðî õàðàêòåðèñòèêè 32 ìîäåëåé àâòîìîáiëiâ , òàêi ÿê
êiëüêiñòü öèëiíäðiâ (cyl) òà ïîòóæíiñòü äâèãóíà (hp), êiëüêiñòü êàðáþðà-
òîðiâ (carb), òîùî. Äëÿ òîãî, ùîá ïðîàíàëiçóâàòè çàëåæíîñòi ìiæ öèìè
çìiííèìè, ïiäðàõó¹ìî ìàòðèöþ ïîïàðíèõ êîðåëÿöié Ïiðñîíà i íàðèñó¹ìî
¨õ êàðòó, âèêîðèñòîâóþ÷è corrplot():

library(corrplot)
M <- cor(mtcars)
corrplot(M, method="color")

ðåçóëüòàò  íà ðèñ. 5.4: êîæíié ïàði çìiííèõ âiäïîâiä๠êâàäðàòèê.


Êîëið i íàñè÷åíiñòü öüîãî êâàäðàòèêà çàäà¹òüñÿ êîðåëÿöi¹þ ìiæ çìií-
íèìè: äîäàòíié êîðåëÿöi¨ âiäïîâiä๠ñèíié, âiä'¹ìíié  áðóíàòíèé. ×èì
ñèëüíiøà êîðåëÿöiÿ, òèì íàñè÷åíiøèé êîëið. Öÿ âiäïîâiäíiñòü ïîÿñíþ¹òü-
ñÿ íà øêàëi ïðàâîðó÷ . Íà ðèñóíêó âèäíî, íàïðèêëàä, ùî çìiííi disp,
8

cyl i hp óòâîðþþòü ãðóïó ç ñèëüíîþ äîäàòíîþ êîðåëÿöi¹þ ìiæ ñîáîþ. À


çìiííi qsec, vs, am i gear  íåãàòèâíî êîðåëüîâàíi ç öi¹þ ãðóïîþ. Çìiííà
mpg ñèëüíî íåãàòèâíî êîðåëüîâàíà ç disp hp i ïîìiðíî äîäàòíî êîðåëüî-
âàíà ç ãðóïîþ qsecgear. I ò.ä. Äëÿ ñïåöiàëiñòà ç äèçàéíó àâòîìîáiëiâ öå
ìîæå áóòè êîðèñíîþ iíôîðìàöi¹þ.
Ïðè öüîìó ðèñóíîê ¹ ñèìåòðè÷íèì âiäíîñíî ãîëîâíî¨ äiàãîíàëi, à íà
ñàìié äiàãîíàëi çàâæäè ñòîÿòü êëiòèíêè, ùî âiäïîâiäàþòü 1: êîðåëÿöiÿ

7
Данi досить старi, тому робити з них висновки про сучаснi моделi не варто.
8
Можна задавати corrplot() iншi кольоровi шкали використовуючи опцiю col.
5.3. Вiзуалiзацiя кореляцiй 157

qsec

gear
mpg

carb
disp

drat

am
cyl

hp

wt

vs
1
mpg
0.8
cyl

0.6
disp

0.4
hp

drat 0.2

wt 0

qsec −0.2

vs
−0.4

am
−0.6

gear
−0.8
carb
−1

Рис. 5.4. Карта кореляцiй фрейму mtcar

çìiííî¨ ç ñîáîþ  àáñîëþòíà. Òîìó äëÿ àíàëiçó äîñèòü âèâîäèòè ëèøå


òðèêóòíèê íàä (àáî ïiä) äiàãîíàëëþ. Öå äîçâîëÿ¹ îá'¹äíàòè, ãðàôi÷íó
iíôîðìàöiþ ç ÷èñëîâîþ, ÿê öå çðîáëåíî ó íàñòóïíîìó ïðèêëàäi çà äîïî-
ìîãîþ ôóíêöi¨ corrplot.mixed() (ðèñ. 5.5):

corrplot.mixed(M)

Òóò êðóæå÷êè íàä äiàãîíàëëþ âiäòâîðþþòü êîðåëÿöi¨ íå òiëüêè íà-


ñè÷åíiñòþ êîëüîðó, à é ðîçìiðîì. À ïiä äiàãîíàëëþ çàïèñàíi ÷èñëîâi çíà-
÷åííÿ êîðåëÿöié. Âèêîðèñòîâóþ÷è îïöi¨ upper i lower ìîæíà çàìîâèòè
ôóíêöi¨ corrplot.mixed() âèâîäèòè íàä òà ïiä äiàãîíàëëþ ÷èñëà, êðó-
æå÷êè, êâàäðàòèêè, åëiïñè. Íà ìié ïîãëÿä, òàêà êàðòèíêà çíà÷íî áiëüø
iíôîðìàòèâíà, íiæ ïîïåðåäíÿ.
Îäíàê ïðèõèëüíèêè ðèñ. 5.4 ñêàæóòü, ùî íà íüîìó êðàùå ïîìiòíi
âåëèêi ñèíi êâàäðàòè íàâêîëî äiàãîíàëi, ùî âiäïîâiäàþòü ãðóïàì (êëà-
ñòåðàì) ñèëüíî êîðåëüîâàíèõ çìiííèõ. Òàê, àëå öå ä๠çìîãó âèäiëèòè
5.3. Вiзуалiзацiя кореляцiй 158

1
mpg
0.8
−0.85 cyl

0.6
−0.85 0.9 disp

0.4
−0.78 0.83 0.79 hp

0.68 −0.7 −0.71 −0.45 drat 0.2

−0.87 0.78 0.89 0.66 −0.71 wt 0

0.42 −0.59 −0.43 −0.71 0.09 −0.17 qsec −0.2

0.66 −0.81 −0.71 −0.72 0.44 −0.55 0.74 vs


−0.4

0.6 −0.52 −0.59 −0.24 0.71 −0.69 −0.23 0.17 am


−0.6

0.48 −0.49 −0.56 −0.13 0.7 −0.58 −0.21 0.21 0.79 gear
−0.8

−0.55 0.53 0.39 0.75 −0.09 0.43 −0.66 −0.57 0.06 0.27 carb
−1

Рис. 5.5. Мiшаний графiк кореляцiй для фрейму mtcar

ãðóïó ëèøå ÿêùî çìiííi, ÿêi äî íå¨ âõîäÿòü, ðîçòàøîâàíi ó ôðåéìi ïîðó÷.
Íàïðèêëàä, mpg ïðèðîäíî îá'¹äíàòè â îäíó ãðóïó ç disp, cyl i hp, àëå
ó ôðåéìi ñòîâï÷èê mpg ðîçòàøîâàíèé äàëåêî âiä iíøèõ çìiííèõ ãðóïè,
òîìó ïîìiòèòè öå çà ðèñóíêîì íå òàê ïðîñòî.
Äëÿ òîãî, ùîá ñïðîñòèòè öþ çàäà÷ó, ó ôóíêöiÿõ corrplot.mixed()
i corrplot() ìîæíà çðîáèòè ïåðåñòàíîâêó çìiííèõ. Öå ðîáèòüñÿ îïöi¹þ
order. Çíà÷åííÿ öi¹¨ îïöi¨ "original" (ÿê ó ôðåéìi) òà "alphabet" (ó
àëôàâiòíîìó ïîðÿäêó) òðèâiàëüíi. Àëå ìîæíà çàäàòè òàêîæ çíà÷åííÿ
"AOE", "FPC", "hclust", ùî âiäïîâiäàþòü ðiçíèì åâðèñòè÷íèì ïðîöåäó-
ðàì ïîøóêó íàéáiëüø âiäïîâiäíîãî ïîðÿäêó çìiííèõ, òàê, ùîá ñèëüíî êî-
ðåëüîâàíi ðîçòàøîâóâàëèñü ïîðó÷. Ïåðøi äâà çíà÷åííÿ âiäïîâiäàþòü àë-
ãîðèòìàì, ùî âèêîðèñòîâóþòü ñïåêòðàëüíèé ðîçêëàä êîâàðiàöiéíî¨ ìàò-
ðèöi, òðåòié  "hclust" áåçïîñåðåäíüî øóê๠êëàñòåðè çìiííèõ ìåòîäîì
i¹ðàðõi÷íî¨ êëàñòåðèçàöi¨. Çóïèíÿòèñü íà ëîãiöi ðîáîòè öèõ àëãîðèòìiâ
òóò íå âàðòî: êîðèñòóâà÷ ìîæå ïåðåïðîáóâàòè ¨õ âñi i îáðàòè òîé, ÿêèé
5.3. Вiзуалiзацiя кореляцiй 159

äàñòü íàéáiëüø ïåðåêîíëèâèé ðåçóëüòàò.


Ïðè âèêîðèñòàííi order="hclust" ó corrplot() ìîæíà âêàçàòè îï-
öiþ
addrect=кiлькiсть кластерiв
 òîäi íà ðèñóíêó áóäå âèäiëåíà âiäïîâiäíà êiëüêiñòü êëàñòåðiâ, çíàé-
äåíèõ ìåòîäîì i¹ðàðõi÷íî¨ êëàñòåðèçàöi¨.
Ó íàøîìó ïðèêëàäi ç äàíèìè mtcars öå ìîæå âèãëÿäàòè òàê (ðèñ.
5.6):

corrplot.mixed(M,order="hclust")
corrplot(M,order="hclust",addrect=3)

(ÿêùî çàäàòè addrect=2, òî äâà íèæíi êëàñòåðè íà íèæíüîìó ðèñóí-


êó îá'¹äíàþòüñÿ â îäèí âåëèêèé êâàäðàò).
Ìè áà÷èìî, ùî çìiííi äîñèòü âïåâíåíî ðîçáèëèñü íà äâà (ìîæëèâî,
òðè) êëàñòåðè, âñåðåäèíi ÿêèõ âîíè ïðàêòè÷íî âñi ïîçèòèâíî êîðåëüîâàíi
ìiæ ñîáîþ. À êîðåëÿöi¨ ìiæ êëàñòåðàìè  ïåðåâàæíî íåãàòèâíi. Äàëi âæå
äèçàéíåð àâòîìîáiëiâ ìîæå ðîáèòè âèñíîâêè ç öèõ ðåçóëüòàòiâ. J

Приклад 5.3.2. Ïîâåðíåìîñü äî äàíèõ ïðî êâiòè-ïiâíèêè ç ôðåéìó iris,


ùî ðîçãëÿäàëèñü ó ïðèêëàäi 5.1.2. Ïîðiâíÿ¹ìî âiäìiííîñòi êîðåëÿöié ìiæ
ðîçìiðàìè êâiòêè ó êâiòiâ ðiçíèõ âèäiâ:

Spec<-c("setosa","versicolor","virginica")
for(sp in Spec){
corrplot(cor(iris[iris$Species==sp,1:4]), type="upper",
cl.pos="n",diag=F)
title(sub=sp)
}

(Òóò ôóíêöiÿ title() âèêîðèñòàíà äëÿ òîãî, ùîá çðîáèòè ïiäïèñè


ïiä ðèñóíêàìè).
Íà ðèñ. 5.7 ïîìiòíî, ùî êîðåëÿöi¨ äëÿ âèäiâ versicolor i virginica äîñèòü
ñõîæi òà ïîìiòíî âiäðiçíÿþòüñÿ âiä êîðåëÿöié äëÿ setosa.
5.3. Вiзуалiзацiя кореляцiй 160

1
carb
0.8
0.43 wt

0.6
0.75 0.66 hp

0.4
0.53 0.78 0.83 cyl

0.39 0.89 0.79 0.9 disp 0.2

−0.66 −0.17 −0.71 −0.59 −0.43 qsec 0

−0.57 −0.55 −0.72 −0.81 −0.71 0.74 vs −0.2

−0.55 −0.87 −0.78 −0.85 −0.85 0.42 0.66 mpg


−0.4

−0.09 −0.71 −0.45 −0.7 −0.71 0.09 0.44 0.68 drat


−0.6

0.06 −0.69 −0.24 −0.52 −0.59 −0.23 0.17 0.6 0.71 am


−0.8

0.27 −0.58 −0.13 −0.49 −0.56 −0.21 0.21 0.48 0.7 0.79 gear
−1
qsec

gear
carb

mpg
disp

drat

am
cyl
hp
wt

vs

1
carb
0.8
wt

0.6
hp

0.4
cyl

disp 0.2

qsec 0

vs −0.2

mpg
−0.4

drat
−0.6

am
−0.8
gear
−1

Рис. 5.6. Мiшаний графiк кореляцiй для фрейму mtcar з перестановкою змiнних та
видiленням кластерiв.
5.3. Вiзуалiзацiя кореляцiй 161

Petal.Length

Petal.Length
Sepal.Width

Sepal.Width
Petal.Width

Petal.Width
Sepal.Length Sepal.Length

Sepal.Width Sepal.Width

Petal.Length Petal.Length

setosa versicolor
Petal.Length
Sepal.Width

Petal.Width

Sepal.Length

Sepal.Width

Petal.Length

virginica

Рис. 5.7. Порiвняння кореляцiй розмiрiв для рiзних видiв пiвникiв


5.3. Вiзуалiзацiя кореляцiй 162

Кореляцiйнi мережi (correlation networks).


Iíøèé ñïîñiá âiäîáðàçèòè êîðåëÿöi¨  öå ãðàô, â ÿêîìó êîæíié çìií-
íié âiäïîâiä๠îäíà âåðøèíà, à âåëè÷èíà òà çíàê êîðåëÿöi¨ ïåðåäàþòüñÿ
êîëüîðîì i òîâùèíîþ ðåáåð. Òàêi ãðàôè íàçèâàþòü êîðåëÿöiéíèìè ìåðå-
æàìè.
Äëÿ ðèñóâàííÿ êîðåëÿöiéíî¨ ìåðåæi ìîæíà ñêîðèñòàòèñü ôóíêöi¹þ
qgraph() ç áiáëiîòåêè qgraph. Öié ôóíêöi¨ ïîòðiáíî ïåðåäàòè êîðåëÿöié-
íó ìàòðèöþ, ùî áóäå âiäîáðàæàòèñü. ßêùî íå âêàçóâàòè iíøèõ ïàðàìåò-
ðiâ, òî íà ãðàôi âåðøèíè áóäóòü ðîçòàøîâàíi ïî êîëó, â òîìó æ ïîðÿäêó,
â ÿêîìó çìiííi éäóòü ó ôðåéìi äàíèõ. Ìîæíà òàêîæ çàäàòè ñâî¨ âëàñíi
çíà÷åííÿ äëÿ êîîðäèíàò âåðøèí.

Приклад 5.3.3. Êîðåëÿöi¨ äëÿ äàíèõ mtcars, ùî ðîçãëÿäàëèñü ó ïðèêëàäi


5.3.1, ìîæíà âiäîáðàçèòè òàê (ðèñ. 5.8):

library("qgraph")
M <- cor(mtcars) # рахуємо кореляцiї для даних про автомобiлi
qgraph(M) # виводимо верхнiй рисунок
#
grp<-as.factor(c(3,1,1,1,3,1,2,2,3,3,1)) # список номерiв груп
# виводимо нижнiй рисунок:
qgraph(M,layout="groups",groups=grp,minimum=0.5)

(ßê áà÷èìî, ôóíêöiÿ qgraph() ñêîðîòèëà íàçâè çìiííèõ äî òðüîõ ëi-


òåð. Öå ïîòðiáíî äëÿ òîãî, ùîá âîíè âìiùóâàëèñü ó êðóæå÷êàõ-âåðøèíàõ
ãðàôó. ßêùî âàì íå ïîäîáàþòüñÿ àâòîìàòè÷íi ñêîðî÷åííÿ, ìîæíà çàäàòè
âëàñíi iìåíà âåðøèí ó îïöi¨ nodeNames.)
Íà ðèñóíêó 5.8 çâåðõó  ãðàô, ÿêèé qgraph() ñòâîðþ¹ àâòîìàòè÷íî,
ÿêùî ¨é ïåðåäàòè ëèøå ìàòðèöþ êîðåëÿöié. Ðîçiáðàòèñü ó íüîìó äîñèòü
âàæêî.
Äëÿ çðó÷íîñòi ñïðèéíÿòòÿ äîöiëüíî çãðóïóâàòè âåðøèíè-çìiííi ïðè-
áëèçíî òàê, ÿê ìè çðîáèëè íà ðèñ 5.6. Òàì ìè âèäiëèëè òðè ãðóïè,
âñåðåäèíi ÿêèõ ìàéæå âñi êîðåëÿöi¨ äîäàòíi, à êîðåëÿöi¨ ìiæ ãðóïà-
ìè  âiä'¹ìíi. Äëÿ âiäîáðàæåííÿ òàêîãî ãðóïîâàíîãî ãðàôó ôóíêöi¹þ
qgraph() ìîæíà çàäàòè îïöi¨:
layout="groups"  ÿêà âêàçó¹, ùî ãðàô áóäå ðîçáèòî íà ãðóïè, ïðè-
÷îìó åëåìåíòè êîæíî¨ ãðóïè çíîâó ðîçòàøîâóþòüñÿ ïî êîëó;
5.3. Вiзуалiзацiя кореляцiй 163

groups  ñêëàä ãðóï: öå ìîæå áóòè âåêòîð ôàêòîðiâ, ÿêi âiäïîâiäàþòü


ðiçíèì ãðóïàì, àáî ñïèñîê êiëüêîõ öiëî÷èñëîâèõ âåêòîðiâ, äå ó êîæíîìó
âåêòîði âêàçóþòüñÿ íîìåðè çìiííèõ, ùî íàëåæàòü âiäïîâiäíié ãðóïi.
Íà ðèñ. 5.8 (çíèçó) ìè çàäàëè òðè ãðóïè, ùî âiäïîâiäàþòü ãðóïàì ç
ðèñ. 5.6. Êðiì òîãî, äëÿ çðó÷íîñòi ñïðèéíÿòòÿ, íà öüîìó ãðàôi âiäîáðàæà-
þòüñÿ ëèøå ñèëüíi êîðåëÿöi¨, òîáòî òàêi, ÿêi çà àáñîëþòíîþ âåëè÷èíîþ
ïåðåâèùóþòü 0.5. Öå çðîáëåíî çà äîïîìîãîþ îïöi¨ minimum.
Ó îïöi¨ layout ìîæíà òàêîæ çàäàòè áåçïîñåðåäíüî êîîðäèíàòè âåð-
øèí íà ïëîùèíi ó âèãëÿäi ìàòðèöi ç äâîìà ñòîâï÷èêàìè (êîîðäèíàòè ïî
ãîðèçîíòàëi i âåðòèêàëi), êîæåí ðÿäî÷îê ÿêî¨ âiäïîâiä๠îäíié âåðøèíi.
Iùå îäíå ìîæëèâå çíà÷åííÿ öi¹¨ îïöi¨ layout="spring" âiäïîâiäà¹
àâòîìàòè÷íîìó âèáîðó ïîëîæåíü âåðøèí ó òàêèé ñïîñiá, ùîá ñòðóêòó-
ðà ãðàôó íàéêðàùå ñïðèéìàëàñü âiçóàëüíî (âèêîðèñòîâó¹òüñÿ àëãîðèòì
Ôðóõòåðìàíà-Ðåéíãîëäà [28]). ×èòà÷ ìîæå ñàìîñòiéíî ïåðåâiðèòè, ÿêèé
ðåçóëüòàò äàñòü âèêîíàííÿ êîìàíäè
qgraph(M,layout="spring",minimum=0.5)
J

Ðèñóíîê ç êîðåëÿöiéíîþ ìåðåæåþ çíà÷íî êîìïàêòíiøèé, íiæ êàðòè


êîðåëÿöié, ÿêi ìè ðîçãëÿíóëè âèùå. Îäíàê ðîçiáðàòèñü â íüîìó ìîæå áó-
òè âàæ÷å, õî÷à äåÿêi ðèñè ñèñòåìè çàëåæíîñòåé âií äîçâîëÿ¹ âiäîáðàçèòè
áiëüø îïóêëî.

Приклад 5.3.4. Îñü òàê âèãëÿä๠ïîðiâíÿííÿ êîðåëÿöié äîâæèí òðüîõ


âèäiâ êâiòiâ-ïiâíèêiâ çà äîïîìîãîþ êîðåëÿöiéíèõ ìåðåæ (ðèñ. 5.9):

library("qgraph")
Spec<-c("setosa","versicolor","virginica")
for(sp in Spec){
qgraph(cor(iris[iris$Species==sp,1:4]))
text(-0.75,1,sp,cex=1.5)
}

J
5.3. Вiзуалiзацiя кореляцiй 164

mpg

crb cyl

ger dsp

am hp

vs drt

qsc wt

cyl

crb dsp

wt hp
1
2
mpg qsc 3

ger drt

am vs

Рис. 5.8. Кореляцiйна мережа для фрейму mtcar


5.3. Вiзуалiзацiя кореляцiй 165

setosa S.L versicolor S.L

P.W S.W P.W S.W

P.L P.L

virginica S.L

P.W S.W

P.L

Рис. 5.9. Порiвняння кореляцiй розмiрiв для рiзних видiв пiвникiв


5.4. Ранги та ранговi кореляцiї 166

5.4 Ранги та ранговi кореляцiї


ßê ìè áà÷èëè ó ï. 5.2, êîåôiöi¹íò êîðåëÿöi¨ Ïiðñîíà ïðèçíà÷åíèé äëÿ
âèÿâëåííÿ çàëåæíîñòåé ïîäiáíèõ äî ëiíiéíèõ. ßêùî çàëåæíiñòü, êîòðó
íàìàãàþòüñÿ âèÿâèòè, íå ¹ ëiíiéíîþ, âèêîðèñòàííÿ öüîãî êîåôiöi¹íòà ìî-
æå áóòè íåäîðå÷íèì. Êðiì òîãî, 𝑟 Ïiðñîíà íå ¹ ðîáàñòíîþ õàðàêòåðèñòè-
êîþ: îäèí âèêèä ìîæå ðiçêî çìiíèòè âèñíîâêè, çðîáëåíi íà îñíîâi öüîãî
êîåôiöi¹íòà.
Òîìó äîñèòü ÷àñòî äëÿ àíàëiçó çàëåæíîñòåé âèêîðèñòîâóþòü iíøi êî-
åôiöi¹íòè êîðåëÿöi¨, ùî áàçóþòüñÿ íà ðàíãàõ ñïîñòåðåæåíü. Òàêi êîåôi-
öi¹íòè íàçèâàþòü ðàíãîâèìè. Äàëi ìè ñïî÷àòêó ââåäåìî ïîíÿòòÿ ðàíãó, à
ïîòiì ðîçãëÿíåìî äâà âiäïîâiäíèõ êîåôiöi¹íòà: 𝜌 Ñïiðìåíà i 𝜏 Êåíäàëëà.
Ранги. Íåõàé äëÿ îá'¹êòiâ ó âèáiðöi ñïîñòåðiãà¹òüñÿ äåÿêà ÷èñëîâà õà-
ðàêòåðèñòèêà (çìiííà) 𝑋 . Ïîçíà÷èìî 𝑋𝑗  çíà÷åííÿ öi¹¨ õàðàêòåðèñòèêè
ó 𝑗 -òîãî îá'¹êòà.
Íåõàé âñi ñïîñòåðåæóâàíi çíà÷åííÿ 𝑋𝑗  ðiçíi.
Ðàíãîì𝑅𝑗𝑋 𝑗 -òîãî îá'¹êòà ïî âiäíîøåííþ äî çìiííî¨ 𝑋 íàçèâàþòü
íîìåð öüîãî îá'¹êòà ó âèáiðöi, âïîðÿäêîâàíié ïî çðîñòàííþ 𝑋 .
Íàïðèêëàä, íåõàé ñïîñòåðiãàþòüñÿ òàêi çíà÷åííÿ
𝑗 1 2 3 4 5
𝑋 3.5 -1.2 4.8 1.2 0
Ïiñëÿ ïåðåñòàíîâêè â ïîðÿäêó çðîñòàííÿ ìè îòðèìà¹ìî íàñòóïíèé
âàðiàöiéíèé ðÿä:
-1.2, 0, 1.2, 3.5, 4.8.
Ó íüîìó åëåìåíò, ÿêèé ó ïî÷àòêîâié íåâïîðÿäêîâàíié âèáiðöi ìàâ íî-
𝑋 𝑋 𝑋
ìåð 1, îïèíèâñÿ íà 3-ìó ìiñöi. Îòæå 𝑅1 = 3. Àíàëîãi÷íî, 𝑅2 = 1, 𝑅3 = 5.
ßêùî ó âèáiðöi ïðèñóòíi êiëüêà åëåìåíòiâ ç îäíàêîâèìè çíà÷åííÿìè
çìiííî¨ 𝑋 , òî ïðè ïåðåñòàíîâöi ó ïîðÿäêó çðîñòàííÿ ¨õ ìîæíà ïîñòàâèòè
íà ðiçíi ìiñöÿ. Ó öüîìó âèïàäêó êàæóòü, ùî ¨õ ðàíãè çâ'ÿçàíi (àíãë tied
ranks). ßê ïðàâèëî, äëÿ çâ'ÿçàíi ðàíãè çàìiíÿþòü íà ¨õ ñåðåäí¹ çíà÷åííÿ.
Íàïðèêëàä, íåõàé ñïîñòåðiãà¹òüñÿ íàñòóïíà âèáiðêà.
𝑗 1 2 3 4 5
𝑋 0 2 0 2 0

Ó öié âèáiðöi ïåðøèé, òðåòié i ï'ÿòèé åëåìåíòè  çâ'ÿçàíi. ˆõ ìîæíà


ðîçòàøóâàòè íà ïåðøèõ òðüîõ ìiñöÿõ ó âàðiàöiéíîìó ðÿäi â äîâiëüíîìó
ïîðÿäêó. Òîáòî ¨õ ðàíãè ìàëè á áóòè 1, 2, 3. Ñåðåäí¹ öèõ ðàíãiâ  2. Òîìó
âñiì îá'¹êòàì ç íîìåðàìè 1, 3, 5 ïðèñâîþþòü ðàíã 2. Àíàëîãi÷íî, äðóãîìó
òà ÷åòâåðòîìó îá'¹êòàì ïðèñâîþþòü ðàíã 4.5 = (4 + 5)/2. Îñòàòî÷íî
5.4. Ранги та ранговi кореляцiї 167

ìà¹ìî íàñòóïíó òàáëèöþ ðàíãiâ.


𝑗 1 2 3 4 5
𝑅𝑗𝑋 2 4.5 2 4.5 2
ßêùî äëÿ êîæíîãî îá'¹êòà ó âèáiðöi ñïîñòåðiãà¹òüñÿ äåêiëüêà çìií-
íèõ, âií ìîæå ìàòè ðiçíi ðàíãè çà ðiçíèìè çìiííèìè.
𝜌 Спiрмена. Íåõàé äëÿ êîæíîãî ç 𝑛 îá'¹êòiâ ó âèáiðöi ñïîñòåðiãàþòüñÿ
çìiííi 𝑋 i 𝑌 . Ðàíãîâèé êîåôiöi¹íò êîðåëÿöi¨ Ñïiðìåíà (àíãë. Spearman’s
rank correlation) âèçíà÷à¹òüñÿ ÿê êîåôiöi¹íò êîðåëÿöi¨ Ïiðñîíà ìiæ ðàí-
ãàìè ñïîñòåðåæåíü:

∑︀𝑛 𝑋 ¯ 𝑋 )(𝑅𝑌 − 𝑅¯𝑌 )


𝑋 𝑌 𝑗=1 (𝑅𝑗 −𝑅 𝑗
𝜌(𝑋.𝑌 ) = 𝑟(𝑅 , 𝑅 ) = √︁∑︀ , (5.1)
𝑛 𝑋 ¯ 𝑋 2
∑︀𝑛 𝑌 ¯ 𝑌
𝑗=1 (𝑅𝑗 − 𝑅 ) 𝑗=1 (𝑅𝑗 − 𝑅 )

äå ¯𝑋 , 𝑅
𝑅 ¯𝑌
 ñåðåäíi çíà÷åííÿ ðàíãiâ ïî 𝑋 i 𝑌 çà âñi¹þ âèáiðêîþ.
𝑋
ßêùî çâ'ÿçàíi ðàíãè âiäñóòíi, òî 𝑅𝑗 , ïðè 𝑗 = 1, . . . , 𝑛, ïðîáiãàþòü âñi
öiëi çíà÷åííÿ âiä 1 äî 𝑛 ïî îäíîìó ðàçó. Òîìó ó öüîìó âèïàäêó 𝑅 ¯𝑋 =
¯ 𝑌 = (𝑛 + 1)/2 i
𝑅
𝑛 𝑛
¯ 𝑌 )2 = (𝑛 − 1)𝑛(𝑛 + 1) .
∑︁ ∑︁
(𝑅𝑗𝑋 ¯ 𝑋 )2 =
−𝑅 (𝑅𝑗𝑌 − 𝑅
𝑗=1 𝑗=1
12

Âèêîðèñòîâóþ÷è öåé ôàêò ëåãêî îòðèìàòè, ùî, çà âiäñóòíîñòi çâ'ÿçàíèõ


ðàíãiâ,
∑︀𝑛 𝑋
6 𝑗=1 (𝑅𝑗 − 𝑅𝑗𝑌 )
𝜌(𝑋.𝑌 ) = 1 − . (5.2)
𝑛(𝑛2 − 1)
Öÿ ôîðìóëà áiëüø ïîïóëÿðíà íiæ (5.1), àëå âîíà íå ä๠ïðàâèëüíèõ ðå-
çóëüòàòiâ, ÿêùî ¹ çâ'ÿçàíi ðàíãè. Ó öüîìó âèïàäêó äëÿ ïiäðàõóíêó 𝜌 ñëiä
êîðèñòóâàòèñü (5.1).
Ó R äëÿ îá÷èñëåííÿ êîåôiöi¹íòà Ñïiðìåíà ìîæíà ñêîðèñòàòèñü ôóíê-
öi¹þ cor (äèâ. ï. 5.2), âêàçàâøè â íié îïöiþ method = "spearman".
Приклад 5.4.1. Ó ïðèêëàäi 5.2.1 ìè âèêîðèñòàëè êîåôiöi¹íò êîðåëÿöi¨
Ïiðñîíà äëÿ âèìiðþâàííÿ ðiâíÿ çàëåæíîñòi ìiæ iíòåðåñîì äî äæèíñîâèõ
øîðòiâ i ðiâíåì óðáàíiçàöi¨ ó ðiçíèõ øòàòàõ ÑØÀ. Ñêîðèñòà¹ìîñü òåïåð
äëÿ öüîãî êîåôiöi¹íòîì 𝜌 Ñïiðìåíà.
5.4. Ранги та ранговi кореляцiї 168

tb<-read.table("c:/rem/term/shortU.txt",header=T)
x<-tb$jean/(tb$jean+tb$cargo)
cor(x,tb$urban,method = "spearman")

## [1] -0.4387847

𝜏 Кенделла (àíãë. Kendall’s tau coefficient). ßê ïîêàçó¹ ôîðìóëà (5.2),


ó êîåôiöi¹íòi 𝜌 Ñïiðìåíà ïiäñóìîâóþòüñÿ êâàäðàòè ðiçíèöü ìiæ ðàíãàìè
îá'¹êòà çà ïåðøîþ òà äðóãîþ çìiííèìè. ×èì áiëüøi öi ðiçíèöi, òèì áiëüøå
𝜌. Êîðåëÿöiÿ Êåíäàëëà ïîáóäîâàíà íà iíøié iäå¨: âîíà òèì áiëüøà, ÷èì
áiëüøå ïàð äîñëiäæóâàíèõ îá'¹êòiâ ðîçòàøîâàíî ó îäíàêîâîìó ïîðÿäêó
ïî ïåðøié i ïî äðóãié çìiííié.
Òî÷íiøå, íåõàé çâ'ÿçàíi ðàíãè âiäñóòíi. Ïåðåáåðåìî âñi ïàðè iíäåêñiâ
(𝑖, 𝑗), òàêi, ùî 1 ≤ 𝑖 < 𝑗 ≤ 𝑛. Áóäåìî êàçàòè, ùî ïàðà (𝑖, 𝑗) óçãîäæåíà ïî
çìiííèõ 𝑋 òà 𝑌 , ÿêùî

(𝑋𝑖 − 𝑋𝑗 )(𝑌𝑖 − 𝑌𝑗 ) > 0,

òîáòî ïî ïîðÿäêó çðîñòàííÿ 𝑋 åëåìåíòè öi¹¨ ïàðè ðîçòàøîâàíi òàê ñàìî,


ÿê i ïî ïîðÿäêó çðîñòàííÿ 𝑌 . ßêùî ïîðÿäîê ïî 𝑋 ïðîòèëåæíèé ïîðÿäêó
ïî 𝑌, òîáòî
(𝑋𝑖 − 𝑋𝑗 )(𝑌𝑖 − 𝑌𝑗 ) < 0,
áóäåìî êàçàòè, ùî ïàðà (𝑖, 𝑗) íå óçãîäæåíà.
Ïîçíà÷èìî êiëüêiñòü óñiõ óçãîäæåíèõ ïàð 𝑛+ , à âñiõ íåóçãîäæåíèõ
 𝑛− . Òîäi 𝑛+ + 𝑛− = 𝑛(𝑛 − 1)/2 = 𝑛0  êiëüêiñòü âñiõ ìîæëèâèõ ïàð
iíäåêñiâ.
Êîðåëÿöiÿ Êåíäàëëà ìiæ 𝑋 i 𝑌 (çà âiäñóòíîñòi çâ'ÿçàíèõ ðàíãiâ)
âèçíà÷à¹òüñÿ ÿê
𝑛+ − 𝑛−
𝜏 (𝑋, 𝑌 ) = ,
𝑛0
òîáòî öå íîðìîâàíà ðiçíèöÿ ìiæ êiëüêiñòþ óçãîäæåíèõ i íåóçãîäæåíèõ
ïàð. Íîðìóâàííÿ (äiëåííÿ íà 𝑛0 ) îáðàíî òàê, ùîá çíà÷åííÿ 𝜏 (𝑋, 𝑌 ) çà
àáñîëþòíîþ âåëè÷èíîþ íå ïåðåâèùóâàëî 1.
Iñíó¹ áàãàòî óçàãàëüíåíü öüîãî êîåôiöi¹íòà íà âèïàäîê çâ'ÿçàíèõ ðàí-
ãiâ. Ìè îáìåæèìîñü îäíèì ç íèõ (íàéáiëüø ïîïóëÿðíèì), ÿêèé ïîçíà÷à-
þòü 𝜏𝑏 (÷èòà¹òüñÿ òàó-áå Êåíäàëëà).
5.4. Ранги та ранговi кореляцiї 169

Îòæå, íåõàé ó âèáiðöi íàÿâíi çâ'ÿçàíi ðàíãè. Ïîçíà÷èìî 𝑡1 ,. . . , 𝑡𝑘 


êiëüêîñòi åëåìåíòiâ ó ãðóïàõ çi çâ'ÿçàíèìè ðàíãàìè ïî çìiííié 𝑋 . (Òîáòî
ó âèáiðöi ïðèñóòíi ðiâíî 𝑡1 åëåìåíòiâ ó ÿêèõ 𝑋 ïðèéì๠îäíå i òå æ
ôiêñîâàíå çíà÷åííÿ, 𝑡2 åëåìåíòiâ, ó ÿêèõ 𝑋 ì๠iíøå ôiêñîâàíå çíà÷åííÿ
i ò.ä.) 𝑢1 ,. . . ,𝑢𝑚  àíàëîãi÷íî, ïî çìiííié 𝑌 .

𝑘
∑︁
𝑛1 = 𝑡𝑖 (𝑡𝑖 − 1)/2,
𝑖=1

𝑘
∑︁
𝑛2 = 𝑢𝑖 (𝑢𝑖 − 1)/2,
𝑖=1

𝑛+ , 𝑛−  êiëüêîñòi óçãîäæåíèõ òà íå óçãîäæåíèõ ïàð (ïðè öüîìó, ÿêùî


ðàíãè ïî õî÷à á îäíié çìiííié ó ïàði ¹ çâ'ÿçàíèìè, òàêà ïàðà íå âðàõî-
âó¹òüñÿ íi ñåðåä óçãîäæåíèõ, íi ñåðåä íå óçãîäæåíèõ), 𝑛0 = 𝑛(𝑛 − 1)/2.
Òîäi
𝑛+ − 𝑛−
𝜏𝑏 (𝑋, 𝑌 ) = √︀ .
(𝑛0 − 𝑛1 )(𝑛0 − 𝑛2 )
(Íîðìóâàííÿ çíîâó îáðàíî òàê, ùîá ìàêñèìàëüíå i ìiíiìàëüíå çíà÷åííÿ
êîåôiöi¹íòà êîðåëÿöi¨ äîðiâíþâàëè ±1).
Äëÿ îá÷èñëåííÿ 𝜏 ó R ìîæíà ñêîðèñòàòèñü ôóíêöi¹þ cor(), âêàçàâøè
îïöiþ method="kendall"
Приклад 5.4.2. Ïðîäîâæóþ÷è ïðèêëàä ïðèêëàäi 5.4.1 ïiäðàõó¹ìî êîå-
ôiöi¹íò êîðåëÿöi¨ Êåíäàëà äëÿ çàëåæíîñòi ìiæ iíòåðåñîì äî äæèíñîâèõ
øîðòiâ i ðiâíåì óðáàíiçàöi¨ ó ðiçíèõ øòàòàõ ÑØÀ.

cor(x,tb$urban,method = "kendall")

## [1] -0.2869042

J
Òàêèì ÷èíîì, äëÿ öîãî ïðèêëàäó ìè îòðèìàëè êîðåëÿöiþ Ïiðñîíà 𝑟=
−0.3234017, êîðåëÿöiþ Ñïiðìåíà 𝜌 = −0.4387847 i êîðåëÿöiþ Êåíäàëëà
𝜏 = −0.2869042.
Çâè÷àéíî, âèíèê๠ïèòàííÿ, ÿêó ç öèõ êîðåëÿöié äîöiëüíî îáðàòè äëÿ
õàðàêòåðèçàöi¨ çàëåæíîñòi ìiæ ðiâíåì óðáàíiçàöi¨ øòàòó òà çàöèêàâëåí-
íÿì äæèíñòîâìè øîðòìàè ñåðåä éîãî æèòåëiâ?
5.4. Ранги та ранговi кореляцiї 170

Âçàãàëi, ÿê ïðàâèëüíî îáèðàòè êîåôiöi¹íò êîðåëÿöi¨? Äëÿ òîãî, ùîá


çðîçóìiòè öå, ïîðiâíÿ¹ìî ¨õ âëàñòèâîñòi. Äëÿ êîðåëÿöi¨ Ïiðñîíà îñíîâíi
âëàñòèâîñòi ïåðåëi÷åíi íà ñ. 150.
Властивостi рангових коефiцiєнтiв кореляцiї.
Íàñòóïíi âëàñòèâîñòi îäíàêîâi äëÿ êîðåëÿöié Ñïiðìåíà i Êåíäàëëà.
1. Êîåôiöi¹íò êîðåëÿöi¨ çà àáñîëþòíèì çíà÷åííÿì íå ïåðåâèùó¹ îäè-
íèöþ:
−1 ≤ 𝜌(𝑋, 𝑌 ), 𝜏 (𝑋, 𝑌 ) ≤ 1.
2. Ðàíãîâèé êîåôiöi¹íò êîðåëÿöi¨ äîðiâíþ¹ ±1 òîäi i òiëüêè òîäi, êîëè ìiæ
𝑋i𝑌 ó âèáiðöi ì๠ìiñöå ìîíîòîííà çàëåæíiñòü. ßêùî êîåôiöi¹íò äîðiâ-
íþ¹ 1, öÿ çàëåæíiñòü  çðîñòàþ÷à, òîáòî ç 𝑋𝑖 < 𝑋 𝑗 âèïëèâ๠𝑌𝑖 ≤ 𝑌𝑗 .
ßêùî êîåôiöi¹íò äîðiâíþ¹ -1, çàëåæíiñòü  ñïàäíà: ç 𝑋𝑖 < 𝑋𝑗 âèïëèâà¹
𝑌𝑖 ≥ 𝑌𝑗 .
3. Ðàíãîâi êîåôiöi¹íòè êîðåëÿöi¨ íå çìiíþþòüñÿ ïðè ìîíîòîííié çìiíi

øêàëè âèìiðþâàííÿ 𝑋 i 𝑌 : ÿêùî, íàïðèêëàä, ðîçãëÿíóòè 𝑋𝑗 = 𝑓 (𝑋𝑗 ),
′ ′
äå 𝑓  ñòðîãî çðîñòàþ÷à ôóíêöiÿ, òî 𝜌(𝑋 , 𝑌 ) = 𝜌(𝑋, 𝑌 ) i 𝜏 (𝑋 , 𝑌 ) =
𝜏 (𝑋, 𝑌 ). (ßêùî 𝑓  ìîíîòîííî ñïàäíà ôóíêöiÿ, êîðåëÿöiÿ ïîìiíÿ¹ çíàê).
Íàïðèêëàä, ðàíãîâi êîåôiöi¹íòè íå çìiíþþòüñÿ ïðè ïåðåõîäi äî ëîãà-
ðèôìi÷íî¨ øêàëè âèìiðþâàííÿ.
4. ßêùî çìiííi 𝑋 i 𝑌 íåçàëåæíi, òî, ïðè âåëèêèõ îáñÿãàõ âèáiðêè,
êîåôiöi¹íò êîðåëÿöi¨ áóäå áëèçüêèì äî 0. Íåçàëåæíiñòü òóò òðåáà ðîçó-
ìiòè ó ñòàòèñòè÷íîìó çíà÷åííi: ââàæà¹òüñÿ, ùî 𝑌 𝑋  íåçàëåæíi, ÿêùî
i
9
çíàííÿ 𝑋 íiÿê íå äîïîìàã๠ïðîãíîçóâàòè çíà÷åííÿ 𝑌 .
5. Êîåôiöi¹íòè Ñïiðìåíà i Êåíäàëëà ¹ ðîáàñòíèìè: íàÿâíiñòü çàáðóäíåíü-
âèêèäiâ íå ìîæå äóæå ñèëüíî âïëèíóòè íà çíà÷åííÿ êîåôiöi¹íòà. Ïðè
öüîìó 𝜏 Êåíäàëëà ¹ áiëüø ñòiéêèì ïî âiäíîøåííþ äî çàáðóäíåíü, íiæ 𝜌
Ñïiðìåíà.
Ïðîiëþñòðó¹ìî öå íàñòóïíèì ïðèêëàäîì.

Приклад 5.4.3. Íåõàé íåçàáðóäíåíà âèáiðêà ñêëàäà¹òüñÿ çi çíà÷åíü


(𝑋𝑗 , 𝑌𝑗 ) òàêèõ, ùî 𝑌𝑗 = 1 − 𝑋𝑗 , 𝑋𝑗 = 0.1(𝑗 − 1), 𝑗 = 1, . . . , 11. Çðîçóìiëî,
ùî âñi ðîçãëÿíóòi íàìè êîðåëÿöi¨ (𝑟 Ïiðñîíà, 𝜌 Ñïiðìåíà, 𝜏 Êåíäàëëà)
äëÿ òàêî¨ âèáiðêè áóäóòü äîðiâíþâàòè −1.
Âíåñåìî ó âèáiðêó çàáðóäíåííÿ, à ñàìå, çìiíèìî çíà÷åííÿ äëÿ 5-òîãî
′ ′
åëåìåíòó íà 𝑋𝑗 = 𝑐, 𝑌𝑗 = 𝑐, äå 𝑐  äåÿêå ÷èñëî. Âñi iíøi åëåìåíòè âèáið-
êè çàëèøèìî áåç çìií. ßêùî âçÿòè 𝑐 äîñòàòíüî âåëèêèì, ìîæíà çðîáèòè

9
Бiльш формальне визначення поняття незалежностi i того, як воно пов’язане з коефi-
цiєнтами кореляцiї ми розглянемо далi.
5.4. Ранги та ранговi кореляцiї 171

𝑟(𝑋 ′ , 𝑌 ′ ) ÿê çàâãîäíî áëèçüêèì äî 1. Îòæå âèñíîâîê ïðî êîðåëÿöiþ ìiæ


𝑋 i 𝑌 ìîæå çìiíèòèñü íà ïðîòèëåæíèé çàâäÿêè çìiíi îäíîãî åëåìåí-
òà âèáiðêè. Êîåôiöi¹íòè Ñïiðìåíà i Êåíäåëà, çâè÷àéíî, òåæ çìiíÿòüñÿ,
àëå íå òàê ðàäèêàëüíî: 𝜏 íå ìîæíà çðîáèòè áiëüøèì íiæ −0.6363636, à
𝜌  áiëüøèì íiæ −0.5, ÿêå á âåëèêå 𝑐 ìè íi îáðàëè. Òîáòî íåãàòèâíà
êîðåëÿöiÿ ìiæ îñíîâíîþ ìàñîþ ñïîñòåðåæåíü áóäå ïîìi÷åíà îáîìà öè-
ìè êîåôiöi¹íòàìè, ïðè÷îìó êîåôiöi¹íò Êåíäàëëà âèÿâëÿ¹ äåùî áiëüøó
ñòiéêiñòü ïî âiäíîøåííþ äî çàáðóäíåíü.
Ó íàñòóïíîìó ñêðèïòi-iëþñòðàöi¨ 𝑐 = 3:

x<-seq(0,1,0.1)
y<-1-x
plot(x,y)
cor(x,y)

## [1] -1

x[5]<-3
y[5]<-3
cor(x,y)

## [1] 0.6783182

plot(x,y)
cor(x,y,method = "kendall")

## [1] -0.6363636

cor(x,y,method = "spearman")

## [1] -0.5
J
Òàêèì ÷èíîì, ìîæíà äàòè íàñòóïíi ðåêîìåíäàöi¨.
Рекомендацiї по використанню коефiцiєнтiв кореляцiї.
1. ßêùî ó âàñ ¹ òåîðåòè÷íà ìîäåëü äàíèõ, çà ÿêîþ çìiííi ïîâ'ÿçàíi
ëiíiéíîþ çàëåæíiñòþ, ðîçìèòîþ íåâåëèêèìè âèïàäêîâèìè âiäõèëåííÿ-
ìè (íàïðèêëàä, âíàñëiäîê ïîõèáîê âèìiðþâàííÿ), òî äëÿ ïîøóêó òàêèõ
çàëåæíîñòåé ìîæíà ðåêîìåíäóâàòè êîðåëÿöiþ Ïiðñîíà.
5.4. Ранги та ранговi кореляцiї 172

1.0

3.0
2.5
0.8

2.0
0.6

1.5
y

y
0.4

1.0
0.2

0.5
0.0

0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0

x x

Рис. 5.10. Кореляцiя без викиду (лiворуч) i з (праворуч).

2. Êîðåëÿöiþ Ïiðñîíà äîöiëüíî òàêîæ âèêîðèñòîâóâàòè äëÿ õàðàêòå-


ðèçàöi¨ ñèëè çàëåæíîñòi, ÿêùî íà äiàãðàìi ðîçñiþâàííÿ íå ïîìiòíî iíøèõ
çàëåæíîñòåé, êðiì ëiíiéíèõ.
3. ßêùî ó äàíèõ ìîæëèâi çàáðóäíåííÿ-âèêèäè, êðàùå âèêîðèñòîâó-
âàòè êîðåëÿöiþ Êåíäàëëà, îñêiëüêè âîíà ¹ íàéáiëüø ðîáàñòíîþ ñåðåä
ïîïóëÿðíèõ êîåôiöi¹íòiâ êîðåëÿöi¨. Êîðåëÿöiÿ Ñïiðìåíà òåæ ¹ ñòiéêîþ
ïî âiäíîøåííþ äî çàáðóäíåíü i ¨ ¨ ìîæíà âèêîðèñòîâóâàòè ó òàêié ñèòó-
àöi¨, ÿêùî äëÿ öüîãî ¹ ÿêiñü äîäàòêîâi ïðè÷èíè.
4. Ðàíãîâi êîðåëÿöi¨ ïðèðîäíî âèêîðèñòîâóâàòè äëÿ àíàëiçó äàíèõ,
ÿêùî øêàëà âèìiðþâàíü äåÿêèõ çìiííèõ âèçíà÷åíà ëèøå ç òî÷íiñòþ äî
ïîðÿäêó (ïîðÿäêîâà øêàëà). Íàïðèêëàä, ðiâåíü ðîçóìîâîãî ðîçâèòêó
ëþäåé (IQ) ïðèéíÿòî âèçíà÷àòè ó áàëàõ, ùî êîëèâàþòüñÿ â ìåæàõ âiä
60 äî 140. Ìîæíà ñòâåðäæóâàòè, ùî ëþäèíà ç IQ 120 ¹ áiëüø iíòåëåê-
òóàëüíî ðîçâèíåíîþ, íiæ òà, ùî ì๠IQ 80. Àëå íàâðÿä ÷è ì๠ÿêèéñü
ñåíñ òâåðäæåííÿ, ùî ïåðøà ëþäèíà ó ïiâòîðà ðàçè ðîçóìíiøà íiæ äðóãà.
Òîáòî ñàì IQ ìîæíà áóëî á âèìiðþâàòè i â iíøèõ îäèíèöÿõ, âàæëèâèé
òiëüêè ïîðÿäîê íà öié øêàëi.
5. Ïðè âèáîði êîåôiöi¹íòà êîðåëÿöi¨ âàæëèâó ðîëü ãð๠òðàäèöiÿ ó
äàíié ïðåäìåòíié îáëàñòi. Íàïðèêëàä, ó ïñèõîëîãi÷íèõ äîñëiäæåííÿõ ç
ïî÷àòêó XX ñò. ïðèéíÿòî âèêîðèñòîâóâàòè êîðåëÿöiþ Ñïiðìåíà. Çðîçó-
ìiëî, ùî ïîðiâíþâàòè íîâi íàóêîâi ÷è ïðàêòè÷íi ðåçóëüòàòè çi ñòàðèìè
ïñèõîëîãàì çðó÷íiøå, ÿêùî äëÿ àíàëiçó íîâèõ âèêîðèñòîâó¹òüñÿ òà æ
òåõíiêà, ÿêà áóëà çàñòîñîâàíà ó ïîïåðåäíiõ ðîáîòàõ. Òîìó ïåðåõiä íà
5.5. Сила i значущiсть кореляцiї 173

íîâó òåõíiêó êîðåëÿöiéíîãî àíàëiçó íå âàðòî ïðîâîäèòè áåç äîñòàòíüî


ïîâàæíèõ ïðè÷èí. ßêùî ó òàêié ñèòóàöi¨ ñòàòèñòèê ââàæ๠ïîòðiáíèì
âèêîðèñòàòè êîðåëÿöiéíó òåõíiêó âiäìiííó âiä çâè÷íî¨ äëÿ éîãî çàìîâ-
íèêiâ, êðàùå çðîáèòè îäðàçó äâà âàðiàíòè: ñòàðèé i íîâèé. I ïîÿñíèòè,
÷èì íîâèé âàðiàíò êðàùèé ñòàðîãî.

5.5 Сила i значущiсть кореляцiї


Êîåôiöi¹íòè êîðåëÿöi¨ âèêîðèñòîâóþòü äëÿ òîãî, ùîá ïîáà÷èòè, íà-
ñêiëüêè ñèëüíîþ ¹ çàëåæíiñòü ìiæ äâîìà çìiííèìè. Ó äåÿêèõ ïiäðó÷-
íèêàõ ìîæíà íàâiòü çíàéòè òàêó àáî ïîäiáíó òàáëè÷êó äëÿ âèçíà÷åííÿ
ñèëè êîðåëÿöi¨ çà çíà÷åííÿì êîåôiöi¹íòà:
|𝑟(𝑋, 𝑌 )| = 1  çìiííi ïîâ'ÿçàíi ëiíiéíîþ ôóíêöiîíàëüíîþ çàëåæ-
íiñòþ;
0.95 ≤ |𝑟(𝑋, 𝑌 )| < 1  çâ'ÿçîê äóæå ñèëüíèé, ïðàêòè÷íî ôóíêöiî-
íàëüíèé;
0.75 ≤ |𝑟(𝑋, 𝑌 )| < 0.95  çâ'ÿçîê òiñíèé (ñèëüíèé);
0.5 ≤ |𝑟(𝑋, 𝑌 )| < 0.75  çâ'ÿçîê ñåðåäíié (ïîìiðíèé);
0.2 ≤ |𝑟(𝑋, 𝑌 )| < 0.5  çâ'ÿçîê ñëàáêèé;
|𝑟(𝑋, 𝑌 )| < 0.2  çâ'ÿçêó ïðàêòè÷íî íåìà¹.
10
(äèâ. [19])
ßêîãîñü ñåðéîçíîãî íàóêîâîãî çìiñòó òàêi òàáëè÷êè íå ìàþòü, âîíè
ïðèçíà÷åíi äëÿ òèõ êîðèñòóâà÷iâ, ÿêèì çðó÷íiøå îïåðóâàòè ñëîâåñíèìè
íàçâàìè, íiæ ÷èñëàìè. Àëå ç ¨õ âèêîðèñòàííÿì ïîâ'ÿçàíà ïåâíà íåáåç-
ïåêà. Iíêîëè âiä çàìîâíèêà ñòàòèñòè÷íîãî àíàëiçó ïðè îáãîâîðåííi ðå-
çóëüòàòiâ ìîæíà ïî÷óòè: Òóò êîðåëÿöiÿ 0.485, à ìåíi ñêàçàëè, ùî òàêi
êîðåëÿöi¨ ñëàáêi i íiêîãî íå öiêàâëÿòü. ×è íå ìîæíà ÿêîñü ïîðàõóâàòè
òàê, ùîá âèéøëî áiëüøå 0.5? Òàêà ïîñòàíîâêà ïèòàííÿ ¹, âî÷åâèäü, öië-
êîì íåïðèéíÿòíîþ.

10
У росiйськомовному iнтернетi такi таблички часто можна зустрiти пiд назвою “шка-
ла Чеддока”. При спробi знайти оригiнал англiйською мовою, гугл на запит “Chaddock
correlation” видає чимало англомовних статей авторiв з росiйськими прiзвищами, надру-
кованих у смiттєвих псевдо-мiжнародних журналах. На роль гiпотетичного автора “шкали”
мiг би пiдiйти Charles Gilbert Chaddock, якого можна знайти у вiкiпедiї. Вiн був американсь-
ким невропатологом i психiатром XIX ст., зокрема, написав роботу “A suggestion for the
statistical classification of insanity”, але кореляцiї там не згадуються. Втiм, у деяких росiйсь-
ких статтях ця ж, або подiбна табличка фiгурує пiд назвами “шкала Чертока” або “шкала
Е.П.Голубкова”.
5.5. Сила i значущiсть кореляцiї 174

Ç iíøîãî áîêó, ñàìà ëèøå ñèëüíà êîðåëüîâàíiñòü äâîõ çìiííèõ íå


îáîâ'ÿçêîâî ñâiä÷èòü ïðî íàÿâíiñòü çâ'ÿçêó ìiæ íèìè. Íàïðèêëàä, ÿê-
ùî âèáiðêà ñêëàäà¹òüñÿ ëèøå ç äâîõ åëåìåíòiâ (𝑛 = 2), òî âñi âèáiðêî-
11
âi êîðåëÿöi¨ ìiæ çìiííèìè áóäóòü ðiâíi ±1. Àëå, çâè÷àéíî, çâiäñè íå
ìîæíà ðîáèòè âèñíîâêè ïðî çàëåæíîñòi ìiæ çìiííèìè. Çðîçóìiëî, ùî
ïî äâîõ ñïîñòåðåæåííÿõ âçàãàëi íå ìîæíà ðîáèòè áóäü-ÿêi îá ðóíòîâàíi
ñòàòèñòè÷íi âèñíîâêè.  òîé æå ÷àñ, ïðè âåëèêié êiëüêîñòi ñïîñòåðåæåíü
íàâiòü ïîðiâíÿíî íåâåëèêi çíà÷åííÿ êîåôiöi¹íòà êîðåëÿöi¨ ìîæóòü ïåðå-
êîíëèâî ñâiä÷èòè ïðî íàÿâíiñòü çàëåæíîñòi ìiæ çìiííèìè.
Òàêèì ÷èíîì, ïðè âèÿâëåííi çàëåæíîñòåé çà äîïîìîãîþ êîåôiöi¹í-
òiâ êîðåëÿöi¨, ïîòðiáíî âðàõîâóâàòè íå òiëüêè âåëè÷íó êîåôiöi¹íòà, à i
êiëüêiñòü ñïîñòåðåæåíü, çà ÿêèìè âií ðîçðàõîâàíèé. Äëÿ öüîãî çàñòîñî-
âó¹òüñÿ ñòàíäàðòíà ñõåìà òåñòiâ ïåðåâiðêè ñòàòèñòè÷íèõ ãiïîòåç, îïèñàíà
ó ï. 9.1. Òóò ìè ëèøå ñïðîùåíî ïîÿñíèìî ¨ ¨ çàñòîñóâàííÿ ó àíàëiçi êîðå-
ëÿöié. Áiëüø äîêëàäíî äèâ. ó ï. 9.7.2.
Äëÿ ïðîñòîòè, ðîçãëÿíåìî òåñò äëÿ ïåðåâiðêè çíà÷óùîñòi êîðåëÿöi¨ ç
âèêîðèñòàííÿì êîåôiöi¹íòà êîðåëÿöi¨ Ïiðñîíà 𝑟(𝑋, 𝑌 ) (äëÿ iíøèõ êîåôi-
öi¹íòiâ ïðîöåäóðà àíàëîãi÷íà).
12
Çíà÷óùiñòü êîðåëÿöi¨ âèçíà÷à¹òüñÿ äëÿ ïåâíîãî ðiâíÿ çíà÷óùîñòi 𝛼.
13
Ðiâåíü çíà÷óùîñòi  öå éìîâiðíiñòü , ç ÿêîþ íàøà ïðîöåäóðà ïåðåâið-
êè áóäå ïîìèëêîâî âiäìi÷àòè íåçàëåæíi çìiííi ÿê çàëåæíi. Âåëè÷èíó 𝛼
îáèð๠çàìîâíèê ñòàòèñòè÷íîãî äîñëiäæåííÿ, âèõîäÿ÷è ç òîãî, íàñêiëü-
êè íåáåçïå÷íèìè äëÿ íüîãî ¹ òàêi ïîìèëêè. Íàïðèêëàä, ÿêùî ïîêëàñòè
𝛼 = 0.05 (öå êëàñè÷íèé âèáið äëÿ áiîëîãi¨, ñîöiîëîãi¨, ìåäèöèíè òà ïñèõî-
ëîãi¨), òî â ñåðåäíüîìó 1 ðàç íà 20 âèïàäêiâ, êîëè çàëåæíîñòi ìiæ çìií-
íèìè íàñïðàâäi íåìà¹, íàøà ïðîöåäóðà ïîìèëêîâî ¨ ¨ âèÿâèòü.
Çà çíà÷åííÿì 𝛼 âèçíà÷à¹òüñÿ ïîðiã òåñòó 𝐶𝛼 . Öåé ïîðiã ¹ íàéìåíøèì
÷èñëîì 𝐶 òàêèì, ùîá ïðè âiäñóòíîñòi çàëåæíîñòi ìiæ 𝑋i𝑌 éìîâiðíiñòü
òîãî, ùî |𝑟(𝑋, 𝑌 )| > 𝐶 íå ïåðåâèùóâàëà 𝛼.
Ïiñëÿ öüîãî òåñòîâà ïðîöåäóðà âèãëÿä๠çîâñiì ïðîñòî:

11
Якщо значення дослiджуваних змiнних рiзнi на рiзних елементах вибiрки.
12
significance level.
13
Тобто середнє значення, навколо якого коливаються вiдноснi частоти помилок при за-
стосуваннi тестової процедури.
5.5. Сила i значущiсть кореляцiї 175

ßêùî |𝑟(𝑋, 𝑌 )| > 𝐶𝛼  ââàæà¹ìî, ùî çíà÷óùà çàëåæíiñòü ìiæ


𝑋 i 𝑌 âèÿâëåíà.
ßêùî |𝑟(𝑋, 𝑌 )| ≤ 𝐶𝛼  ââàæà¹ìî, ùî çàëåæíiñòü íå âèÿâëåíà
(ñòàòèñòè÷íi äàíi íå ïiäòâåðäæóþòü ãiïîòåçó ïðî çàëåæíiñòü).

×èì ìåíøèì âèáðàòè 𝛼, òèì áiëüøèì áóäå 𝐶𝛼 , òîáòî, òèì áiëüøîþ


ì๠áóòè êîðåëÿöiÿ, ùîá òåñòîâà ïðîöåäóðà âèçíàëà ¨ ¨ çíà÷óùîþ. Òîìó,
âèáèðàþ÷è ìåíøå 𝛼, ìè çìåíøó¹ìî éìîâiðíiñòü ïîìèëêîâî âèÿâèòè çà-
ëåæíîñòi, ÿêèõ íåìà¹, àëå ïåðåñòà¹ìî áà÷èòè íå äóæå ñèëüíi çàëåæíîñòi,
ÿêi íàñïðàâäi ¹.
𝐶𝛼 çàëåæèòü òàêîæ âiä 𝑛  êiëüêîñòi åëåìåíòiâ ó
Ïîðîãîâå çíà÷åííÿ
âèáiðöi. Iç çðîñòàííÿì 𝑛 ïîðiã 𝐶𝛼 çìåíøó¹òüñÿ. Òîáòî, ÷èì áiëüøèé îáñÿã
âèáiðêè, òèì ìåíøîþ ìîæå áóòè çíà÷óùà êîðåëÿöiÿ.
Öåé æå òåñò äëÿ ïåðåâiðêè çíà÷óùîñòi êîðåëÿöi¨ ÷àñòî ðåàëiçóþòü ó
âèãëÿäi äåùî iíøî¨ ïðîöåäóðè. À ñàìå, ðîçãëÿíåìî ïîðiã 𝐶𝛼 = 𝐶(𝛼) ÿê
ôóíêöiþ âiä ìîæëèâèõ çíà÷åíü 𝛼
[0, 1]. Ïîçíà÷èìî 𝑝(𝐶) 
íà iíòåðâàëi
ôóíêöiþ, îáåðíåíó äî 𝐶(𝛼) íà öüîìó iíòåðâàëi: 𝑝(𝐶𝛼 ) = 𝛼. Îñêiëüêè 𝐶(𝛼)
 ñïàäíà ôóíêöiÿ, òî i 𝑝(𝐶) òåæ áóäå ñïàäíîþ. Òîìó íåðiâíiñòü

|𝑟(𝑋, 𝑌 )| > 𝐶𝛼

åêâiâàëåíòíà íåðiâíîñòi
𝑝(|𝑟(𝑋, 𝑌 )|) < 𝛼.
Âåëè÷èíà 𝑝 = 𝑝(|𝑟(𝑋, 𝑌 )|) çâåòüñÿ досягнутим рiвнем значущостi14 äëÿ
ïåðåâiðêè íåçàëåæíîñòi çìiííèõ 𝑋 i 𝑌 çà äîïîìîãîþ êîðåëÿöié Ïiðñîíà.
Ç âèêîðèñòàííÿì äîñÿãíóòîãî ðiâíÿ çíà÷óùîñòi òåñòîâó ïðîöåäóðó
ìîæíà îôîðìèòè òàê:

ßêùî 𝑝 < 𝛼  ââàæà¹ìî, ùî çíà÷óùà çàëåæíiñòü ìiæ 𝑋 i 𝑌


âèÿâëåíà.
ßêùî 𝑝 ≥ 𝛼  ââàæà¹ìî, ùî çàëåæíiñòü íå âèÿâëåíà (ñòàòè-
ñòè÷íi äàíi íå ïiäòâåðäæóþòü ãiïîòåçó ïðî çàëåæíiñòü).

Çðîçóìiëî, ùî öÿ ïðîöåäóðà öiëêîì åêâiâàëåíòíà ïîïåðåäíié: íà îäíà-


êîâèõ äàíèõ îáèäâi ïðîöåäóðè áóäóòü äàâàòè îäíàêîâi ðåçóëüòàòè. Òîìó
êàæóòü, ùî öi ïðîöåäóðè ðåàëiçóþòü îäèí i òîé æå ñòàòèñòè÷íèé òåñò.

14
significance або p-value.
5.5. Сила i значущiсть кореляцiї 176

Çðó÷íiñòü âèêîðèñòàííÿ äîñÿãíóòîãî ðiâíÿ çíà÷óùîñòi 𝑝 ïîëÿã๠â


òîìó, ùî éîãî ìîæíà ïîðiâíþâàòè ç áóäü-ÿêèì ðiâíåì çíà÷óùîñòi 𝛼, çà-
äàíèì êîðèñòóâà÷åì. Çîêðåìà, ÿêùî ïðè ïóáëiêàöi¨ äîñëiäíèê âêàçó¹,
ÿêå 𝑝 âií îòðèìàâ çà ñâî¨ìè äàíèìè, òî ÷èòà÷ ìîæå ñàì ïîðiâíÿòè öå
çíà÷åííÿ ç òèì 𝛼, ÿêå âií ââàæ๠ïðèéíÿòíèì, íå ðîáëÿ÷è äîäàòêîâèõ
îá÷èñëåíü.
Ïðè âèêîðèñòàííi êîåôiöi¹íòiâ Ñïiðìåíà i Êåíäàëëà òåñòîâi ïðîöå-
äóðè áóäóþòüñÿ çà òi¹þ æ ñõåìîþ, àëå, çâè÷àéíî, ïîðîãîâi çíà÷åííÿ 𝐶𝛼
ðîçðàõîâóþòüñÿ (ÿê ïðàâèëî) çà iíøèìè ôîðìóëàìè.
Ó R ïiäðàõîâóâàòè äîñÿãíóòi ðiâíi çíà÷óùîñòi i ðîáèòè ïåðåâið-
êó çàëåæíîñòi íà îñíîâi êîðåëÿöié ìîæíà, âèêîðèñòîâóþ÷è ôóíêöiþ
cor.test(). Ïåðøi äâà ïàðàìåòðè öi¹¨ ôóíêöi¨  x, y öå çìiííi, çà ÿêèìè
ðîçðàõîâó¹òüñÿ êîðåëÿöiÿ (ìàþòü áóòè âåêòîðàìè îäíàêîâî¨ äîâæèíè).
Îïöiÿ method äîçâîëÿ¹ îáðàòè òèï êîåôiöi¹íòà êîðåëÿöi¨: "pearson" (çà
óìîâ÷àííÿì), "kendall" àáî "spearman".
Äîñÿãíóòèé ðiâåíü çíà÷óùîñòi äëÿ ïåðåâiðêè çàëåæíîñòi ôóíêöiÿ âêà-
çó¹ ó ðåçóëüòàòi âèêîíàííÿ â àòðèáóòi $p.value.
Приклад 5.5.1. Ó ïðèêëàäi 5.1.2 ìè ðîçãëÿíóëè çàëåæíiñòü ìiæ äîâæè-
íîþ ïåëþñòîê i ÷àøîëèñòêiâ ó êâiòiâ-ïiâíèêiâ âèäó setosa. Íà ðèñ. 5.3
âèäíî, ùî âèðàçíî¨ çàëåæíîñòi ìiæ öèìè çìiííèìè íåìà¹. Àëå ïðÿìà, ÿêó
ìè ïiäiãíàëè çà ìåòîäîì íàéìåíøèõ êâàäðàòiâ äëÿ îïèñó çàëåæíîñòåé
â ñåðåäíüîìó íà÷åá-òî ïîêàçó¹, ùî iç çðîñòàííÿì äîâæèíè ïåëþñòîê
çðîñò๠i ñåðåäíÿ äîâæèíà ÷àøîëèñòêiâ.
×è ìîæíà ââàæàòè öþ çàëåæíiñòü çíà÷óùîþ?
Ïiäðàõó¹ìî êîðåëÿöi¨ ìiæ öèìè çìiííèìè:

x<-iris[iris$Species=="setosa","Petal.Length"]
y<-iris[iris$Species=="setosa","Sepal.Length"]
cor(x,y)

## [1] 0.2671758

cor(x,y,method = "kendall")

## [1] 0.2173273

cor(x,y,method = "spearman")

## [1] 0.2788849
5.5. Сила i значущiсть кореляцiї 177

Îòðèìàëè 𝑟(𝑋, 𝑌 ) = 0.2671758, 𝜏 (𝑋, 𝑌 ) = 0.2173273, 𝜌(𝑋, 𝑌 ) =


0.2788849. Âñi çíà÷åííÿ êîåôiöi¹íòiâ âiäïîâiäàþòü âàðiàíòó çâ'ÿçîê ñëàá-
êèé ç òàáëè÷êè, ùî íàâåäåíà íà ïî÷àòêó öüîãî ïiäðîçäiëó.
Çàñòîñó¹ìî òåïåð ñòàòèñòè÷íi òåñòè, ÿêi ìè òiëüêè ùî ðîçãëÿíóëè.
Âèáåðåìî ñòàíäàðòíèé ðiâåíü çíà÷óùîñòi 𝛼 = 0.05. Ïiäðàõó¹ìî äîñÿãíóòi
ðiâíi çíà÷óùîñòi:

cor.test(x,y)$p.value

## [1] 0.06069778

cor.test(x,y,method = "kendall")$p.value

## [1] 0.0447895

cor.test(x,y,method = "spearman")$p.value

## [1] 0.04985095

Ìè áà÷èìî, ùî äîñÿãíóòèé ðiâåíü çíà÷óùîñòi, ðîçðàõîâàíèé íà îñ-


íîâi êîåôiöi¹íòà Ïiðñîíà 𝑟, äîðiâíþ¹ 𝑝𝑟 = 0.06069778 > 𝛼 = 0.05, òîáòî
êîðåëÿöiþ ñëiä âèçíàòè íå çíà÷óùîþ: òàêà êîðåëÿöiÿ íå äîçâîëÿ¹ ñòâåð-
äæóâàòè, ùî ìiæ çìiííèìè ¹ ÿêàñü çàëåæíiñòü.  òîé æå ÷àñ, íà îñíîâi
êîåôiöi¹íòà Êåíäàëëà 𝜏 îòðèìó¹ìî 𝑝𝜏 = 0.0447895 < 𝛼. Òîáòî, ÿêùî ðî-
15
áèòè âèñíîâêè íà îñíîâi 𝜏, ïîòðiáíî âèçíàòè êîðåëÿöiþ çíà÷óùîþ . Íà
îñíîâi 𝜌 Ñïiðìåíà ìè çíîâó ìóñèìî ïðèéíÿòè íå çíà÷óùiñòü êîðåëÿöi¨:
𝑝𝜌 = 0.04985095.
Òàêèé ðåçóëüòàò äåùî ñïàíòåëè÷ó¹. Àëå ñëiä ðîçóìiòè, æîäåí, íàâiòü
íàéáiëüø àäåêâàòíèé ñòàòèñòè÷íèé òåñò íå ãàðàíòó¹ âiä ïîìèëîê: ìè
ìîæåìî ëèøå ñïîäiâàòèñü, ùî ïîìèëîê íå áóäå çàíàäòî áàãàòî.
Ó äàíîìó âèïàäêó ìîæíà ñêàçàòè, ùî ñïîñòåðåæåíü ÿâíî íå âèñòà-
÷๠äëÿ òîãî, ùîá çðîáèòè îñòàòî÷íèé âèñíîâîê: ÷è ¹ òàêà êîðåëÿöiÿ
ñâiä÷åííÿì ñïðàâæíüî¨ çàëåæíîñòi ìiæ çìiííèìè, ÷è âîíà âèíèêëà âíà-
ñëiäîê âèïàäêîâîãî çáiãó îáñòàâèí ñàìå ó öié âèáiðöi i íå áóäå âèÿâëÿòèñü
íà iíøèõ ñïîñòåðåæåííÿõ. J
Êîëè ñòðóêòóðó çàëåæíîñòåé çìiííèõ âiäîáðàæàþòü ó âèãëÿäi êîðå-
ëÿöiéíî¨ ìåðåæi, ðåáðà ãðàôó, ùî âiäïîâiäàþòü íåçíà÷óùèì êîðåëÿöiÿì

15
Хоча 𝑟(𝑋, 𝑌 ) > 𝜏 (𝑋, 𝑌 )!
5.5. Сила i значущiсть кореляцiї 178

äîöiëüíî íå âiäîáðàæàòè. Ó ôóíêöi¨ qgraph, ÿêó ìè ðîçãëÿäàëè â ï. 5.3, ¹


äëÿ öüîãî ñïåöiàëüíà îïöiÿ minimum. ßêùî êîðåëÿöiÿ ìiæ çìiííèìè ìåí-
øà, íiæ çíà÷åííÿ, âêàçàíå ó minimum (çà óìîâ÷àííÿì  0), òî öi çìiííi
íà ãðàôi íå ç'¹äíóþòüñÿ ðåáðîì. Ìîæíà òàêîæ âêàçàòè minimum="sig",
òîäi íå áóäóòü âiäìi÷àòèñü íå çíà÷óùi êîðåëÿöi¨. Ó öüîìó âèïàäêó, äëÿ
òîãî, ùîá ôóíêöiÿ ïðàöþâàëà ïðàâèëüíî, ¨é òðåáà çàäàòè iùå îïöi¨ alpha
 ðiâåíü çíà÷óùîñòi i sampleSize  îáñÿã âèáiðêè, ïî ÿêié áóëè ðîçðà-
õîâàíi êîðåëÿöi¨.

Приклад 5.5.2. Îò ÿê ìîæíà çìiíòèòè ñêðèïò ç ïðèêëàäó 5.3.4, ùîá íà


êîðåëÿöiéíié ìåðåæi âèâîäèëèñü ëèøå êîðåëÿöi¨ (Ïiðñîíà) çíà÷óùi ç ðiâ-
íåì 𝛼 = 0.05:

library("qgraph")
Spec<-c("setosa","versicolor","virginica")
for(sp in Spec){
qgraph(cor(iris[iris$Species==sp,1:4]),
minimum="sig",alpha=0.05,
sampleSize=nrow(iris[iris$Species==sp,1:4]))
text(-0.75,1,sp,cex=1.5)
}

Ðåçóëüòàò  íà ðèñ. 5.11. J


5.5. Сила i значущiсть кореляцiї 179

setosa S.L versicolor S.L

P.W S.W P.W S.W

P.L P.L

virginica S.L

P.W S.W

P.L

Рис. 5.11. Порiвняння кореляцiй розмiрiв для рiзних видiв пiвникiв


Роздiл 6

Основнi ймовiрнiснi розподiли

Ó öüîìó ðîçäiëi ìè îáãîâîðèìî òåîðåòè÷íi ìîäåëi, ÿêèìè ó ìàòåìà-


òè÷íié ñòàòèñòèöi îïèñóþòü ðîçïîäiëè äàíèõ i òå, ÿê îá÷èñëåííÿ çà öèìè
òåîðåòè÷íèìè ìîäåëÿìè ìîæíà ïðîâîäèòè â R. Êðiì òîãî, ó ï. 6.5 ìè
ïîáà÷èìî ÿê ìîæíà ñòâîðþâàòè øòó÷íi äàíi, ÿêi çàäîâîëüíÿþòü òàêèì
òåîðåòè÷íèì ìîäåëÿì. Øòó÷íî çãåíåðîâàíi äàíi ÷àñòî âèêîðèñòîâóþòüñÿ
äëÿ ïåðåâiðêè ÿêîñòi ñòàòèñòè÷íèõ àëãîðèòìiâ.
Ó íàñòóïíèõ ðîçäiëàõ êíèãè îïèñàíi òóò ìîäåëi ðîçïîäiëiâ çàñòîñîâó-
þòüñÿ äëÿ àíàëiçó ñòàòèñòè÷íèõ äàíèõ.
ß íàìàãàâñÿ ïèñàòè öåé ðîçäië òàê, ùîá éîãî ìîæíà áóëî ÷èòàòè ç
ìiíiìàëüíèìè óÿâëåííÿìè ïðî òåîðiþ éìîâiðíîñòåé. Çà ïîòðåáè ÷èòà÷
ìîæå çâåðíóòèñü äî Äîäàòêó B äå íàãàäóþòüñÿ îñíîâíi ïîíÿòòÿ ùî ñòî-
ñóþòüñÿ éìîâiðíîñòåé, âèïàäêîâèõ âåëè÷èí, ðîçïîäiëiâ òà ìàòåìàòè÷íèõ
ñïîäiâàíü. Áiëüø äîêëàäíî ïðî öi òà iíøi ïîíÿòòÿ òåîði¨ éìîâiðíîñòåé
ìîæíà ïðî÷èòàòè ó êíèæêàõ [2, 9, 18]

6.1 Загальнi поняття та схема використання ос-


новних розподiлiв в R
Ó ìàòåìàòè÷íié ñòàòèñòèöi äàíi ïðèéíÿòî ðîçãëÿäàòè ÿê âèïàäêî-
âi îá'¹êòè  âèïàäêîâi âåëè÷èíè àáî âåêòîðè, ïðîöåñè, ïîëÿ, ìíîæè-
íè. . . Còàòèñòè÷íi õàðàêòåðèñòèêè äàíèõ ïðèðîäíî îïèñóâàòè ó òåðìiíàõ
éìîâiðíiñíèõ ðîçïîäiëiâ öèõ îá'¹êòiâ.
Ðîçïîäië áóäü-ÿêî¨ âèïàäêîâî¨ âåëè÷èíè 𝜉 ìîæíà çàäàòè, âêàçóþ÷è
ôóíêöiþ ðîçïîäiëó, òîáòî 𝐹𝜉 (𝑥) = P{𝜉 ≤ 𝑥}. ßêùî iñíó¹ òàêà ôóíêöiÿ

180
6.1. Загальнi поняття та схема використання основних розподiлiв в R 181

∫︀ 𝑥
𝑓𝜉 (𝑥), ùî 𝐹𝜉 (𝑥) =
−∞ 𝜉
𝑓 (𝑡)𝑑𝑡 ïðè âñiõ 𝑥 ∈ R, òî êàæóòü, ùî ðîçïîäië ¹
àáñîëþòíî íåïåðåðâíèì, à 𝑓𝜉 , íàçèâàþòü ùiëüíiñòþ ðîçïîäiëó. Ùiëüíiñòü
òàêîæ îäíîçíà÷íî çàä๠ðîçïîäië.
ßêùî ðîçïîäië ¹ äèñêðåòíèì, òîáòî iñíó¹ çëi÷åííèé íàáið 𝑇 =
{𝑡1 , 𝑡2 , . . . , } ∈ R, òàêèé, ùî P{𝜉 ∈ 𝑇 } = 1, òî ôóíêöiþ 𝑓𝜉 (𝑥) = P{𝜉 = 𝑥}
ìîæíà òðàêòóâàòè ÿê ùiëüíiñòü ðîçïîäiëó 𝜉 âiäíîñíî ëi÷èëüíî¨ ìiðè. Öþ
ôóíêöiþ iíêîëè òàêîæ íàçèâàþòü ðîçïîäiëîì (àáî ðÿäîì ðîçïîäiëó) äèñ-
êðåòíî¨ âèïàäêîâî¨ âåëè÷èíè (probability mass function).
𝜉
Êâàíòèëåì 𝑄 (𝛼) ðîçïîäiëó âèïàäêîâî¨ âåëè÷èíè 𝜉 ðiâíÿ 𝛼 íàçèâà-
1
þòü íàéìåíøå ñåðåä ÷èñåë 𝑥, äëÿ ÿêèõ 𝐹𝜉 (𝑥) ≥ 𝛼. ßêùî iñíó¹ ôóíêöiÿ
𝐹𝜉−1 (𝑥), îáåðíåíà äî ôóíêöi¨ ðîçïîäiëó, òî 𝑄𝜉 (𝛼) = 𝐹𝜉−1 (𝛼).
Äëÿ îïèñó ðîçïîäiëó äàíèõ òà ôóíêöié âiä íèõ (ñòàòèñòèê) ÷àñòî
âèêîðèñòîâóþòüñÿ ïàðàìåòðè÷íi ìîäåëi, ó ÿêèõ ôóíêöiÿ ðîçïîäiëó ââà-
æà¹òüñÿ âiäîìîþ ç òî÷íiñòþ äî äåÿêèõ ïàðàìåòðiâ. Ó íàñòóïíèõ ïiä-
ðîçäiëàõ öüîãî ðîçäiëó íàéáiëüø âæèâàíi ìîäåëi ðîçïîäiëiâ ðîçãëÿíóòi
äåòàëüíiøå. Çàðàç ìè îáìåæèìîñü çàãàëüíîþ ñõåìîþ îðãàíiçàöi¨ éìîâið-
íiñíèõ îá÷èñëåíü çà äîïîìîãîþ R.
Ó R äëÿ ðÿäó íàéáiëüø ïîøèðåíèõ ïàðàìåòðè÷íèõ ìîäåëåé ðåàëiçî-
âàíi ôóíêöi¨, ùî îá÷èñëþþòü ôóíêöiþ ðîçïîäiëó, ùiëüíiñòü, êâàíòèëi
äëÿ çàäàíîãî ðîçïîäiëó òà ãåíåðóþòü ïñåâäîâèïàäêîâó âåëè÷èíó iç çàäà-
íèì ðîçïîäiëîì. Öi ôóíêöi¨ îðãàíiçîâàíi çà ¹äèíîþ ñõåìîþ. Iì'ÿ ôóíêöi¨
óòâîðþ¹òüñÿ ç мнемонiки  ñêîðî÷åíîãî iìåíi ðîçïîäiëó (äèâ. òàáë. 6.1)
òà ïðåôiêñó, ÿêèé âêàçó¹, ùî îá÷èñëþ¹ äàíà ôóíêöiÿ. Ïðåôiêñè ìîæóòü
áóòè òàêèìè:
p  îá÷èñëåííÿ ôóíêöi¨ ðîçïîäiëó (probability). Íàïðèêëàä, pnorm(1.96)
 ôóíêöiÿ ñòàíäàðòíîãî íîðìàëüíîãî ðîçïîäiëó ó òî÷öi 1.96 (äèâ. ï.
6.2.1);
d  îá÷èñëåííÿ ùiëüíîñòi (density) ðîçïîäiëó (äëÿ àáñîëþòíî íåïå-
ðåðâíèõ âèïàäêîâèõ âåëè÷èí) àáî éìîâiðíîñòi ïîïàäàííÿ ó òî÷êó (äëÿ
äèñêðåòíèõ): dbinom(1,size=1,prob=0.5)  éìîâiðíiñòü òîãî, ùî âèïàä-
êîâà âåëè÷èíà ç áiíîìiàëüíèì ðîçïîäiëîì äîðiâíþ¹ 1, ÿêùî éìîâiðíiñòü
óñïiõó 0.5, à êiëüêiñòü âèïðîáóâàíü  1 (äèâ. ï. 6.3.1).
q  îá÷èñëåííÿ êâàíòèëÿ (quantile) çàäàíîãî ðiâíÿ: çíà÷åííÿì ôóíê-
öi¨ qnorm(c(0.025,0.975)) áóäå âåêòîð êâàíòèëiâ ðiâíÿ 0.025 i 0.975 äëÿ
ñòàíäàðòíîãî íîðìàëüíîãî ðîçïîäiëó, òîáòî (-1.959964, 1.959964).
r  ãåíåðàöiÿ ïñåâäîâèïàäêîâèõ ÷èñåë (random number) iç çàäàíèì

1
Точнiше, 𝑄𝜉 (𝛼) = inf{𝑥 ∈ R : 𝐹𝜉 (𝑥) ≥ 𝛼}
6.1. Загальнi поняття та схема використання основних розподiлiв в R 182

Таблиця 6.1. Iмена функцiй для основних ймовiрнiсних розподiлiв

Ðîçïîäië Ìíåìîíiêà Ïàðàìåòðè


áåòà beta shape1, shape2
áiíîìiàëüíèé binom size, prob
ãàììà gamma shape, rate
ãåîìåòðè÷íèé geom prob
ãiïåðãåîìåòðè÷íèé hyper m, n, k
åêñïîíåíöiéíèé exp rate
Êîøi cauchy location, scale
ëîãiñòè÷íèé logis location scale
ëîãíîðìàëüíèé lnorm meanlog, sdlog
íåãàòèâíèé áiíîìiàëüíèé nbinom size, prob
íîðìàëüíèé norm mean, sd
Ïóàññîíà pois lambda
ðiâíîìiðíèé unif min, max
Âåéáóëà weibull shape, scale
Âiëêîêñîíà wilcox m,n
2
𝜒 chisq df
F-Ôiøåðà f df1, df2
T-Ñòüþäåíòà t df

ðîçïîäiëîì: rnorm(100) ãåíåðó¹ 100 ïñåâäîâèïàäêîâèõ çíà÷åíü, ùî ìî-


äåëþþòü âèáiðêó ç íåçàëåæíèõ ñòàíäàðòíèõ íîðìàëüíèõ âèïàäêîâèõ âå-
ëè÷èí.
Ó ôóíêöié ç ïðåôiêñàìè p, d i q ïåðøèì ïàðàìåòðîì ¹ âåêòîð çíà-
÷åíü àðãóìåíòiâ, äëÿ ÿêèõ òðåáà îá÷èñëèòè âiäïîâiäíó ôóíêöiþ (ô.ð.,
ùiëüíiñòü, êâàíòèëü). Ó ôóíêöié ç ïðåôiêñîì r (ïñåâäîâèïàäêîâèõ ãåíå-
ðàòîðiâ) ïåðøèé àðãóìåíò  ðîçìið âèáiðêè, òîáòî êiëüêiñòü ãåíåðîâàíèõ
âåëè÷èí.
Íàñòóïíi ïàðàìåòðè ¹ ïàðàìåòðàìè ðîçïîäiëó. Âîíè ðiçíi äëÿ ðiç-
íèõ ðîçïîäiëiâ (äèâ. òðåòié ñòîâï÷èê òàáëèöi 6.1), àëå îäíàêîâi äëÿ âñiõ
ôóíêöié, ïîâ'ÿçàíèõ ç äàíèì ðîçïîäiëîì. Íàïðèêëàä, äëÿ íîðìàëüíîãî
ðîçïîäiëó, ïàðàìåòðè mean òà sd âêàçóþòü ìàòåìàòè÷íå ñïîäiâàííÿ òà
ñòàíäàðòíå âiäõèëåííÿ (êîðiíü êâàäðàòíèé ç äèñïåðñi¨).
Ó âñiõ ôóíêöié ç ïðåôiêñîì p i q ¹ ëîãi÷íèé ïàðàìåòð-îïöiÿ
lower.tail. Éîãî çíà÷åííÿ çà óìîâ÷àííÿì  FALSE. ßêùî çàäàòè
6.2. Неперервнi розподiли на прямiй 183

lower.tail=T, òî p-ôóíêöiÿ áóäå çàìiñòü ôóíêöi¨ ðîçïîäiëó îá÷èñëþ-


âàòè ôóíêöiþ âèæèâàííÿ P{𝜉 > 𝑥} = 1 − 𝐹𝜉 (𝑥), à q-ôóíêöiÿ  âåðõíié
𝜉
êâàíòèëü, òîáòî 𝑄 (1 − 𝛼).
ßêùî ó ôóíêöi¨ p çàäàòè îïöiþ log.p=T, òî âîíè áóäóòü îá÷èñëþâàòè
ëîãàðèôì ô.ð.:

pnorm(-1.96,log.p=T)

## [1] -3.688964

log(pnorm(-1.96))

## [1] -3.688964

(Íàñïðàâäi pnorm(-1.96,log.p=T) íå îá÷èñëþ¹ ñïî÷àòêó ô.ð., à ïî-


òiì ¨ ¨ ëîãàðèôì, à îäðàçó øóê๠öåé ëîãàðèôì çà ñïåöiàëüíèì àëãîðèò-
ìîì íàáëèæåíîãî îá÷èñëåííÿ. Òîìó öåé âàðiàíò ïðàöþ¹ øâèäøå i äà¹
òî÷íiøèé ðåçóëüòàò íiæ log(pnorm(-1.96)), õî÷à äëÿ áiëüøîñòi çàñòî-
ñóâàíü ðiçíèöÿ ïðàêòè÷íî íåïîìiòíà).

6.2 Неперервнi розподiли на прямiй


Ó öüîìó ïiäðîçäiëi ðîçãëÿäàþòüñÿ íàéáiëüø âæèâàíi ðîçïîäiëè, øî
îïèñóþòü ïîâåäiíêó âèïàäêîâèõ âåëè÷èí, ÿêi ìîæóòü ïðèéìàòè äîâiëüíi
÷èñëîâi çíà÷åííÿ íà âñié ïðÿìié, àáî íà äåÿêîìó iíòåðâàëi (íåïåðåðâíèõ
âèïàäêîâèõ âåëè÷èí).

6.2.1 Одновимiрний гауссiв (нормальний) розподiл


2
Ãàóññiâ (íîðìàëüíèé) ðîçïîäië ¹, ìàáóòü, íàéáiëüø âæèâàíîþ ìîäåë-
ëþ ðîçïîäiëó íåïåðåðâíî¨ âèïàäêîâî¨ âåëè÷èíè. Êàæóòü, ùî â.â. 𝜉 ìà¹
2 2
íîðìàëüíèé ðîçïîäië ç ïàðàìåòðàìè 𝜇, 𝜎 (ïîçíà÷à¹òüñÿ 𝜉 ∼ 𝑁 (𝜇, 𝜎 )),
ÿêùî ùiëüíiñòü ðîçïîäiëó 𝜉 ì๠âèãëÿä:

(𝑥 − 𝜇)2
(︂ )︂
1
𝑓𝜉 (𝑥) = 𝑓 (𝑥; 𝜇, 𝜎) = √ exp − .
2𝜋𝜎 2𝜎 2
2
Gaussuian, normal.
6.2. Неперервнi розподiли на прямiй 184

Ãàóññiâ ðîçïîäië ç ïàðàìåòðàìè 𝜇 = 0, 𝜎 2 = 1 íàçèâàþòü ñòàíäàðòíèì.


Éîãî ùiëüíiñòü ïîçíà÷àþòü

1 2
𝜙(𝑥) = √ 𝑒−𝑥 /2
2𝜋
Ôóíêöiÿ ðîçïîäiëó 𝜉 íå çàïèñó¹òüñÿ àíàëiòè÷íî
∫︁ 𝑥
𝐹𝜉 (𝑥) = 𝐹 (𝑥, 𝜇, 𝜎) = 𝑓 (𝑡, 𝜇, 𝜎)𝑑𝑡,
−∞

àëå ¨ ¨ ìîæíà âèðàçèòè ÷åðåç стандартну функцiю нормального розподi-


3
лу
𝑥
𝑡2
∫︁ (︂ )︂
1
Φ(𝑥) = 𝐹 (𝑥, 0, 1) = √ exp − 𝑑𝑡.
2𝜋 −∞ 2
Äëÿ áóäü-ÿêèõ 𝜇 ∈ R i 𝜎 > 0
(︂ )︂
2 𝑥−𝜇
𝐹 (𝑥, 𝜇, 𝜎 ) = Φ .
𝜎
ßêùî 𝜉 ∼ 𝑁 (𝜇, 𝜎 2 ), ïàðàìåòð 𝜇 ¹ ìàòåìàòè÷íèì ñïîäiâàííÿì òà ìåäià-
2
íîþ ðîçïîäiëó 𝜉 , 𝜎  äèñïåðñiÿ 𝜉 . Ãðàôiêè ùiëüíîñòåé íîðìàëüíîãî
ðîçïîäiëó ïðè ðiçíèõ çíà÷åííÿõ ïàðàìåòðiâ çîáðàæåíî íà ðèñ. 6.1. Öi
ãðàôiêè ïîáóäîâàíi íàñòóïíèì ñêðèïòîì:

plot(c(-4,4),c(0,0.8),type="n",xlab="x",ylab="density")
curve(dnorm(x,mean=0,sd=1),-4,4,lwd=2,add=T)
curve(dnorm(x,mean=0,sd=0.5),-4,4,col="red",lwd=2,add=T)
curve(dnorm(x,mean=0,sd=1.5),-4,4,col="green",lwd=2,add=T)
curve(dnorm(x,mean=1,sd=1),-4,4,col="blue",lwd=2,add=T)
legend(-4,0.75,
legend=c("N(0,1)","N(0,0.25)","N(0,1.75)","N(1,1)"),
lty=c(1,1,1,1),lwd=c(2,2,2,2),
col=c(1,"red","green","blue"))

3
Ця функцiя виражається через спецiальну
√ функцiю erf (гауссова функцiя помилок, iн-
теграл помилок): Φ(𝑥) = (1 + erf(𝑥/ 2))/2, де
∫︁ 𝑥
2 2
erf(𝑥) = √ 𝑒−𝑡 𝑑𝑡.
𝜋 0
6.2. Неперервнi розподiли на прямiй 185

0.8
N(0,1)
N(0,0.25)
N(0,1.75)
N(1,1)

0.6
density

0.4
0.2
0.0

−4 −2 0 2 4

Рис. 6.1. Щiльнiсть нормального розподiлу

Íà ãðàôiêàõ âèäíî, ùî ïàðàìåòð 𝜇 âèçíà÷๠ïîëîæåííÿ òî÷êè ìàê-


ñèìóìó (ïiêà) ãàóññîâî¨ ùiëüíîñòi, à 𝜎 2  ãîñòðîòó ïiêà (÷èì ìåíøå 𝜎 2 ,
òèì ïiê ãîñòðiøèé).
Ó R ìíåìîíiêà íîðìàëüíîãî ðîçïîäiëó  norm, ïàðàìåòð 𝜇 ïîçíà÷à¹òü-
ñÿ ÿê mean  ñåðåäí¹, 𝜎  ÿê sd (ñêîðî÷åííÿ âiä standard deviation 
ñåðåäíüîêâàäðàòè÷íå âiäõèëåííÿ).
Âàæëèâîþ îñîáëèâiñòþ ãàóññîâîãî ðîçïîäiëó ¹ òå, ùî ñóìà êiëüêîõ
íåçàëåæíèõ ãàóññîâèõ âèïàäêîâèõ âåëè÷èí òàêîæ ¹ ãàóññîâîþ. Òî÷íiøå,
ÿêùî 𝜉𝑖 ∼ 𝑁 (𝜇𝑖 , 𝜎𝑖 ), 𝑖 = 1, . . . , 𝑛  íåçàëåæíi, òî

𝑛
(︃ 𝑛 𝑛
)︃
∑︁ ∑︁ ∑︁
𝜉𝑖 ∼ 𝑁 𝜇𝑖 , 𝜎𝑖2 .
𝑖=1 𝑖=1 𝑖=1

Ñâî¹þ ïîïóëÿðíîñòi ó ñòàòèñòèöi ãàóññiâ ðîçïîäië çàâäÿ÷ó¹ öåíòðàëüíié


ãðàíè÷íié òåîðåìi. Ãðóáî êàæó÷è, öÿ òåîðåìà ñòâåðäæó¹, ùî ñóìà âå-
ëèêî¨ êiëüêîñòi íåçàëåæíèõ âèïàäêîâèõ âåëè÷èí, äèñïåðñi¨ ÿêèõ íå äóæå
ñèëüíî âiäðiçíÿþòüñÿ, ì๠ïðèáëèçíî ãàóññiâ ðîçïîäië. Òàêèì ÷èíîì, öåé
ðîçïîäië ïðèðîäíî çàñòîñîâóâàòè äëÿ îïèñó âèïàäêîâî¨ ïîâåäiíêè òàêèõ
âåëè÷èí, ÿêi ñêëàäàþòüñÿ ïiä äi¹þ áàãàòüîõ ðiçíèõ ôàêòîðiâ, íå äóæå
çàëåæíèõ ìiæ ñîáîþ, ÿêùî ¨õ âïëèâè íà äàíó âåëè÷èíó ïiäñóìîâóþòüñÿ.
Íàïðèêëàä, ïðè ñòðiëüái ç ëóêà ó ìiøåíü âiäõèëåííÿ òî÷êè ïîïàäàí-
íÿ âiä öåíòðó ìiøåíi óòâîðþ¹òüñÿ âíàñëiäîê íåòî÷íîãî ïðèöiëþâàííÿ,
êîëèâàíü òiëà ñòðiëêà ïðè ñòðiëüái, ïîðèâiâ âiòðó, òîùî. Òàêèõ ôàêòîðiâ
6.2. Неперервнi розподiли на прямiй 186

áàãàòî, âîíè ìàëî ïîâ'ÿçàíi îäèí ç îäíèì, à ¨õ âïëèâè íàêëàäàþòüñÿ,


ñòâîðþþ÷è ðåçóëüòàò  êîîðäèíàòó ïî ãîðèçîíòàëi (àáî âåðòèêàëi), òî÷-
êè ïîïàäàííÿ ñòðiëè ó ìiøåíü. Òîìó òàêó êîîðäèíàòó ïðèðîäíî ñïðîáó-
âàòè îïèñàòè ãàóññîâèì ðîçïîäiëîì.
Çîâñiì íå îáîâ'ÿçêîâî, ùîá ðåçóëüòàòè ðåàëüíèõ ñòðiëüá äiéñíî îïèñó-
âàëèñü öèì ðîçïîäiëîì. ×îìó ìîæå âèíèêàòè âiäõèëåííÿ âiä ãàóññîâîãî
ðîçïîäiëó? Íå ãàóññîâiñòü ÷àñòî âèíèêà¹, ÿêùî îäíà ïðè÷èíà ñåðåä òèõ,
ùî ôîðìóþòü ñïîñòåðåæåííÿ, ¹ çíà÷íî âïëèâîâiøîþ íiæ iíøi. Ñêàæiìî,
ñòðiëîê ìîæå öiëèòèñü çàïëþùóþ÷è ïðàâå àáî ëiâå îêî. ßêùî âií ëiâèì
îêîì áà÷èòü çíà÷íî êðàùå, íiæ ïðàâèì, òî ðiçíi âàðiàíòè çàïëþùóâàííÿ
î÷åé áóäóòü ïðèâîäèòè äî ðiçíèõ ðîçïîäiëiâ êîîðäèíàò òî÷êè ïîïàäàííÿ.
ßêùî ñïîñòåðiãàòè öi ðåçóëüòàòè ðàçîì, íå çíàþ÷è, ÿêå îêî çàïëþùóâàâ
ñòðiëîê ïðè êîæíîìó êîíêðåòíîìó ïîñòðiëi, òî ìè îòðèìà¹ìî ñóìiø äâîõ
íàáîðiâ ñïîñòåðåæåíü ç ðiçíèìè ðîçïîäiëàìè: äëÿ ëiâîãî i äëÿ ïðàâîãî
îêà îêðåìî (ïðî ñóìiøi äèâ. 6.4.3). Íàâiòü êîëè ðîçïîäië êîæíîãî ç öèõ
íàáîðiâ ¹ ãàóññîâèì, ðîçïîäië ¨õ ñóìiøi íå áóäå ãàóññîâèì.
Àíàëiç ñïîñòåðåæåíü, ùî îïèñóþòüñÿ ãàóññîâèì ðîçïîäiëîì  îäèí
ç íàéáiëüø ðîçâèíåíèõ ðîçäiëiâ ìàòåìàòè÷íî¨ ñòàòèñòèêè. Ó öié êíèæöi
îöiíþâàííþ çà ãàóññîâèìè ñïîñòåðåæåííÿìè ïðèñâÿ÷åíi ïðèêëàäè 8.4.2,
8.4.3, 8.5.3, à ïåðåâiðöi ãiïîòåç  ï. 9.5.
Áàãàòî ðîçïîäiëiâ, ïîâ'ÿçàíèõ ç ãàóññîâèì (ïiâíîðìàëüíèé, ëîãíîð-
ìàëüíèé, õi-êâàäðàò, T-Ñòüþäåíòà, F-Ôiøåðà) ìè ðîçãëÿíåìî äàëi. Êðiì
òîãî, îñîáëèâîãî ðîçãëÿäó çàñëóãîâó¹ áàãàòîâèìiðíèé ãàóññiâ ðîçïîäië.

6.2.2 Пiвнормальний розподiл


Ïiâíîðìàëüíèì (half-normal) íàçèâàþòü ðîçïîäië, ÿêèé ì๠âèïàäêî-
âà âåëè÷èíà𝜂 = |𝜉| äå 𝜉 ∼ 𝑁 (0, 𝜎 2 ). Ïîçíà÷åííÿ 𝜂 ∼ 𝐻𝑎𝑙𝑓 𝑁 (𝜎 2 ). Öåé
ðîçïîäië ïðèðîäíî çàñòîñîâóâàòè äëÿ ìîäåëþâàííÿ ïîâåäiíêè âåëè÷èí,
ùî âèçíà÷àþòüñÿ ÿê âiäõèëåííÿ ÷îãîñü, ùî ì๠íîðìàëüíèé ðîçïîäië,
âiä ñåðåäíüîãî ïîëîæåííÿ, áåç óðàõóâàííÿ íàïðÿìêó âiäõèëåííÿ.
Ùiëüíiñòü ïiâíîðìàëüíîãî ðîçïîäiëó

{︃ √ (︁ 2 )︁
√2 𝑥
exp − 2𝜎 2 ïðè 𝑥 ≥ 0,
𝜎 𝜋
𝑓 (𝑥) = 𝑓 (𝑥, 𝜎) =
0 ïðè 𝑥 < 0.
6.2. Неперервнi розподiли на прямiй 187

Ôóíêöiÿ ðîçïîäiëó

{︃
2Φ(𝑥/𝜎) − 1 ïðè 𝑥>0
𝐹 (𝑥) = 𝐹 (𝑥; 𝜎 2 ) =
0 ïðè 𝑥 < 0.

Iíêîëè äëÿ ïàðàìåòðèçàöi¨ ïiâíîðìàëüíèõ ðîçïîäiëiâ çàìiñòü ïàðàìåòðà


𝜎 2 âèêîðèñòîâóþòü √
𝜋
𝜗= √ .
𝜎 2
Ìàòåìàòè÷íå ñïîäiâàííÿ òà äèñïåðñiÿ ïiâíîðìàëüíîãî ðîçïîäiëó

√ (︂ )︂
𝜎 2 1 2
E𝜂 = √ = , D𝜂 = 1 − 𝜎2.
𝜋 𝜗 𝜋

Ìåäiàíà
med(𝜂) = 𝜎Φ−1 (3/4).

6.2.3 Логнормальний розподiл


Ëîãíîðìàëüíèì (log-normal) íàçèâàþòü ðîçïîäië, ÿêèé ì๠âèïàäêîâà
𝜉 2
âåëè÷èíà 𝜂 = 𝑒 , äå 𝜉 ∼ 𝑁 (𝜇, 𝜎 ). Iíàêøå êàæó÷è, ëîãàðèôì ëîãíîðìàëü-
2
íî¨ âåëè÷èíè ì๠íîðìàëüíèé ðîçïîäië. Ïîçíà÷åííÿ 𝜂 ∼ 𝐿𝑁 (𝜇, 𝜎 ).
2
Ùiëüíiñòü ðîçïîäiëó ëîãíîðìàëüíî¨ âåëè÷èíè ç ïàðàìåòðàìè (𝜇, 𝜎 ):

(︁ )︁
(log 𝑥−𝜇)2
{︃
1
𝑥𝜎

2𝜋
exp − 2𝜎 2
ïðè 𝑥 > 0,
𝑓𝜂 (𝑥) = 𝑓 (𝑥; 𝜇, 𝜎) =
0 ïðè 𝑥 ≤ 0.

Ãðàôiêè öi¹¨ ùiëüíîñòi ïðè ðiçíèõ çíà÷åííÿõ ïàðàìåòðiâ çîáðàæåíi íà


ðèñ. 6.2.
Ôóíêöiÿ ðîçïîäiëó:

{︃ (︀
Φ log 𝜎𝑥−𝜇
)︀
ïðè 𝑥 > 0,
𝐹𝜂 (𝑥) =
0 ïðè 𝑥 ≤ 0.

Ìàòåìàòè÷íå ñïîäiâàííÿ, äèñïåðñiÿ i ìåäiàíà:

2 2
E 𝜂 = exp(𝜇 + 𝜎 2 /2), D 𝜂 = (𝑒𝜎 − 1)𝑒2𝜇+𝜎 , med(𝜂) = 𝑒𝜇 .
6.2. Неперервнi розподiли на прямiй 188

1.0
LN(0,1)
LN(0,0.25)
LN(0,1.75)
LN(1,1)

0.8
0.6
density

0.4
0.2
0.0

0 1 2 3 4

Рис. 6.2. Щiльнiсть логнормального розподiлу

Ó R ëîãíîðìàëüíèé ðîçïîäië ì๠iì'ÿ (ìíåìîíiêó) lnorm, éîãî ïàðàìåòðè


𝜇  meanlog, 𝜎  sdlog.
Ïîøèðåíiñòü ëîãíîðìàëüíîãî ðîçïîäiëó ñåðåä ìîäåëåé ðåàëüíèõ äà-
íèõ ïîÿñíþ¹òüñÿ öåíòðàëüíîþ ãðàíè÷íîþ òåîðåìîþ àíàëîãi÷íî òîìó, ÿê
öå áóëî äëÿ ãàóññîâîãî ðîçïîäiëó. Äiéñíî, ÿêùî äåÿêà ñïîñòåðåæóâàíà
âåëè÷èíà 𝜂 ôîðìó¹òüñÿ ÿê äîáóòîê âåëèêî¨ êiëüêîñòi íåçàëåæíèõ âèïàä-
êîâèõ âåëè÷èí, òî ¨ ¨ ëîãàðèôì áóäå ñóìîþ ëîãàðèôìiâ ñïiâìíîæíèêiâ.
Îòæå, âíàñëiäîê öåíòðàëüíî¨ ãðàíè÷íî¨ òåîðåìè, ìîæíà ñïîäiâàòèñü, ùî
ðîçïîäië log 𝜂 áóäå áëèçüêèì äî ãàóññîâîãî, à ðîçïîäië ñàìîãî 𝜂  ëî-
ãíîðìàëüíèì.
Òàêèì ÷èíîì, ÿêùî âïëèâè ðiçíèõ ïðè÷èí, ùî ôîðìóþòü äîñëiäæó-
âàíó âåëè÷èíó äîäàþòüñÿ, ìîæíà î÷iêóâàòè íîðìàëüíîãî ðîçïîäiëó, à
ÿêùî ïåðåìíîæàþòüñÿ  ëîãíîðìàëüíîãî. Çðîçóìiëî, ùî ó áiëüøîñòi ðå-
àëüíèõ äîñëiäæåíü êîíêðåòíèé ñïîñiá âçà¹ìîäi¨ ðiçíèõ ïðè÷èí íå îïè-
ñó¹òüñÿ òàêèìè ïðîñòèìè ôîðìóëàìè ÿê ñóìà ÷è äîáóòîê. Öå ëèøå äóæå
ñïðîùåíèé ñïîñiá ìiðêóâàíü, ùî ìîæóòü íàâåñòè íà iäåþ âèáîðó âiäïî-
âiäíîãî ðîçïîäiëó. Çîêðåìà, ìîæíà ñïîäiâàòèñü ëîãíîðìàëüíîñòi òàì, äå
ðîçìið, äîñÿãíóòèé ðàíiøå, ïiäñèëþ¹ ìîæëèâîñòi ïîäàëüøîãî çðîñòàííÿ.
Íàïðèêëàä, ÿêùî äîñëiäæóâàíà çìiííà  ðîçìið êàïiòàëó ðiçíèõ ïiä-
ïðè¹ìñòâ äåÿêî¨ ãàëóçi, òî ìîæíà ïðèïóñêàòè, ùî öåé ðîçìið ñêëàäà¹òüñÿ
ïiä äi¹þ áàãàòüîõ ïðè÷èí i çìiíþ¹òüñÿ ç ÷àñîì. Àëå, ÿêùî ïiäïðè¹ìñòâî
ì๠êàïiòàë â 1 òèñ. ãðèâåíü, íàâiòü ó ñïðèÿòëèâèõ óìîâàõ, éîìó âàæ÷å
ïðîòÿãîì ðîêó çáiëüøèòè öåé êàïiòàë íà 10 òèñ. íiæ ïiäïðè¹ìñòâó, ùî
6.2. Неперервнi розподiли на прямiй 189

ì๠êàïiòàë 1 ìëí. ãðèâåíü. Òàêîæ i âòðàòè ïiä âïëèâîì íåñïðèÿòëèâèõ


îáñòàâèí ó áiëüøîãî ïiäïðè¹ìñòâà áóäóòü áiëüøi. Äîñÿãíóòèé ïiäïðè¹ì-
ñòâîì ðîçìið ïiäñèëþ¹ âïëèâ âèïàäêîâèõ ïðè÷èí.
Ó öüîìó ïðèêëàäi ïðèðîäíî õàðàêòåðèçóâàòè ïðèðîñòè íå íà ñòiëüêè-
òî ãðèâåíü, à ó ñòiëüêè-òî ðàçiâ, òîáòî âíåñêè âèïàäêîâèõ âïëèâiâ ïå-
ðåìíîæàþòüñÿ à íå äîäàþòüñÿ. Îòæå, ñêîðiøå ñëiä ñïîäiâàòèñü ëîãíîð-
ìàëüíîãî ðîçïîäiëó äëÿ ðîçìiðó êàïiòàëiâ.
Ëîãíîðìàëüíèé ðîçïîäië âiäíîñèòüñÿ äî êëàñó ðîçïîäiëiâ, ùî ïîðîä-
æóþòü âèêèäè. Òîáòî äëÿ âèáiðêè ç ëîãíîðìàëüíèì ðîçïîäiëîì òèïîâîþ
¹ íàÿâíiñòü âèêèäiâ íàâiòü òîäi, êîëè çàáðóäíåíü ñòîðîííiìè ñïîñòåðå-
æåííÿìè íåìà¹.
Äàëi ó ïðèêëàäi 10.2.2 ìè ïîáà÷èìî, ùî ó ðåãðåñiéíié ôîðìóëi, ÿêà
ïîâ'ÿçó¹ âàãó i äîâæèíó îñåëåäöiâ, ïîõèáêè ìàþòü ëîãíîðìàëüíèé ðîç-
ïîäië.

6.2.4 Експоненцiйний i гамма розподiли та розподiл Лапла-


са
Åêñïîíåíöiéíèì (ïîêàçíèêîâèì, exponential) íàçèâàþòü ðîçïîäië âè-
ïàäêîâî¨ âåëè÷èíè 𝜉 çi ùiëüíiñòþ
{︃
𝜆𝑒−𝜆𝑥 ïðè 𝑥 ≥ 0,
𝑓𝜉 (𝑥) = 𝑓 (𝑥; 𝜆) =
0 ïðè 𝑥 < 0.

 ïàðàìåòð, ùî çâåòüñÿ iíòåíñèâíiñòþ (rate â R). 4


äå𝜆>0 Ïîçíà÷åííÿ
Exp(𝜆)
Ôóíêöiÿ ðîçïîäiëó:
{︃
1 − 𝑒−𝜆𝑥 ïðè 𝑥 ≥ 0,
𝐹𝜉 (𝑥) = 𝐹 (𝑥; 𝜆) =
0 ïðè 𝑥 < 0.

Òàêèì ÷èíîì, åêñïîíåíöiéíî ðîçïîäiëåíi âèïàäêîâi âåëè÷èíè ìîæóòü


ïðèéìàòè ëèøå äîäàòíi çíà÷åííÿ.
Åêñïîíåíöiéíèé ðîçïîäië ÷àñòî âèêîðèñòîâóþòü äëÿ îïèñó ÷àñó
î÷iêóâàííÿ ÿêèõ-íåáóòü ïîäié. Öå ïîâ'ÿçàíî ç âëàñòèâiñòþ âiäñóòíîñòi

4
Iнколи використовують параметризацiю експоненцiйних розподiлiв параметром 𝜗 =
1/𝜆, який дорiвнює математичному сподiванню експоенецiйної випадкової величини. Ана-
логiчна параметризацiя можлива для гамма-розподiлу та розподiлу Лапласа.
6.2. Неперервнi розподiли на прямiй 190

ïiñëÿäi¨, ÿêó ñåðåä íåïåðåðâíèõ ðîçïîäiëiâ ì๠ëèøå åêñïîíåíöiéíèé. À


ñàìå, íåõàé ÷àñ î÷iêóâàííÿ 𝜉 äåÿêî¨ ïîäi¨. Ïðèïóñòèìî, ùî ïðîéøîâ ÷àñ
𝑡, àëå ïîäiÿ íå âiäáóëàñü. ßêèì áóäå ðîçïîäië âåëè÷èíè (𝜉 − 𝑡)  ÷àñó
î÷iêóâàííÿ, ÿêèé çàëèøèâñÿ? ßêùî 𝜉 ì๠åêñïîíåíöiéíèé ðîçïîäië, òî
ðîçïîäië çàëèøêîâîãî ÷àñó ÷åêàííÿ òîé æå, ùî i ó 𝜉:

P{𝜉 − 𝑡 < 𝑥 | 𝜉 ≥ 𝑡} = P{𝜉 < 𝑥}.

Íàïðèêëàä, íåõàé 𝜉  ÷àñ âiä âêðó÷óâàííÿ äî ïåðåãîðÿííÿ åëåêòðè÷íî¨


ëàìïî÷êè. ßêùî ïåðåãîðÿííÿ âiäáóâà¹òüñÿ âíàñëiäîê äi¨ âèïàäêîâèõ çîâ-
íiøíiõ ïðè÷èí, òàêèõ, ÿê ñòðèáêè íàïðóãè ó ìåðåæi, ùî íå ïîâ'ÿçàíi ç
òðèâàëiñòþ ðîáîòè ëàìïî÷êè, òî ïðèðîäíî ñïîäiâàòèñü ñàìå âiäñóòíîñòi
ïiñëÿäi¨: ñêiëüêè á ÷àñó íå äîâåëîñü ëàìïî÷öi ïðîïðàöþâàòè, à øàíñiâ
ïåðåãîðiòè ïðîòÿãîì íàéáëèæ÷î¨ ãîäèíè áóäå ñòiëüêè æ, ÿê êîëè âîíà
5
áóëà çîâñiì íîâà. Ó öüîìó âèïàäêó ðîçïîäië 𝜉 ì๠áóòè åêñïîíåíöiéíèì.
Çðîçóìiëî, ùî ó ðåàëüíèõ ëàìïî÷îê êðiì âèïàäêîâèõ çîâíiøíiõ ïðè-
÷èí ¹ iùå ñòàðiííÿ âíàñëiäîê iíòåíñèâíî¨ ðîáîòè. ßêùî åôåêò ñòàðiííÿ
ïîìiòíèé ïîðiâíÿíî ç åôåêòàìè âèïàäêîâèõ ïðè÷èí, åêñïîíåíöiéíèé ðîç-
ïîäië íå áóäå õîðîøîþ ìîäåëëþ äëÿ îïèñó âiäïîâiäíîãî ÷àñó ÷åêàííÿ.
Ìàòåìàòè÷íå ñïîäiâàííÿ, äèñïåðñiÿ òà ìåäiàíà åêñïîíåíöiéíî¨ âèïàä-
êîâî¨ âåëè÷èíè 𝜉
1 1 log 2
E𝜉 = , D 𝜉 = 2 , med(𝜉) = .
𝜆 𝜆 𝜆
Äàëi ìè ðîçãëÿíåìî ìåòîäè ñòàòèñòè÷íîãî àíàëiçó íà îñíîâi åêñïî-
íåíöiéíîãî ðîçïîäiëó ó ïðèêëàäàõ 8.4.1, 8.5.1, 9.2.1.
Ñóìà 𝑛 íåçàëåæíèõ åêñïîíåíöiéíèõ âèïàäêîâèõ âåëè÷èí 𝜉𝑖 ç îäíàêî-
âîþ iíòåíñèâíiñòþ 𝜆 ì๠гамма-розподiл

𝜉1 + 𝜉2 + · · · + 𝜉𝑛 ∼ Γ(𝑛, 𝜆).

Ùiëüíiñòü ãàììà-ðîçïîäiëó Γ(𝑛, 𝜆):


{︃ 𝑛 𝑛−1
𝜆 𝑥
Γ(𝑛)
𝑒−𝜆𝑥 ïðè 𝑥 ≥ 0,
𝑓 (𝑥; 𝑛, 𝜆) =
0 ïðè 𝑥 < 0,
5
Це коли ми трактуємо час роботи як неперервну величину. Якщо 𝜉 — дискретна величина
(скажiмо, кiлькiсть днiв, якi лампочка пропрацювала до перегоряння) то єдиний можливий
розподiл без пiслядiї для неї — геометричний.
6.2. Неперервнi розподiли на прямiй 191

1.0
Exp(0.5)
Exp(1)
Gamma(3,1)
Gamma(2,1)

0.8
0.6
density

0.4
0.2
0.0

0 1 2 3 4

Рис. 6.3. Щiльнiсть експоненцiйного та гамма розподiлiв

(òóò Γ(𝑛)  ãàììà-ôóíêöiÿ âiä 𝑛, ïàðàìåòðè 𝑛i𝜆 ìîæóòü áóòè äîâiëü-


íèìè äîäàòíèìè ÷èñëàìè).
Ãðàôiêè ùiëüíîñòi åêñïîíåíöiéíîãî òà ãàììà-ðîçïîäiëiâ ïðè ðiçíèõ
çíà÷åííÿõ ïàðàìåòðiâ çîáðàæåíi íà ðèñ. 6.3.
Öåé ðîçïîäië äëÿ öiëèõ 𝑛 òàêîæ íàçèâàþòü ðîçïîäiëîì Åðëàíãà.
Ó R åêñïîíåíöiéíèé ðîçïîäië ì๠ìíåìîíiêó exp, à iíòåíñèâíiñòü 𝜆
âiäïîâiä๠ïàðàìåòðó rate. Ìíåìîíiêà ãàììà-ðîçïîäiëó  gamma, ïàðà-
ìåòðè 𝑛 =shape, 𝜆 =rate.
Ðiçíèöÿ äâîõ íåçàëåæíèõ åêñïîíåíöiéíèõ âèïàäêîâèõ âåëè÷èí 𝜉1 −𝜉2 ç
iíòåíñèâíiñòþ 𝜆 ì๠ðîçïîäië Ëàïëàñà Laplace(0, 𝜆). Ùiëüíiñòü ðîçïîäiëó
Ëàïëàñà Laplace(𝜇, 𝜆):

𝜆 −𝜆|𝑥−𝜇|
𝑓𝜉 (𝑥) = 𝑓 (𝑥; 𝜇, 𝜆) = 𝑒 .
2
Ïî âiäíîøåííþ äî óòâîðåííÿ âèêèäiâ åêñïîíåíöiéíèé ðîçïîäië ââà-
æà¹òüñÿ ïðîìiæíèì. Ðîçïîäiëè, ó ÿêèõ ôóíêöiÿ ðîçïîäiëó ñïàä๠íà
íåñêií÷åííîñòi ïîâiëüíiøå, íiæ åêñïîíåíöiéíà, ïîðîäæóþòü âèêèäè (öå
ðîçïîäiëè ç âàæêèìè õâîñòàìè, òàêi, ÿê T-ðîçïîäië Ñòþäåíòà àáî ðîç-
ïîäië Ïàðåòî). ßêùî ôóíêöiÿ ðîçïîäiëó ñïàä๠øâèäøå, íiæ åêñïîíåí-
öiéíà, òàêèé ðîçïîäië âèêèäiâ íå ïîðîäæó¹ (ðîçïîäiëè ç ëåãêèìè õâîñòà-
ìè  òàêi ÿê íîðìàëüíèé ðîçïîäië). Âèáiðêè ç åêñïîíåíöiéíîãî ðîçïîäi-
ëó íà ãiñòîãðàìi ÷àñòî óòâîðþþòü îêðåìi ñòîâï÷èêè, ùî íå äóæå ñèëüíî
6.2. Неперервнi розподiли на прямiй 192

âiäõèëÿþòüñÿ âiä îñíîâíî¨ ìàñè ñïîñòåðåæåíü. ˆõ iíêîëè íàçèâàþòü ïî-


ìiðíèìè âèêèäàìè.
Ó R ôóíêöi¨ äëÿ ðîáîòè ç ðîçïîäiëîì Ëàïëàñà ¹ ó áiáëiîòåöi rmutil.
Âîíè ìàþòü ìíåìîíiêó laplace i ïðàöþþòü àíàëîãi÷íî äî iíøèõ éìîâið-
íiñíèõ ôóíêöié R. Ïàðàìåòð 𝜇 ó öèõ ôóíêöiÿõ ïîçíà÷à¹òüñÿ m, ïàðàìåòð
𝜆  s.

6.2.5 Розподiли екстремальних типiв: Вейбулла, Фреше i


Гумбеля
ßê ìè áà÷èëè âèùå, íîðìàëüíi âèïàäêîâi âåëè÷èíè ïðèðîäíî âèíè-
êàþòü ïðè ïiäñóìîâóâàííi, ëîãíîðìàëüíi  ïðè ìíîæåííi âïëèâiâ. Àëå
êðiì ïiäñóìîâóâàííÿ òà ìíîæåííÿ ìîæëèâå òàêîæ ôîðìóâàííÿ ñïîñòåðå-
æóâàíîãî ðåçóëüòàòó ÿê ìàêñèìóìó àáî ìiíiìóìó äåÿêîãî íàáîðó íåçà-
ëåæíèõ âèïàäêîâèõ âåëè÷èí. Íàïðèêëàä, ìiöíiñòü ëàíöþãà íà ðîçðèâ
äîðiâíþ¹ ìiöíîñòi íàéñëàáøî¨ éîãî ëàíêè. Àíàëîãi÷íî öåíòðàëüíié ãðà-
íè÷íié òåîðåìi iñíó¹ òåîðåìà ïðî ìîæëèâi ãðàíè÷íi ðîçïîäiëè ìàêñèìó-
ìiâ òà ìiíiìóìiâ âåëèêî¨ êiëüêîñòi íåçàëåæíèõ âèïàäêîâèõ âåëè÷èí. ™
òðè òèïè òàêèõ ðîçïîäiëiâ: Âåéáóëëà, Ôðåøå i Ãóìáåëÿ.
Ðîçïîäië Âåéáóëëà âèçíà÷à¹òüñÿ ôóíêöi¹þ ðîçïîäiëó:
{︃ 𝑘
1 − 𝑒−(𝑥/𝜆) ïðè 𝑥 ≥ 0,
𝐹𝜉 (𝑥) =
0 ïðè 𝑥 < 0.
Òóò 𝑘 > 0, 𝜆 > 0  ïàðàìåòðè ðîçïîäiëó. 𝜆 çâóòü ïàðàìåòðîì ìàñøòàáó
(scale), à𝑘  ïàðàìåòðîì ôîðìè (shape). Ïðè âèêîðèñòàííi ó ìàòåðiàëî-
çíàâñòâi 𝑘 íàçèâàþòü âåéáóëëîâèì ïàðàìåòðîì ìàòåðiàëó. Âèÿâëÿ¹òüñÿ,
ùî ìiöíiñòü âèðîáó àáî ÷àñ ðîáîòè ïðèëàäó äî âiäìîâè ÷àñòî ìàþòü ðîç-
ïîäië Âåéáóëëà, ïðè÷îìó ïàðàìåòð 𝑘 çàëåæèòü ïåðåâàæíî âiä ìàòåðiàëó,
ç ÿêîãî çðîáëåíèé âèðiá, à íå âiä éîãî êîíñòðóêòèâíèõ îñîáëèâîñòåé.
Ùiëüíiñòü ðîçïîäiëó Âåéáóëëà:
{︃ (︀ )︀𝑘−1 𝑘
𝑘 𝑥
𝜆 𝜆
𝑒−(𝑥/𝜆) ïðè 𝑥 ≥ 0,
𝑓𝜉 (𝑥) =
0 ïðè 𝑥 < 0.
Ìàòåìàòè÷íå ñïîäiâàííÿ i äèñïåðñiÿ âèïàäêîâî¨ âåëè÷èíè 𝜉 ç ðîçïîäiëîì
Âåéáóëëà:
(︂ )︂ [︃ (︂ )︂ (︂ (︂ )︂)︂2 ]︃
1 2 1
E 𝜉 = 𝜆Γ 1 + , D 𝜉 = 𝜆2 Γ 1 − − Γ 1+ .
𝑘 𝑘 𝑘
6.2. Неперервнi розподiли на прямiй 193

Ó R ðîçïîäië Âåéáóëëà ì๠ìíåìîíiêó weibull.


Çàñòîñóâàííÿ ðîçïîäiëó Âåéáóëëà äëÿ îïèñó òðèâàëîñòi ðîáîòè âàëü-
íèöü ðîçãëÿíóòî ó ïðèêëàäàõ 8.6.2 i 9.3.2.
Ðîçïîäiëè Ãóìáåëÿ i Ôðåøå ìåíøå çàñòîñîâóþòüñÿ ÿê ìîäåëi ðîç-
ïîäiëiâ ðåàëüíèõ äàíèõ, íiæ ðîçïîäië Âåéáóëëà. Íàâåäåìî ¨õ ôóíêöi¨
ðîçïîäiëó. Äëÿ ðîçïîäiëó Ãóìáåëÿ (ëîã-âåéáóëiâ ðîçïîäië):

𝐹𝜉 (𝑥) = exp −𝑒−(𝑥−𝜇)/𝛽 ,


(︀ )︀

äå 𝜇, 𝛽  ïàðàìåòðè ðîçïîäiëó.
Äëÿ ðîçïîäiëó Ôðåøå:

{︃
exp(−(𝑥/𝑠)−𝛼 ) ïðè 𝑥 ≥ 0,
𝐹𝜉 (𝑥) =
0 ïðè 𝑥 < 0.

äå 𝛼i𝑠  ïàðàìåòðè ðîçïîäiëó.

6.2.6 Рiвномiрний розподiл


Âèïàäêîâà âåëè÷èíà 𝜉 ì๠ðiâíîìiðíèé (uniform) ðîçïîäië íà iíòåð-
âàëi [𝑎, 𝑏], ÿêùî ¨ ¨ ùiëüíiñòü

{︃
1
𝑏−𝑎
ïðè 𝑎 ≤ 𝑥 ≤ 𝑏,
𝑓𝜉 (𝑥) = 𝑓 (𝑥; 𝑎, 𝑏) =
0 ïðè 𝑥 ̸∈ [𝑎, 𝑏].

Ôóíêöiÿ ðîçïîäiëó


𝑥−𝑎
⎨ 𝑏−𝑎
⎪ ïðè 𝑎 ≤ 𝑥 ≤ 𝑏,
𝐹𝜉 (𝑥) = 0 ïðè 𝑥 < 𝑎,

1 ïðè 𝑥 > 𝑏.

Ïîçíà÷åííÿ 𝜉 ∼ 𝑈 𝑛𝑖𝑓 [𝑎, 𝑏].


Ìàòåìàòè÷íå ñïîäiâàííÿ, äèñïåðñiÿ, ìåäiàíà:

1 1
E 𝜉 = med(𝜉) = (𝑎 + 𝑏), D 𝜉 = (𝑏 − 𝑎)2 .
2 12
R
Ó ìíåìîíiêà ðiâíîìiðíîãî ðîçïîäiëó  unif, ïàðàìåòðè 𝑎 =min,
𝑏 =max.
6.2. Неперервнi розподiли на прямiй 194

Ðiâíîìiðíèé ðîçïîäië ÷àñòî âèêîðèñòîâóþòü äëÿ îïèñó ïîõèáîê


îêðóãëåííÿ. Íàïðèêëàä, ÿêùî äîâæèíó ÿêèõ-íåáóäü äîñèòü äîâãèõ
ïðåäìåòiâ âèìiðþâàòè ëiíiéêîþ, ùî ì๠ëèøå ñàíòèìåòðîâi ïîäiëêè, i
áðàòè îêðóãëåííÿ äî íàéáëèæ÷î¨ ïîäiëêè, òî ðîçïîäië ïîõèáêè (ó ñàíòè-
ìåòðàõ) áóäå ðiâíîìiðíèì íà[−1/2, 1/2]. ßêùî îêðóãëþâàòè âiäêèäàþ÷è
äðîáîâó ÷àñòèíó  ðiâíîìiðíèì íà [0, 1]. Ó ñòðàõîâié ñïðàâi ïðè êîíòðàê-
òàõ ç âèïëàòîþ ñòðàõîâî¨ ñóìè íàïðèêiíöi ðîêó iíòåðâàë ìiæ ñòðàõîâîþ
ïîäi¹þ òà âèïëàòîþ çà íåþ ââàæàþòü ðiâíîìiðíî ðîçïîäiëåíèì ïðîòÿãîì
ðîêó.
Ñòàòèñòèêà ðiâíîìiðíîãî ðîçïîäiëó ì๠ñâî¨ îñîáëèâîñòi, ÷àñîì
íåñïîäiâàíi äëÿ òèõ, õòî çâèê äî àíàëiçó äàíèõ ç íåïåðåðâíîþ ùiëüíiñòþ
ðîçïîäiëó, äèâ. ïðèêëàä 8.4.5.
Íåõàé 𝜉1 , 𝜉2  íåçàëåæíi, ðiâíîìiðíî ðîçïîäiëåíi âèïàäêîâi âåëè÷èíè
íà [0, 1]. Òîäi 𝜂 = 𝜉1 − 𝜉2 ì๠ñèìåòðè÷íèé òðèêóòíèé ðîçïîäië íà [−1, 1]
(ðîçïîäië Ñiìïñîíà) ç ùiëüíiñòþ

𝑓𝜂 (𝑥) = (1 − |𝑥|)1{|𝑥| < 1},

𝜉1 + 𝜉2 ì๠ñèìåòðè÷íèé òðèêóòíèé ðîçïîäië íà [0, 2], à |𝜉1 − 𝜉2 | ì๠òðè-


êóòíèé ðîçïîäië ç ùiëüíiñòþ

𝑓|𝜂| (𝑥) = 2(1 − 𝑥)1{0 < 𝑥 < 1}.

Ó çàãàëüíîìó âèïàäêó òðèêóòíèé ðîçïîäië (triangular distribution) íà


iíòåðâàëi [𝑎, 𝑏] ç ìîäîþ (âåðøèíîþ) ó 𝑐 ∈ [𝑎, 𝑏] çàäà¹òüñÿ ñâî¹þ ùiëüíiñòþ
⎧ 2(𝑥−𝑎)
⎨ (𝑏−𝑎)(𝑐−𝑎) ïðè 𝑎 ≤ 𝑥 ≤ 𝑐,

2(𝑏−𝑥)
𝑓𝜉 (𝑥) = (𝑏−𝑎)(𝑏−𝑐) ïðè 𝑐 < 𝑥 ≤ 𝑏,

0 ïðè 𝑥 ̸∈ [𝑎, 𝑐].

Ïîçíà÷åííÿ 𝑇 𝑟𝑖𝑎𝑛𝑔𝑙𝑒(𝑎, 𝑏, 𝑐).


Ìàòåìàòè÷íå ñïîäiâàííÿ, äèñïåðñiÿ òà ìåäiàíà òðèêóòíîãî ðîçïîäiëó:

𝑎+𝑏+𝑐 𝑎2 + 𝑏2 + 𝑐2 − 𝑎𝑏 − 𝑎𝑐 − 𝑏𝑐
E𝜉 = , D𝜉 = ,
3 18
⎧ √︁
⎨𝑎 + (𝑏−𝑎)(𝑐−𝑎) ïðè 𝑐 ≥ (𝑎 + 𝑏)/2,
2
med(𝜉) = √︁
⎩𝑏 − (𝑏−𝑎)(𝑐−𝑎) ïðè 𝑐 ≤ (𝑎 + 𝑏)/2.
2
6.2. Неперервнi розподiли на прямiй 195

2.0
Simpson
Unif[0,1]
Triagle(0,1,0)

1.5
density

1.0
0.5
0.0

−1.0 −0.5 0.0 0.5 1.0

Рис. 6.4. Щiльностi рiвномiрного i трикутного розподiлу

Ãðàôiêè ùiëüíîñòi ðiâíîìiðíîãî òà òðèêóòíîãî ðîçïîäiëiâ ïðè ðiçíèõ


çíà÷åííÿõ ïàðàìåòðiâ çîáðàæåíi íà ðèñ. 6.4.
Òðèêóòíèé ðîçïîäië ó çàãàëüíié ôîðìi iíêîëè âèêîðèñòîâóþòü äëÿ
ïiäãîíêè ðîçïîäiëó äàíèõ, çîñåðåäæåíèõ íà ñêií÷åííîìó iíòåðâàëi, îñîá-
ëèâî ÿêùî äàíèõ íåáàãàòî i âiäîìî, ùî ùiëüíiñòü ì๠áóòè óíiìîäàëüíîþ
(òîáòî ìàòè ¹äèíèé ìàêñèìóì). Âèáið ñàìå òðèêóòíîãî ðîçïîäiëó äëÿ òà-
êèõ çàäà÷ íå ì๠òåîðåòè÷íîãî îáãðóíòóâàííÿ i ïîâ'ÿçàíèé ïåðåâàæíî ç
ïðîñòîòîþ çàïèñó ùiëüíîñòi òà ôóíêöi¨ ðîçïîäiëó.

6.2.7 Розподiли, пов’язанi з гауссовим: 𝜒2 , 𝑇 i 𝐹


™ òðè òèïè ðîçïîäiëiâ, ÿêi íå ÷àñòî çàñòîñîâóþòüñÿ äëÿ îïèñó ðåàëü-
íèõ äàíèõ, àëå äóæå ÷àñòî âèíèêàþòü ïðè âèêîðèñòàííi ñòàòèñòè÷íèõ
2
àëãîðèòìiâ: 𝜒 -ðîçïîäië, 𝑇 -ðîçïîäië Ñòüþäåíòà òà 𝐹 -ðîçïîäië Ôiøåðà.
Ó öüîìó ïiäðîçäiëi ìè äàìî ¨õ îçíà÷åííÿ i êîðîòêî îïèøåìî ¨õ âëàñòè-
âîñòi.
Розподiл 𝜒2 . Êàæóòü, ùî âèïàäêîâà âåëè÷èíà 𝜉 ì๠ðîçïîäië 𝜒2 ç 𝜈
ñòóïåíÿìè âiëüíîñòi, ÿêùî ùiëüíiñòü ¨ ¨ ðîçïîäiëó ì๠âèãëÿä:

{︃
𝑥𝑘/2−1 𝑒−𝑥/2
2𝑘/2 Γ(𝑘/2)
ÿêùî 𝑥 > 0,
𝑓𝜉 (𝑥) = .
0 ÿêùî 𝑥<0

𝜒2 -ðîçïîäië  öå ÷àñòêîâèé âèïàäîê Γ-ðîçïîäiëó.


6.2. Неперервнi розподiли на прямiй 196

Ïîçíà÷åííÿ: 𝜉 ∼ 𝜒2𝜈 .
ßêùî 𝜂1 ,. . . ,𝜂𝜈  íåçàëåæíi ñòàíäàðòíi ãàóññîâi âèïàäêîâi âåëè÷èíè,
òî
𝜈
∑︁
𝜉= (𝜂𝑖 )2
𝑖=1
2
ì๠𝜒 -ðîçïîäië ç 𝜈 ñòóïåíÿìè âiëüíîñòi.

E 𝜉 = 𝜈, D 𝜉 = 2𝜈.
Ìíåìîíiêà ðîçïîäiëó 𝜒2 â R  chisq, ïàðàìåòð df=𝜈  êiëüêiñòü ñòóïåíiâ
âiëüíîñòi𝜈.
T-розподiл Стьюдента. Êàæóòü, ùî âèïàäêîâà âåëè÷èíà 𝜉 ì๠T-
ðîçïîäië Ñòüþäåíòà ç 𝜈 ñòóïåíÿìè âiëüíîñòi, ÿêùî ùiëüíiñòü ¨ ¨ ðîçïîäiëó
ì๠âèãëÿä
)︂− 𝜈+1
Γ 𝜈+1
(︀ )︀ (︂
2 (︀ )︀ 𝑥2 2
𝑓𝜉 (𝑥) = √ 𝜈
1+ .
𝜈𝜋Γ 2 𝜈
Öÿ ùiëüíiñòü ¹ ñèìåòðè÷íîþ íàâêîëî 0. Ðîçïîäië ì๠âàæêi õâîñòè 
âèáiðêè ç ñïîñòåðåæåíü ç T-ðîçïîäiëîì ÷àñòî ìàþòü âèêèäè íàâiòü òîäi,
êîëè âîíè íå çàáðóäíåíi.
Ïîçíà÷åííÿ 𝜉 ∼ 𝑇𝜈 .
ßêùî 𝜂0 , 𝜂1 , . . . , 𝜂𝜈  íåçàëåæíi ñòàíäàðòíi ãàóññîâi âèïàäêîâi âåëè-
÷èíè, òî âèïàäêîâà âåëè÷èíà

𝜂0
𝜉 = √︁ ∑︀
1 𝜈 2
𝜈 𝑖=1 (𝜂𝑖 )

ì๠T-ðîçïîäië Ñòüþäåíòà ç 𝜈 ñòóïåíÿìè âiëüíîñòi.

E 𝜉 = 0, med(𝜉) = 0,
ßêùî 𝜈 > 2, òî D 𝜉 = 𝜈/(𝜈 − 2). Ïðè 𝜈 ≤ 2 ñêií÷åííî¨ äèñïåðñi¨ ó 𝜉 íåìà¹.
Ìíåìîíiêà T-ðîçïîäiëó Ñòüþäåíòà ó R: t. Ïàðàìåòð df=𝜈  êiëüêiñòü
ñòóïåíiâ âiëüíîñòi.
F-розподiл Фiшера. Öåé ðîçïîäië ì๠äâà ïàðàìåòðè 𝜈1  êiëüêiñòü
ñòóïåíiâ âiëüíîñòi ÷èñåëüíèêà i 𝜈2  êiëüêiñòü ñòóïåíiâ âiëüíîñòi çíàìåí-
íèêà. (Ïîçíà÷à¹òüñÿ 𝜉 ∼ 𝐹 (𝜈1 , 𝜈2 )). Òàêà íàçâà ïàðàìåòðiâ ïîâ'ÿçàíà ç
òèì, ùî 𝐹 (𝜈1 , 𝜈2 )-ðîçïîäië ì๠âèïàäêîâà âåëè÷èíà

1
∑︀𝜈1 2
𝜈1 𝑖=1 (𝜂𝑖 )
𝜉= 1
∑︀𝜈2 2
𝜈2 𝑖=1 (𝜁𝑖 )
6.3. Дискретнi розподiли на прямiй 197

äå 𝜂𝑖 , 𝜁𝑗  íåçàëåæíi â ñóêóïíîñòi ñòàíäàðòíi ãàóññîâi âèïàäêîâi âåëè÷è-


íè.
Ùiëüíiñòü 𝐹 (𝜈1 , 𝜈2 )-ðîçïîäiëó:
(︂ )︂𝜈1 /𝜈2
1 𝜈1
𝑓𝜉 (𝑥) = (︀ 𝜈1 𝜈2 )︀ 𝑥𝜈1 /2−1 (1 + 𝜈1 𝑥/𝜈2 )−(𝜈1 +𝜈2 )/2
𝐵 2, 2 𝜈2

ïðè 𝑥 > 0. (Òóò 𝐵(𝑎, 𝑏)  áåòà-ôóíêöiÿ).


Ìàòåìàòè÷íå ñïîäiâàííÿ i äèñïåðñiÿ 𝐹 (𝜈1 , 𝜈2 )-ðîçïîäiëó:
𝜈2
E𝜉 = (ïðè 𝜈2 > 2),
𝜈2 − 2
2(𝜈2 )2 (𝜈1 + 𝜈2 − 2)
D𝜉 = (ïðè 𝜈2 > 4).
𝜈1 (𝜈2 − 2)2 (𝜈2 − 4)
Ìíåìîíiêà F-ðîçïîäiëó ó R: f. Ïàðàìåòðè: df1=𝜈1  êiëüêiñòü ñòóïåíiâ
âiëüíîñòi ÷èñåëüíèêà, df2=𝜈2  êiëüêiñòü ñòóïåíiâ âiëüíîñòi çíàìåííèêà.

6.3 Дискретнi розподiли на прямiй


Äèñêðåòíèìè íàçèâàþòü âèïàäêîâi âåëè÷èíè, ÿêi ìîæóòü ïðèéìàòè
ëèøå çíà÷åííÿ ç äåÿêî¨ ôiêñîâàíî¨ ñêií÷åííî¨ ÷è õî÷à á çëi÷åííî¨ ìíîæè-
íè. Íàéáiëüø ïîïóëÿðíi äèñêðåòíi ðîçïîäiëè âiäïîâiäàþòü âèïàäêîâèì
âåëè÷èíàì çi çíà÷åííÿìè ó ìíîæèíi öiëèõ íåâiä'¹ìíèõ ÷èñåë.
Íàãàäà¹ìî, ùî ó äèñêðåòíèõ ðîçïîäiëiâ íåì๠ùiëüíîñòi ó çâè÷àéíîìó
ðîçóìiííi (òîáòî âiäíîñíî ìiðè Ëåáåãà), àëå ìîæíà ðîçãëÿäàòè ¨õ ùiëü-
íîñòi âiäíîñíî ëi÷èëüíî¨ ìiðè. Òàêó ùiëüíiñòü äëÿ äèñêðåòíî¨ âèïàäêîâî¨
âåëè÷èíè 𝜉 ìè ïîçíà÷àòèìåì 𝑓𝜉 (𝑥) = P{𝜉 = 𝑥}. Öþ ôóíêöiþ íàçèâàþòü
ðîçïîäiëîì éìîâiðíîñòåé äëÿ 𝜉.

6.3.1 Бiномiальний розподiл


Áiíîìiàëüíèé (binomial) ðîçïîäië òðàäèöiéíî îïèñóþòü ÿê ðîçïîäië
êiëüêîñòi óñïiõiâ ó ñåði¨ ç 𝑛 íåçàëåæíèõ âèïðîáóâàíü, ÿêùî éìîâiðíiñòü
óñïiõó ó êîæíîìó âèïðîáóâàííi äîðiâíþ¹ 𝑝. Ïîçíà÷åííÿ 𝜉 ∼ 𝐵𝑖𝑛𝑜𝑚(𝑛, 𝑝).
Çðîçóìiëî, ùî 𝑛  íàòóðàëüíå ÷èñëî, 0 < 𝑝 < 1.
Ðîçïîäië éìîâiðíîñòåé 𝜉:

𝑓𝜉 (𝑘) = P{𝜉 = 𝑘} = 𝐶𝑛𝑘 𝑝𝑘 (1 − 𝑝)𝑛−𝑘 , 𝑘 = 0, . . . , 𝑛,


6.3. Дискретнi розподiли на прямiй 198

Binom(20,0.5)
Binom(20,0.9)

0.4
Binom(5,0.5)

0.3
0.2
0.1
0.0

0 5 10 15 20

Рис. 6.5. Ймовiрностi бiномiального розподiлу

äå
𝑛!
𝐶𝑛𝑘 =
𝑘!(𝑛 − 𝑘)!
 êiëüêiñòü êîìáiíàöié ç 𝑛 ïî 𝑘 (áiíîìiàëüíèé êîåôiöi¹íò). Ãðàôiêè éìî-
âiðíîñòåé áiíîìiàëüíîãî ðîçïîäiëó ïðè ðiçíèõ çíà÷åííÿõ ïàðàìåòðiâ çîá-
ðàæåíi íà ðèñ. 6.5.
R ìíåìîíiêà
Ó áiíîìiàëüíîãî ðîçïîäiëó  binom, ïàðàìåòðè 
𝑛 =size, 𝑝 =prob.
Ìàòåìàòè÷íå ñïîäiâàííÿ òà äèñïåðñiÿ:

E 𝜉 = 𝑛𝑝, D 𝜉 = 𝑛𝑝(1 − 𝑝).


∑︀𝑚
ßêùî 𝜉𝑗∑︀∼ 𝐵𝑖𝑛𝑜𝑚(𝑛𝑖 , 𝑝)  íåçàëåæíi âèïàäêîâi âåëè÷èíè, òî 𝑗=1 𝜉𝑗 ∼
𝐵𝑖𝑛𝑜𝑚( 𝑚 𝑗=1 𝑛𝑗 , 𝑝).
Çðîçóìiëî, ùî ïîíÿòòÿ óñïiõ â îçíà÷åííi áiíîìiàëüíîãî ðîçïîäiëó
ìîæíà òðàêòóâàòè äîñèòü øèðîêî. Ñêàæiìî, íåõàé ó äåÿêîìó òåõíîëî-
ãi÷íîìó ïðîöåñi éìîâiðíiñòü âèðîáèòè áðàêîâàíèé âèðiá äîðiâíþ¹ 𝑝 i áðàê
ó îêðåìèõ âèðîáàõ âèíèê๠íåçàëåæíî âiä iíøèõ âèðîáiâ. Òîäi êiëüêiñòü
áðàêîâàíèõ ó ñåði¨ 𝑛 âèðîáiâ áóäå ìàòè 𝐵𝑖𝑛𝑜𝑚(𝑛, 𝑝) ðîçïîäië, õî÷à îòðè-
ìàííÿ áðàêîâàíî¨ ïðîäóêöi¨ âàæêî íàçâàòè óñïiõîì.
ßêùî êiëüêiñòü âèïðîáóâàíü 𝑛 äîñòàòíüî âåëèêà, à éìîâiðíiñòü óñïiõó
𝑝 íå ¹ áëèçüêîþ äî 0 àáî 1, òî áiíîìiàëüíèé ðîçïîäië ¹ áëèçüêèì äî
6.3. Дискретнi розподiли на прямiй 199

íîðìàëüíîãî: (︃ )︃
𝑥 − 𝑛𝑥
P {𝜉 < 𝑥} ≈ Φ √︀
𝑛𝑝(1 − 𝑝)
(öå íàñëiäîê öåíòðàëüíî¨ ãðàíè÷íî¨ òåîðåìè).
ßêùî 𝑛  âåëèêå, à 𝑝  ìàëå, ïðè÷îìó âåëè÷íà 𝜆 = 𝑛𝑝 ì๠ïîìiðíå
çíà÷åííÿ, áiíîìiàëüíèé ðîçïîäië äîáðå íàáëèæà¹òüñÿ ðîçïîäiëîì Ïóàñ-
ñîíà:
𝜆𝑘 −𝜆
P{𝜉 = 𝑘} ≈ 𝑒 , 𝑘 = 0, 1, 2, . . .
𝑘!
(öå ãðàíè÷íà òåîðåìà Ïóàññîíà).
Ìè çàñòîñó¹ìî áiíîìiàëüíèé ðîçïîäië äëÿ àíàëiçó öiêàâî¨ iñòîðè÷íî¨
ïðîáëåìè ó ïðèêëàäi 9.2.3.

6.3.2 Розподiл Пуассона


Ðîçïîäië Ïóàññîíà (Poisson distribution) çàäà¹òüñÿ éìîâiðíîñòÿìè

𝜆𝑘 −𝜆
𝑓𝜉 (𝑘) = 𝑒 , 𝑘 = 0, 1, 2, . . .
𝑘!
äå 𝜆 > 0  ïàðàìåòð ðîçïîäiëó. Ïîçíà÷åííÿ 𝜉 ∼ 𝑃 𝑜𝑖𝑠𝑠(𝜆). Ó R ìíåìîíiêà
ðîçïîäiëó Ïóàññîíà  pois, ïàðàìåòð 𝜆 =lambda.
Ãðàôiêè éìîâiðíîñòåé áiíîìiàëüíîãî ðîçïîäiëó ïðè ðiçíèõ çíà÷åííÿõ
ïàðàìåòðiâ çîáðàæåíi íà ðèñ. 6.6.
Ìàòåìàòè÷íå ñïîäiâàííÿ òà äèñïåðñiÿ:

E 𝜉 = 𝜆, D 𝜉 = 𝜆.

ßêùî 𝜉𝑗 ∼ 𝑃 𝑜𝑖𝑠𝑠(𝜆𝑗 )  íåçàëåæíi âèïàäêîâi âåëè÷èíè, òî

𝑚
(︃ 𝑘 )︃
∑︁ ∑︁
𝜉𝑗 ∼ 𝑃 𝑜𝑖𝑠𝑠 𝜆𝑗 .
𝑗=1 𝑗=1

Ðîçïîäië Ïóàññîíà íàçèâàþòü ðîçïîäiëîì ðiäêiñíèõ ïîäié. Öå ïîâ'ÿ-


çàíî ç ãðàíè÷íîþ òåîðåìîþ Ïóàññîíà, ÿêó íåôîðìàëüíî ìîæíà ñôîðìó-
ëþâàòè íàñòóïíèì ÷èíîì.
ßêùî êîæíà ç âåëèêî¨ êiëüêîñòi (𝑛) íåçàëåæíèõ ïîäié ìîæå âiäáóòèñü
ç ìàëîþ éìîâiðíiñòþ 𝑝, òî êiëüêiñòü ïîäié ùî âiäáóëèñü ì๠ïðèáëèçíî
ïóàññîíiâ ðîçïîäië ç ïàðàìåòðîì 𝜆 = 𝑛𝑝.
6.3. Дискретнi розподiли на прямiй 200

0.35
Poiss(5)
Pois(1)

0.30
Pois(10)

0.25
0.20
0.15
0.10
0.05
0.00

0 5 10 15 20

Рис. 6.6. Ймовiрностi розподiлу Пуассона.

Íàïðèêëàä, ñïîíòàííèé ðîçïàä ÿäåð ðàäiîàêòèâíèõ åëåìåíòiâ âiäáó-


âà¹òüñÿ âèïàäêîâî, ïðè÷îìó ÿäðà ðîçïàäàþòüñÿ çi ñòàëîþ iíòåíñèâíiñòþ
íåçàëåæíî îäíå âiä îäíîãî. Éìîâiðíiñòü òîãî, ùî êîíêðåòíå ÿäðî ðîç-
ïàäåòüñÿ, ÿê ïðàâèëî, ìàëà, àëå êiëüêiñòü ÿäåð ó çðàçêó ðå÷îâèíè 
âåëèêà. Òîìó êiëüêiñòü ðàäiîàêòèâíèõ ðîçïàäiâ ó çðàçêó, çàðå¹ñòðîâà-
íà ðàõiâíèêîì Ãåéãåðà ïðîòÿãîì ïåâíîãî ÷àñó, ì๠Ïóàññîíiâ ðîçïîäië.
Ïàðàìåòð 𝜆 ó öüîìó ïðèêëàäi ìîæíà òðàêòóâàòè ÿê ñåðåäí¹ çíà÷åííÿ,
íàâêîëî ÿêîãî áóäóòü êîëèâàòèñü êiëüêîñòi ðîçïàäiâ ó äîâãié ñåði¨ îäíî-
òèïíèõ âèìiðþâàíü. ßêùî ðîçïàäiâ áàãàòî, çà öåíòðàëüíîþ ãðàíè÷íîþ
òåîðåìîþ ðîçïîäië ¨õ êiëüêîñòi ì๠áóòè ïðèáëèçíî íîðìàëüíèì.
I äiéñíî, ðîçïîäië Ïóàññîíà íàáëèæà¹òüñÿ äî íîðìàëüíîãî ïðè âåëè-
êèõ 𝜆. Òîìó âèêîðèñòîâóâàòè éîãî äëÿ îïèñó äàíèõ äîöiëüíî ëèøå ïðè
íåâåëèêèõ 𝜆, êîëè êiëüêîñòi ñïîñòåðåæóâàíèõ ïîäié ùî âiäáóëèñü íåâå-
ëèêi (íå ïåðåâèùóþòü 2-3 äåñÿòêè). Çâiäñè i íàçâà  ðîçïîäië ðiäêiñíèõ
ïîäié.
Ó ïðèêëàäi 9.6.3 ìè ïîáà÷èìî, ùî öåé ðîçïîäië äîáðå îïèñó¹ ðåçóëü-
òàòè îáñòðiëó Ëîíäîíà ðàêåòàìè Ôàó-2 ó II ñâiòîâié âiéíi.
6.3. Дискретнi розподiли на прямiй 201

6.3.3 Геометричний розподiл


Ãåîìåòðè÷íèé ðîçïîäië (geometric distribution)  öå ðîçïîäië êiëüêî-
ñòi íåâäà÷ ó ñåði¨ íåçàëåæíèõ âèïðîáóâàíü, ÿêi òðåáà ïðîâåñòè äî ïåð-
øîãî óñïiõó, ÿêùî éìîâiðíiñòü óñïiõó ó êîæíîìó âèïðîáóâàííi äîðiâíþ¹
𝑝. Ïîçíà÷åííÿ 𝜉 ∼ 𝐺𝑒𝑜𝑚(𝑝).
Éìîâiðíîñòi ãåîìåòðè÷íîãî ðîçïîäiëó:

𝑓𝜉 (𝑘) = P{𝜉 = 𝑘} = 𝑝(1 − 𝑝)𝑘 𝑘 = 0, 1, 2, . . .

Iíêîëè âèêîðèñòîâóþòü iíøå îçíà÷åííÿ ãåîìåòðè÷íîãî ðîçïîäiëó, â ÿêî-


ìó ïiäðàõîâó¹òüñÿ êiëüêiñòü âñiõ âèïðîáóâàíü, ïîòðiáíèõ äëÿ îòðèìàí-
íÿ óñïiõó, âêëþ÷àþ÷è òå îñòàíí¹, ÿêå âèÿâèëîñü óñïiøíèì, òîáòî ðîç-
ãëÿäà¹òüñÿ âåëè÷èíà 𝜂 = 𝜉 + 1 ç ðîçïîäiëîì 𝑓𝜂 (𝑥) = P{𝜉 = 𝑘} =
𝑘−1
𝑝(1 − 𝑝) , 𝑘 = 1, 2, . . . . ßêå îçíà÷åííÿ âèêîðèñòîâó¹òüñÿ, ÿê ïðàâèëî,
ìîæíà çðîçóìiòè ç êîíòåêñòó.
Ìàòåìàòè÷íå ñïîäiâàííÿ òà äèñïåðñiÿ ãåîìåòðè÷íîãî ðîçïîäiëó:

1−𝑝 1−𝑝
E𝜉 = , D𝜉 = .
𝑝 𝑝2

Ó R ìíåìîíiêà ãåîìåòðè÷íîãî ðîçïîäiëó geom, ïàðàìåòð (éìîâiðíiñòü


óñïiõó) 𝑝 =prob.
Ãåîìåòðè÷íèé ðîçïîäië âiäiãð๠äëÿ äèñêðåòíèõ âèïàäêîâèõ âåëè÷èí
ðîëü, àíàëîãi÷íó ðîëi åêñïîíåíöiéíîãî ðîçïîäiëó äëÿ íåïåðåðâíèõ âè-
ïàäêîâèõ âåëè÷èí. Âií ¹ ¹äèíèì äèñêðåòíèì ðîçïîäiëîì ç âëàñòèâiñòþ
âiäñóòíîñòi ïiñëÿäi¨. Òîìó éîãî ïðèðîäíî âèêîðèñòîâóâàòè äëÿ îïèñó ÷à-
ñó î÷iêóâàííÿ ïîäié, ÿêi âiäáóâàþòüñÿ âíàñëiäîê çîâíiøíiõ ïðè÷èí, íå
ïîâ'ÿçàíèõ çi çìiíàìè äîñëiäæóâàíîãî îá'¹êòà.
Ñêàæiìî, íåõàé ó ïðèêëàäi ç òðèâàëiñòþ ðîáîòè åëåêòðè÷íî¨ ëàìïî÷-
êè âiä âêðó÷óâàííÿ äî ïåðåãîðÿííÿ ç ï. 6.2.4 ÷àñ âèìiðþ¹òüñÿ ó öiëèõ
äíÿõ, ÿêi ëàìïî÷êà ïðîïðàöþâàëà. Òîäi âiäïîâiäíà âèïàäêîâà âåëè÷èíà
ìàòèìå ãåîìåòðè÷íèé ðîçïîäië, ÿêùî ëàìïî÷êà ïåðåãîðÿ¹ ïiä âïëèâîì
çîâíiøíiõ âèïàäêîâèõ îáñòàâèí, íåçàëåæíî âiä ÷àñó ¨ ¨ ïîïåðåäíüî¨ ðîáî-
òè. Âiäìiòèìî, ùî ó òàêié òðàêòîâöi óñïiõ  öå ïåðåãîðÿííÿ ëàìïî÷êè
ó äàíèé äåíü, 𝑝  éìîâiðíiñòü öi¹¨ ïîäi¨, êîòðà ââàæà¹òüñÿ ñòàëîþ.
6.4. Комбiнацiї та перетворення розподiлiв 202

6.4 Комбiнацiї та перетворення розподiлiв


Çâè÷àéíî, ìîæëèâi ðîçïîäiëè âèïàäêîâèõ äàíèõ íå îáìåæóþòüñÿ ïå-
ðåëi÷åíèìè ó ïîïåðåäíiõ ïiäðîçäiëàõ. Îäíà ç ìîæëèâîñòåé áiëüø ãíó÷-
êîãî ìîäåëþâàííÿ ðîçïîäiëó ðåàëüíèõ äàíèõ  êîìáiíóâàííÿ êiëüêîõ
ñòàíäàðòíèõ ðîçïîäiëiâ. àáî ïåðåòâîðåííÿ âèïàäêîâèõ âåëè÷èí iç çàäà-
íèì ðîçïîäiëîì. Iíêîëè òàêó òåõíiêó âèêîðèñòîâóþòü áåç çìiñòîâíîãî
îá ðóíòóâàííÿ: ïåðåòâîðåííÿ/êîìáiíàöiþ îáèðàþòü òàê, ùîá âîíà âiä-
ïîâiäàëà ðåàëüíî ñïîñòåðåæóâàíîìó, íàïðèêëàä, íà ãiñòîãðàìi ðîçïîäiëó
äàíèõ. ßêùî iíøèõ ìîæëèâîñòåé íåìà¹, òàêà òåõíiêà äîïóñòèìà.
Àëå ìè çàðàç çîñåðåäèìîñü íà iíøîìó ïiäõîäi, êîëè ìîäåëü ðîçïîäiëó
îáèðà¹òüñÿ íà îñíîâi ïåâíèõ òåîðåòè÷íèõ ìiðêóâàíü ïðî ïðèðîäó âèïàä-
êîâîñòi äîñëiäæóâàíèõ äàíèõ.

6.4.1 Зрiзанi розподiли


6
Íåõàé âèïàäêîâà âåëè÷èíà 𝜉 ì๠ðîçïîäië 𝐹. Çðiçàíèì (îáìåæåíèì)
íà iíòåðâàë [𝑎, 𝑏) ðîçïîäiëîì íàçèâàþòü óìîâíèé ðîçïîäië 𝜉 çà óìîâè, ùî
𝜉 ∈ [𝑎, 𝑏). Ôóíêöiÿ ðîçïîäiëó äëÿ çðiçàíîãî ðîçïîäiëó

𝐹𝜉 (𝑥)
𝐹[𝑎,𝑏) (𝑥) = P{𝜉 < 𝑥 | 𝜉 ∈ [𝑎.𝑏)} = ,
𝐹𝜉 (𝑏) − 𝐹𝜉 (𝑎)

äå 𝐹𝜉 (𝑥) = P{𝜉 < 𝑥}  ôóíêöiÿ ðîçïîäiëó 𝜉 .


ßêùî 𝜉 ì๠ùiëüíiñòü ðîçïîäiëó 𝑓𝜉 , òî ùiëüíiñòü çðiçàíîãî ðîçïîäiëó

𝑓𝜉 (𝑥)
𝑓[𝑎,𝑏) (𝑥) = .
𝐹𝜉 (𝑏) − 𝐹𝜉 (𝑎)

Приклад 6.4.1 (Зрiзаний експоненцiйний розподiл). Íåõàé äàíi ç ðåìîíò-


íî¨ ìàéñòåðíi ÿâëÿþòü ñîáîþ òðèâàëiñòü ðîáîòè äåÿêèõ ïðèëàäiâ âiä ìî-
ìåíòó ïðîäàæó äî ïîâåðíåííÿ äëÿ ðåìîíòó ïî ãàðàíòi¨ âèðîáíèêà. Ãà-
ðàíòiÿ äà¹òüñÿ íà 3 ðîêè ç ìîìåíòó ïðîäàæó. Âèçíà÷èìî, ÿêèì ìîæå
áóòè ðîçïîäië òàêî¨ òðèâàëîñòi.
ßê ïðàâèëî, ãàðàíòiÿ âèäà¹òüñÿ íà òàêèé òåðìií, çà ÿêèé åôåêòè
ñòàðiííÿ ïðèëàäó íå ñòâîðþþòü äîäàòêîâèõ çàãðîç éîãî ôóíêöiîíóâàí-
íþ. Òîìó îñíîâíèìè ïðè÷èíàìè âiäìîâè ìàþòü áóòè âèïàäêîâi çîâíiøíi

6
truncated distribution.
6.4. Комбiнацiї та перетворення розподiлiв 203

îáñòàâèíè. Ó öüîìó âèïàäêó, ÿê ìè áà÷èëè ó ï. 6.2.4, ðîçïîäië ÷àñó âiä


7
ïî÷àòêó åêñïëóàòàöi¨ äî âiäìîâè ïðèðîäíî îïèñóâàòè åêñïîíåíöiéíèì
ðîçïîäiëîì. Àëå íàøi äàíi ìiñòÿòü òðèâàëîñòi ðîáîòè ëèøå òèõ ïðèëà-
äiâ, ó ÿêèõ âiäìîâà ñòàëàñü äî çàêií÷åííÿ äi¨ ãàðàíòi¨. ßê ïðàöþâàëè
ïðèëàäè, ùî ïåðåæèëè ãàðàíòiéíèé òåðìií  íàì íåâiäîìî.
Îòæå, ðîçïîäië ñïîñòåðåæóâàíèõ äàíèõ  öå óìîâíèé ðîçïîäië ÷à-
ñó äî âiäìîâè, çà óìîâè, ùî âií ïîïàä๠ó iíòåðâàë [0, 3) (ÿêùî ÷àñ
âèìiðþ¹òüñÿ ó ðîêàõ). Îòðèìó¹ìî çðiçàíèé åêñïîíåíöiéíèé ðîçïîäië ç
ôóíêöi¹þ ðîçïîäiëó

⎨0
⎪ ïðè 𝑥 < 0,
1−𝑒−𝜆𝑥
𝐹𝜉 (𝑥) = 𝐹 (𝑥; 𝜆, 𝑐) = ïðè 0 < 𝑥 ≤ 𝑐,
⎪ 1−𝑒−𝜆𝑐
1 ïðè 𝑥 > 𝑐,

äå 𝑐  ïîðiã çðiçàííÿ (ó íàøîìó ïðèêëàäi 𝑐 = 3). Ùiëüíiñòü öüîãî


ðîçïîäiëó

⎨0
⎪ ïðè 𝑥 < 0,
𝜆𝑒−𝜆𝑥
𝑓𝜉 (𝑥) = 𝑓 (𝑥; 𝜆, 𝑐) = 1−𝑒−𝜆𝑐
ïðè 0 < 𝑥 ≤ 𝑐,

0 ïðè 𝑥 > 𝑐.

Ùiëüíiñòü çðiçàíîãî åêñïîíåíöiéíîãî ðîçïîäiëó ó ïîðiâíÿííi ç åêñïîíåí-


öiéíîþ ùiëüíiñòþ äèâ. íà ðèñ. 6.7.
Äëÿ ãåíåðàöi¨ ïñåâäîâèïàäêîâèõ ÷èñåë çi çðiçàíèì åêñïîíåíöiéíèì
ðîçïîäiëîì ìîæíà âèêîðèñòàòè îçíà÷åííÿ öüîãî ðîçïîäiëó ÿê óìîâíîãî.
Íàñòóïíà ôóíêöiÿ rexptr() ðåàëiçó¹ öþ iäåþ:

rexptr<-function(lambda=1,trun=1){
repeat{
x<-rexp(1,lambda)
if(x<trun) break
}
}
repeat ãåíåðàöiÿ åêñïîíåíöiéíî ðîçïîäiëåíèõ ïñåâäîâèïàä-
 ó öèêëi
êîâèõ ÷èñåë ç iíòåíñèâíiñòþ lambda ïðîäîâæó¹òüñÿ äîòè, äîêè ÷åðãîâå
÷èñëî íå âèÿâèòüñÿ ìåíøèì íiæ ïîðiã çðiçàííÿ trun. Öå ÷èñëî ñò๠çíà-
÷åííÿì, ÿêå ïîâåðò๠ôóíêöiÿ. J

7
Це якщо час розглядається як неперервна величина. Розподiл буде геометричним якщо
час дискретний.
6.4. Комбiнацiї та перетворення розподiлiв 204

0.5
Exponential
Truncated

0.4
0.3
density

0.2
0.1
0.0

0 1 2 3 4 5

Рис. 6.7. Щiльнiсть експоненцiйного (Exponential) та зрiзаного експоненцiйного


(Truncated) розподiлiв

Ìè âèêîðèñòà¹ìî çðiçàíèé åêñïîíåíöiéíèé ðîçïîäië ó ðÿäi ïðèêëàäiâ,


çîêðåìà, ó ïðèêëàäi 8.1.4.
Çðîçóìiëî, ùî çðiçàííÿ ìîæëèâå íå òiëüêè äëÿ åêñïîíåíöiéíîãî, à i
äëÿ áóäü-ÿêîãî iíøîãî ðîçïîäiëó. Íàïðèêëàä, ïiâíîðìàëüíèé ðîçïîäië
ìîæíà òðàêòóâàòè ÿê çðiçàíèé íîðìàëüíèé íà iíòåðâàëi [0, ∞).
Приклад 6.4.2 (Пуассонiв розподiл зi зрiзаним нулем). Ðîçãëÿíåìî çíîâó
ìàéñòåðíþ ïî ðåìîíòó äåÿêèõ ïðèëàäiâ. Íåõàé äëÿ êîæíîãî ðåìîíòîâà-
íîãî ïðèëàäó ó ìàéñòåðíi çàïèñóþòü, ñêiëüêè ðiçíèõ äåôåêòiâ ó íüîìó
áóëî âèÿâëåíî. ßêèì ìîæå áóòè ðîçïîäië êiëüêîñòi äåôåêòiâ â îäíîìó
ïðèëàäi?
ßêùî ââàæàòè, ùî äåôåêòè âèíèêàþòü íåçàëåæíî îäèí âiä îäíîãî,
ïðè÷îìó éìîâiðíiñòü ïîÿâè êîæíîãî äåôåêòó ìàëà, òî ìè ìà¹ìî ñïðàâó ç
êiëüêiñòþ ðiäêiñíèõ ïîäié, òîáòî ìîæíà ñïîäiâàòèñü ðîçïîäiëó Ïóàññîíà.
Àëå çðîçóìiëî, ùî ïðèëàä ç íóëüîâîþ êiëüêiñòþ äåôåêòiâ íå ïîïàäå äî
ðåìîíòíî¨ ìàéñòåðíi. Òîìó ïðèðîäíî ðîçãëÿíóòè ÿê êàíäèäàòà íà ðîëü
8
ðîçïîäiëó òàêèõ äàíèõ ïóàñîíiâ, àëå çi çðiçàíèì íóëåì :

𝜆𝑘
P{êiëüêiñòü äåôåêòiâ = 𝑘} = P{𝜉 = 𝑘 |𝜉 =
̸ 0} = ,
𝑘!(𝑒𝜆 − 1)
äå 𝜉 ∼ 𝑃 𝑜𝑖𝑠𝑠(𝜆).
8
Zero-truncated Poisson distribution.
6.4. Комбiнацiї та перетворення розподiлiв 205

Ìàòåìàòè÷íå ñïîäiâàííÿ i äèñïåðñiÿ âèïàäêîâî¨ âåëè÷èíè 𝜂 ç öèì


ðîçïîäiëîì:
(︂ )︂
𝜆 𝜆 𝜆
E𝜂 = −𝜆
,D𝜂 = 1− .
1−𝑒 1 − 𝑒−𝜆 𝜆
𝑒 −1
Ñòàòèñòèêà òàêèõ ðîçïîäiëiâ îáãîâîðþ¹òüñÿ ó ïðèêëàäàõ 8.1.5 òà
9.4.1. J

6.4.2 Суми незалежних випадкових величин


Iíêîëè áóâ๠ïðèðîäíî òðàêòóâàòè ñïîñòåðåæóâàíó âèïàäêîâó âåëè-
÷èíó ÿê ñóìó/ðiçíèöþ äâîõ àáî áiëüøå íåçàëåæíèõ âèïàäêîâèõ âåëè÷èí.
Íàïðèêëàä, ÿêùî äåÿêà âåëè÷íà 𝜉 âèìiðþ¹òüñÿ ç ïîõèáêîþ âèìiðþâàííÿ
𝜖, ïðè÷îìó ðîçïîäië ïîõèáêè íå çàëåæèòü âiä çíà÷åííÿ 𝜉, òî ñïîñòåðå-
æóâàíà âåëè÷èíà 𝑋 = 𝜉+𝜀 áóäå ñóìîþ äâîõ íåçàëåæíèõ âèïàäêîâèõ
âåëè÷èí.
𝜉 òà 𝜂  íåçàëåæíi âèïàäêîâi âåëè÷èíè, ðîçïîäië 𝜉 ¹ 𝐹 , à ðîç-
Íåõàé
ïîäië𝜂  G. Òîäi ðîçïîäië 𝐻 ¨õ ñóìè 𝑋 ¹ çãîðòêîþ9 𝐹 i 𝐺 (ïîçíà÷à¹òüñÿ
𝐻 = 𝐹 ⋆ 𝐺). Äëÿ ôóíêöié ðîçïîäiëó çãîðòêà âèçíà÷à¹òüñÿ ÿê
∫︁ ∞ ∫︁ ∞
𝐻(𝑥) = 𝐹 (𝑥 − 𝑡)𝐺(𝑑𝑡) = 𝐺(𝑥 − 𝑡)𝐹 (𝑑𝑡).
−∞ −∞

Äëÿ ùiëüíîñòåé ðîçïîäiëó:


∫︁ ∞ ∫︁ ∞
ℎ(𝑥) = 𝑓 (𝑥 − 𝑡)𝑔(𝑡)𝑑𝑡 = 𝑔(𝑥 − 𝑡)𝑓 (𝑡)𝑑𝑡.
−∞ −∞

ßêùî 𝜉 òà 𝜂  äèñêðåòíi âèïàäêîâi âåëè÷èíè, ÿêi ïðèéìàþòü ëèøå öiëi


çíà÷åííÿ, òî


∑︁ ∞
∑︁
P{𝑋 = 𝑘} = P{𝜉 = 𝑘 − 𝑗} P{𝜂 = 𝑗} = P{𝜂 = 𝑘 − 𝑗} P{𝜉 = 𝑗}.
𝑗=−∞ 𝑗=−∞

Ðîçãëÿíåìî êiëüêà ïðèêëàäiâ êîëè ïðèðîäíî âèêîðèñòîâóâàòè çãîðòêè


äëÿ îïèñó ðîçïîäiëó ñïîñòåðåæåíü. Öi ïðèêëàäè âèãëÿäàòèìóòü äåùî
øòó÷íî, îñêiëüêè ïiäáèðàëèñü ç äåìîíñòðàöiéíîþ ìåòîþ, îäíàê ¨õ áiëüø
ñêëàäíi àíàëîãè äîñèòü ÷àñòî çóñòði÷àþòüñÿ ó ìåäèêî-áiîëîãi÷íié òà åêî-
íîìi÷íié ñòàòèñòèöi.

9
convolution.
6.4. Комбiнацiї та перетворення розподiлiв 206

Приклад 6.4.3. Äîñëiäæó¹òüñÿ âïëèâ ìàëèõ äîç iîíiçóþ÷îãî îïðîìiíåííÿ


íà óòâîðåííÿ ïåâíî¨ ìóòàöi¨ ó êóëüòóði êëiòèí. Çðàçêè êóëüòóðè îïðî-
ìiíþþòüñÿ ç íèçüêîþ iíòåíñèâíiñòþ ïðîòÿãîì òðèâàëîãî ÷àñó. Ìóòàöiÿ
âèÿâëÿ¹òüñÿ ó ìîìåíò äiëåííÿ ìóòàíòíî¨ êëiòèíè. Ñïîñòåðåæóâàíà âåëè-
÷èíà  ÷àñ âiä ïî÷àòêó îïðîìiíåííÿ äî âèÿâëåííÿ ìóòàöi¨.
Ìóòàöi¨ ïiä äi¹þ îïðîìiíåííÿ âèíèêàþòü òîäi, êîëè îïðîìiíåííÿ ïî-
ïàä๠ó ìiøåíü  ìîëåêóëó ÄÍÊ. Öå ìîæå âiäáóòèñü âèïàäêîâî ó áóäü-
ÿêèé ìîìåíò ÷àñó ç îäíàêîâîþ éìîâiðíiñòþ. Îòæå, äëÿ ÷àñó âiä ïî÷àòêó
åêñïåðèìåíòó äî âèíèêíåííÿ ìóòàöi¨ (𝜉 ) ïðèðîäíèì áóäå åêñïîíåíöié-
íèé ðîçïîäië. Àëå ïiñëÿ âèíèêíåííÿ ïîâèíåí iùå ïðîéòè ÷àñ äî äiëåííÿ
êëiòèíè, êîëè ìóòàöiÿ áóäå âèÿâëåíà. Íåõàé êîæíà êëiòèíà äiëèòüñÿ ðiâ-
íî ÷åðåç äâà òèæíi ïiñëÿ ïîïåðåäíüîãî äiëåííÿ. Òîäi ÷àñ âiä âèíèêíåííÿ
ìóòàöi¨ äî ìîìåíòó äiëåííÿ (𝜂 ) ïðèðîäíî ââàæàòè ðiâíîìiðíî ðîçïîäiëå-
10
íèì íà äâîòèæíåâîìó iíòåðâàëi. ×àñîâi iíòåðâàëè 𝜉 i 𝜂 ¹ íåçàëåæíèìè
i ¨õ òðåáà äîäàòè, ùîá îòðèìàòè ñïîñòåðåæóâàíó âåëè÷èíó  ÷àñ âiä
ïî÷àòêó åêñïåðèìåíòó äî âèÿâëåííÿ ìóòàöi¨ 𝑋 = 𝜉 + 𝜂.
Ìà¹ìî 𝜉 ∼ 𝐸𝑥𝑝(𝜆), 𝜂 ∼ 𝑈 𝑛𝑖𝑓 [0, 𝑐]. Ùiëüíiñòü ðîçïîäiëó 𝑋
∫︁ ∫︁ 𝑐
1 −𝜆(𝑥−𝑡)
𝑋 𝜉 𝜂
𝑓 (𝑥) = 𝑓 (𝑥 − 𝑡)𝑓 (𝑡)𝑑𝑡 = 𝜆𝑒 1{𝑥 − 𝑡 > 0}𝑑𝑡
0 𝑐

𝜆 −𝜆𝑥 min(𝑐,𝑥) 𝜆𝑡
∫︁
= 𝑒 𝑒 𝑑𝑡
𝑐 0
1
= 𝑒−𝜆𝑥 (𝑒𝜆 min(𝑐,𝑥) − 1).
𝑐
Ãðàôiê 𝑓𝑋 äëÿ 𝜆 = 1/2, 𝑐 = 2 çîáðàæåíî íà ðèñ. 6.8. Ñêðèïò, ÿêèé
âiäîáðàæ๠öåé ãðàôiê, âèãëÿä๠òàê:

l<-0.5
c0<-2
x<-seq(0,10,0.01)
y<-sapply(x,function(x){exp(-l*x)*(exp(l*min(c0,x))-1)/c0})
plot(x,y,lwd=2,col="red",
type="l",xlab="",ylab="")

J
10
якщо мутацiя нiяк не впливає на початок дiлення.
6.4. Комбiнацiї та перетворення розподiлiв 207

0.30
0.25
0.20
0.15
0.10
0.05
0.00

0 2 4 6 8 10

Рис. 6.8. Щiльнiсть суми експоненцiйної та рiвномiрної в.в.

Приклад 6.4.4. Äâà ïðèÿòåëÿ À i  ñòîÿòü íà ïåðîíi ìåòðî, ÷åêàþ÷è


íà ïî¨çäè. Âîíè çáèðàþòüñÿ ¨õàòè ó ïðîòèëåæíèõ íàïðÿìêàõ.  îáîõ
íàïðÿìêàõ ïî¨çäè éäóòü ç iíòåðâàëîì 7 õâèëèí, ïðè÷îìó iíòåðâàë ìiæ
11
ïðèõîäîì ïî¨çäó òóäè i íàñòóïíèì ïî¨çäîì íàçàä ðiâíîìiðíî ðîç-
ïîäiëåíèé íà [0,7].
Ñïîñòåðiãà¹òüñÿ âåëè÷èíà 𝑋  ÷àñ, ÿêèé ïðîéäå ìiæ âiä'¨çäîì À i
âiä'¨çäîì Â, ïðè÷îìó, ÿêùî À âè¨õàâ ïåðøèì, öÿ âåëè÷èíà äîäàòíà, i
âiä'¹ìíà, ÿêùî ïåðøèì ïî¨õàâ Â. ßêèì áóäå ðîçïîäië 𝑋?
ßêùî ïðèÿòåëi ïðèéøëè íå ñïåöiàëüíî äî âiäïðàâëåííÿ ÿêîãîñü ïî¨ç-
äó, à ó âèïàäêîâèé ìîìåíò ÷àñó, íå ïîâ'ÿçàíèé ç ðîçêëàäîì ðóõó, òî ÷àñ
÷åêàííÿ äî âiäïðàâëåííÿ êîæíîãî ç íèõ  ðiâíîìiðíèé íà [0.7]. Çà óìî-
âîþ çàäà÷i, öi ÷àñè íåçàëåæíi ìiæ ñîáîþ i 𝑋  ¨õíÿ ðiçíèöÿ. Îòæå 𝑋
ì๠ñèìåòðè÷íèé òðèêóòíèé ðîçïîäië íà iíòåðâàëi [−7, 7]. J

Приклад 6.4.5. Òóðèñò, ùî ïîäîðîæó¹ àâòîñòîïîì, ÷åê๠íà øîñå ïîïóòíó


ìàøèíó, ùîá ïðî¨õàòè äî ìiñòà, íà âîêçàë. ßêèì áóäå ðîçïîäië ÷àñó 𝑋
âiä ïî÷àòêó ÷åêàííÿ äî ïðè¨çäó íà âîêçàë?
Öåé ÷àñ ñêëàäà¹òüñÿ ç äâîõ äîäàíêiâ: 𝜉  ÷àñ ÷åêàííÿ íà çóïèíêó
ïîïóòíî¨ ìàøèíè i 𝜂  ÷àñ, âèòðà÷åíèé íà äîðîãó. Äëÿ 𝜉 ïðèðîäíî ïðè-
ïóñêàòè åêñïîíåíöiéíèé ðîçïîäië (ïîïóòíi ìàøèíè ¨çäÿòü ïî øîñå íåçà-

11
Цей iнтервал, вочевидь, є одним i тим же для всiх поїздiв, що дотримуються цього
розкладу. Припустимо, що вiн випадково встановлюється вранцi, коли запускають першi
поїзди.
6.4. Комбiнацiї та перетворення розподiлiв 208

ëåæíî âiä òîãî, ÷åê๠¨õ òóðèñò ÷è íi), äëÿ 𝜂  íîðìàëüíèé ðîçïîäië


(çàòðèìêè ó äîðîçi ìîæóòü âèíèêàòè ç ðiçíèõ, áiëüø-ìåíø íåçàëåæíèõ
ìiæ ñîáîþ ïðè÷èí i ïiäñóìîâóþòüñÿ ó çàãàëüíié òðèâàëîñòi ïî¨çäêè). Âå-
ëè÷èíè𝜉 i 𝜂 ïðèðîäíî ââàæàòè íåçàëåæíèìè.
Îòæå 𝜉 ∼ 𝐸𝑥𝑝(𝜆), 𝜂 ∼ 𝑁 (𝜇, 𝜎 2 ), 𝑋 = 𝜉 + 𝜂 .
Ùiëüíiñòü ðîçïîäiëó 𝑋
∫︁ ∞
𝑋
𝑓 (𝑥) = 𝑓 𝜉 (𝑡)𝑓 𝜂 (𝑡 − 𝑥)𝑑𝑡 =
0
∫︁ ∞
𝜆 (𝑥−𝑡−𝜇)2
√ 𝑒−𝜆𝑡 𝑒− 2𝜎 2 𝑑𝑡
2𝜋𝜎 0

𝜇 + 𝜆𝜎 2 − 𝑥
(︂ )︂ (︂ (︂ )︂)︂
𝜆 2
= 𝜆 exp (2𝜇 + 𝜆𝜎 − 2𝑥) 1−Φ .
2 𝜎
Ãðàôiê 𝑓𝑋 äëÿ 𝜆 = 3/4, 𝜇 = 1, 𝜎 = 0.5 çîáðàæåíî íà ðèñ. 6.9. Ñêðèïò
äëÿ ðèñóâàííÿ öüîãî ãðàôiêà âèãëÿä๠òàê:

l<-0.75
m<-1
s<-0.5
x<-seq(-0.5,10,0.01)
y<-sapply(x,function(x){
l*exp(0.5*l*(2*m+l*s^2-2*x))*(1-pnorm((m+l*s^2-x)/s))
})
plot(x,y,lwd=2,col="red",
type="l",xlab="",ylab="")

Приклад 6.4.6. Íåõàé âèïàäêîâà âåëè÷èíà 𝜉 , ùî ì๠ðiâíîìiðíèé ðîç-


ïîäië íà [0, 𝑐] âèìiðþ¹òüñÿ ç ïîõèáêîþ 𝜂 ∼ 𝑁 (𝜇, 𝜎 2 ). Òîäi ùiëüíiñòü ðîç-
ïîäiëó ñïîñòåðåæóâàíî¨ âåëè÷èíè 𝑋 = 𝜉 + 𝜂 áóäå

(︂ (︂ )︂ (︂ )︂)︂
𝑋 1 𝑐+𝑚−𝑥 𝑚−𝑥
𝑓 (𝑥) = Φ −Φ .
𝑐 𝜎 𝜎

Ãðàôiê 𝑓𝑋 äëÿ 𝑐 = 5, 𝜇 = 1, 𝜎 = 0.5 çîáðàæåíî íà ðèñ. 6.10.


J
6.4. Комбiнацiї та перетворення розподiлiв 209

0.4
0.3
0.2
0.1
0.0

0 2 4 6 8 10

Рис. 6.9. Щiльнiсть суми експоненцiйно та нормально розподiленої в.в.

6.4.3 Сумiшi кiлькох розподiлiв


Íåõàé êîæåí äîñëiäæóâàíèé îá'¹êò 𝑂 íàëåæèòü îäíié ç 𝑀 ðiçíèõ
ïîïóëÿöié 𝒫1 ,. . . 𝒫𝑀 . Ìè ñïîñòåðiãà¹ìî ïåâíó õàðàêòåðèñòèêó îá'¹êòà 𝜉 =
𝜉(𝑂). Ïðèïóñòèìî, ùî ðîçïîäië 𝜉(𝑂) çàëåæèòü âiä òîãî, äî ÿêî¨ ïîïóëÿöi¨
íàëåæèòü äîñëiäæóâàíèé îá'¹êò. Ïîçíà÷èìî 𝐹𝑚 ôóíêöiþ ðîçïîäiëó 𝜉(𝑂)
äëÿ îá'¹êòiâ, ùî íàëåæàòü 𝑚-òié ïîïóëÿöi¨:

𝐹𝑚 (𝑥) = P{𝜉(𝑂) < 𝑥 |𝑂 ∈ 𝒫𝑚 }.


Ç ÿêî¨ ñàìå ïîïóëÿöi¨ îòðèìàíî îá'¹êò  íåâiäîìî. Àëå ìè ïðèïóñêà¹ìî,
ùî ïîïóëÿöiÿ 𝒫𝑚 îáèðà¹òüñÿ âèïàäêîâî ç éìîâiðíiñòþ 𝑝𝑚 :
𝑝𝑚 = P{𝑂 ∈ 𝒫𝑚 }.
Òîäi ðîçïîäië ñïîñòåðåæóâàíîãî 𝜉 áóäå ñóìiøøþ (mixture) ðîçïîäiëiâ 𝐹𝑚 :
𝑀
∑︁
𝜉
𝐹 (𝑥) = P{𝜉 < 𝑥} = 𝑝𝑚 𝐹𝑚 (𝑥).
𝑚=1

Ïîïóëÿöi¨ 𝒫𝑚 òà ðîçïîäiëè 𝐹𝑚 íàçèâàþòü êîìïîíåíòàìè (components) ñó-


ìiøi, 𝑝𝑚  çìiøóþ÷èìè éìîâiðíîñòÿìè (mixing probabilities). Çðîçóìiëî,
ùî ïîâèííi âèêîíóâàòèñü óìîâè

𝑀
∑︁
𝑝𝑚 = 1, 𝑝𝑚 ≥ 0, 𝑚 = 1, . . . , 𝑀.
𝑚=1
6.4. Комбiнацiї та перетворення розподiлiв 210

0.20
0.15
0.10
0.05
0.00

0 2 4 6

Рис. 6.10. Щiльнiсть суми рiвномiрно та нормально розподiленої в.в.

ßêùî 𝐹𝑚 ìàþòü ùiëüíîñòi 𝑓𝑚 , òî 𝜉 ì๠ùiëüíiñòü

𝑀
∑︁
𝜉
𝑓 (𝑥) = 𝑝𝑚 𝑓𝑚 (𝑥).
𝑚=1

Öi ðiâíîñòi çàäàþòü éìîâiðíiñíó ìîäåëü ñêií÷åííî¨ ñóìiøi (nite mixture


model). Íàïðèêëàä, íà ðèñ. 6.11 çîáðàæåíî ãðàôiêè ùiëüíîñòi äâîêîìïî-
íåíòíî¨ ñóìiøi ç ãàóññîâèìè êîìïîíåíòàìè.
Áëàêèòíà êðèâà íà ðèñóíêó âiäïîâiä๠ùiëüíîñòi

1 1
𝑓 (𝑥) = 𝜙(𝑥 − 1) + 𝜙(𝑥 + 1),
2 2
(𝜙  ùiëüíiñòü 𝑁 (0, 1)) òîáòî ñóìiøi äâîõ íîðìàëüíèõ ðîçïîäiëiâ ç îäè-
íè÷íîþ äèñïåðñi¹þ òà ìàòåìàòè÷íèìè ñïîäiâàííÿìè −1 i 1. Çìiøóþ÷i
éìîâiðíîñòi 𝑝1 = 𝑝2 = 1/2.
×åðâîíà êðèâà âiäïîâiä๠ñóìiøi ðîçïîäiëiâ 𝐹1 ∼ 𝑁 (−2, 1/4) i 𝐹2 ∼
𝑁 (2, 3) çi çìiøóþ÷èìè éìîâiðíîñòÿìè 𝑝1 = 0.4, 𝑝2 = 0.6.
Íà öié êðèâié ïîìiòíi äâà ïiêè  ëîêàëüíi ìàêñèìóìè, ðîçäiëåíi
ìiíiìóìîì. Ùiëüíñòi, ùî ìàþòü áiëüøå îäíîãî ëîêàëüíîãî ìàêñèìóìó
12
íàçèâàþòü áàãàòîìîäàëüíèìè Áàãàòîìîäàëüíiñòü ÷àñòî (õî÷à i íå çà-
âæäè) ïîâ'ÿçàíà ç íàÿâíiñòþ ó äàíèõ ñóìiøi êiëüêîõ êîìïîíåíò.
Ñòàòèñòè÷íi çàäà÷i, ó ÿêèõ ñïîñòåðåæóâàíi äàíi ïðèðîäíî îïèñóâàòè
òàêèìè ìîäåëÿìè ñóìiøi, ðîçãëÿíóòi äàëi ó ïðèêëàäàõ 8.1.6 i 9.2.2.

12
А щiльностi з єдиним максимумом — унiмодальними.
6.5. Генерацiя псевдовипадкових послiдовностей 211

0.30
0.25
0.20
0.15
0.10
0.05
0.00

−4 −2 0 2 4

Рис. 6.11. Щiльностi двокомпонентних сумiшей з нормального розподiлу

6.5 Генерацiя псевдовипадкових послiдовностей


Ó ñòàòèñòèöi ÷àñòî âèíèê๠ïîòðåáà îòðèìàòè ïîñëiäîâíiñòü ÷èñåë,
ÿêi îïèñóþòüñÿ ïåâíîþ éìîâiðíiñíîþ ìîäåëëþ. Ó ïðîñòiøîìó âèïàäêó
öå ìîæå áóòè ïîñëiäîâíiñòü íåçàëåæíèõ, îäíàêîâî ðîçïîäiëåíèõ âèïàä-
êîâèõ âåëè÷èí. Ç òî÷êè çîðó êëàñè÷íî¨ òåîði¨ éìîâiðíîñòåé, âèïàäêîâiñòü
¹ âëàñòèâiñòþ íå êîíêðåòíî¨ ÷èñëîâî¨ ïîñëiäîâíîñòi, à ñïîñîáó, ó ÿêèé öÿ
ïîñëiäîâíiñòü áóëà îòðèìàíà.
Íàïðèêëàä, íåõàé ïðîâîäèòñÿ äîñëiä ç âèìiðþâàííÿì êiëüêîñòi ðàäiî-
àêòèâíèõ ðîçïàäiâ ó ïåâíîìó çðàçêó ðå÷îâèíè çà 1 õâèëèíó. Ïðîòÿãîì
8 õâèëèí äîñëiäó çàôiêñîâàíi çíà÷åííÿ 3  çà ïåðøó õâèëèíó, 1  çà
äðóãó i äàëi 4, 1, 5, 9, 2, 6. Ó ñó÷àñíié ôiçèöi ââàæà¹òüñÿ, ùî ñïîíòàííèé
ðîçïàä àòîìíèõ ÿäåð âiäáóâà¹òüñÿ âèïàäêîâî, íåçàëåæíî ó ðiçíèõ ÿäðàõ
çi ñòàëîþ iíòåíñèâíiñòþ. Òîìó îòðèìàíà ó äîñëiäi ïîñëiäîâíiñòü ¹ âèïàä-
êîâîþ. Öÿ ñàìà ïîñëiäîâíiñòü, çíàéäåíà êîìï'þòåðíîþ ïðîãðàìîþ ïðè
îá÷èñëåííi çíàêiâ ÷èñëà 𝜋  âèïàäêîâîþ íå ¹.
Ç öi¹¨ òî÷êè çîðó, âñi ïîñëiäîâíîñòi ÷èñåë, ÿêi ìîæíà çãåíåðóâàòè íà
çâè÷àéíîìó êîìï'þòåði áåç âèêîðèñòàííÿ ÿêèõ-íåáóäü çîâíiøíiõ äæåðåë
13
âèïàäêîâîñòi, íå ¹ âèïàäêîâèìè . Àëå ìîæíà ðîçãëÿäàòè àëãîðèòìè, ùî

13
Це — з точки зору класичного пiдходу до понять випадкових величин i ймовiрностi.
Iснують альтернативнi пiдходи, якi дозволяють визначити чи є випадковою певна нескiнченна
числова послiдовнiсть тiльки по її значеннях, незалежно вiд того, яким механiзмом вона
породжена, див. [4]. Варто вiдмiтити, що псевдовипадковi послiдовностi, якi генеруються на
6.5. Генерацiя псевдовипадкових послiдовностей 212

ãåíåðóþòü ïîñëiäîâíîñòi, ÿêi iìiòóþòü âèïàäêîâiñòü, òîáòî ìàþòü îñíîâíi


âëàñòèâîñòi, ïðèòàìàííi ïîñëiäîâíîñòÿì âèïàäêîâèõ âåëè÷èí. Òàêi àëãî-
ðèòìè i ïðîãðàìè, ùî ¨õ ðåàëiçóþòü, íàçèâàþòü ãåíåðàòîðàìè (äàò÷èêà-
ìè) ïñåâäîâèïàäêîâèõ ÷èñåë (pseudorandom numbers generators). Ïðåôiêñ
ïñåâäî- ÷àñòî ïðîïóñêàþòü i êàæóòü ïðî ãåíåðàöiþ âèïàäêîâèõ ÷èñåë. Öå
íå ¹ ïîìèëêîþ, ÿêùî ïàì'ÿòàòè ïðî iìiòàöiéíèé õàðàêòåð òàêî¨ âèïàäêî-
âîñòi.
Îñòàííiì ÷àñîì íàáóëà ðîçâèòêó òåõíiêà ãåíåðóâàííÿ êâàçiâèïàäêî-
âèõ ÷èñåë (quasirandom numbers)  ïîñëiäîâíîñòåé, ùî ïî¹äíóþòü äåÿ-
êi ðèñè âèïàäêîâèõ ç òàêèìè îñîáëèâîñòÿìè, ÿêèõ ñïðàâæíi âèïàäêîâi
ïîñëiäîâíîñòi ìàòè íå ìîæóòü â ïðèíöèïi. Çîêðåìà, òàêi ÷èñëà âèêîðè-
ñòîâóþòüñÿ ïðè íàáëèæåíîìó iíòåãðóâàííi áàãàòîâèìiðíèõ ôóíêöié çà
ìåòîäîì Ìîíòå-Êàðëî (äèâ. ðîçäië 7.7 ó êíèæöi [43]). Ó äàíié êíèæöi öÿ
òåìàòèêà íå ðîçãëÿäà¹òüñÿ.
ßê ïðàâèëî, ãåíåðàöiÿ ïñåâäîâèïàäêîâèõ ÷èñåë ïî÷èíà¹òüñÿ iç ñòâî-
ðåííÿ ðiâíîìiðíèõ ÷èñåë, òîáòî ïîñëiäîâíîñòi, ÿêà iìiòó¹ ïîâåäiíêó ïî-
ñëiäîâíîñòi íåçàëåæíèõ, îäíàêîâî ðîçïîäiëåíèõ âèïàäêîâèõ âåëè÷èí ç
ðiâíîìiðíèì ðîçïîäiëîì íà [0, 1]. Ïîòiì, âèêîðèñòîâóþ÷è òi ÷è iíøi ïå-
ðåòâîðåííÿ öi¹¨ ïîñëiäîâíîñòi, îòðèìóþòü ïñåâäîâèïàäêîâi ïîñëiäîâíîñòi
iç çàäàíèì ðîçïîäiëîì, íàïðèêëàä, íîðìàëüíi àáî òàêi, ùî óòâîðþþòü
ëàíöþã Ìàðêîâà iç çàäàíèìè éìîâiðíîñòÿìè ïåðåõîäó.
Ãåíåðàöiÿ ðiâíîìiðíèõ ïñåâäîâèïàäêîâèõ ïîñëiäîâíîñòåé ì๠âæå
áiëüø íiæ 70-ëiòíþ iñòîðiþ, òóò âiäiáðàíi íàéêðàùi ãåíåðàòîðè, ÿêi i ðå-
àëiçîâàíi ó áàçîâîìó R. Íàìàãàòèñü ñàìîñòiéíî ïîêðàùèòè ¨õ áåç ãëèáî-
êîãî çíàííÿ âiäïîâiäíî¨ òåîði¨ òà âëàñíîãî äîñâiäó ó öié îáëàñòi íå âàðòî.
Àëå ÿ âêëþ÷èâ ó öþ êíèæêó åëåìåíòàðíi âiäîìîñòi ïðî òàêó ãåíåðàöiþ,
ùîá ÷èòà÷ ìàâ çìîãó, ïî-ïåðøå, çðîçóìiòè, ÿê âiäáóâà¹òüñÿ ãåíåðàöiÿ ó
ñòàíäàðòíèõ ïðîãðàìàõ, à ïî-äðóãå, ïðè áàæàííi ñòâîðèòè ñâié âëàñíèé
ãåíåðàòîð, ÿêùî ðàïòîì âèíèêíå íåäîâiðà äî ñòàíäàðòíîãî. Öi âiäîìîñòi
âìiùåíi ó ï.6.5.1.
Ó R ðåàëiçîâàíi òàêîæ ôóíêöi¨, ùî äîçâîëÿþòü îòðèìàòè ïîñëiäîâíî-
ñòi, ÿêi iìiòóþòü êðàòíi âèáiðêè ç îñíîâíèìè éìîâiðíiñíèìè ðîçïîäiëà-
ìè, òàêèìè, ÿê íîðìàëüíèé, åêñïîíåíöiéíèé, ïóàññîíiâ, òîùî. Àëå öèõ
ôóíêöié ìîæå áóòè íåäîñòàòíüî, ÿêùî âàì ïîòðiáíî çãåíåðóâàòè ïñåâ-
äîâèïàäêîâó ïîñëiäîâíiñòü ç ÿêèì-íåáóäü ìåíø ïîøèðåíèì ðîçïîäiëîì,
íàïðèêëàä, ç ðîçïîäiëîì Ïàðåòî. Òîìó ðîçóìiííÿ çàãàëüíèõ ïiäõîäiâ äî

сучасних комп’ютерах не є випадковими i з точки зору цих пiдходiв


6.5. Генерацiя псевдовипадкових послiдовностей 213

òàêî¨ ãåíåðàöi¨ ¹ âàæëèâèì åëåìåíòîì ðîáîòè ñòàòèñòèêà. Ç åëåìåíòàð-


íèìè âiäîìîñòÿìè ïðî öå ìîæíà îçíàéîìèòèñü ó ï. 6.5.2.
Êîðîòêî ïðî òå, ÿê öi òåõíiêè ãåíåðàöi¨ ðåàëiçîâàíi ó R, ìîæíà ïðî-
÷èòàòè ó ï.6.5.3.

6.5.1 Генератори рiвномiрних псевдовипадкових чисел


Îòæå, ðiâíîìiðíi ïñåâäîâèïàäêîâi ÷èñëà  öå ÷èñëîâi ïîñëiäîâíîñòi,
ÿêi âiäòâîðþþòü îñíîâíi âëàñòèâîñòi ïîñëiäîâíîñòåé íåçàëåæíèõ îäíàêî-
âî ðîçïîäiëåíèõ âèïàäêîâèõ âåëè÷èí ç ðiâíîìiðíèì ðîçïîäiëîì íà [0, 1].
Äëÿ ñòâîðåííÿ òàêèõ ïîñëiäîâíîñòåé, ÿê ïðàâèëî, âèêîðèñòîâóþòü ðå-
êóðñèâíó òåõíiêó. Ïðè öüîìó çàäàþòüñÿ äåÿêi çíà÷åííÿ ïî÷àòêîâèõ åëå-
ìåíòiâ ïîñëiäîâíîñòi 𝑥1 , 𝑥2 ,. . . 𝑥𝑘 i ôóíêöiÿ 𝑓 (𝑡1 , . . . , 𝑡𝑘 ), ùî ïîðîäæó¹ íà-
ñòóïíèé åëåìåíò ïîñëiäîâíîñòi. Ïiñëÿ öüîãî ïîñëiäîâíiñòü âèçíà÷à¹òüñÿ
ÿê
𝑥𝑘+1 = 𝑓 (𝑥1 , . . . , 𝑥𝑘 ),
𝑥𝑘+2 = 𝑓 (𝑥2 , . . . , 𝑥𝑘+1 ),
...
𝑥𝑛 = 𝑓 (𝑥𝑛−𝑘 , . . . , 𝑥𝑛−1 ),
...
Ó íàéïðîñòiøîìó âèïàäêó 𝑘 = 1, òîáòî êîæåí íàñòóïíèé åëåìåíò
ïîñëiäîâíîñòi âèçíà÷à¹òüñÿ çà ïîïåðåäíiì:

𝑥𝑛 = 𝑓 (𝑥𝑛−1 ).

Ïðè âèáîði ôóíêöi¨ 𝑓 ó ïåðøó ÷åðãó êåðóþòüñÿ ìiðêóâàííÿìè ïðîñòîòè


ðàëiçàöi¨ òà øâèäêîñòi âèêîíàííÿ. Íàéáiëüø ïîøèðåíà ñiì'ÿ ãåíåðàòîðiâ
 ëiíiéíi êîíãðóåíòíi ãåíåðàòîðè, ó ÿêèõ ôóíêöiÿ 𝑓 áóäó¹òüñÿ ç âèêîðè-
ñòàííÿì ëiíiéíî¨ çàëåæíîñòi çi ñòàëèìè êîåôiöi¹íòàìè. Ðîçðiçíÿþòü äâà
òèïè ãåíåðàòîðiâ: ç öiëî÷èñëîâîþ òà äiéñíîçíà÷íîþ àðèôìåòèêîþ.
Ó ãåíåðàòîði ç äiéñíîçíà÷íîþ àðèôìåòèêîþ 𝑥1 âèáèðàþòü ç iíòåðâàëó
(0, 1) i ïîñëiäîâíiñòü ïîðîäæó¹òüñÿ çà ïðàâèëîì

𝑥𝑛 = { 𝑎𝑥𝑛−1 + 𝑐}}, 𝑛 = 2, 3, . . . ,

äå { 𝑥}}  äðîáîâà ÷àñòèíà ÷èñëà 𝑥. Òóò 𝑎i𝑐  ôiêñîâàíi äiéñíi ÷èñëà.


Ó ãåíåðàòîði ç öiëî÷èñëîâîþ àðèôìåòèêîþ ñïî÷àòêó áóäó¹òüñÿ äîïî-
ìiæíà ïîñëiäîâíiñòü íàòóðàëüíèõ ÷èñåë 𝐼1 , 𝐼2 ,. . . 𝐼𝑛 ,. . . Ïî÷àòêîâå ÷èñëî
6.5. Генерацiя псевдовипадкових послiдовностей 214

𝐼1 âèáèðàþòü ç iíòåðâàëó 1,. . . ,𝑚 − 1, ïîñëiäîâíiñòü ôîðìó¹òüñÿ çà ïðà-


âèëîì
𝐼𝑛 = (𝑎𝐼𝑛−1 + 𝑐) mod 𝑚, 𝑛 = 2, 3, . . .
äå 𝑎, 𝑐 òà 𝑚  ôiêñîâàíi íàòóðàëüíi ÷èñëà. ßêùî 𝑐 = 0, ãåíåðàòîð íàçè-
âàþòü ìóëüòèïëiêàòèâíèì. Ïîñëiäîâíiñòü äiéñíèõ ÷èñåë ç iíòåðâàëó [0, 1]
îòðèìóþòü ç 𝐼𝑛 äiëåííÿì íà 𝑚:
𝐼𝑛
𝑥𝑛 = .
𝑚
×èñëî 𝑎 íàçèâàþòü ìíîæíèêîì, 𝑐  ïðèðîñòîì, à 𝑚  ìîäóëåì ãåíåðà-
òîðà.
Ó ñó÷àñíèõ ãåíåðàòîðàõ, ÿê ïðàâèëî, âèêîðèñòîâóþòü öiëî÷èñëîâi
ñõåìè, îñêiëüêè ïðàâèëà îêðóãëåííÿ ó äiéñíîçíà÷íié àðèôìåòèöi âiäðiç-
íÿþòüñÿ íà ðiçíèõ êîìï'þòåðàõ. Òîìó îäèí i òîé æå äiéñíîçíà÷íèé ãå-
íåðàòîð ìîæå íà îäíîìó êîìï'þòåði äàâàòè õîðîøó ïîñëiäîâíiñòü, à íà
iíøîìó  ïîãàíó. Öiëî÷èñëîâà àðèôìåòèêà íà âñiõ êîìï'þòåðàõ ðåàëi-
çîâàíà îäíàêîâî (ÿêùî îðãàíiçóâàòè îá÷èñëåííÿ áåç ïåðåïîâíåíü). Ç öi¹¨
òî÷êè çîðó öiëî÷èñëîâi ãåíåðàòîðè ¹ áiëüø íàäiéíèìè.
Íåõàé 𝐼𝑗 , 𝑗 = 1, 2, . . .  ïîñëiäîâíîñòi, çãåíåðîâàíi ëiíiéíèì êîíãðó-
åíòíèì ãåíåðàòîðîì ç öiëî÷èñëîâîþ àðèôìåòèêîþ. Çðîçóìiëî, ùî ÿê-
ùî ïðè äåÿêèõ 𝑛 i 𝑘 , 𝐼𝑛 = 𝐼𝑛−𝑘 , òî äëÿ âñiõ 𝑖 = 1, 2, . . . áóäå âèêîíàíî
𝐼𝑛+𝑖 = 𝐼𝑛−𝑘+𝑖 , òîáòî ïîñëiäîâíiñòü áóäå öèêëi÷íî ïîâòîðþâàòèñü. Íàé-
ìåíøå 𝑘 , ïðè ÿêîìó öå áóäå âèêîíóâàòèñü, íàçèâàþòü ïåðiîäîì (àáî äîâ-
æèíîþ ïåðiîäó) ãåíåðàòîðà. Î÷åâèäíî, ùî öèêëi÷íî ïîâòîðþâàíà ïîñëi-
äîâíiñòü íå ìîæå ââàæàòèñü âèïàäêîâîþ, òîìó ãåíåðàòîðè íå äîöiëüíî
âèêîðèñòîâóâàòè äëÿ ïîðîäæåííÿ ïîñëiäîâíîñòåé ç äîâæèíîþ, áiëüøîþ,
íiæ ïåðiîä. Îòæå, õîðîøèé ãåíåðàòîð ìóñèòü ìàòè âåëèêèé ïåðiîä.
0 i 𝑚−1 ¹ ðiâíî 𝑚 ÷èñåë, ïåðiîä öiëî÷èñëîâîãî ëiíiéíîãî
Îñêiëüêè ìiæ
êîíãðóåíòíîãî ãåíåðàòîðà íå ìîæå áóòè áiëüøèì, íiæ 𝑚. Âiäîìi óìîâè
íà ïàðàìåòðè ãåíåðàòîðà, ïðè ÿêèõ âií ì๠íàéáiëüøèé ïåðiîä (òîáòî 𝑚):

Теорема 6.5.1. (Халла-Добелла) Для того, щоб цiлочисловий лiнiйний кон-


груентний генератор мав перiод 𝑚, необхiдно i достатньо, щоб виконува-
лись умови:
1. 𝑐 i 𝑚 взаємно простi.
2. Всi простi дiльники 𝑚 є дiльниками 𝑎 − 1.
3. Якщо 𝑚 кратне 4, то 𝑎 − 1 теж кратне 4.
6.5. Генерацiя псевдовипадкових послiдовностей 215

Àëå âèìîãà ìàêñèìàëüíîãî ïåðiîäó íå ¹äèíà, ùî âèçíà÷๠ïñåâäî-


âèïàäêîâó ïîñëiäîâíiñòü ÿê õîðîøó. Äiéñíî, ïîñëiäîâíiñòü 1, 2,. . . 𝑚 ìà¹
ïåðiîä 𝑚, àëå íà âèïàäêîâó âîíà íå ñõîæà. Òîìó äëÿ îöiíêè ÿêîñòi ãåíåðà-
òîðà ïîòðiáíî ïðîâîäèòè ñïåöiàëüíi òåñòè íà âèïàäêîâiñòü. Òàêi òåñòè,
ÿê ïðàâèëî, áóäóþòü çà çâè÷àéíîþ ñõåìîþ ñòàòèñòè÷íèõ òåñòiâ äëÿ ïå-
ðåâiðêè òîãî, ùî ïåâíà ïîñëiäîâíiñòü äàíèõ âiäïîâiä๠îáðàíié iìîâiðíiñ-
íié ìîäåëi. Ìè çóïèíèìîñü çàðàç ëèøå íà äâîõ åëåìåíòàðíèõ ãðàôi÷íèõ
ñïîñîáàõ ïåðåâiðêè ÿêîñòi ãåíåðàòîðà ïñåâäîâèïàäêîâèõ ÷èñåë.
Íåõàé X = (𝜉1 , ..., 𝜉𝑛 )  ïîñëiäîâíiñòü íåçàëåæíèõ, ðiâíîìiðíî íà
[0, 1] ðîçïîäiëåíèõ ïñåâäîâèïàäêîâèõ ÷èñåë. Åìïiðè÷íîþ ôóíêöi¹þ ðîç-
ïîäiëó äàíèõ X íàçèâàþòü

𝑛
1 ∑︁
𝐹ˆ𝑛 (𝑥) = 1{𝜉𝑗 < 𝑥}.
𝑛 𝑗=1

Çðîçóìiëî, ùî 𝐹ˆ𝑛 (𝑥) (−∞, 𝑥) ó âèáiðöi.


 öå âiäíîñíà ÷àñòîòà iíòåðâàëó
ˆ
Çà çàêîíîì âåëèêèõ ÷èñåë, ïðè âåëèêèõ 𝑛, 𝐹𝑛 (𝑥) ≈ 𝐹 (𝑥), äå 𝐹 (𝑥) 
ôóíêöiÿ ðîçïîäiëó äëÿ ðiâíîìiðíîãî ðîçïîäiëó íà [0, 1], òîáòî


⎨0 ïðè 𝑥 < 0

𝑈 [0.1]
𝐹 (𝑥) = P{𝜉1 < 𝑥} = 𝑥 ïðè 0 ≤ 𝑥 ≤ 1 .

1 ïðè 𝑥 > 1

Äëÿ ãðàôi÷íî¨ ïåðåâiðêè ÿêîñòi ãåíåðàòîðà ìîæíà âiäîáðàçèòè íà îäíî-


ìó ãðàôiêó åìïiðè÷íó ôóíêöiþ ðîçïîäiëó çãåíåðîâàíî¨ ïñåâäîâèïàäêîâî¨
𝑈 [0.1]
ïîñëiäîâíîñòi òà 𝐹 (𝑥). ßêùî âîíè áóäóòü áëèçüêèìè îäíà äî îäíî¨
 ãåíåðàòîð ïðîéøîâ öå âèïðîáóâàííÿ. ßêùî ïîìiòíî ñèñòåìàòè÷íå âiä-
õèëåííÿ åìïiðè÷íî¨ ôóíêöi¨ âiä òåîðåòè÷íî¨  ãåíåðàòîð íå àäåêâàòíèé.
Íàñòóïíèé ïðèêëàä äåìîíñòðó¹, ÿê ïðàöþ¹ ëiíiéíèé êîíãðóåíòíèé
ãåíåðàòîð ç öiëî÷èñëîâîþ àðèôìåòèêîþ i ïàðàìåòðàìè 𝑎 = 65539, 𝑐 = 0,
𝑚 = 231 ç ïî÷àòêîâèì çíà÷åííÿì 𝐼1 = 215 + 2. Êiëüêiñòü ñïîñòåðåæåíü
𝑛 = 200.
Öåé ãåíåðàòîð áóâ äîñèòü ïîïóëÿðíèì ó 60-70-òi ðîêè ÕÕ ñò. ïiä íà-
çâîþ RANDU, çîêðåìà, âèêîðèñòîâóâàâñÿ ÿê ñòàíäàðò íà êîìï'þòåðàõ
14
ôiðìè IBM .

14
Допитливий читач може помiтити, що тут ми, оперуючи з цiлими, по сутi, числами, вико-
ристовуємо дiйснозначну арифметику, оскiльки тип I не integer, а numeric. Це зроблено
6.5. Генерацiя псевдовипадкових послiдовностей 216

1.0

1.0
0.8

0.8
0.6

0.6
(1:n)/n
x

0.4

0.4
0.2

0.2
0.0

0.0
0 50 100 150 200 0.0 0.2 0.4 0.6 0.8 1.0

1:n sx

Рис. 6.12. Генератор RANDU: розкид та емпiрична функцiя розподiлу

n<-200 # кiлькiсть чисел


a<-65539 # RANDU параметри
c0<-0 #
m<-2^31 #
I<-numeric(n) # цiлочислова послiдовнiсть
I[1]<-2^15+2
for(i in 2:n){
I[i]<-(a*I[i-1]+c0)%% m
}
x<-I/m # псевдовипадковi числа
plot(1:n,x,cex=0.3) # рисуємо дiаграму чисел
sx<-sort(x)
# рисуємо емпiричну функцiю розподiлу:
plot(sx,(1:n)/n,type="s",xlim=c(0,1),ylim=c(0,1))
# графiк теоретичної функцiї розподiлу:
abline(a=0,b=1,col="red")

Ðåçóëüòàòè ðîáîòè âiäîáðàæåíèé íà ðèñ. 6.12. Ëiâîðó÷  äiàãðàìà,


ó ÿêié êîîðäèíàòè òî÷îê ïî ãîðèçîíòàëi âiäïîâiäàþòü íîìåðó ïñåâäîâè-

тому, що звичайний тип integer у R передбачає занадто короткi числа для даного прикладу.
У R є пакети, що дозволяють вводити цiлi довiльної довжини, але у цiй книжцi ми не будемо їх
використовувати. Для розглядуваних iлюстративних прикладiв генерацiї псевдовипадкових
чисел дiйснозначна арифметика дає достатньо адекватнi результати.
6.5. Генерацiя псевдовипадкових послiдовностей 217

ïàäêîâîãî ÷èñëà, à ïî âåðòèêàëi  éîãî çíà÷åííþ. Ïðàâîðó÷  åìïiðè÷-


íà ôóíêöiÿ ðîçïîäiëó, ïîáóäîâàíà çà ïñåâäîâèïàäêîâîþ ïîñëiäîâíiñòþ.
Ðèñóíîê ëiâîðó÷ äåìîíñòðó¹ âèïàäêîâó ïîâåäiíêó ïîñëiäîâíîñòi: íå ïî-
ìiòíî ÿêèõ-íåáóäü çàêîíîìiðíîñòåé, ùî ñâiä÷èëè á ïðî íåâèïàäêîâiñòü.
Ðèñóíîê ëiâîðó÷ ïîêàçó¹ ðiâíîìiðíiñòü ðîçïîäiëó  åìïiðè÷íà ôóíêöiÿ
ðîçïîäiëó êîëèâà¹òüñÿ íàâêîëî òåîðåòè÷íî¨. Ïðè çáiëüøåííi äîâæèíè ïî-
ñëiäîâíîñòi âiäõèëåííÿ åìïiðè÷íî¨ ôóíêöi¨ âiä òåîðåòè÷íî¨ ñòàþòü âñå
ìåíø ïîìiòíèìè.
Ìîæíà ââàæàòè, ùî öåé òåñò ãåíåðàòîð RANDU ïðîéøîâ.
Iùå îäèí âàæëèâèé âèä òåñòiâ  ãðàôi÷íà ïåðåâiðêà çàëåæíîñòi äâîõ
àáî òðüîõ ñóñiäíiõ åëåìåíòiâ ïîñëiäîâíîñòi íà ãðàôiêó ïàð/òðiéîê. Äëÿ
òîãî, ùîá ïîáà÷èòè çàëåæíîñòi, áóäóþòü òî÷êè íà ïëîùèíi ç êîîðäèíà-
òàìè (𝑥𝑗 , 𝑥𝑗+1 ), 𝑗 = 1, . . . , 𝑛 − 1 àáî ó òðèâèìiðíîìó ïðîñòîði  ç êîîðäè-
íàòàìè (𝑥𝑗 , 𝑥𝑗+1 , 𝑥𝑗+2 ), 𝑗 = 1, 𝑛 − 2. Íà âiäïîâiäíèõ äiàãðàìàõ íàìàãàþòü-
ñÿ çíàéòè çàêîíîìiðíîñòi, ùî âiäðiçíÿþòü ïîâåäiíêó ïîñëiäîâîíñòi âiä
ñïðàâæíüî¨ âèïàäêîâî¨. Äëÿ ëiíiéíèõ êîíãðóåíòíèõ ãåíåðàòîðiâ òàêîþ
çàêîíîìiðíiñòþ ÷àñòî ¹ ðîçòàøóâàííÿ òî÷îê âçäîâæ íåâåëèêî¨ êiëüêîñòi
ïðÿìèõ ëiíié íà ïëîùèíi àáî ïëîùèí  ó òðèâèìiðíîìó ïðîñòîði. Çðî-
çóìiëî, ùî òàêà îñîáëèâiñòü ãåíåðàòîðà ñâiä÷èòü ïðî íåâèïàäêîâiñòü.
Ïðîäîâæóþ÷è ïîïåðåäíié ïðèêëàä, öi òåñòè ìîæíà ðåàëiçóâàòè òàê:

x1<-x[1:(n-2)]
x2<-x[2:(n-1)]
x3<-x[3:n]
library(rgl)
plot3d(x1,x2,x3) # 3D-графiка
plot(x1,x3,cex=0.3) # точки на площинi

Ðåçóëüòàòè òåñòiâ  íà ðèñ. 6.13. Íà äâîâèìiðíié äiàãðàìi ðîçñiþâàííÿ


íå âèäíî çàêîíîìiðíîñòåé, ùî õàðàêòåðèçóâàëè á ïîñëiäîâíiñòü ÿê íå
âèïàäêîâó: òî÷êè ðîçêèäàíi õàîòè÷íî i çàïîâíþþòü êâàäðàò ç ïðèáëèçíî
îäíàêîâîþ ùiëüíiñòþ. Îòæå, öåé òåñò ïðîéäåíèé.
Íà òðèâèìiðíié êàðòèíöi òåæ ñïî÷àòêó çàêîíîìiðíîñòi íå áóëè ïîìiò-
íi, àëå ïiñëÿ ïîâîðîòó âäàëîñü îòðèìàòè òå, ùî çîáðàæåíî íà ðèñ. 6.13
ïðàâîðó÷: òî÷êè ðîçòàøîâàíi íà êiëüêîõ (ïðèáëèçíî 15) ïëîùèíàõ âñå-
ðåäèíi êóáó. Çðîçóìiëî, ùî òàêà ïîâåäiíêà íå âiäïîâiä๠óÿâëåííÿì ïðî
íåçàëåæíi âèïàäêîâi âåëè÷èíè ç ðiâíîìiðíèì ðîçïîäiëîì, îòæå öåé òåñò
6.5. Генерацiя псевдовипадкових послiдовностей 218

Рис. 6.13. Дiаграми розсiювання пар та трiйок для RANDU

ãåíåðàòîð RANDU íå ïðîéøîâ. Ñàìå òîìó éîãî çàðàç íå âèêîðèñòîâóþòü


äëÿ ãåíåðàöi¨ ïñåâäîâèïàäêîâèõ ÷èñåë.
Íàñïðàâäi âñi ëiíéíi êîíãðóåíòíi ãåíåðàòîðè äàþòü ïîñëiäîâíîñòi, ùî
ïîðîäæóþòü òðèâèìiðíi ñòðóêòóðè, ïîäiáíi äî âèÿâëåíèõ íàìè ó ãåíå-
ðàòîðà RANDU. Àëå ó õîðîøèõ ãåíåðàòîðiâ êiëüêiñòü ïëîùèí, íà ÿêèõ
ðîçòàøîâóþòüñÿ òî÷êè  âåëèêà, i öi ïëîùèíè çíàõîäÿòüñÿ ïîðó÷ îäíà
âiä îäíî¨, òîìó òàêi ãåíåðàòîðè ïðîõîäÿòü öåé òåñò.
Ó êíèæöi [43] ÿê ìiíiìàëüíèé ñòàíäàðò ðåêîìåíäîâàíî âèêîðèñòîâó-
âàòè ãåíåðàòîð Ïàðêà òà Ìiëåðà ç 𝑎 = 75 , 𝑐 = 0, 𝑚 = 231 − 1. Öåé ãåíåðà-
òîð ïðîõîäèòü îïèñàíi íàìè òåñòè, à òàêîæ áiëüøiñòü òåñòiâ, ÿêi ïðèéíÿòî
31
çàñòîñîâóâàòè äî òàêèõ ãåíåðàòîðiâ. Éîãî ïåðiîä 2 − 2 ≈ 2.1 × 109 . Öå
âåëèêå ÷èñëî, àëå äëÿ äåÿêèõ çàñòîñóâàíü âîíî ìîæå áóòè íåäîñòàòíiì.
Iñíóþòü ñêëàäíiøi òåõíiêè ãåíåðàöi¨ ïñåâäîâèïàäêîâèõ ïîñëiäîâíî-
ñòåé, ùî ìàþòü çíà÷íî áiëüøi ïåðiîäè. Íàïðèêëàä, ó ï.7.1 êíèãè [43]
ðîçãëÿäà¹òüñÿ òåõíiêà êîìáiíóâàííÿ äâîõ ëiíiéíèõ êîíãðóåíòíèõ ãåíåðà-
òîðiâ ç ðiçíèìè ïåðiîäàìè, ÿêà äîçâîëÿ¹ îòðèìàòè ïîñëiäîâíiñòü ç ïåðiî-
äîì, íå ìåíøèì íiæ íàéìåíøå ñïiëüíå êðàòíå êîìáiíîâàíèõ ãåíåðàòîðiâ.
Ùå îäèí ñïîñiá ãåíåðàöi¨ ïñåâäîâèïàäêîâèõ ÷èñåë, ùî íàáóâ ïîïó-
ëÿðíîñòi îñòàííiì ÷àñîì  ãåíåðàòîðè Ôiáîíà÷÷i iç çàïiçíåííÿì (lagged
Fibonacci generator), ó ÿêèõ äëÿ ïîðîäæåííÿ ÷åðãîâîãî åëåìåíòà ïîñëi-
äîâíîñòi âèêîðèñòîâó¹òüñÿ íå îäèí ïîïåðåäíié åëåìåíò, à äâà, âçÿòi ç ôiê-
ñîâàíèì çàïiçíåííÿì. Íàïðèêëàä, àäèòèâíèé ãåíåðàòîð Ôiáîíà÷÷i ìà¹
6.5. Генерацiя псевдовипадкових послiдовностей 219

âèãëÿä
𝐼𝑛 = (𝐼𝑛−𝑘 + 𝐼𝑛−𝑙 ) mod 𝑚,
äå 𝑘<𝑙 ôiêñîâàíi ÷èñëà (ëàãè). Äëÿ ñòâîðåííÿ ïîñëiäîâíîñòi öèì ãåíå-
ðàòîðîì ïîòðiáíî çàäàòè íå îäèí, à 𝑙 ïî÷àòêîâèõ åëåìåíòiâ, ïiñëÿ ÷îãî
ìîæíà âèêîðèñòîâóâàòè ãåíåðóþ÷ó ôîðìóëó. Ìîäóëü 𝑚, ÿê ïðàâèëî, âè-
𝑏
áèðàþòü ñòóïåíåì äâiéêè: 𝑚 = 2 . Ïðè ïðàâèëüíîìó âèáîði ëàãiâ öåé
𝑏−1 𝑙
ãåíåðàòîð äîçâîëÿ¹ îòðèìàòè ïåðiîä 2 (2 − 1). Ïðèêëàäàìè õîðîøèõ
ëàãiâ ¹ 𝑘 = 7, 𝑙 = 10 àáî 𝑘 = 5, 𝑙 = 17.
Ïîäàëüøi âiäîìîñòi ïðî ãåíåðàòîðè ðiâíîìiðíèõ ïîñëiäîâíîñòåé ìîæ-
íà çíàéòè ó êíèçi Ä. Êíóòà [10].

6.5.2 Генерацiя псевдовипадкових чисел iз заданим роз-


подiлом
ßêùî äåÿêèì ãåíåðàòîðîì ñòâîðåíà ïñåâäîâèïàäêîâà ïîñëiäîâíiñòü ç
ðiâíîìiðíèì ðîçïîäiëîì, òî îòðèìàòè ç íå¨ ïîñëiäîâíiñòü, ùî iìiòó¹ íåçà-
ëåæíi âèïàäêîâi âåëè÷èíè ç iíøèì ðîçïîäiëîì ìîæíà, âèêîðèñòîâóþ÷è
ðiçíi ïåðåòâîðåííÿ. Ïðè öüîìó, ÿê ïðàâèëî, òå, ùî ïî÷àòêîâà ïîñëiäîâ-
íiñòü ëèøå iìiòó¹ âèïàäêîâiñòü  iãíîðó¹òüñÿ. Òîáòî ó öüîìó ïiäðîçäiëi
ìè áóäåìî òðàêòóâàòè ïî÷àòêîâó ïîñëiäîâíiñòü 𝜂1 , . . . 𝜂𝑛 , . . . ÿê ïîñëiäîâ-
íiñòü íåçàëåæíèõ îäíàêîâî ðîçïîäiëåíèõ âèïàäêîâèõ âåëè÷èí ç ïåâíèì
ðîçïîäiëîì 𝐺. Öåé ðîçïîäië íàçâåìî ïî÷àòêîâèì. (Ïîêè ùî ìè âìi¹ìî
ãåíåðóâàòè ëèøå ïîñëiäîâíîñòi ç ðiâíîìiðíèì ðîçïîäiëîì, àëå äàëi íàì
iíêîëè áóäå çðó÷íî âèêîðèñòîâóâàòè ÿê ïî÷àòêîâèé ÿêèé-íåáóäü iíøèé
ðîçïîäië).
Íàøà ìåòà  ïîáóäóâàòè ïîñëiäîâíiñòü 𝜉1 ,. . . ,𝜉𝑛 ,. . . íåçàëåæíèõ âè-
ïàäêîâèõ âåëè÷èí iç çàäàíèì ðîçïîäiëîì 𝐹. Öåé ðîçïîäië íàçèâàþòü öi-
ëüîâèì. Ìåòîäè ãåíåðàöi¨ òàêèõ ïîñëiäîâíîñòåé ðîçðiçíÿþòüñÿ â çàëåæ-
íîñòi âiä òîãî, â ÿêié ôîðìi çàäàíèé öiëüîâèé ðîçïîäië.

Квантильне перетворення.
Íåõàé çàäàíà ôóíêöiÿ ðîçïîäiëó äëÿ öiëüîâîãî ðîçïîäiëó 𝐹 (𝑥) =
P{𝜉1 < 𝑥}, ïðè÷îìó 𝐹 (𝑥)
¹ íåïåðåðâíîþ i ñòðîãî çðîñòàþ÷îþ òàì, äå
−1
âîíà íå äîðiâíþ¹ 0 àáî 1. Ðîçãëÿíåìî âèïàäêîâó âåëè÷èíó 𝜉 = 𝐹 (𝜂), äå
−1
âèïàäêîâà âåëè÷èíà 𝜂 ðiâíîìiðíî ðîçïîäiëåíà íà [0,1], 𝐹  ôóíêöiÿ,
−1
îáåðíåíà äî 𝐹 . (Íàì äîñèòü, ùîá ðiâíiñòü 𝐹 (𝐹 (𝑥)) = 𝑥 âèêîíóâàëàñü
6.5. Генерацiя псевдовипадкових послiдовностей 220

äëÿ âñiõ 𝑥 ìiæ 0 òà 1, òîáòî 𝐹 −1 ïîâèííà áóòè îáåðíåíîþ äî 𝐹 íà òîìó


iíòåðâàëi, äå 𝐹  íåïåðåðâíà i ñòðîãî çðîñòàþ÷à).
Ëåãêî áà÷èòè, ùî ôóíêöiÿ ðîçïîäiëó 𝜉

𝐹𝜉 (𝑥) = P{𝜉 < 𝑥} = P{𝐹 −1 (𝜂) < 𝑥} = P{𝜂 < 𝐹 (𝑥)} = 𝐹 (𝑥),

òîáòî 𝜉 ÿêðàç i ì๠öiëüîâèé ðîçïîäië.


Îòæå, îòðèìàòè âèïàäêîâó ïîñëiäîâíiñòü ç ô.ð. 𝐹 ìîæíà, çàñòîñóâàâ-
−1
øè ïåðåòâîðåííÿ 𝑥 → 𝐹 (𝑥) äî êîæíîãî åëåìåíòà ðiâíîìiðíî¨ ïî÷àòêî-
−1
âî¨ ïîñëiäîâíîñòi 𝜂𝑗 îêðåìî: 𝜉𝑗 = 𝐹 (𝜂𝑗 ). Îñêiëüêè âèïàäêîâi âåëè÷èíè
ïî÷àòêîâî¨ ïîñëiäîâíîñòi áóëè íåçàëåæíèìè ìiæ ñîáîþ, íåçàëåæíèìè áó-
äóòü i îòðèìàíi 𝜉𝑗 .
Öå ïåðåòâîðåííÿ íàçèâàþòü êâàíòèëüíèì, òîìó ùî 𝐹 −1 (𝛼) = 𝑄𝐹 (𝛼)
 êâàíòèëü ðiâíÿ 𝛼 äëÿ ðîçïîäiëó 𝐹.

Приклад 6.5.1. Íåõàé ïîòðiáíî çãåíåðóâàòè ïîñëiäîâíiñòü íåçàëåæíèõ,


îäíàêîâî ðîçïîäiëåíèõ âèïàäêîâèõ âåëè÷èí ç åêñïîíåíöiéíèì ðîçïîäi-
−𝜆𝑥
ëîì. Ôóíêöiÿ ðîçïîäiëó  𝐹𝜆 (𝑥) = 1 − 𝑒 ïðè 𝑥 ≥ 0. Ôóíêöiÿ
−1
𝐹 (𝑦) = − log(1 − 𝑦)/𝜆 ¹ îáåðíåíîþ äëÿ 𝐹 (𝑥) ïðè 𝑥 ≥ 0. ßêùî 𝜂 
ðiâíîìiðíî ðîçïîäiëåíà íà [0, 1], òî i (1 − 𝜂) òåæ. Òîìó ç ðiâíîìiðíî¨
ïî÷àòêîâî¨ ïîñëiäîâíîñòi 𝜂1 ,. . . ,𝜂𝑛 öiëüîâó åêñïîíåíöiéíó ïîñëiäîâíiñòü
ìîæíà îòðèìàòè ïåðåòâîðåííÿì

log 𝜂𝑗
𝜉𝑗 = − .
𝜆
Çãåíåðó¹ìî ó R âèáiðêó ç 𝑛 åêñïîíåíöiéíèõ ïñåâäîâèïàäêîâèõ âåëè÷èí i
íàðèñó¹ìî ¨ ¨ åìïiðè÷íó ôóíêöiþ ðîçïîäiëó ðàçîì ç òåîðåòè÷íîþ:

n<-100 # кiлькiсть спостережень


lambda=0.5 # iнтенсивнiсть exp розподiлу
# Використовуємо генератор Парка-Мiллера:
a<-7^5
c0<-0
m<-2^31-1
y<-numeric(n)
y[1]<-1000
for(i in 2:n){
y[i]<-(a*y[i-1]+c0)%% m
6.5. Генерацiя псевдовипадкових послiдовностей 221

1.0
0.8
0.6
(1:n)/n

0.4
0.2
0.0

0 5 10 15 20 25 30

sx

Рис. 6.14. Емпiрична функцiя розподiлу для експоненцiйного генератора


випадкових чисел

}
y<-y/m # рiвномiрна послiдовнiсть
x<--log(y)/lambda # квантильне перетворення
#
# рисуємо емпiричну функцiю розподiлу:
sx<-sort(x)
plot(sx,(1:n)/n,type="s",lwd=2)
# графiк теоретичної функцiї розподiлу:
lines(sx,pexp(sx,rate=lambda),lty=3,lwd=3,col="red")

Òóò ìè ñêîðèñòàëèñü ãåíåðàòîðîì Ïàðêà i Ìiëëåðà äëÿ îòðèìàííÿ


ðiâíîìiðíî¨ ïîñëiäîâíîñòi y, à ïîòiì çàñòîñóâàëè êâàíòèëüíå ïåðåòâîðåí-
íÿ, ùîá îòðèìàòè öiëüîâó ïîñëiäîâíiñòü x. Ãðàôiê ¨ ¨ åìïiðè÷íî¨ ôóíêöi¨
ðîçïîäiëó ó ïîðiâíÿííi ç âiäïîâiäíîþ òåîðåòè÷íîþ ôóíêöi¹þ  íà ðèñ.
6.14. J

Метод прорiджування.
Êâàíòèëüíå ïåðåòâîðåííÿ äîçâîëÿ¹ îòðèìàòè íåçàëåæíi âèïàäêîâi âå-
ëè÷èíè ç áóäü-ÿêèì ðîçïîäiëîì. Àëå äëÿ öüîãî ïîòðiáíà ôóíêöiÿ, ùî
çíàõîäèòü êâàíòèëi öiëüîâîãî ðîçïîäiëó. ×àñòî òàêi ôóíêöi¨ âàæêî çà-
ïèñàòè ó ÿâíîìó âèãëÿäi, à ÷èñåëüíèé ïiäðàõóíîê êâàíòèëiâ ñòàíîâèòü
6.5. Генерацiя псевдовипадкових послiдовностей 222

ñàìîñòiéíó çàäà÷ó.
Ìåòîä ïðîðiäæóâàííÿ äîçâîëÿ¹ ãåíåðóâàòè ïîñëiäîâíîñòi iç çàäàíèì
ðîçïîäiëîì, âèêîðèñòîâóþ÷è äëÿ öüîãî íå êâàíòèëi, à ùiëüíîñòi ðîçïîäi-
ëó. Ïîÿñíèìî iäåþ öüîãî ìåòîäó.
Íåõàé âèïàäêîâà âåëè÷èíà 𝜂 ì๠ùiëüíiñòü ðîçïîäiëó 𝑔, à íàì ïî-
òðiáíà âèïàäêîâà âåëè÷èíà ç ùiëüíiñòþ 𝑓. Ïðèïóñòèìî, ùî äëÿ âñiõ 𝑥
𝑓 (𝑥) ≤ 𝐶𝑔(𝑥) äëÿ äåÿêîãî ôiêñîâàíîãî ÷èñëà 0 < 𝐶 < ∞. Ââåäåìî ùå
îäíó âèïàäêîâó âåëè÷èíó 𝑢, ùî ì๠ðiâíîìiðíèé ðîçïîäië íà [0, 1] i ¹
íåçàëåæíîþ âiä 𝜂.
Ïiäðàõó¹ìî óìîâíó éìîâiðíiñòü

𝑓 (𝜂)
P{𝜂 < 𝑥, 𝑢 < 𝐶𝑔(𝜂) }
{︂ }︂
𝑓 (𝜂)
P 𝜂<𝑥|𝑢< = 𝑓 (𝜂)
.
𝐶𝑔(𝜂) P{𝑢 < 𝐶𝑔(𝜂) }

Äëÿ ÷èñåëüíèêà ìà¹ìî

∫︁ 𝑥 ∫︁ 𝑓 (𝑦)/(𝐶𝑔(𝑦)) ∫︁ 𝑥
𝑓 (𝜂) 1
P{𝜂 < 𝑥, 𝑢 < }= 𝑑𝑡𝑔(𝑦)𝑑𝑦 = 𝑓 (𝑦)𝑑𝑦.
𝐶𝑔(𝜂) −∞ 0 𝐶 −∞

Àíàëîãi÷íî äëÿ çíàìåííèêà

𝑓 (𝜂) 1
P{𝑢 < }= .
𝐶𝑔(𝜂) 𝐶
𝑓 (𝜂)
Îòæå, ôóíêöiÿ ðîçïîäiëó äëÿ ðîçïîäiëó 𝜂 ïðè óìîâi 𝑢< 𝐶𝑔(𝜂)
, äîðiâíþ¹

{︂ }︂ ∫︁ 𝑥
𝑓 (𝜂)
P 𝜂<𝑥|𝑢< = 𝑓 (𝑦)𝑑𝑦,
𝐶𝑔(𝜂) −∞

òîáòî öå ô.ð. öiëüîâîãî ðîçïîäiëó çi ùiëüíiñòþ 𝑓.


Iäåÿ ìåòîäó ïðîðiäæóâàííÿ ïîëÿã๠â òîìó, ùîá çãåíåðóâàòè ïîñëi-
äîâíiñòü ïàð (𝜂1 , 𝑢1 ), (𝜂2 , 𝑢2 ), . . . , äå 𝜂𝑗 ìàþòü ùiëüíiñòü 𝑔 , 𝑢𝑗  ðiâíîìiðíi
íà [0,1] i âñi â.â. íåçàëåæíi â ñóêóïíîñòi, à ïîòiì âiäiáðàòè ç åëåìåíòiâ
öi¹¨ ïîñëiäîâíîñòi òi, ÿêi çàäîâîëüíÿþòü óìîâó 𝑢𝑗 < 𝑓 (𝜂𝑗 )/(𝐶𝑔(𝜂𝑗 )). Ïî-
ñëiäîâíiñòü, ñòâîðåíà âiäiáðàíèìè 𝜂𝑗 , áóäå ìàòè öiëüîâèé ðîçïîäië.

Приклад 6.5.2. Ðîçãëÿíåìî çàäà÷ó ãåíåðàöi¨ ïîñëiäîâíîñòi ç ïiâíîðìàëü-


íèì ðîçïîäiëîì ç ïàðàìåòðîì 𝜎 = 1. Íàãàäà¹ìî, ùî öå ðîçïîäië âèïàä-
êîâî¨ âåëè÷èíè |𝜁|, äå 𝜁  ñòàíäàðòíà ãàóññîâà âèïàäêîâà âåëè÷èíà. Éîãî
6.5. Генерацiя псевдовипадкових послiдовностей 223

ôóíêöiÿ ðîçïîäiëó 𝐹 (𝑥) = P{|𝜁| < 𝑥} = 2Φ(𝑥) − 1 ïðè 𝑥 > 0 i 0 ïðè 𝑥 ≤ 0.


Ùiëüíiñòü ðîçïîäiëó 

{︃√︁ (︁ 2 )︁
2
𝜋
exp − 𝑥2 ïðè 𝑥 ≥ 0,
𝑓 (𝑥) =
0 ïðè 𝑥 < 0.

Ùiëüíiñòü öiëüîâîãî ðîçïîäiëó çàïèñó¹òüñÿ ó ÿâíîìó âèãëÿäi, à êâàíòèëi


 íi. Òîìó ïðèðîäíî ñêîðèñòàòèñü äëÿ ãåíåðàöi¨ ìåòîäîì ïðîðiäæóâàí-
íÿ. Îñêiëüêè 𝑓 (𝑥) > 0 äëÿ âñiõ äîäàòíèõ 𝑥, ðiâíîìiðíèé ðîçïîäië íå
ïiäõîäèòü ÿê ïî÷àòêîâèé. Àëå ìîæíà âçÿòè ÿê ïî÷àòêîâi åêñïîíåíöiéíî
ðîçïîäiëåíi âèïàäêîâi âåëè÷èíè ç iíòåíñèâíiñòþ 𝜆 = 1. Ùiëüíiñòü öüîãî
ðîçïîäiëó íà äîäàòíié ïiâîñi 𝑔(𝑥) = exp(−𝑥).√︀
Ëåãêî áà÷èòè, ùî 𝑓 (𝑥) ≤ 𝐶𝑔(𝑥) äëÿ 𝐶 = 2𝑒/𝜋 i

(𝑥 − 1)2
(︂ )︂
𝑓 (𝑥)
= exp − .
𝐶𝑔(𝑥) 2
Äëÿ ãåíåðàöi¨ åêñïîíåíöiéíî ðîçïîäiëåíî¨ ïîñëiäîâíîñòi âèêîðèñòà¹ìî
êâàíòèëüíå ïåðåòâîðåííÿ, ÿê ó ïðèêëàäi 1. Îôîðìèìî çíàõîäæåííÿ ÷åð-
ãîâîãî åëåìåíòà ïñåâäîâèïàäêîâî¨ ïîñëiäîâíîñòi ó âèãëÿäi îêðåìî¨ ôóíê-
öi¨. Ó ñêðèïòi, ùî íàâåäåíèé íèæ÷å, rand()  ôóíêöiÿ, ÿêà ãåíåðó¹ îäíå
÷åðãîâå ðiâíîìiðíå [0,1] ÷èñëî. (Ïðè öüîìó âiäïîâiäíå çíà÷åííÿ öiëî÷èñ-
ëîâî¨ ïîñëiäîâíîñòi I çàïèñó¹òüñÿ ó ãëîáàëüíó çìiííó çà äîïîìîãîþ ãëî-
áàëüíîãî ïðèâëàñíåííÿ I<<- âñåðåäèíi òiëà ôóíêöi¨ (äèâ. ï. 2.7.1). Ôóíê-
öiÿ, ùî ãåíåðó¹ ïiâíîðìàëüíå ÷èñëî, çâåòüñÿ rhnorm.

n<-1000 # кiлькiсть спостережень


a<-7^5 # параметри генератора
m<-2^31-1 # Парка i Мiлера
I<-500 # початкове значення для генератора
#
# генератор рiвномiрної послiдовностi:
rand<-function(){I<<-(a*I)%%m; I/m}
#
# генератор пiвнормальної послiдовностi:
rhnorm<-function()
{
repeat{
6.5. Генерацiя псевдовипадкових послiдовностей 224

1.0

0.8
0.8

0.6
0.6

0.4
0.4

0.2
0.2

0.0
0.0

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

Рис. 6.15. Емпiрична функцiя розподiлу та гiстограма для пiвнормального


генератора випадкових чисел

u<-rand()
x<--log(rand()) # x - експоненцiйне
if(u<exp(-0.5*(x-1)^2))return(x)
}
}
# генеруємо пiвнормальну послiдовнiсть:
x<-replicate(n,rhnorm()) # тут rhnorm викликається n разiв
# рисуємо графiк емпiричної функцiї розподiлу
sx<-sort(x)
plot(sx,(1:n)/n,type="s",lwd=2,xlab="",ylab="")
# графiк теоретичної функцiї розподiлу:
lines(sx,2*pnorm(sx)-1,col="red",lwd=2,lty=2)
# рисуємо гiстограму вiдносних частот:
hist(x, density=20, breaks=20, prob=TRUE,
xlab="", ylab="",
main="")
# рисуємо графiк пiвнормальної щiльностi:
curve(2*dnorm(x),
col="blue", lwd=2, add=TRUE, yaxt="n")

Ðåçóëüòàòè ãðàôi÷íî¨ ïåðåâiðêè ÿêîñòi ãåíåðàöi¨ çîáðàæåíi íà ðèñóí-


êó 6.15. Òóò ëiâîðó÷ åìïiðè÷íà ôóíêöiÿ ðîçïîäiëó ïîðiâíþ¹òüñÿ ç òåîðå-
6.5. Генерацiя псевдовипадкових послiдовностей 225

15
òè÷íîþ, à ïðàâîðó÷  ãiñòîãðàìà âiäíîñíèõ ÷àñòîò çãåíåðîâàíî¨ ïîñëi-
äîâíîñòi ç ùiëüíiñòþ ïiâíîðìàëüíîãî ðîçïîäiëó (ñèíÿ êðèâà).
ßê áà÷èìî, ùiëüíiñòü òà ôóíêöiÿ ðîçïîäiëó ïiâíîðìàëüíîãî ðîçïîäiëó
äîáðå âiäòâîðþþòüñÿ íàøèì ãåíåðàòîðîì. J

6.5.3 Випадковi числа в R


Ó áàçîâîìó R ðåàëiçîâàíi ãåíåðàòîðè ïñåâäîâèïàäêîâèõ ïîñëiäîâíî-
ñòåé ç îñíîâíèìè éìîâiðíiñíèìè ðîçïîäiëàìè, âêàçàíèìè ó òàáëèöi 6.1.
Íàçâè âñiõ öèõ ôóíêöié ïî÷èíàþòüñÿ ç ëiòåðè r, ïiñëÿ ÷îãî éäå íàçâà
ðîçïîäiëó: rnorm() ãåíåðó¹ íîðìàëüíi ïîñëiäîâíîñòi, rexp()  åêñïîíåí-
öiéíi i ò.ï.
Ïåðøèì ïàðàìåòðîì âñiõ öèõ ôóíêöié ¹ êiëüêiñòü åëåìåíòiâ ïîñëi-
äîâíîñòi. Ïiñëÿ öüîãî ïàðàìåòðà ìîæíà âêàçóâàòè ïàðàìåòðè ðîçïîäiëó.
Íàïðèêëàä,
rnorm(10)  ãåíåðó¹ âåêòîð ç 10 ïñåâäîâèïàäêîâèõ ñòàíäàðòíèõ íîð-
ìàëüíèõ ÷èñåë;
rnorm(5, mean=1,sd=0.5)  âåêòîð ç 5 íîðìàëüíèõ ÷èñåë ç ìàòåìà-
òè÷íèì ñïîäiâàííÿì 1 òà äèñïåðñi¹þ 0.25;
rexp(1,rate=0.5) îäíå ÷èñëî ç åêñïîíåíöiéíèì ðîçïîäiëîì ç iíòåí-
ñèâíiñòüþ 𝜆 = 0.5.
Ãåíåðàöiÿ ïñåâäîâèïàäêîâèõ ÷èñåë ó ñòàíäàðòíèõ ôóíêöiÿõ áàçîâîãî
R îðãàíiçîâàíà çà ñõåìîþ ïîäiáíîþ äî ïðèêëàäó 2 ç ï. 6.5.2. Âèêîðèñòî-
âó¹òüñÿ îäíà öiëî÷èñëîâà ïîñëiäîâíiñòü, íà îñíîâi ÿêî¨ áóäóþòüñÿ çíà÷åí-
íÿ âñiõ ïñåâäîâèïàäêîâèõ ÷èñåë, ÿêi ãåíåðóþòüñÿ ïiä ÷àñ ñåàíñó ðîáîòè ç
R. ×åðãîâå çíà÷åííÿ öiëî÷èñëîâî¨ ïîñëiäîâíîñòi çáåðiãà¹òüñÿ ó ãëîáàëüíié
çìiííié i çìiíþ¹òñÿ ïðè âèêîíàííi êîæíî¨ ôóíêöi¨-ãåíåðàòîðà.
Ïî÷àòêîâå çíà÷åííÿ öiëî÷èñëîâî¨ ïîñëiäîâíîñòi çâåòüñÿ seed  çåð-
íèíà. Öÿ çåðíèíà çà óìîâ÷àííÿì âèáèðà¹òüñÿ íà ïî÷àòêó ñåàíñó ðîáîòè
ç R çà îñòàííiìè öèôðàìè ÷àñó, ÿêèé íà öåé ìîìåíò ïîêàçó¹ ãîäèííèê
êîìï'þòåðà. Òàêèì ÷èíîì, êîæíîãî ðàçó, êîëè âè çàïóñêà¹òå R, ãåíå-
ðó¹òüñÿ íîâà ïîñëiäîâíiñòü ïñåâäîâèïàäêîâèõ ÷èñåë.
Öå çðó÷íî, ÿêùî âè ïåðåâiðÿ¹òå ñòàòèñòè÷íi îñîáëèâîñòi âàøèõ àëãî-
ðèòìiâ: êîæíà íîâà ïåðåâiðêà âiäáóâà¹òüñÿ íà íîâèõ äàíèõ. Àëå íà åòàïi
âiäëàãîäæóâàííÿ ïðîãðàìè, êîëè âàì òðåáà ïåðåñâiä÷èòèñü, ùî ¨ ¨ ðîáîòà
âiäïîâiä๠òåîðåòè÷íîìó àëãîðèòìó i âèëîâèòè íåâiäïîâiäíîñòi, òàêà ãå-

15
Про гiстограму як оцiнку щiльностi див. п.7.1.
6.5. Генерацiя псевдовипадкових послiдовностей 226

íåðàöiÿ ñòâîðþ¹ íåçðó÷íîñòi. Ïîìèëêà ïðîãðàìè, ÿêà áóëà ïîìiòíîþ íà


îäíié ïîñëiäîâíîñòi, ìîæå çàãóáèòèñü ïðè ïîâòîðíîìó òåñòóâàííi. Ùîá
óñóíóòè öåé åôåêò áàæàíî ïðè âiäëàäöi êîæíîãî ðàçó çàïóñêàòè ïðîãðà-
ìó íà òié æå ñàìié ïñåâäîâèïàäêîâié ïîñëiäîâíîñòi. Öå ìîæíà çðîáèòè,
çàôiêñóâàâøè çåðíèíó.
Âèáið çåðíèíè ðîáèòü ôóíêöiÿ set.seed(). ßê ïàðàìåòð öi¹¨ ôóíêöi¨
ìîæíà âêàçàòè áóäü-ÿêå öiëå äîäàòíå ÷èñëî. Çà öèì ÷èñëîì áóäå îáðàíà
çåðíèíà. Äàëi ó öié êíèæöi ïðè âèêîðèñòàííi ãåíåðàòîðiâ ïñåâäîâèïàä-
êîâèõ ÷èñåë çåðíèíà, ÿê ïðàâèëî, ôiêñó¹òüñÿ. Öå çðîáëåíî äëÿ òîãî, ùîá
îïèñ ðåçóëüòàòiâ ó êíèæöi âiäïîâiäàâ òîìó, ùî âèä๠ñêðèïò. Ïðè ñàìî-
ñòiéíié ðîáîòi çi ñêðèïòàìè ç öi¹¨ êíèæêè ôiêñóâàòè çåðíèíó íå ïîòðiáíî,
ÿêùî âè õî÷åòå ïîäèâèòèñü íà âèïàäêîâèé ðîçêèä ðåçóëüòàòiâ.
Роздiл 7

Методи графiчного аналiзу


одновимiрних даних

Ó ðîçäiëi 6 ìè ïîçíàéîìèëèñü ç îñíîâíèìè òåîðåòè÷íèìè ìîäåëÿìè


ðîçïîäiëiâ äàíèõ. Òåïåð ìè ðîçãëÿíåìî ãðàôi÷íi çàñîáè ïåðåâiðêè òîãî,
ùî ðîçïîäië ñïîñòåðåæóâàíèõ äàíèõ âiäïîâiä๠òåîðåòè÷íié ìîäåëi. Ó ï.
7.4 ìè òàêîæ ïîáà÷èìî, ÿê ïîðiâíþâàòè ðîçïîäiëè äâîõ ðiçíèõ íàáîðiâ
äàíèõ íå ìàþ÷è ïîïåðåäíiõ òåîðåòè÷íèõ ìîäåëåé äëÿ íèõ.
Êðiì ãðàôi÷íèõ ìåòîäiâ ïåðåâiðêè ðîçïîäiëó iñíóþòü i iíøi, íàïðè-
êëàä, çà äîïîìîãîþ ñïåöiàëüíèõ ñòàòèñòè÷íèõ òåñòiâ. Ïðî îäèí ç òàêèõ
òåñòiâ äèâ. ï. 9.6.3.

7.1 Гiстограми
Ãiñòîãðàìà ¹ íàéáiëüø ïîïóëÿðíèì ñïîñîáîì ãðàôi÷íîãî âiäîáðàæåí-
íÿ ðîçïîäiëó ÷èñëîâèõ äàíèõ. Ðîçðiçíÿþòü ãiñòîãðàìè àáñîëþòíèõ òà âiä-
íîñíèõ ÷àñòîò.
Íåõàé ñïîñòåðiãàþòüñÿ çíà÷åííÿ çìiííî¨ 𝑋 ó 𝑛 îá'¹êòiâ. Çáåðåìî ¨õ â
îäèí íàáið (𝑋1 , . . . , 𝑋𝑛 ). Çàäàìî äåÿêèé iíòåðâàë [𝑎, 𝑏], íà ÿêîìó ðîçìi-
ùåíi âñi ñïîñòåðåæóâàíi çíà÷åííÿ. Ðîçiá'¹ìî öåé iíòåðâàë íà 𝐾 ïiäií-
òåðâàëiâ 𝐴1 , . . . 𝐴𝐾 îäíàêîâî¨ øèðèíè ℎ = (𝑏 − 𝑎)/𝐾 . Iíòåðâàëè 𝐴𝑖 ,
𝑖 = 2, . . . , 𝐾 âèçíà÷àþòüñÿ ÿê 𝐴𝑖 = (𝑡𝑖−1 , 𝑡𝑖 ], äå 𝑡𝑖 = 𝑎 + 𝑖ℎ, 𝐴1 = [𝑡1 , 𝑡2 ].
1
∑︀𝑛
Ïîçíà÷èìî 𝑛𝑖 = 𝑗=1 {𝑋𝑗 ∈ 𝐴𝑖 }  êiëüêiñòü ñïîñòåðåæóâàíèõ çíà-
÷åíü, ùî ïîòðàïèëè íà iíòåðâàë 𝐴𝑖 . Âåëè÷èíó 𝑛𝑖 çâóòü àáñîëþòíîþ ÷à-
ñòîòîþ (absolute frequency, count) iíòåðâàëó 𝐴𝑖 ó âèáiðöi 𝑋 . Âåëè÷èíó

227
7.1. Гiстограми 228

1
𝜈𝑖 = 𝑛𝑖 /𝑛 çâóòü âiäíîñíîþ ÷àñòîòîþ (relative frequency).
Ãiñòîãðàìà àáñîëþòíèõ ÷àñòîò áóäó¹òüñÿ òàê. Íà ãîðèçîíòàëüíié îñi
âiäêëàäàþòüñÿ iíòåðâàëè 𝐴𝑖 i íàä êîæíèì iíòåðâàëîì áóäó¹òüñÿ ñòîâï÷èê
âèñîòè 𝑛𝑖 (äèâ. ëiâó ÷àñòèíó ðèñ. 7.1 íà ñ. 230).
Ó ãiñòîãðàìi âiäíîñíèõ ÷àñòîò âèñîòà ñòîâï÷èêà âèçíà÷à¹òüñÿ ÿê 𝑓𝑖 =
𝜈𝑖 /ℎ = 𝑛𝑖 /(𝑛ℎ). Òàêèì ÷èíîì, íà ðèñóíêó ãiñòîãðàìà âiäíîñíèõ ÷àñòîò
âiäðiçíÿ¹òüñÿ âiä ãiñòîãðàìè àáñîëþòíèõ ëèøå ìàñøòàáîì ïî âåðòèêàëi
(äèâ. ðèñ. 7.1). Íîðìóþ÷èé ìíîæíèê 1/(𝑛ℎ) äëÿ ãiñòîãðàìè âiäíîñíèõ
÷àñòîò îáðàíèé òàê, ùîá ¨ ¨ ìîæíà áóëî âèêîðèñòîâóâàòè ÿê îöiíêó äëÿ
ùiëüíîñòi ðîçïîäiëó âèáiðêè.
Äiéñíî, íåõàé 𝑋 = (𝑋1 , . . . , 𝑋𝑛 )  âèáiðêà ç íåçàëåæíèõ îäíàêîâî
ðîçïîäiëåíèõ âèïàäêîâèõ âåëè÷èí (êðàòíà âèáiðêà), ùî ìàþòü ùiëüíiñòü
ðîçïîäiëó 𝑓. Çà çàêîíîì âåëèêèõ ÷èñåë, ïðè âåëèêîìó îáñÿçi âèáiðêè 𝑛,

𝑛 ∫︁ 𝑡𝑖
1 ∑︁
𝜈𝑖 = 1{𝑋𝑗 ∈ [𝑡𝑖−1 , 𝑡𝑖 )} ≈ P{𝑋1 ∈ [𝑡𝑖−1 , 𝑡𝑖 )} = 𝑓 (𝑡)𝑑𝑡.
𝑛 𝑗=1 𝑡𝑖−1

∫︀ 𝑡𝑖
ßêùî 𝑥 ∈ [𝑡𝑖−1 , 𝑡𝑖 ), 𝑓  ãëàäåíüêà ôóíêöiÿ i ℎ ìàëåíüêå, òî
𝑡𝑖−1
𝑓 (𝑡)𝑑𝑡 ≈
𝑓 (𝑥)ℎ. Îòæå 𝑓𝑖 ≈ 𝑓 (𝑥), òîáòî ôóíêöiÿ


⎪ 𝑓1 ÿêùî 𝑥 ∈ 𝐴1

⎨𝑓 2 ÿêùî 𝑥 ∈ 𝐴2



ˆ
𝑓 (𝑥) = . . .

𝑓𝐾 ÿêùî 𝑥 ∈ 𝐴𝐾





ÿêùî 𝑥 ̸∈ [𝑎, 𝑏]
⎩0

¹ õîðîøèì íàáëèæåííÿì äëÿ 𝑓 (𝑥). Ãiñòîãðàìó âiäíîñíèõ ÷àñòîò ìîæíà


ðîçãëÿäàòè ÿê ãðàôiê öi¹¨ ôóíêöi¨, à ñàìó 𝑓ˆ(𝑥) íàçèâàþòü ãiñòîãðàìíîþ
îöiíêîþ ùiëüíîñòi ðîçïîäiëó.

1
Зауважимо, що при нашому виборi вiдкритих злiва iнтервалiв 𝐴𝑖 , спостереження, яке
опинилось на межi двох iнтервалiв, потрапляє до iнтервалу, що лежить лiворуч. (Так реалi-
зований пiдрахунок частот для гiстограм в R). Iнколи навпаки, задають iнтервали розбиття,
вiдкритi зправа. Iще один можливий варiант, коли спостереження, що лежить на межi двох
iнтервалiв враховується у частотах обох, але з вагою 1/2. При великiй кiлькостi спостережень
без повторень цi вiдмiнностi не грають ролi, але у деяких випадках можуть бути важливими
для розумiння поведiнки гiстограми.
7.1. Гiстограми 229

Òàêèì ÷èíîì, ÿêùî ãiñòîãðàìó ðèñóþòü ùîá ïîáà÷èòè ùiëüíiñòü ðîç-


ïîäiëó äàíèõ, äîöiëüíî âèêîðèñòîâóâàòè ñàìå ãiñòîãðàìó âiäíîñíèõ ÷à-
ñòîò.  òîé æå ÷àñ, ïåâíi ïåðåâàãè ì๠ãiñòîãðàìà àáñîëþòíèõ ÷àñòîò:
ïî âèñîòi ¨ ¨ ñòîâï÷èêiâ îäðàçó ìîæíà ïîáà÷èòè ñêiëüêè ñïîñòåðåæåíü
ïîòðàïèëî â òîé ÷è iíøèé iíòåðâàë ðîçáèòòÿ.
Ó R äëÿ ðèñóâàííÿ ãiñòîãðàì âèêîðèñòîâó¹òüñÿ ñòàíäàðòíà ôóíêöiÿ
hist(x, ...). Ïåðåëi÷èìî äåÿêi ïàðàìåòðè/îïöi¨ öi¹¨ ôóíêöi¨:
x  íàáið äàíèõ (âèáiðêà) çà ÿêèì áóäó¹òüñÿ ãiñòîãðàìà.
breaks  ïàðàìåòð, ùî êîíòðîëþ¹ âèáið òî÷îê ðîçáèòòÿ. ßêùî âií
íå çàäàíèé, òî çà óìîâ÷àííÿì êiëüêiñòü òî÷îê ðîçáèòòòÿ îáèðà¹òüñÿ çà
ôîðìóëîþ Ñòóðãåñà: 𝐾 = ⌊log2 𝑛+1⌋, äå 𝑛  êiëüêiñòü åëåìåíòiâ x. ßêùî
breaks  öå îäíå ÷èñëî, òî ôóíêöiÿ áåðå éîãî ÿê êiëüêiñòü iíòåðâàëiâ
ðîçáèòòÿ. Ïðè öüîìó êiíöåâi òî÷êè âñüîãî iíòåðâàëó, íà ÿêîìó áóäó¹òüñÿ
ãiñòîãðàìà, âèçíà÷àþòüñÿ ÿê min(x), max(x). breaks  ÷èñëîâèé
ßêùî
âåêòîð, éîãî ðîçãëÿäàþòü ÿê íàáið òî÷îê ðîçáèòòÿ 𝑡0 < 𝑡1 < · · · < 𝑡𝐾 .
probability  ëîãi÷íà îïöiÿ, çà óìîâ÷àííÿì  FALSE. ßêùî âîíà
äîðiâíþ¹ TRUE, áóäó¹òüñÿ ãiñòîãðàìà âiäíîñíèõ ÷àñòîò, iíàêøå  àáñî-
ëþòíèõ.
right  ëîãi÷íà îïöiÿ, ÿêùî âîíà TRUE, òî iíòåðâàëè ðîçáèòòÿ ââà-
æàþòüñÿ çàìêíåíèìè ñïðàâà, âiäêðèòèìè çëiâà.
density, angle, col, border  ïàðàìåòðè, ùî êîíòðîëþþòü øòðè-
õîâêó òà êîëið ïðÿìîêóòíèêiâ ãiñòîãðàìè òàê ñàìî, ÿê ó ôóíêöi¨ rect().
main, xlab, ylab  ïàðàìåòðè, ùî çàäàþòü îñíîâíó íàçâó òà íàçâè
îñåé ãiñòîãðàìè.
plot  ÿêùî öåé ïàðàìåòð çðîáèòè FALSE, ãiñòîãðàìà âiäîáðàæàòèñü
íå áóäå. Àëå ôóíêöiÿhist ðîçðàõó¹ âñi ïàðàìåòðè, íåîáõiäíi äëÿ ðèñó-
âàííÿ ãiñòîãðàìè (iíòåðâàëè ðîçáèòòÿ òà âèñîòè ñòîâï÷èêiâ) i âèäàñòü
¨õ ÿê ðåçóëüòàò ñâ ðîáîòè. Òîáòî çíà÷åííÿì ôóíêöi¨ ¹ îá'¹êò, ùî ìi-
ñòèòü öi ïàðàìåòðè. Éîãî ìîæíà çáåðåãòè äëÿ ïîäàëüøîãî âèêîðèñòàííÿ.
(Ñêàæiìî, äëÿ âiäîáðàæåííÿ ïiçíiøå íà iíøîìó ðèñóíêó).

Приклад 7.1.1. Ó ôàéëi tips.csv çíàõîäÿòüñÿ äàíi ïðî ÷àéîâi, ÿêi îò-
ðèìóâàâ îäèí îôiöiàíò ðåñòîðàíó ó ÑØÀ ïðîòÿãîì äâîõ ç ïîëîâèíîþ
ìiñÿöiâ ðîáîòè ó 1990 ð. Ðîçìið ÷àéîâèõ, îòðèìàíèõ çà êîæíå îáñëóãîâó-
âàííÿ, çàïèñàíèé ó çìiííié tip, çìiííà sex âêàçó¹ ñòàòü îñîáè, ùî îïëà-
÷óâàëà ðàõóíîê (F  æiíêà, M  ÷îëîâiê). Ùîá îòðèìàòè ãiñòîãðàìè
ðîçìiðó ÷àéîâèõ, âèêîíà¹ìî íàñòóïíi êîìàíäè:
7.1. Гiстограми 230

Absolute frequencies Relative frequencies


80

0.30
0.25
60

0.20
Frequency

Density
40

0.15
0.10
20

0.05
0.00
0

2 4 6 8 10 2 4 6 8 10

tip tip

Рис. 7.1. Гiстограми абсолютних та вiдносних частот

z<-read.csv("c:/rem/rstat/data/tips.csv")
hist(z$tip,main="Absolute frequencies",xlab="tip")
hist(z$tip,probability=T,
main="Relative frequencies",xlab="tip")

read.csv (íà ìî¹-


Ñïî÷àòêó ìè ïðî÷èòàëè äàíi çà äîïîìîãîþ ôóíêöi¨
ìó êîìï'þòåði ôàéë tips.csv çíàõîäèòüñÿ ó êàòàëîçi c:/rem/rstat/data/).
Ïîòiì ìè âèâåëè ãiñòîãðàìó àáñîëþòíèõ ÷àñòîò i ãiñòîãðàìó âiäíîñíèõ
÷àñòîò.
Ðåçóëüòàò âèêîíàííÿ çîáðàæåíèé íà ðèñ. 7.1. Ç öüîãî ðèñóíêó ìîæíà
çðîáèòè âèñíîâîê, ùî ùiëüíiñòü ðîçïîäiëó ðîçìiðó ÷àéîâèõ ¹ ìîíîòîííî
2
ñïàäíîþ. Çñóíåìî ïî÷àòêîâó òî÷êó ãiñòîãðàìè íà 1/2 (ðèñ. 7.2 ëiâîðó÷).
Òåïåð ðèñóíîê âèãëÿä๠òàê, íà÷å ùiëüíiñòü ñïî÷àòêó çðîñòà¹, à ïîòiì
ïî÷èí๠ñïàäàòè.
Çìåíøèìî øèðèíó iíòåðâàëó ðîçáèòòÿ  ïîêëàäåìî ℎ = 0.125  îò-
ðèìó¹ìî êàðòèíêó íà ðèñ. 7.2 ïðàâîðó÷. Êîìàíäè, ÿêèìè öå áóëî çðîá-
ëåíî ìàþòü íàñòóïíèé âèãëÿä:

z<-read.csv("c:/rem/rstat/data/tips.csv")
hist(z$tip,main="Origin shift",xlab="tip",breaks=(1:11)-0.5)
hist(z$tip,main="Bin length changed",
2
origin, тобто лiвий кiнець iнтервалу, на якому побудована гiстограма
7.1. Гiстограми 231

Origin shift Bin length changed


80

30
60
Frequency

Frequency

20
40

10
20
0

0
2 4 6 8 10 0 2 4 6 8 10

tip tip

Рис. 7.2. Гiстограми для tip: початкова точка та ширина iнтервалу

xlab="tip",breaks=(1:88)*0.125)

ßêùî óâàæíî ïðèäèâèòèñü äî îñòàííüîãî ðèñóíêó, òî ìîæíà ïîáà÷è-


òè, ùî ïiêè íà ãiñòîãðàìi âiäïîâiäàþòü öiëèì ðîçìiðàì ÷àéîâèõ (2, 3, 4, 5
äîëàðiâ) à òàêîæ öiëèì çíà÷åííÿì ïëþñ ïiâäîëàðà. Êðiì òîãî, ïðàâîðó÷
âiä îñíîâíî¨ ìàñè ñïîñòåðåæåíü ðîçòàøîâàíi îêðåìi íåâèñîêi ñòîâï÷èêè,
ùî âiäïîâiäàþòü àíîìàëüíî âåëèêèì ÷àéîâèì. Öi ñïîñòåðåæåííÿ ëåãêî
ïîÿñíèòè ç ñîöiàëüíî-ïñèõîëîãi÷íèõ ìiðêóâàíü: ëþäèíà ìîæå çàëèøèòè
íà ÷àé äðiáíi ìîíåòè çäà÷i, àáî äàòè ãðîøi ç ñâîãî ãàìàíöÿ. Ó äðóãîìó
âèïàäêó, ÿê ïðàâèëî, çàëèøàþòü êðóãëó ñóìó. Áiëüøiñòü ëþäåé äîòðè-
ìóþòüñÿ çàãàëüíîïðèéíÿòîãî ðîçìiðó ÷àéîâèõ, àëå äåõòî ÷àñîì âèÿâëÿ¹
àíîìàëüíó ùåäðiñòü. Òàêèì ÷èíîì, ó äàíîìó âèïàäêó íå ìîæíà êàçàòè
ïðî ÿêóñü ñïiëüíó ùiëüíiñòü ðîçïîäiëó äàíèõ, ùî îïèñó¹ âñi ñïîñòåðåæåí-
íÿ. Ñêîðiøå äàíi òðåáà îïèñóâàòè ìîäåëëþ ñóìiøi äâîõ êîìïîíåíò: àá-
ñîëþòíî íåïåðåðâíî¨ (çäà÷ó çàëèøòå ñîái) i äèñêðåòíî¨ (äâà-òðè-÷îòèðè
äîëàðè íà ÷àé). Òèì íå ìåíøå, ãiñòîãðàìà àáñîëþòíèõ ÷àñòîò ä๠ìîæ-
ëèâiñòü âiçóàëüíî ïðîàíàëiçóâàòè òàêi äàíi i çðîáèòè ïåâíi âèñíîâêè ïðî
¨õ ðîçïîäië. J

Âåëèêi âiäìiííîñòi âèñîò ñóñiäíiõ ñòîâï÷èêiâ ãiñòîãðàìè íå îáîâ'ÿçêîâî


ñâiä÷èòü ïðî íàÿâíiñòü äèñêðåòíî¨ êîìïîíåíòè. Ïðè çìåíøåííi øèðèíè
iíòåðâàëiâ ðîçáèòòÿ ℎ ðîçêèä âèñîò ñòîâï÷èêiâ çðîñò๠i òîäi, êîëè äàíi
ÿâëÿþòü ñîáîþ êðàòíó âèáiðêó ç ðîçïîäiëó, ùî ì๠ãëàäåíüêó ùiëüíiñòü.
7.1. Гiстограми 232

Histogram of z Histogram of z
40

14
12
30

10
Frequency

Frequency

8
20

6
4
10

2
0

0
−2 −1 0 1 2 3 −2 −1 0 1 2

z z

Рис. 7.3. Гiстограми нормального розподiлу

Öå ëåãêî çðîçóìiòè: âiäíîñíà ÷àñòîòà iíòåðâàëó ó âèáiðöi íàáëèæà¹òü-


ñÿ äî éìîâiðíîñòi ïîïàäàííÿ ó öåé iíòåðâàë ëèøå ïðè âåëèêié êiëüêîñòi
ñïîñòåðåæåíü. Àëå, ÿêùî iíòåðâàë ìàëèé, òî ìàëà i éìîâiðíiñòü ïîòðà-
ïèòè íà íüîãî, îòæå íà íüîãî ïîïàäå ìàëî ñïîñòåðåæåíü i éîãî ÷àñòîòà
áóäå ïîìiòíî êîëèâàòèñü íàâêîëî éìîâiðíîñòi. ßê öå âèãëÿä๠ âèäíî
ó íàñòóïíîìó ïðèêëàäi (ðèñ. 7.3):

set.seed(3)
z<-rnorm(200)
hist(z,10)
hist(z,50)

Ëiâîðó÷  ãiñòîãðàìà, ïîáóäîâàíà ç 10-ìà øèðîêèìè iíòåðâàëàìè,


ïðàâîðó÷  ç 50-ìà âóçåíüêèìè. ßê i ó ïîïåðåäíüîìó ïðèêëàäi, çâóæåí-
íÿ iíòåðâàëiâ ïðèâåëî äî ïîÿâè ïiêiâ òà ñòîâï÷èêiâ, ðîçìiùåíèõ îêðå-
ìî âiä îñíîâíî¨ ìàñè ñïîñòåðåæåíü. Àëå ó ðîçìiùåííi ïiêiâ íå ïîìiòíî
ÿêî¨-íåáóäü çàêîíîìiðíîñòi, à ñòîâï÷èêè, ùî ñòîÿòü îêðåìî, çíàõîäÿòü-
ñÿ äîñèòü áëèçüêî âiä ñóñiäíiõ. Âèñîòè âñiõ ñòîâï÷èêiâ íåâåëèêi, òîáòî
ñïîñòåðåæåíü íåäîñòàòíüî äëÿ íàäiéíî¨ îöiíêè ùiëüíîñòi íà êîæíîìó ií-
òåðâàëi. Òîìó öi åôåêòè ïðèðîäíî òðàêòóâàòè, ÿê âèïàäêîâi. Ó äàíîìó
ïðèêëàäi ìè çíà¹ìî, ùî âîíè äiéñíî ¹ âèïàäêîâèìè, îñêiëüêè ñïîñòå-
ðåæåííÿ z áóëè ñòâîðåíi ãåíåðàòîðîì ïñåâäîâèïàäêîâèõ ÷èñåë çi ñòàí-
äàðòíèì íîðìàëüíèì ðîçïîäiëîì. Àëå ó çàãàëüíîìó âèïàäêó âiäðiçíèòè
7.2. Графiчна перевiрка узгодженостi розподiлу. P-P та Q-Q дiаграми 233

âèïàäêîâi åôåêòè âiä çíà÷óùèõ îñîáëèâîñòåé íà ãiñòîãðàìi ìîæå áóòè


íåïðîñòî.

7.2 Графiчна перевiрка узгодженостi розподiлу.


P-P та Q-Q дiаграми
Îäíå ç íàéáiëüø ïîøèðåíèõ çàñòîñóâàíü ãiñòîãðàìè  âiçóàëüíå
âèçíà÷åííÿ òèïó ðîçïîäiëó òà ïåðåâiðêà óçãîäæåíîñòi äàíèõ ç öèì ðîç-
ïîäiëîì. ßê ìè ç'ÿñóâàëè ó ïîïåðåäíüîìó ïiäðîçäiëi, ãiñòîãðàìà âiäíî-
3
ñíèõ ÷àñòîò ¹ îöiíêîþ ùiëüíîñòi ðîçïîäiëó çà êðàòíîþ âèáiðêîþ . Çîáðà-
çèâøè òàêó ãiñòîãðàìó ðàçîì ç òåîðåòè÷íîþ ùiëüíiñòþ íà îäíîìó ðèñóí-
êó, ìîæíà ïîáà÷èòè, íàñêiëüêè òåîðåòè÷íà ìîäåëü âiäïîâiä๠ðåàëüíèì
4
äàíèì.

Приклад 7.2.1. ó íàáîði äàíèõ airquality ìiñòÿòüñÿ äàíi ùîäåííèõ âè-


ìiðþâàíü ìåòåîðîëîãi÷íî¨ ñòàíöi¨ ó Íüþ-Éîðêó ç òðàâíÿ ïî âåðåñåíü
1973 ð. Çîêðåìà, çìiííà airquality$Wind âêàçó¹ ñèëó âiòðó ó âiäïîâiäíèé
äåíü. Ìè õî÷åìî ïåðåâiðèòè, ÷è ¹ ðîçïîäië öi¹¨ õàðàêòåðèñòèêè íîðìàëü-
íèì. Íàâåäåìî äâà âàðiàíòè ïðîãðàìè âiäîáðàæåííÿ âiäïîâiäíî¨ ãiñòî-
ãðàìè òà ùiëüíîñòi ðîçïîäiëó:

# 1. гiстограма вiдносних частот.


#
g = airquality$Wind
m<-mean(g)
std<-sqrt(var(g))
hist(g, density=20, breaks=10, prob=TRUE,
xlab="x-variable", ylim=c(0, 0.15),
main="relative frequencies")
curve(dnorm(x, mean=m, sd=std),
col="darkblue", lwd=2, add=TRUE, yaxt="n")
3
У цьому пiдроздiлi як теоретичну модель для опису даних ми розглядаємо лише кратнi
вибiрки.
4
Якщо теоретичний розподiл має невiдомi параметри, їх потрiбно оцiнити, перш нiж
рисувати графiк щiльностi. Як це робиться у простiших випадках розказано у п. 8.6. Щоб
правильно побудувати оцiнку у складнiших ситуацiях, треба ознайомитись iз загальною
теорiєю оцiнювання, якiй присвячений весь роздiл 8.
7.2. Графiчна перевiрка узгодженостi розподiлу. P-P та Q-Q дiаграми 234

relative frequencies absolute frequencies


0.15

40
0.10

30
Frequency
Density

20
0.05

10
0.00

0
0 5 10 15 20 0 5 10 15 20

x−variable x−variable

Рис. 7.4. Гiстограми з графiком щiльностi

#
# 2. гiстограма абсолютних частот
#
hi<-hist(g, density=20, breaks=10,
xlab="x-variable", ylim=c(0, 45),
main="absolute frequencies")
curve(dnorm(x, mean=m, sd=std)
*length(g)*(hi$breaks[2]-hi$breaks[1]),
col="darkblue", lwd=2, add=TRUE, yaxt="n")

Ó ïåðøîìó âàðiàíòi áóäó¹òüñÿ ãiñòîãðàìà âiäíîñíèõ ÷àñòîò (ïàðàìåòð


prob=TRUE) i íîðìàëüíà ùiëüíiñòü, ïàðàìåòðè ÿêî¨ îöiíþþòüñÿ âiäïîâiä-
íî ñåðåäíiì òà êîðåíåì ç âèáiðêîâî¨ äèñïåðñi¨ çìiííî¨ g. Ðåçóëüòàò çîá-
ðàæåíî íà ðèñ. 7.4 ëiâîðó÷. ßê áà÷èìî, ïîñåðåäèíi ãiñòîãðàìè ¹ ïðîâàë
òàì, äå ìàâ áóòè ïiê ùiëüíîñòi. ×è ìîæíà ââàæàòè éîãî âèïàäêîâèì, ÷è
öå äiéñíî âiäõèëåííÿ âiä íîðìàëüíîñòi ðîçïîäiëó äàíèõ ñèëè âiòðó?
Çà ãiñòîãðàìîþ âiäíîñíèõ ÷àñòîò âèðiøèòè öå íåìîæëèâî. Íà ãiñòî-
ãðàìi àáñîëþòíèõ ÷àñòîò ìîæíà ïîáà÷èòè, ñêiëüêè ñïîñòåðåæåíü ïðèïà-
ëî íà öåé ïðîâàë, àëå ìàñøòàá öi¹¨ ãiñòîãðàìè íå âiäïîâiä๠ìàñøòàáó
ãðàôiêó ùiëüíîñòi. Òîìó ó äðóãîìó âàðiàíòi (ïðàâîðó÷ íà ðèñ. 7.4) âè-
âîäèòüñÿ ãðàôiê ùiëüíîñòi, ïîìíîæåíî¨ íà íîðìóþ÷èé ìíîæíèê 𝑛ℎ, äå
𝑛  îáñÿã âèáiðêè, ℎ  øèðèíà ïiäiíòåðâàëó ðîçáèòòÿ. Ùîá ïðàâèëüíî
âèçíà÷èòè öåé iíòåðâàë, ìè çáåðåãëè çíà÷åííÿ ðåçóëüòàòó ôóíêöi¨ hist()
7.2. Графiчна перевiрка узгодженостi розподiлу. P-P та Q-Q дiаграми 235

ó çìiííié hi. Öåé ðåçóëüòàò ¹ îá'¹êòîì êëàñó histogram i ì๠àòðèáóò


hi$breaks, ó ÿêîìó ìiñòÿòüñÿ çíà÷åííÿ òî÷îê ðîçáèòòÿ äëÿ ïîáóäîâàíî¨
ãiñòîãðàìè. Ðiçíèöÿ ìiæ ñóñiäíiìè òî÷êàìè ÿêðàç i äîðiâíþ¹ ℎ.
Ç ãiñòîãðàìè àáñîëþòíèõ ÷àñòîò íà ðèñ. 7.4) âèäíî, ùî êiëüêiñòü ñïî-
ñòåðåæåíü, ÿêi ïðèïàäàþòü íà iíòåðâàë ìiæ äâîìà ïiêàìè, ñòàíîâèòü
áëèçüêî 25, à êîæíîìó ïiêó âiäïîâiä๠áëèçüêî 40 ñïîñòåðåæåíü. Öå âå-
ëèêi îáñÿãè äàíèõ i ïîìiòíà âiäìiííiñòü ìiæ ïiêàìè òà ïðîâàëîì. Íàâðÿä
÷è âîíà âèêëèêàíà âèïàäêîâèì âiäõèëåííÿì. Ñêîðiøå, òàêà ãiñòîãðàìà
5
ñâiä÷èòü ïðî òå, ùî ðîçïîäië äàíèõ íå ¹ íîðìàëüíèì . J

Ïåðåâiðêà ðîçïîäiëó äàíèõ íà îñíîâi ãiñòîãðàì çðó÷íà òèì, ùî çà


ôîðìîþ ãiñòîãðàìè ÷àñòî ìîæíà âãàäàòè ðîçïîäië: ãiñòîãðàìó, ùî âiäïî-
âiä๠íîðìàëüíîìó ðîçïîäiëó íå ñïëóòà¹ø iç ãiñòîãðàìîþ åêñïîíåíöiéíî
ðîçïîäiëåíèõ äàíèõ. Àëå ó ãiñòîãðàì ¹ i íåçðó÷íîñòi: íåâiðíî îáðàâøè
øèðèíó iíòåðâàëiâ ðîçáèòòÿ àáî ïî÷àòîê äiàïàçîíó ãiñòîãðàìè, ìîæíà
îòðèìàòè íåâäàëèé ðåçóëüòàò.
Òîìó ïîðó÷ ç ãiñòîãðàìàìè âèêîðèñòîâóþòüñÿ iíøi òåõíiêè ãðàôi÷íî¨
ïåðåâiðêè òîãî, íàñêiëüêè ðîçïîäië äàíèõ óçãîäæó¹òüñÿ ç ïåâíîþ òåî-
ðåòè÷íîþ ìîäåëëþ: P-P (éìîâiðíiñòü ïðîòè éìîâiðíîñòi) òà Q-Q (êâàí-
òèëü ïðîòè êâàíòèëÿ) äiàãðàìè. Öi äiàãðàìè ïîáóäîâàíi íà ïîðiâíÿííi
åìïiðè÷íî¨ ôóíêöi¨ ðîçïîäiëó àáî åìïiðè÷íèõ êâàíòèëiâ ç âiäïîâiäíèìè
õàðàêòåðèñòèêàìè òåîðåòè÷íî¨ ìîäåëi. Âîíè íå ïîòðåáóþòü çàäàííÿ äî-
äàòêîâèõ ïàðàìåòðiâ íàëàøòóâàííÿ, ïîäiáíèõ äî øèðèíè iíòåðâàëó ðîç-
áèòòÿ äëÿ ãiñòîãðàìè. Àëå ¨õ íåäîëiêîì ¹ òå, ùî òåîðåòè÷íèé ðîçïîäië
ïîòðiáíî âèçíà÷èòè íàïåðåä: çà ôîðìîþ äiàãðàìè éîãî âãàäóâàòè íå ìîæ-
íà.
Ïî÷íåìî ç ðîçãëÿäó P-P äiàãðàì.
𝑋 = (𝑋1 , . . . , 𝑋𝑛 )  íàáið äàíèõ. Äîñëiäíèê òðàêòó¹ 𝑋 ÿê êðàò-
Íåõàé
íó âèáiðêó i õî÷å ïåðåâiðèòè ãiïîòåçó 𝐻0 ïðî òå, ùî 𝑋𝑗 ìàþòü ôóíêöiþ
ðîçïîäiëó 𝐹 . ßêùî öÿ ãiïîòåçà ¹ âiðíîþ, òî äëÿ áóäü-ÿêîãî 𝑥 ∈ R, åì-
ïiðè÷íà ôóíêöiÿ ðîçïîäiëó âèáiðêè 𝐹 ˆ𝑛 (𝑥) ¹ áëèçüêîþ äî 𝐹 :
𝑛
1 ∑︁
𝐹ˆ𝑛 (𝑥) = 1{𝑋𝑗 ≤ 𝑥} ≈ 𝐹 (𝑥)
𝑛 𝑗=1

ïðè âåëèêèõ îáñÿãàõ âèáiðêè.

5
Крiм такої перевiрки “на око” доцiльно також провести перевiрку узгдоженостi нормаль-
ного розподiлу, використовуючи вiдповiднi статистичнi тести. У прикладi 9.6.4 показано, як
це зробити за допомогою тесту 𝜒2 .
7.2. Графiчна перевiрка узгодженостi розподiлу. P-P та Q-Q дiаграми 236

Ïiäñòàâèìî ó 𝐹ˆ𝑛 (𝑥) òà 𝐹 (𝑥) 𝑋𝑗 , 𝑗 = 1, . . . , 𝑛 i çîá-


âèáiðêîâi çíà÷åííÿ
ˆ
ðàçèìî íà ðèñóíêó òî÷êè ç êîîðäèíàòàìè (𝐹 (𝑋𝑗 ), 𝐹𝑛 (𝑋𝑗 ), ). Öå i ¹ P-P äià-
ãðàìà. ßêùî ãiïîòåçà 𝐻0 ¹ âiðíîþ, òî îðäèíàòà òà àáñöèñà êîæíî¨ òî÷êè
ïîâèííi áóòè áëèçüêèìè îäíà äî îäíî¨, îòæå, òî÷êè ìàþòü âèøèêóâàòèñü
ïîáëèçó âiä áiñåêòðèñè ïåðøîãî êîîðäèíàòíîãî êóòà, ÿê öå çîáðàæåíî íà
ðèñ. 7.5 ëiâîðó÷. ßêùî öå íå òàê, ãiïîòåçó 𝐻0 ñëiä âiäõèëèòè. Ðèñóíîê
7.5 ïðàâîðó÷ iëþñòðó¹ ñèòóàöiþ, êîëè äëÿ ïiäãîíêè ðîçïîäiëó äàíèõ áóëà
îáðàíà ôóíêöiÿ ðîçïîäiëó ç íåâiðíîþ (çàâèùåíîþ) äèñïåðñi¹þ.
Ïðèïóñòèìî, ùî âñi çíà÷åííÿ 𝑋𝑗 ó âèáiðöi ¹ ðiçíèìè i âïîðÿäêó¹-
ìî ¨õ ó ïîðÿäêó çðîñòàííÿ, îòðèìàâøè âàðiàöiéíèé ðÿä: 𝑋[1] < 𝑋[2] <
ˆ
· · · < 𝑋[𝑛] . Òîäi 𝐹𝑛 (𝑋[𝑗] ) = 𝑗/𝑛, îòæå, P-P äiàãðàìà ñêëàäà¹òüñÿ ç òî÷îê
(𝐹 (𝑋[𝑗] ), 𝑗/𝑛), 𝑗 = 1, . . . , 𝑛.
Ó R P-P äiàãðàìó, íàïðèêëàä, äëÿ ñòàíäàðòíîãî íîðìàëüíîãî ðîçïîäi-
ëó, ìîæíà çîáðàçèòè íàñòóïíèì ÷èíîì (ðåçóëüòàò íà ðèñ. 7.5):

# Генеруємо данi для прикладу


set.seed(3)
n<-100
x<-rnorm(n)
y<-rnorm(n,sd=3)
# Рисуємо P-P для x з стандартним нормальним розподiлом
plot(pnorm(sort(x)),(1:length(x))/length(x),asp=1,
ylab="Empirical P",
xlab="Theoretical P")
# Виводимо бiсектрису координатного кута
abline(0,1,col=2)
# P-P для y з стандартним нормальним розподiлом
plot(pnorm(sort(y)),(1:length(y))/length(y),asp=1,
ylab="Empirical P",
xlab="Theoretical P")
abline(0,1,col=2)

(Òóò ó plot() îïöi¨ xlab, ylab çàäàþòü òåêñò íàïèñiâ ïðè îñÿõ êîîð-
äèíàò, îïöiÿ asp=1 çàáåçïå÷ó¹ îäíàêîâèé ìàñøòàá ïî âåðòèêàëi òà ãîðè-
çîíòàëi).
Ïîáóäîâà Q-Q äiàãðàìè àíàëîãi÷íà, àëå ïî ãîðèçîíòàëi òà âåðòèêàëi
âiäêëàäàþòüñÿ âiäïîâiäíî òåîðåòè÷íi òà åìïiðè÷íi êâàíòèëi. Òî÷íiøå,
ðîëü åìïiðè÷íèõ êâàíòèëiâ âiäiãðàþòü ïîðÿäêîâi ñòàòèñòèêè 𝑋[𝑗] , ÿêèì
7.2. Графiчна перевiрка узгодженостi розподiлу. P-P та Q-Q дiаграми 237

1.0

1.0
0.8

0.8
0.6

0.6
Empirical P

Empirical P
0.4

0.4
0.2

0.2
0.0

0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

Theoretical P Theoretical P

Рис. 7.5. P-P дiаграми

âiäïîâiäàþòü òåîðåòè÷íi êâàíòèëi 𝑄𝐹 (𝑝𝑗 ), äå 𝑝𝑗 = 𝑗/𝑛 − 1/(2𝑛). (Çíà÷åí-

íÿ 𝑝𝑗 âiäïîâiä๠ñåðåäèíi ñòðèáêà åìïiðè÷íî¨ ôóíêöi¨ ðîçïîäiëó 𝐹ˆ𝑛 (𝑥) ó


òî÷öi 𝑥 = 𝑋[𝑗] ). Òàêèì ÷èíîì, íà Q-Q äiàãðàìi âiäîáðàæàþòüñÿ òî÷êè ç
𝐹
êîîðäèíàòàìè (𝑄 (𝑝𝑗 ), 𝑋[𝑗] ), 𝑗 = 1, . . . , 𝑛. ßêùî ðîçïîäië äàíèõ îïèñó¹òü-
ñÿ ô.ð. 𝐹 , öi òî÷êè ïîâèííi çíàõîäèòèñü ïîáëèçó âiä áiñåêòðèñè ïåðøîãî
êîîðäèíàòíîãî êóòà.
Q-Q äiàãðàìà ì๠âàæëèâó ïåðåâàãó íàä P-P äiàãðàìîþ. ˆ¨ çðó÷íî
âèêîðèñòîâóâàòè, êîëè òåîðåòè÷íà ôóíêöiÿ ðîçïîäiëó âiäîìà ç òî÷íiñòþ
äî íåâiäîìèõ ïàðàìåòðiâ çñóâó òà ìàñøòàáó. Òîáòî âiäîìî, ùî 𝐹 (𝑥) =
𝐹0 ((𝑥−𝑎)/𝑠), äå 𝑎 (çñóâ) i 𝑠 (ìàñøòàá)  íåâiäîìi ïàðàìåòðè. (Íàïðèêëàä,
äëÿ íîðìàëüíîãî ðîçïîäiëó 𝐹0 ìîæå áóòè ô.ð. ñòàíäàðòíîãî íîðìàëüíîãî
ðîçïîäiëó, 𝑎  ìàòåìàòè÷íèì ñïîäiâàííÿì, 𝑠  ñåðåäíüîêâàäðàòè÷íèì
𝐹 𝐹
âiäõèëåííÿì). Ó öüîìó âèïàäêó 𝑄 (𝛼) = 𝑠𝑄 0 (𝛼) + 𝑎, îòæå, ÿêùî íà Q-Q
𝐹
äiàãðàìi âiäîáðàçèòè òî÷êè ç êîîðäèíàòàìè (𝑄 0 (𝑝𝑗 ), 𝑋[𝑗] ), âîíè ðîçòàøó-
þòüñÿ ïîáëèçó âiä ïðÿìî¨ ç ðiâíÿííÿì 𝑦 = 𝑠𝑥+𝑎. Öå äîçâîëÿ¹ ïåðåâiðÿòè
ãiïîòåçó ïðî ðîçïîäië äàíèõ, íå îöiíþþ÷è ïàðàìåòðè çñóâó òà ìàñùòàáó.
Áiëüøå òîãî, öi ïàðàìåòðè ìîæíà îöiíèòè âiçóàëüíî çà Q-Q äiàãðàìîþ.
Äëÿ íîðìàëüíîãî ðîçïîäiëó Q-Q äiàãðàìó ó R ìîæíà ïîáóäóâàòè, âè-
êîðèñòîâóþ÷è ôóíêöi¨ qqnorm() òà qqline():

x<-rnorm(200,mean=1,sd=0.5)
qqnorm(x)
qqline(x)
7.2. Графiчна перевiрка узгодженостi розподiлу. P-P та Q-Q дiаграми 238

Normal Q−Q Plot

2.5
2.0
Sample Quantiles

1.5
1.0
0.5
0.0

−3 −2 −1 0 1 2 3

Theoretical Quantiles

Рис. 7.6. Q-Q дiаграма

(Ó x ñòâîðåíà âèáiðêà ç íîðìàëüíîãî ðîçïîäiëó ç ñåðåäíiì 1 òà äèñ-


ïåðñi¹þ 0.25, ïîòiì ôóíêöiÿ qqnorm() áóäó¹ Q-Q äiàãðàìó, ó ÿêié ïî îñi
àáñöèñ âiäêëàäåíi êâàíòèëi ñòàíäàðòíîãî íîðìàëüíîãî ðîçïîäiëó, ôóíê-
öiÿ qqline() îöiíþ¹ ìàòåìàòè÷íå ñïîäiâàííÿ 𝑎 òà ñòàíäàðòíå âiäõèëåííÿ
𝑠 çà äàíèìè i ïðîâîäèòü íà äiàãðàìi ïðÿìó 𝑦 = 𝑠𝑥 + 𝑎.
Ðåçóëüòàò âèêîíàííÿ öèõ êîìàíä çîáðàæåíî íà ðèñ. 7.6 Çâåðíiòü óâà-
ãó, ùî ïîáóäîâàíà ïðÿìà íå ¹ áiñåêòðèñîþ ïåðøîãî êîîðäèíàòíîãî êóòà,
àëå òî÷êè ðîçòàøîâàíi áiëÿ íå¨. Òàê i ïîâèííî áóòè, îñêiëüêè ðîçïîäië
äàíèõ ¹ íîðìàëüíèì, àëå íå ñòàíäàðòíèì íîðìàëüíèì.
ßêùî òåîðåòè÷íèé ðîçïîäië íå ¹ íîðìàëüíèì, çíà÷åííÿ êâàíòèëiâ
ïîòðiáíî ïiäðàõîâóâàòè, âèêîðèñòîâóþ÷è âiäïîâiäíó ôóíêöiþ äëÿ äàíîãî
ðîçïîäiëó. Íàïðèêëàä, ïåðåâiðêà òîãî, ùî ðîçïîäië äàíèõ ¹ ëîãiñòè÷íèì
ìîæå âèãëÿäàòè òàê (äèâ. ðèñ. 7.7):

set.seed(3)
x<-rnorm(200,mean=1,sd=0.5)
plot(qlogis(ppoints(x)),sort(x))
abline(lm(sort(x)~qlogis(ppoints(x)))$coefficients)

Ó öüîìó ïðèêëàäi äàíi ãåíåðóþòüñÿ ç íîðìàëüíèì ðîçïîäiëîì, à ïå-


ðåâiðêà ïðîâîäèòñÿ äëÿ òåîðåòè÷íîãî ëîãiñòè÷íîãî ðîçïîäiëó. Ôóíêöiÿ
ppoints(x) îá÷èñëþ¹ çíà÷åííÿ ðiâíiâ êâàíòèëiâ 𝑝𝑗 , îòæå çíà÷åííÿì âè-
ðàçó qlogis(ppoints(x)) ¹ âåêòîð òåîðåòè÷íèõ êâàíòèëiâ, ùî âiäêëàäà-
7.3. Q-Q дiаграма з прогнозними iнтервалами 239

2.0
1.5
sort(x)

1.0
0.5
0.0

−6 −4 −2 0 2 4 6

qlogis(ppoints(x))

Рис. 7.7. Q-Q дiаграма

þòüñÿ ïî ãîðèçîíòàëi. Ôóíêöiÿ abline() ðèñó¹ ïðÿìó ëiíiþ, êîåôiöi¹íòè


ÿêî¨ îòðèìóþòüñÿ ïiäãîíêîþ çà ìåòîäîì íàéìåíøèõ êâàäðàòiâ (ôóíêöiÿ
lm).
Âiäìiòèìî, ùî çà öi¹þ Q-Q äiàãðàìîþ ïîìiòèòè âiäìiííiñòü ðîçïîäiëó
äàíèõ (íîðìàëüíîãî) âiä ëîãiñòè÷íîãî ïðàêòè÷íî íåìîæëèâî.

7.3 Q-Q дiаграма з прогнозними iнтервалами


Ðîçãëÿäàþ÷è Q-Q äiàãðàìè, ìîæíà ïîáà÷èòè, ùî íàâiòü êîëè ðîç-
ïîäië äàíèõ âiäïîâiä๠òåîðåòè÷íîìó, òî÷êè íà äiàãðàìi âiäõèëÿþòüñÿ
âiä áiñåêòðèñè ïåðøîãî êîîðäèíàòíîãî êóòà, õî÷à i íå äóæå ñèëüíî. Ïðè-
÷îìó ó ðiçíèõ ÷àñòèíàõ äiàãðàìè òàêi âèïàäêîâi âiäõèëåííÿ ìîæóòü áóòè
ðiçíèìè. ßê ïðàâèëî, âiäõèëåííÿ êðàéíiõ òî÷îê ïîìiòíiøi íiæ âiäõèëåí-
íÿ òî÷îê âñåðåäèíi äiàãðàìè. Òîìó áàæàíî êðiì áiñåêòðèñè çîáðàçèòè
òàêîæ iíòåðâàëè, ó ÿêi ç âåëèêîþ éìîâiðíiñòþ ìîæóòü ïîòðàïëÿòè òî÷-
êè íà äiàãðàìi, ÿêùî òåîðåòè÷íèé ðîçïîäië ïðàâèëüíî îïèñó¹ äàíi.
Ñòàíäàðòíi ôóíêöi¨ R íå íàäàþòü òàêî¨ ìîæëèâîñòi. Ðîçãëÿíåìî ñïî-
ñiá ïîáóäîâè òàêèõ ïðîãíîçíèõ iíòåðâàëiâ çà äîïîìîãîþ iìiòàöiéíîãî ìî-
äåëþâàííÿ.
Íåõàé íàì ïîòðiáíî ïîáóäóâàòè iíòåðâàë, ó ÿêèé ïîòðàïëÿòèìå òî÷-
êà, ùî âiäïîâiä๠𝑗 -òié ïîðÿäêîâié ñòàòèñòèöi iç çàäàíîþ éìîâiðíiñòþ
1 − 𝛼. Iäåÿ ïîëÿã๠â òîìó, ùîá çãåíåðóâàòè áàãàòî (𝐾 ) âèáiðîê ç ðîç-
7.3. Q-Q дiаграма з прогнозними iнтервалами 240

ïîäiëîì, ÿêèé âiäïîâiä๠òåîðåòè÷íîìó. Âñi çãåíåðîâàíi âèáiðêè ïîâèííi


ìàòè îäíàêîâèé îáñÿã 𝑛, ÿêèé äîðiâíþ¹ îáñÿãó òi¹¨ ðåàëüíî¨ âèáiðêè, ùî
äîñëiäæó¹òüñÿ. Ïî êîæíié òàêié âèáiðöi âiçüìåìî 𝑗 -òó ïîðÿäêîâó ñòàòè-
(𝑘) 𝑘 𝑘
ñòèêó. Îòðèìà¹ìî 𝐾 çíà÷åíü 𝑋 = (𝑋[𝑗] , 𝑘 = 1, . . . , 𝐾) äå 𝑋[𝑗]  𝑗 -òà
ñòàòèñòèêà äëÿ 𝑘 -òî¨ âèáiðêè. Çà öèìè çíà÷åííÿìè çíàéäåìî åìïiðè÷íi
− (𝑘) (𝑘)
êâàíòèëi 𝑋𝑗 = 𝑄𝑋 (𝛼/2), 𝑋𝑗+ = 𝑄𝑋 (1 − 𝛼/2). Â iíòåðâàëi (𝑋𝑗− , 𝑋𝑗+ )
(𝑘)
áóäå çíàõîäèòèñü ïðèáëèçíî (1 − 𝛼)𝐾 åëåìåíòiâ 𝑋 . Çà çàêîíîì âåëè-
êèõ ÷èñåë, ïðè âåëèêèõ 𝐾 , éìîâiðíiñòü äëÿ 𝑗 -òî¨ ïîðÿäêîâî¨ ñòàòèñòèêè
ïîòðàïèòè ó öåé iíòåðâàë ïðèáëèçíî äîðiâíþ¹ 1 − 𝛼.
Çðîçóìiëî, ùî äëÿ ïîáóäîâè äiàãðàìè ðàçîì ç iíòåðâàëàìè òàêi ïiä-
ðàõóíêè ïîòðiáíî ïîâòîðèòè äëÿ âñiõ 𝑗 = 1, . . . , 𝑛. Ìîäåëüîâàíi âèáiðêè
ìîæóòü áóòè òi æ ñàìi äëÿ ðiçíèõ 𝑗.
Ðåàëiçó¹ìî öþ iäåþ ó âèãëÿäi ôóíêöi¨ QQplot, ÿêà ïåðåâiðÿ¹ óçãîä-
æåíiñòü ðîçïîäiëó äàíèõ çi ñòàíäàðòíèì íîðìàëüíèì ðîçïîäiëîì:

QQplot<-function(x,K=1000,alpha=0.05){
n<-length(x)
normQ<-qnorm((1:n-0.5)/n)
sx<-sort(x)
W<-matrix(rnorm(K*n),nrow=n,ncol=K)
W<-apply(W,2,sort)
tops<-apply(W,1,quantile,probs=1-alpha/2)
bots<-apply(W,1,quantile,probs=alpha/2)
plot(c(normQ,normQ,normQ),c(tops,bots,sx),type="n",
xlab="theoretical quantiles",ylab="empirical quantiles")
points(normQ,sx,col=2)
segments(normQ,bots,normQ,tops,col=4)
abline(0,1,col=1)
}
x<-rnorm(100)
QQplot(x)

Ðåçóëüòàò ðîáîòè ïðîãðàìè äèâ. íà ðèñ. 7.8.


Ðîçáåðåìî ðîáîòó ôóíêöi¨. ˆ¨ ïàðàìåòðè
x  âèáiðêà, äëÿ ÿêî¨ áóäó¹òüñÿ Q-Q äiàãðàìà;
K  êiëüêiñòü ïñåâäîâèïàäêîâèõ âèáiðîê, ùî áóäóòü çãåíåðîâàíi äëÿ
îòðèìàííÿ ïðîãíîçíèõ iíòåðâàëiâ (K=1000 çà óìîâ÷àííÿì);
7.4. Порiвняння розподiлiв кiлькох наборiв даних. 241

3
2
1
empirical quantiles

0
−1
−2
−3

−2 −1 0 1 2

theoretical quantiles

Рис. 7.8. Q-Q дiаграма з прогнозними iнтервалами

alpha  éìîâiðíiñòü, ç ÿêîþ òî÷êà íà äiàãðàìi ìîæå âèéòè ç ïðîãíîç-


íîãî iíòåðâàëó (alpha=0.05 çà óìîâ÷àííÿì).
Ó òiëi ôóíêöi¨ ñïî÷àòêó ïiäðàõîâóþòüñÿ àáñöèñè òî÷îê íà äiàãðàìi 
ó âåêòîði normQ. Ñòâîðþ¹òüñÿ âàðiàöiéíèé ðÿä äàíèõ  sx. Ïîòiì ãåíå-
ðó¹òüñÿ ìàòðèöÿ W, ñòîâï÷èêàìè ÿêî¨ ¹ 𝐾 ïñåâäîâèïàäêîâèõ âèáiðîê çi
ñòàíäàðòíîãî íîðìàëüíîãî ðîçïîäiëó. Êîìàíäà W<-apply(W,2,sort) âïî-
ðÿäêîâó¹ ñòîâï÷èêè W ó ïîðÿäêó çðîñòàííÿ. Òåïåð âîíè ìiñòÿòü âàðiàöiéíi
ðÿäè ìîäåëüîâàíèõ âèáiðîê. Êîæåí (𝑗 -òèé) ðÿäî÷îê ìàòðèöi W ñêëàäà¹òü-
ñÿ òåïåð ç ïîðÿäêîâèõ ñòàòèñòèê ìîäåëüîâàíèõ âèáiðîê ç iíäåêñîì 𝑗 . Ìè
− +
øóêà¹ìî 𝑋𝑗 i 𝑋𝑗 ÿê âiäïîâiäíi êâàíòèëi äëÿ 𝑗 -òîãî ðÿäî÷êà òà âìiùó¹-
ìî ¨õ ó âåêòîðè bots i tops äëÿ âñiõ 𝑗 = 1, . . . , 𝑛. Äàëi éäå âèâåäåííÿ
ðèñóíêó. Ñïî÷àòêó âèâîäèòüñÿ òiëüêè ðàìêà ç ïiäïèñàìè, ïiäiãíàíà òàê,
ùîá ó íié ðîçìiñòèëèñü âñi åëåìåíòè ðèñóíêó. Ïiñëÿ öüîãî points() âè-
âîäèòü òî÷êè äiàãðàìè, segments()  iíòåðâàëè, abline  áiñåêòðèñó
êîîðäèíàòíîãî êóòà.

7.4 Порiвняння розподiлiв кiлькох наборiв да-


них.
Ó ñòàòèñòèöi ÷àñòî âèíèê๠çàäà÷à ïîðiâíÿííÿ ðîçïîäiëiâ ðiçíèõ íà-
áîðiâ îäíîòèïíèõ äàíèõ. Ñêàæiìî, çà äàíèìè ïîäàòêîâî¨ iíñïåêöi¨ ìîæíà
ïîñòàâèòè ïèòàííÿ: ÷è âiäðiçíÿ¹òüñÿ ðîçïîäië äîõîäiâ íàñåëåííÿ ó ìèíó-
7.4. Порiвняння розподiлiв кiлькох наборiв даних. 242

ëîìó òà ó ïîçàìèíóëîìó ðîöi? Äëÿ ïîðiâíÿííÿ ðîçïîäiëiâ äâîõ íàáîðiâ


äàíèõ ìîæíà âèêîðèñòîâóâàòè ðèñóíêè, íà ÿêèõ çîáðàæåíî äâi ãiñòî-
ãðàìè îäðàçó, àáî Q-Q äiàãðàìè, äå ïî ãîðèçîíòàëi âiäêëàäåíî êâàíòèëi
îäíîãî íàáîðó, à ïî âåðòèêàëi - iíøîãî.
Íàïðèêëàä, ðîçãëÿíåìî äàíi ïðî ÷àéîâi ç íàáîðó tips.csv, ÿêèé ìè
âæå âèêîðèñòîâóâàëè ó ïiäðîçäiëi 7.1. Ìè õî÷åìî ïåðåâiðèòè, ÷è âiäðiç-
íÿþòüñÿ ðîçïîäiëè ÷àéîâèõ â çàëåæíîñòi âiä òîãî, õòî ¨õ ñïëà÷ó¹  ÷î-
ëîâiê ÷è æiíêà? Ãiñòîãðàìè òà Q-Q äiàãðàìè äëÿ òàêî¨ ïåðåâiðêè ìîæíà
âèâåñòè íàñòóïíèì ÷èíîì:

# читаємо данi з файлу:


z<-read.csv("c:/rem/rstat/data/tips.csv")
#
# Будуємо двi гiстограми на одному рисунку
#
hist(z$tip[z$sex=="M"],breaks=10,probability=T,
angle=0,density=12,xlim=c(0,10),ylim=c(0,0.45))
hist(z$tip[z$sex=="F"],probability=T,
breaks=10,angle=90,density=12, xlim=c(0,10),add=T)
#
# Q-Q дiаграма
#
qqplot(z$tip[z$sex=="F"],z$tip[z$sex=="M"],
xlab="females",ylab="males")
abline(0,1)

Ó öié ïðîãðàìi ïåðøîþ âèâîäèòüñÿ ãiñòîãðàìà ðîçïîäiëó ÷àéîâèõ äëÿ


êëi¹íòiâ-÷îëîâiêiâ (z$sex=="M"). ˆ¨ ñòîâï÷èêè çàøòðèõîâàíi âåðòèêàëüíî.
Ïîòiì íà òîìó æ ðèñóíêó âèâîäèòüñÿ ãiñòîãðàìà äëÿ æiíîê ç ãîðèçîí-
òàëüîþ øòðèõîâêîþ. Ìè îáðàëè äëÿ ïîðiâíÿííÿ ãiñòîãðàìè âiäíîñíèõ
÷àñòîò, òîìó, ùî âèáiðêè ìàþòü ïîìiòíî ðiçíèé îáñãÿã (÷îëîâiêè ðîçïëà-
÷óâàëèñü ÷àñòiøå, íiæ æiíêè). ßêáè ïîðiâíþâàëèñü àáñîëþòíi ÷àñòîòè,
æiíî÷à ãiñòîãðàìà áóëà á ìàéæå íåïîìiòíà íà ôîíi ÷îëîâi÷î¨ (ïåðåâið-
òå).
I ãiñòîãðàìà, i Q-Q äiàãðàìà ñâiä÷àòü, ùî ïðèíöèïîâî¨ ðiçíèöi ó ðîç-
ïîäiëi ÷àéîâèõ íå ïîìiòíî äëÿ îñíîâíî¨ ìàñè ñïîñòåðåæåíü. Àëå äëÿ ÷î-
ëîâiêiâ ïîìiòíî êiëüêà âèïàäêiâ ç àíîìàëüíî âåëèêèìè ÷àéîâèìè, äëÿ
æiíîê òàêèõ âèïàäêiâ íåìà¹.
7.4. Порiвняння розподiлiв кiлькох наборiв даних. 243

Histogram of z$tip[z$sex == "M"]

10
0.4

8
0.3

6
Density

males
0.2

4
0.1

2
0.0

0 2 4 6 8 10 1 2 3 4 5 6

z$tip[z$sex == "M"] females

Рис. 7.9. Порiвняння двох розподiлiв

Êîëè ñòîâï÷èêè êiëüêîõ ãiñòîãðàì ïåðåêðèâàþòüñÿ, öå ñòâîðþ¹


íåçðó÷íiñòü äëÿ ¨õ âiçóàëüíîãî àíàëiçó. Áiëüø çðó÷íèì ìîæå áóòè çà-
ñòîñóâàííÿ äiàãðàì, íà ÿêèõ ñòîâï÷èêè ðîçàòøîâàíi ïîðó÷ (ðèñ. 7.10).
ßê ìè áà÷èëè ó ï. 3.1, òàêi äiàãðàìè ìîæíà ðèñóâàòè, âèêîðèñòîâóþ÷è
ôóíêöiþ barplot:

z<-read.csv("c:/rem/rstat/data/tips.csv")
ctip<-cut(z$tip,breaks=1:10,labels=(1:9)+0.5)
counts<-table(z$sex,ctip)
counts["F",]=counts["F",]/sum(counts["F",])
counts["M",]=counts["M",]/sum(counts["M",])
barplot(counts,beside=T,col=c("darkblue","red"))
legend(x=16,y=0.31,c("Female","Male"),
fill=c("darkblue","red"))
#

Òóò ôóíêöiÿ cut() âèêîðèñòàíà äëÿ ãðóïóâàííÿ äàíèõ: îòðèìóþ÷è


íà âõîäi ÷èñëîâèé âåêòîð z$tip, âîíà âèä๠âåêòîð, åëåìåíòàìè ÿêîãî ¹
ôàêòîðè, ùî ïîêàçóþòü, â ÿêèé iíòåðâàë ðîçáèòòÿ ïîòðàïèëî âiäïîâiäíå
çíà÷åííÿ z$tip. Ôóíêöiÿ table(z$sex,ctip) ñêëàä๠òàáëèöþ (ìàòðè-
öþ) ÷àñòîò ïîÿâ ïàð çíà÷åíü ôàêòîðiâ (z$sex,ctip):
7.5. Скриньки з вусами 244

0.30
Female
Male

0.25
0.20
0.15
0.10
0.05
0.00

1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5

Рис. 7.10. Гiстограма через barplot

table(z$sex,ctip)

## ctip
## 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5
## F 25 27 19 9 3 1 0 0 0
## M 49 41 38 14 8 3 1 1 1

 æiíîê (F), ùî äàëè ÷àéîâi â iíòåðâàëi âiä 2 äî 3 (ïîçíà÷åíèé 2.5)


áóëî 25 i ò.ä.
Äàëi ôóíêöiÿ barplot() ðèñó¹ ñòîâï÷èêîâó äiàãðàìó ÿê îïèñàíî ó
ï.3.1, à ôóíêöiÿ legend() âèâîäèòü ïîÿñíåííÿ-ëåãåíäó.

7.5 Скриньки з вусами


Ãiñòîãðàìè äàþòü, âçàãàëi êàæó÷è, íàéáiëüø ïîâíå óÿâëåííÿ ïðî ðîç-
ïîäië îäíîâèìiðíèõ äàíèõ. Îäíàê, êîëè ïîòðiáíî ïîðiâíÿòè ðîçïîäiëè
áàãàòüîõ (áiëüøå òðüîõ) íàáîðiâ äàíèõ, çîáðàæåííÿ ãiñòîãðàì óñiõ öèõ
íàáîðiâ íà îäíîìó ðèñóíêó ñò๠çàíàäòî ñêëàäíèì äëÿ âiçóàëüíîãî ñïðèé-
íÿòòÿ. Òîìó äëÿ çàáåçïå÷åííÿ ìîæëèâîñòi ãðàôi÷íîãî àíàëiçó äàíèõ ïî-
òðiáíî ïîæåðòâóâàòè ÷àñòèíîþ iíôîðìàöi¨, âiäîáðàæàþ÷è äëÿ êîæíîãî
íàáîðó íå ãiñòîãðàìó à ëèøå íàéáiëüø õàðàêòåðíi ðèñè ðîçïîäiëó.
Öåé ïiäõiä ïðèâîäèòü äî äiàãðàìè, ÿêà àíãëiéñüêîþ ìîâîþ çâåòüñÿ
7.5. Скриньки з вусами 245

box-whisker plot, àáî ïðîñòî boxplot. Óêðà¨íñüêîþ öå ìîæíà ïåðåêëàñòè


ÿê ñêðèíüêà ç âóñàìè.
Äëÿ íàáîðó îäíîâèìiðíèõ äàíèõ ñêðèíüêà ç âóñàìè áóäóþòüñÿ çà ñõå-
ìîþ, çîáðàæåíîþ íà ðèñ.7.11. Íà öüîìó ðèñóíêó çíà÷åííÿ äàíèõ âiäî-
áðàæàþòüñÿ ïî âåðòèêàëüíié îñi. Ïðÿìîêóòíèê (ñêðèíüêó) ðèñóþòü âiä
íèæíüîãî êâàðòèëÿ 𝑄1 (òîáòî êâàíòèëÿ ðiâíÿ 1/4) äî âåðõíüîãî êâàðòè-
ëÿ 𝑄3 (êâàíòèëÿ ðiâíÿ 3/4), ïîðàõîâàíèõ çà äàíèìè. Ëiíiÿ, ùî ðîçðiçà¹
ïðÿìîêóòíèê, âiäïîâiä๠ìåäiàíi med. Âóñèêè, ùî ñòèð÷àòü çi ñêðèíü-
êè, âiäìi÷àþòü äiàïàçîí ðîçòàøóâàííÿ äàíèõ, ÿêi íå ¹ âèêèäàìè. Òîáòî
âåðõíié âóñèê âiäïîâiä๠íàéáiëüøîìó íå âèêèäó, íèæíié - íàéìåíøî-
ìó. (Íà ðèñ. 7.11 íèæíié âóñèê ïîçíà÷åíî min, à âåðõíié  max). Êîæåí
êðóæå÷îê ïîçà äiàïàçîíîì âiäïîâiä๠îäíîìó iíäèâiäóàëüíîìó çíà÷åííþ-
âèêèäó.
Äëÿ âèçíà÷åííÿ òîãî, ÿêi ñïîñòåðåæåííÿ ñëiä âiäíåñòè äî âèêèäiâ, ¹
ðiçíi ïiäõîäè, ùî ìàþòü åâðèñòè÷íèé õàðàêòåð. Ïðè íàéáiëüø ïîøèðå-
íîìó, âèêèäàìè ââàæàþòü òi çíà÷åííÿ, ùî ïåðåâèùóþòü 𝑄3 + 1.5IQ àáî
¹ ìåíøèìè íiæ 𝑄1 − 1.5IQ, äå IQ=𝑄3 − 𝑄1  iíòåðêâàðòèëüíèé ðîçìàõ.
Iíîäi îêðåìî âèäiëÿþòü äàëåêi âèêèäè, àáî åêñòðåìàëüíi çíà÷åííÿ, òîá-
òî òi çíà÷åííÿ äàíèõ, ÿêi âèõîäÿòü çà ìåæi iíòåðâàëó [𝑄1 −3IQ, 𝑄3 +3IQ].
ßêùî öåé ïiäõiä âèêîðèñòîâó¹òüñÿ, òî åêñòðåìàëüíi çíà÷åííÿ ïîçíà÷à-
þòü íà äiàãðàìi õðåñòèêàìè, à ïîìiðíi âèêèäè (òîáòî òàêi, ÿêi íå ¹ åêñ-
òðåìàëüíìè)  êðóæå÷êàìè.
Ìíîæíèêè 1.5 òà 3 ó öèõ ôîðìóëàõ íå ìàþòü ÿêîãîñü íàóêîâî-ìàòå-
ìàòè÷íîãî àáî ïîòà¹ìíî-ìiñòè÷íîãî çìiñòó, à âèêîðèñòîâóþòüñÿ ëèøå çà
äîìîâëåíiñòþ.
Iíêîëè ó ñòiíêàõ ñêðèíüêè ðîáëÿòü òðèêóòíi çàðóáêè (notches), çîâ-
íiøíi êðਠÿêèõ âiäïîâiäàþòü äîâið÷îìó iíòåðâàëó äëÿ ìåäiàíè ðîçïîäiëó
6
äàíèõ ç ðiâíåì çíà÷óùîñòi 0.95 . (Íà ðèñóíêó 7.11 òàêèé äîâið÷èé iíòåð-
âàë ïîçíà÷åíèé ñòðiëêàìè).
ßê ïðàâèëî, øèðèíà ïðÿìîêóòíèêà-ñêðèíüêè òà âóñèêiâ îáèðà¹òüñÿ
òàê, ùîá ðèñóíîê áóëî çðó÷íî ñïðèéìàòè íà îêî, iíôîðìàöi¨ ïðî äàíi
âîíà íå íåñå. Àëå iíêîëè øèðèíó ñêðèíüêè âèáèðàþòü ïðîïîðöiéíî êî-
ðåíþ êâàäðàòíîìó ç êiëüêîñòi åëåìåíòiâ ó íàáîði äàíèõ, çà ÿêèì âîíà
ïîáóäîâàíà  ÷èì øèðøà ñêðèíüêà, òèì áiëüøå ó íié äàíèõ.
Ìîæëèâå òàêîæ ãîðèçîíòàëüíå ðîçòàøóâàííÿ ñêðèíüêè ç âóñàìè. Ðè-
ñóíîê ç îäíi¹þ ñêðèíüêîþ äëÿ ¹äèíîãî íàáîðó äàíèõ íåñå íåáàãàòî iíôîð-

6
Про довiрчi iнтервали див. п. 8.5.
7.5. Скриньки з вусами 246

âèêèäè

4
max
3
2

𝑄3
1

6med
?
𝑄1
min
0

Рис. 7.11. Скринька з вусами

ìàöi¨. Àëå ðîçìiñòèâøè äåêiëüêà òàêèõ ñêðèíüîê ïàðàëåëüíî äëÿ ðiçíèõ


íàáîðiâ, ìîæíà îäðàçó ïîìiòèòè õàðàêòåðíi âiäìiííîñòi ðîçïîäiëiâ äàíèõ
ó ðiçíèõ íàáîðàõ.
Äëÿ ðèñóâàííÿ êiëüêîõ ñêðèíüîê ç âóñàìè ó R ìîæíà âèêîðèñòîâóâà-
òè ôóíêöiþ boxplot(). Ïåðøèì (îñíîâíèì) ïàðàìåòðîì öi¹¨ ôóíêöi¨ ¹
ñïèñîê íàáîðiâ (âåêòîðiâ) äàíèõ, äëÿ ÿêèõ áóäóþòüñÿ ñêðèíüêè ç âóñàìè.
Íàïðèêëàä:

set.seed(20)
a<-rexp(200)
b<-rnorm(100,2,1)
c<-rchisq(40,5)
x<-list(a,b,c)
boxplot(x,notch=T,varwidth=T,names=c("exp","norm","chisq"))

Òóò ìè çãåíåðóâàëèòðè âèáiðêè ç ðiçíèìè ðîçïîäiëàìè: åêñïîíåíöié-


íèì, íîðìàëüíèì òà õi-êâàäðàò, ñêëàëè ¨õ â îäèí ñïèñîê i âiäîáðàçèëè çà
äîïîìîãîþ boxplot.
Íà ðèñóíêó 7.12 ìîæíà ïîìiòèòè ñèìåòðiþ íîðìàëüíî¨ âèáiðêè, àñè-
7.5. Скриньки з вусами 247

14
12
10
8
6
4
2
0

exp norm chisq

Рис. 7.12. Порiвняння трьох розподiлiв

ìåòðiþ åêñïîíåíöiéíî¨. Õi-êâàäðàò ðîçïîäië ¹ àñèìåòðè÷íèì, àëå íà ðè-


ñóíêó öÿ àñèìåòðiÿ âèðàæåíà íå ñèëüíî. Âèêèäè íå âiäìi÷åíi ó íîðìàëü-
íié âèáiðöi, äâà âèêèäè  ó õi-êâàäðàò. Ñiì âèêèäiâ çàôiêñîâàíî ó åêñ-
ïîíåíöiéíié âèáiðöi, àëå çà ¨õ ðîçòàøóâàííÿì ìîæíà ñêîðiøå òâåðäèòè,
ùî áiëüøiñòü ç íèõ íå äàëåêî âiäiéøëè âiä îñíîâíî¨ ìàñè ñïîñòåðåæåíü,
òîáòî òðàêòóâàííÿ ¨õ ÿê âèêèäiâ ¹ ïèòàííÿì ñìàêó.
Ìè ñêîðèñòàëèñü îïöi¹þ notch=T äëÿ òîãî, ùîá âiäîáðàçèòè äîâið÷i
iíòåðâàëè äëÿ ìåäiàí ó âèãëÿäi çàðóáîê íà ñêðèíüêàõ. Çà öèìè iíòåð-
âàëàìè ìîæíà çðîáèòè ïîïåðåäíié âèñíîâîê, ùî ìåäiàíè òåîðåòè÷íèõ
7
ðîçïîäiëiâ âèáiðîê ¹ ðiçíèìè .
Îïöiÿ varwidth=T âêàçó¹, ùî øèðèíó ñêðèíüîê ñëiä îáèðàòè ïðîïîð-
öiéíî äî êîðåíÿ ç îáñÿãó âèáiðêè  òîìó ñêðèíüêà äëÿ exp âèéøëà ïî-
ìiòíî øèðøîþ íiæ iíøi.
names çàä๠iìåíà, ùî áóäóòü ïiäïèñàíi ïiä ñêðèíüêàìè. Àíàëî-
Îïöiÿ
ãi÷íî ìîæíà âèêîðèñòîâóâàòè îïöiþ col ùîá çàäàâàòè êîëüîðè ñêðèíüîê.
Ó êîìï'þòåðíié ñòàòèñòèöi ÷àñòî âèíèêàþòü çàäà÷i àíàëiçó äàíèõ, ùî
çàïèñàíi ó ¹äèíîìó ôðåéìi, ïðè÷îìó îäíà çìiííà ìiñòèòü ïåâíó ÷èñëîâó
õàðàêòåðèñòèêó (âiäãóê) îá'¹êòiâ, ùî äîñëiäæóþòüñÿ, à iíøà (ôàêòîð)
 êëàñ, äî ÿêîãî íàëåæèòü äàíèé îá'¹êò. Ïðè öüîìó ïèòàííÿ ïîëÿã๠â
òîìó, ùîá ïðîàíàëiçóâàòè çàëåæíiñòü ðîçïîäiëó âiäãóêà âiä ôàêòîðà. Ó
òàêèõ âèïàäêàõ äëÿ îïèñó çàäà÷i ó boxplot() ïåðøèé ïàðàìåòð ìîæíà

7
Довiрчi iнтервали для них не мають спiльних точок, докладнiше див 9.4.
7.5. Скриньки з вусами 248

çàäàòè ôîðìóëîþ âèãëÿäó


вiдгук ∼ фактор
Ïðè òàêîìó çàïèòi ôóíêöiÿ boxplot() ðîçäiëèòü âåñü íàáið äàíèõ íà
îêðåìi ïiäâèáiðêè. Êîæíà ïiäâèáiðêà ñêëàäàòèìåòüñÿ ç îá'¹êòiâ, ùî âiä-
ïîâiäàþòü ïåâíîìó ôiêñîâàíîìó çíà÷åííþ ôàêòîðà. Ñêðèíüêè ç âóñàìè
áóäóþòüñÿ îêðåìî äëÿ êîæíî¨ ïiäâèáiðêè i âiäîáðàæàþòüñÿ íà îäíîìó
8
ðèñóíêó .

Приклад 7.5.1. ó ôðåéìi äàíèõ InsectSprays ìiñòÿòüñÿ äàíi ïðî âèïðî-


áóâàííÿ ÿêîñòi ðiçíèõ âèäiâ iíñåêòèöèäiâ. Îäèí ðÿäî÷îê äàíèõ âiäïî-
âiä๠îäíîìó âèïðîáóâàííþ. Ó êîæíîìó âèïðîáóâàííi îá÷èñëþâàëàñü
êiëüêiñòü êîìàõ, ùî çàãèíóëè ïiä äi¹þ iíñåêòèöèäó  çìiííà count. Ó
çìiííiéspray âêàçó¹òüñÿ òèï iíñåêòèöèäó (ëiòåðà A-F). Íàñ öiêàâèòü, ÿê
ðîçïîäië count ïîâ'ÿçàíèé ç spray. Âiäïîâiäíi ñêðèíüêè çàä๠ïðîãðàìà

boxplot(count ~ spray, data = InsectSprays,


col = "lightgray",horizontal=T)

Òóò data çàä๠ôðåéì äàíèõ, ç ÿêîãî âèáèðàþòü çìiííi, horizontal=T


ïîêàçó¹, ùî ñêðèíüêè ðîçìiùóþòüñÿ ãîðèçîíòàëüíî.
Íà ðèñ. 7.13 áà÷èìî, ùî iíñåêòèöèäè C, D, E âèÿâèëèñü çíà÷íî ìåíø
åôåêòèâíèìè íiæ iíøi, iíñêåòèöèä F ó äåÿêèõ åêñïåðèìåíòàõ âèÿâèâ ñåáå
íàéêðàùèì, àëå íàéêðàùà ìåäiàíà  ó Â i ò.ä.
Íàñêiëüêè ñòàòèñòè÷íî îá ðóíòîâàíèì ¹ öå âiä÷óòòÿ ïåðåâàãè îäíèõ
iíñåêòèöèäiâ íàä iíøèìè, ùî âèíèê๠ïðè ðîçãëÿäi òàêîãî ðèñóíêó? Ìè
ïîâåðíåìîñü äî öüîãî ó ïðèêëàäi 9.7.1
Âiäìiòèìî, ùî àíàëîãi÷íó äiàãðàìó ìîæíà îòðèìàòè, ÿêùî çàïèñàòè
plot(count~spray,data=InsectSprays). J

8
Можна вказати декiлька факторiв, наприклад: вiдгук ∼ фактор1+фактор2. Тодi набiр
даних буде розбитий на пiдвибiрки, що вiдповiдають рiзним комбiнацiям можливих значень
фактор1 i фактор2.
7.5. Скриньки з вусами 249

F
E
D
spray

C
B
A

0 5 10 15 20 25

count

Рис. 7.13. Порiвняння ефективностi iнсектицидiв


Роздiл 8

Оцiнювання невiдомих
параметрiв розподiлу

Ó öüîìó ðîçäiëi îïèñàíi îñíîâíi ïiäõîäè äî çàäà÷i ïiäãîíêè ðîçïîäiëó


ñïîñòåðåæóâàíèõ äàíèõ ïåâíîþ òåîðåòè÷íîþ ìîäåëëþ. Ââàæà¹òüñÿ, ùî ó
öié òåîðåòè÷íié ìîäåëi ¹ äåêiëüêà íåâiäîìèõ ïàðàìåòðiâ, ÿêi ïîòðiáíî îöi-
íèòè çà äàíèìè. Ó ïåðøèõ òðüîõ ïiäðîçäiëàõ îïèñàíî òðè ðiçíèõ ïiäõîäè
äî òàêîãî îöiíþâàííÿ: ìåòîä ìîìåíòiâ, îöiíþâàííÿ íà îñíîâi ïîðiâíÿííÿ
åìïiðè÷íèõ òà òåîðåòè÷íèõ êâàíòèëiâ i ìåòîä íàéáiëüøî¨ âiðîãiäíîñòi.
Äàëi ó ï. 8.4 ìè ðîçãëÿäà¹ìî ïèòàííÿ ïðî òå, ÿê îõàðàêòåðèçóâàòè òà
ïîðiâíÿòè òî÷íiñòü ðiçíèõ îöiíîê. Ó ïiäðîçäiëi 8.5 ïîêàçàíî, ÿê çà äîïî-
ìîãîþ ðåçóëüòàòiâ ïîïåðåäíiõ ïiäðîçäiëiâ áóäóâàòè äîâið÷i iíòåðâàëè òà
äîâið÷i åëiïñî¨äè äëÿ íåâiäîìèõ ïàðàìåòðiâ.
Ïðèêëàäè, ùî ðîçãëÿäàþòüñÿ ó öèõ ïiäðîçäiëàõ, âèêîðèñòîâóþòü
ïîðiâíÿíî ñêëàäíi ìîäåëi ðîçïîäiëiâ (âèìiðþâàííÿ ç ïîõèáêàìè, çðiçàíi
ðîçïîäiëè, ñóìiøi). Òîìó ðåàëiçàöiÿ âiäïîâiäíèõ îöiíîê âèìàã๠íàïèñàí-
íÿ âëàñíèõ ïðîãðàì íà R.
Ó áiëüøîñòi âèïàäêiâ ñòàòèñòè÷íî¨ îáðîáêè äàíèõ òåîðåòè÷íó ìîäåëü
îáèðàþòü ç íåâåëèêîãî íàáîðó ñòàíäàðòíèõ ðîçïîäiëiâ (íîðìàëüíèé, åêñ-
ïîíåíöiéíèé, ïóàññîíiâ i ò.ä.). Äëÿ ïiäãîíêè òàêèõ ìîäåëåé ó R ¹ ãîòîâi
çàñîáè. ×èòà÷i, ÿêèõ öiêàâèòü ñàìå òàêà ïiäãîíêà, ÿêùî òåîðiÿ ñòàòè-
ñòè÷íîãî îöiíþâàííÿ ¨ì ó çàãàëüíèõ ðèñàõ âiäîìà (àáî íå öiêàâà) ìî-
æóòü çâåðíóòèñü îäðàçó äî ï. 8.6, äå îïèñàíî, ÿê îöiíþâàòè ïàðàìåòðè
ïðîñòèõ ñòàíäàðòíèõ ðîçïîäiëiâ òà áóäóâàòè äîâið÷i iíòåðâàëè çà äîïî-
ìîãîþ ôóíêöi¨ fitdistr().
Äëÿ ðîçóìiííÿ òåîðåòè÷íèõ ìiðêóâàíü, ùî íàâåäåíi ó öüîìó òà íà-

250
8.1. Оцiнки узагальненого методу моментiв 251

ñòóïíèõ ðîçäiëàõ êíèæêè, âèìàãà¹òüñÿ çíà÷íî ãëèáøå çíàéîìñòâî ç òåî-


ði¹þ éìîâiðíîñòåé òà âåêòîðíîþ àëãåáðîþ, íiæ öå áóëî äîñi. Ìiíiìàëüíó
íåîáõiäíó iíôîðìàöiþ ïðî âåêòîðè i ìàòðèöi âìiùåíî ó Äîäàòêó A. Âi-
äîìîñòÿì ç òåîði¨ éìîâiðíîñòåé ïðèñâÿ÷åíèé Äîäàòîê B. Çîêðåìà, ó ï.
B.3 äàíî îçíà÷åííÿ áàãàòîâèìiðíîãî íîðìàëüíîãî (ãàóññîâîãî) ðîçïîäiëó,
à ó ï. B.4 îïèñàíî îñíîâíi âèäè éìîâiðíiñíî¨ çáiæíîñòi (çà éìîâiðíiñòþ,
ñëàáêî, ìàéæå íàïåâíî) òà íàâåäåíi ïðèêëàäè ãðàíè÷íèõ òåîðåì.
Âòiì, ÿ íàìàãàâñÿ îðãàíiçóâàòè âèêëàä òàê, àáè êíèæêó ìîæíà áóëî
÷èòàòè i íå âiä÷óâàþ÷è âiäìiííiñòü ìiæ, ñêàæiìî, çáiæíîñòÿìè çà éìî-
âiðíiñòþ i ìàéæå íàïåâíî. Ùîá îòðèìàòè çàãàëüíå óÿâëåííÿ, ïðî ùî éäå
ìîâà, ÷èòà÷åâi äîñèòü ìàòè çàãàëüíå óÿâëåííÿ ïðî çáiæíiñòü ÿê ïðî íà-
áëèæåííÿ ÷îãîñü äî ÷îãîñü êîëè 𝑛 ñò๠âñå áiëüøå i áiëüøå. Çðîçóìiëî,
ùî òàêèì çàãàëüíèì ïîíÿòòÿì íå âàðòî îáìåæóâàòèñü. Áàæàþ÷èì çà-
íóðèòèñü ó òåîðiþ ãëèáøå ðåêîìåíäóþ êíèæêè ç òåîði¨ éìîâiðíîñòåé i
ìàòåìàòè÷íî¨ ñòàòèñòèêè [3, 2, 9, 18].

8.1 Оцiнки узагальненого методу моментiв


Íåõàé ñïîñòåðåæóâàíi äàíi ÿâëÿþòü ñîáîþ кратну вибiрку, òîáòî íà-
𝑝
áið X = (𝜉𝑖 , . . . , 𝜉𝑛 ), äå 𝜉𝑗 ∈ R  íåçàëåæíi âèïàäêîâi âåêòîðè ç ðîçïîäi-
ëîì
P𝜗 (𝐴) = P𝜉𝜗 (𝐴) = P{𝜉𝑗 ∈ 𝐴},
äå 𝜗 ∈ Θ ∈ R𝑑  𝑑-âèìiðíèé íåâiäîìèé ïàðàìåòð, Θ  ìíîæèíà ìîæ-
ëèâèõ çíà÷åíü íåâiäîìîãî ïàðàìåòðà. (Âåêòîð 𝜗 ìîæíà òðàêòóâàòè, ÿê
íàáið 𝑑 ÷èñëîâèõ íåâiäîìèõ ïàðàìåòðiâ).
Äëÿ òîãî, ùîá îöiíèòè 𝜗, çàäàìî äåÿêó âèìiðíó ôóíêöiþ h : R𝑝 → R𝑑 ,
òàê, ùîá äëÿ âñiõ t∈Θ áóëî ñêií÷åííèì ìàòåìàòè÷íå ñïîäiâàííÿ
∫︁
H(t) = Et h(𝜉1 ) = h(x)Pt (𝑑x).
R𝑝

Âíàñëiäîê çàêîíó âåëèêèõ ÷èñåë, ïðè âåëèêèõ îáñÿãàõ âèáiðêè 𝑛


𝑛
1 ∑︁
ĥ𝑛 = h(𝜉𝑗 ) ≈ H(𝜗).
𝑛 𝑗=1

Ïðèðiâíÿ¹ìî
ĥ𝑛 = H(t) (8.1)
8.1. Оцiнки узагальненого методу моментiв 252

i âèáåðåìî íà ðîëü îöiíêè 𝜗 òàêó ñòàòèñòèêó


1
𝜗ˆ = 𝜗(X)
ˆ , ùîá ïðè ïiäñòà-
t öå ðiâíÿííÿ ïåðåòâîðþâàëîñü íà ðiâíiñòü ìàéæå
íîâöi ¨ ¨ ó (8.1) çàìiñòü
íàïåâíî. Òàêó îöiíêó 𝜗ˆ𝑛 íàçèâàþòü îöiíêîþ ìåòîäó ìîìåíòiâ (ìîìåíò-
íîþ îöiíêîþ) äëÿ 𝜗, ç ìîìåíòíîþ ôóíêöi¹þ h. Ôóíêöiþ H(𝜗) íàçèâàþòü
(óçàãàëüíåíèì) òåîðåòè÷íèì ìîìåíòîì (àáî âåêòîðîì ìîìåíòiâ) ðîçïîäi-
ëó P𝜗 , à ĥ𝑛  åìïiðè÷íèì ìîìåíòîì âèáiðêè X. Ó âèïàäêó îäíîâèìiðíèõ
𝑘 𝑘
ñïîñòåðåæåíü (𝑝 = 1) ïðè ℎ(𝑥) = 𝑥 , 𝐻(𝜗) = E𝜗 𝜉 íàçèâàþòü 𝑘 -òèì òåî-
1
∑︀𝑛 𝑘
ðåòè÷íèì ìîìåíòîì, à ℎ̂𝑛 = 𝑗=1 𝜉𝑗  𝑘 -òèì åìïiðè÷íèì ìîìåíòîì.
𝑛
ßêùî ðiâíÿííÿ (âiäíîñíî t)

H(t) = x (8.2)

ì๠¹äèíèé êîðiíü äëÿ âñiõ 𝑥, ùî íàëåæàòü ìíîæèíi ìîæëèâèõ çíà÷åíü


ˆ = H−1 (ĥ), äå H−1  ôóíêöiÿ, îáåðíåíà äî ôóíêöi¨ H.
ôóíêöi¨ h, òî 𝜗
−1
(Ïðè öüîìó ïîòðiáíî, ùîá H áóëà âèìiðíîþ ôóíêöi¹þ).
ßêùî ðiâíÿííÿ (8.1) ì๠äåêiëüêà êîðåíiâ, òî îöiíêà ìåòîäó ìîìåíòiâ
âèçíà÷åíà íåîäíîçíà÷íî: áóäü-ÿêèé ç êîðåíiâ ìîæíà âèêîðèñòîâóâàòè ÿê
îöiíêó.

Приклад 8.1.1. ÍåõàéX = (𝜉1 , . . . , 𝜉𝑛 ) êðàòíà âèáiðêà ç åêñïîíåíöiéíîãî


ðîçïîäiëó ç íåâiäîìîþ iíòåíñèâíiñòþ 𝜆, òîáòî ùiëüíiñòü ðîçïîäiëó 𝜉

𝑓𝜆 (𝑥) = 𝜆𝑒−𝜆𝑥 1{𝑥 > 0}.

Çàäà÷à ïîëÿã๠â îöiíöi 𝜆 ∈ (0, ∞). Âèáåðåìî íà ðîëü ìîìåíòíî¨ ôóíêöiþ


ℎ(1) (𝑥) = 𝑥. Òîäi
∫︁ ∞
(1) 1
𝐻(𝜆) = E𝜆 ℎ (𝜉1 ) = 𝑥𝑓𝜆 (𝑥)𝑑𝑥 = .
0 𝜆
Îòæå, îöiíêà ìåòîäó ìîìåíòiâ ç öi¹þ ìîìåíòíîþ ôóíêöi¹þ ì๠âèãëÿä

ˆ (1) = 1 = 1 = ∑︀𝑛𝑛 .
𝜆 𝑛 (1)
ℎ̂𝑛 𝜉¯ 𝑗=1 𝜉𝑗

ßêùî îáðàòè ìîìåíòíó ôóíêöiþ ℎ(2) (𝑥) = 𝑥2 , îòðèìó¹ìî iíøó îöiíêó:

2
E𝜆 (𝜉1 )2 = ,
𝜆2
1
тобто вимiрну функцiю вiд даних X.
8.1. Оцiнки узагальненого методу моментiв 253

òîìó îöiíêà ìåòîäó ìîìåíòiâ, ùî âiäïîâiä๠ℎ(2) , ì๠âèãëÿä

√︃
ˆ (2) = 2
𝜆 𝑛 (2)
.
ℎ̂𝑛
J

Приклад 8.1.2. Íåõàé X = (𝜉1 , . . . , 𝜉𝑛 )  êðàòíà âèáiðêà ç íîðìàëüíîãî


ðîçïîäiëó ç íåâiäîìèì ìàòåìàòè÷íèì ñïîäiâàííÿì 𝜇 òà íåâiäîìîþ äèñ-
2 2 𝑇
ïåðñi¹þ 𝜎 . Ïîçíà÷èìî íåâiäîìèé âåêòîðíèé ïàðàìåòð 𝜗 = (𝜇, 𝜎 ) ∈
2 𝑇
Θ = R × (0, +∞). Ïîçíà÷èìî òàêîæ t = (𝑚, 𝑠 ) . Âèáåðåìî íà ðîëü ìî-
2 𝑇 2 2 𝑇
ìåíòíî¨ ôóíêöi¨ h(𝑥) = (𝑥, 𝑥 ) . Òîäi H(t) = (𝑚, 𝑠 + 𝑚 ) . Îòæå, îöiíêà
ìåòîäó ìîìåíòiâ çíàõîäèòüñÿ ÿê ðîçâ'ÿçîê ñèñòåìè ðiâíÿíü

𝜉¯ =
{︃
𝑚,
𝜉 2 = 𝑠 + 𝑚2 ,
2

𝜉¯ =
∑︀𝑛
1
𝜉 2 = 𝑛1 𝑛𝑗=1 (𝜉𝑗 )2  ïåðøèé i äðóãèé âèáiðêîâi ìîìåíòè.
∑︀
äå
𝑛 𝑗=1 𝜉𝑗 ,
Òàêèì ÷èíîì, 𝜗 ˆ𝑛 = (𝜉,
¯ 𝜉 2 − (𝜉)
¯ 2 )𝑇 , òîáòî îöiíêàìè äëÿ 𝜇 òà 𝜎 2 ¹ âèáið-
2
êîâå ñåðåäí¹ òà (íå âèïðàâëåíà) âèáiðêîâà äèñïåðñiÿ . J

Ëåãêî áà÷èòè, ùî âñi îöiíêè ó ïðèêëàäàõ 8.1.1-8.1.2 ¹ ñèëüíî êîíñò-


ñòåíòíèìè. Íàñòóïíà òåîðåìà ä๠äîñòàòíi óìîâè êîíñèñòåíòíîñòi ìî-
ìåíòíèõ îöiíîê.

Теорема 8.1.1. Нехай X — кратна вибiрка, H(t) iснує для всiх t ∈ Θ, H−1
iснує i є неперервною на множинi всiх можливих значень моментної функцiї.
Тодi
𝜗ˆ𝑛 = H−1 (ĥ𝑛 ) → 𝜗 м.н. при 𝑛 → ∞.

Äîâåäåííÿ áåçïîñåðåäíüî âèïëèâ๠ç ïîñèëåíîãî çàêîíó âåëèêèõ ÷è-


ñåë.
Ìåòîä ìîìåíòiâ iíêîëè ìîæíà óçàãàëüíèòè íà âèïàäîê íåîäíàêîâî
ðîçïîäiëåíèõ ñïîñòåðåæåíü.

Нагадаємо, що виправлена вибiркова дисперсiя дорiвнює 𝑆02 (X) = 𝑛−1


2 𝑛 ¯ 2 ). Як
(𝜉 2 − (𝜉)
оцiнка для теоретичної дисперсiї вона трохи точнiша, нiж не виправлена, тому на практицi,
як правило, використовують саме її.
8.1. Оцiнки узагальненого методу моментiв 254

Приклад 8.1.3. Íåõàé âèïàäêîâi âåëè÷èíè, ùî ñàìi ìàþòü íîðìàëüíèé


ðîçïîäië, âèìiðþþòüñÿ ðiçíèìè ïðèëàäàìè, ÿêi ìàþòü ïåâíi ïîõèáêè âè-
ìiðþâàííÿ. Òàêèì ÷èíîì, ðåçóëüòàòè âèìiðþâàííÿ ìîæíà çîáðàçèòè ó
âèãëÿäi:
𝜉𝑗 = 𝜂𝑗 + 𝜀𝑗 ,
äå 𝜂𝑗  ñïðàâæí¹ çíà÷åííÿ âåëè÷èíè, âèìiðÿíî¨ ó 𝑗 -òîìó äîñëiäi, 𝜀𝑗 
ïîõèáêà âèìiðþâàííÿ. Òóò 𝜂𝑗 , 𝜀𝑗 𝑗 = 1, . . . , 𝑛 ââàæàþòüñÿ íåçàëåæíèìè â
ñóêóïíîñòi, 𝜂𝑗 ∼ 𝑁 (𝜇, 𝜎 2 ), 𝜀𝑗 ∼ 𝑁 (0, 𝑠2𝑗 ), äå 𝑠2𝑗  âiäîìà äèñïåðñiÿ ïîõèáêè
2
ïðè 𝑗 -òîìó âèìiðþâàííi, 𝜇 i 𝜎  íåâiäîìi ïàðàìåòðè, ÿêi òðåáà îöiíèòè
çà äàíèìè X = (𝜉1 , . . . , 𝜉𝑛 ).
Áóäåìî ââàæàòè, ùî äèñïåðñi¨ ïîõèáîê îáìåæåíi çâåðõó: 𝜎𝑗2 < 𝑆 < ∞.
Ëåãêî áà÷èòè, ùî, õî÷à𝜉𝑗 íå ¹ îäíàêîâî ðîçïîäiëåíèìè âèïàäêîâèìè
¯ ¯ + 𝜀¯ → 𝜇 ïðè 𝑛 → ∞ ì.í.,
âåëè÷èíàìè, àëå 𝜉 = 𝜂
∑︀ îñêiëüêè 𝜂¯ → 𝜇 çà
ïiäñèëåíèì çàêîíîì âåëèêèõ ÷èñåë, à 𝜀 ¯ ∼ 𝑁 (0, 𝑛𝑗=1 𝜎𝑗2 /𝑛) çáiãà¹òüñÿ äî
0 ì.í. (Öå ëåãêî äîâåñòè, âèêîðèñòîâóþ÷è ëåìó Áîðåëÿ-Êàíòåëëi).
Îòæå 𝜉¯ ¹ íåçìiùåíîþ òà êîíñèñòåíòíîþ îöiíêîþ 𝜇. J
Задача. Ïîáóäóéòå êîíñèñòåíòíó îöiíêó 𝜎2 ó öüîìó ïðèêëàäi.
Ðîçãëÿíåìî òåïåð ïðèêëàä çàñòîñóâàííÿ R äëÿ îá÷èñëåííÿ îöiíîê
ìåòîäó ìîìåíòiâ ó âèïàäêó, êîëè ðîçâ'ÿçàòè ìîìåíòíå ðiâíÿííÿ (8.1)
àíàëiòè÷íî íå âäà¹òüñÿ.

Приклад 8.1.4. Íåõàé äàíi X = (𝜉1 , . . . , 𝜉𝑛 ) ÿâëÿþòü ñîáîþ êðàòíó âèáiðêó


çi çðiçàíîãî åêñïîíåíöiéíîãî ðîçïîäiëó ç ôóíêöi¹þ ðîçïîäiëó

⎨0
⎪ ïðè 𝑥 < 0,
1−exp(−𝜆𝑥)
𝐹𝜉 (𝑥) = 𝐹 (𝑥; 𝜆, 𝐶) = ïðè 0 ≤ 𝑥 < 𝐶, (8.3)
⎪ 1−exp(−𝜆𝐶)
1 ïðè 𝑥 ≥ 𝐶.

Ââàæà¹ìî ïîðiã çðiçàííÿ 𝐶 âiäîìèì, à 𝜆>0  íåâiäîìèì ïàðàìåòðîì


ðîçïîäiëó, ÿêèé ïîòðiáíî îöiíèòè.
Íà ðîëü ìîìåíòíî¨ ôóíêöi¨ âèáåðåìî ℎ(𝑥) = 𝑥. Ëåãêî áà÷èòè, ùî

𝐶 1
𝐻(𝜆) = E𝜆 𝜉1 = + .
1 − exp(𝐶𝜆) 𝜆
Ïîçíà÷èìî ðîçâ'ÿçîê ðiâíÿííÿ 𝜉¯ = 𝐻(𝑙) (âiäíîñíî 𝑙) ÷åðåç 𝜆
ˆ 𝑀 𝑀  öå
𝑛
i áóäå îöiíêà ìåòîäó ìîìåíòiâ äëÿ 𝜆. Îñêiëüêè ðîçâ'ÿçàòè ìîìåíòíå ðiâ-
íÿííÿ àíàëiòè÷íî íå ìîæíà, äëÿ çíàõîäæåííÿ îöiíêè çàñòîñó¹ìî òåõíiêó
íàáëèæåíîãî îá÷èñëåííÿ êîðåíÿ öüîãî ðiâíÿííÿ.
8.1. Оцiнки узагальненого методу моментiв 255

Íàïðèêëàä, äëÿ öüîãî ìîæíà âèêîðèñòàòè ôóíêöiþ nleqslv ç áiáëiî-


òåêè nleqslv. Íàéïðîñòiøèé âàðiàíò âèêëèêó öi¹¨ ôóíêöi¨ -
nleqslv(x, fn),
äå x  ïî÷àòêîâå íàáëèæåíå çíà÷åííÿ äëÿ êîðåíÿ,
fn  ôóíêöiÿ, êîðiíü ÿêî¨ ïîòðiáíî çíàéòè. (Òîáòî ìè øóêà¹ìî
ðîçâ'ÿçîê ðiâíÿííÿ fn(x)=0).
Çíà÷åííÿì ôóíêöi¨ nleqslv ¹ îá'¹êò, ùî ì๠áàãàòî àòðèáóòiâ, çî-
êðåìà ó àòðèáóòi $x çíàõîäèòüñÿ îòðèìàíå íàáëèæåíå çíà÷åííÿ êîðåíÿ,
ó àòðèáóòi $fvec  çíà÷åííÿ ôóíêöi¨ ó òî÷öi x (ÿêùî êîðiíü çíàéäåíî
âiðíî, öå çíà÷åííÿ ì๠áóòè ïðàêòè÷íî 0).
Îôîðìèìî îá÷èñëåííÿ îöiíêè çà äàíèìè X ó âèãëÿäi ôóíêöi¨:

library(nleqslv)
# функцiя eqv задає рiвняння H(l)=Mx
# trun - порiг зрiзання експоненцiйного розподiлу
eqv<-function(l,Mx,trun){
trun/(1-exp(trun*l))+1/l-Mx
}
# функцiя EstMM рахує оцiнку lambda за даними X
# методом моментiв
EstMM<-function(x,trun){
Mx<-mean(x)
nleqslv(1/Mx,eqv,Mx=Mx,trun=trun)$x
}

Òóò ìè ñïî÷àòêó ñòâîðèëè ôóíêöiþ eqv, êîðåíåì ÿêî¨ áóäå íàøà îöií-
êà, à ïîòiì  ôóíêöiþ EstMM, ÿêà ðàõó¹ îöiíêó. Àðãóìåíòàìè öi¹¨ ôóíêöi¨
¹ x  âèáiðêà, ïî ÿêié áóäó¹òüñÿ îöiíêà i trun  ïàðàìåòð çðiçàííÿ (âi-
äîìèé).
Ôóíêöiÿ EstMM ñïî÷àòêó çíàõîäèòü âèáiðêîâå ñåðåäí¹ i çàïèñó¹ éî-
ãî ÿê çìiííó Mx, à ïîòiì âèêëèê๠ôóíêöiþ nleqslv äëÿ ðîçâ'ÿçóâàííÿ
ìîìåíòíîãî ðiâíÿííÿ. Ïðè öüîìó ÿê ïî÷àòêîâå íàáëèæåííÿ äëÿ êîðå-
íÿ ðiâíÿííÿ âèáðàíî 1/Mx, òîáòî ìîìåíòíó îöiíêó äëÿ iíòåíñèâíîñòi íå
çðiçàíîãî åêñïîíåíöiéíîãî ðîçïîäiëó.
Ïåðåâiðèìî, ÷è ïðàâèëüíî ïðàöþ¹ íàøà ôóíêöiÿ íà ìîäåëüîâàíèõ
äàííèõ, ÿêi ìàþòü çðiçàíèé åêñïîíåíöiéíèé ðîçïîäië. Äëÿ öüîãî ïîòðiá-
íî ñïî÷àòêó çãåíåðóâàòè äàíi ç òàêèì ðîçïîäiëîì, à ïîòiì âèêëèêàòè
ôóíêöiþ EstMM:
8.1. Оцiнки узагальненого методу моментiв 256

set.seed(2)
# Генерацiя псевдовипадкових даних
U<-2 # порiг зрiзання
l<-0.5 # iнтенсивнiсть
n<-10000 # обсяг вибiрки
# функцiя rexptr генерує одне псевдовипадкове
# число зi зрiзаним експоненцiйним розподiлом
# з iнтенсивнiстю lambda та порогом зрiзання trun
rexptr<-function(lambda=1,trun=1){
repeat{
x<-rexp(1,lambda)
if(x<trun) break
}
x
}
# Генеруємо вектор зрiзаних експоненцiйних в.в.
X<-replicate(n,rexptr(l,U))
# Рахуємо оцiнку
EstMM(X,U)

## [1] 0.5033029

Ñïî÷àòêó ìè ñòâîðèëè ôóíêöiþ rexptr, ÿêà ãåíåðó¹ îäíå ïñåâäî-


âèïàäêîâå ÷èñëî, âèêîðèñòîâóþ÷è ãåíåðàòîð åêñïîíåíöiéíîãî ðîçïîäiëó
rexp() òà çðiçàþ÷è éîãî ðåçóëüòàò äîòè, äîêè âií íå ñòàíå ìåíøèì íiæ
ïîðiã çðiçàííÿ. Ïîòiì ãåíåðó¹ìî âèáiðêó, âèêîðèñòîâóþ÷è replicate() i
ïiäðàõîâó¹ìî îöiíêó äëÿ iíòåíñèâíîñòi çà öi¹þ âèáiðêîþ.
Ñïðàâæíÿ iíòíåíñèâíiñòü l=0.5, îöiíêà  0.5033029.
Ðåçóëüòàò âèãëÿä๠çàäîâiëüíèì. Àëå, çâè÷àéíî, ÿêiñòü àëãîðèòìó
îöiíþâàííÿ íå ìîæíà âèçíà÷èòè çà îöiíêîþ ïî ëèøå îäíié âèáiðöi. Áiëüø
äåòàëüíèé àíàëiç áóäå ïðîâåäåíî ó ïðèêëàäi 8.4.4.
Âiäìiòèìî, ùî ðîçâ'ÿçîê ìîìåíòíîãî ðiâíÿííÿ ìîæå áóòè âiä'¹ìíèì
äëÿ äåÿêèõ âèáiðîê. Îñêiëüêè çà çìiñòîì 𝜆 äîäàòíå, íåì๠ðàöi¨ âèêîðè-
ñòîâóâàòè âiä'¹ìíå çíà÷åííÿ ÿê éîãî îöiíêó. Ó òàêîìó âèïàäêó ìîæíà
ëèøå ñòâåðäæóâàòè, ùî 𝜆 íàñòiëüêè ìàëå, ùî éîãî íåìîæëèâî îöiíèòè
òî÷íî.  ïðèíöèïi, ïðè 𝜆 → 0 ôóíêöiÿ ðîçïîäiëó çðiçàíîãî íîðìàëüíî-
ãî ðîçïîäiëó ïåðåòâîðþ¹òüñÿ ó ðiâíîìiðíó íà iíòåðâàëi [0, 𝐶]. ßêùî äëÿ
ðåàëüíèõ äàíèõ, ÿêi ðîçãëÿäàþòüñÿ, ìîäåëü ðiâíîìiðíîãî ðîçïîäiëó äî-
8.1. Оцiнки узагальненого методу моментiв 257

Таблиця 8.1

Êiëüê. äåôåêòiâ A B C
1 20 25 33
2 13 20 16
3 11 15 4
4 6 7 1
5 2 0 0
6 0 1 0

ïóñòèìà, òî ÿê îöiíêó 𝜆, ìîæíà âèáðàòè âåëè÷èíó 𝜆 ˆ 𝑀 𝑀 , 0),


ˆ 𝑀 𝑀 𝑡𝑟 = max(𝜆
𝑛 𝑛
ââàæàþ÷è, ùî íóëüîâîìó çíà÷åííþ îöiíêè âiäïîâiä๠ðiâíîìiðíèé ðîç-
ïîäië. J
Приклад 8.1.5. Ó ëàáîðàòîði¨, äå ðîáëÿòü ïåðåâiðêó æîðñòêèõ äèñêiâ
êîìï'þòåðiâ, ùî íàäiéøëè íà ãàðàíòiéíèé ðåìîíò, âiäìi÷àþòü êiëüêiñòü
äåôåêòiâ, âèÿâëåíèõ íà êîæíîìó äèñêó. Ó ïðèêëàäi 6.4.2 çàïðîïîíîâàíî
âèêîðèñòîâóâàòè ïóàññîíiâ ðîçïîäië çi çðiçàíèì íóëåì äëÿ îïèñó ðîçïîäi-
ëó òàêèõ äàíèõ. Öåé ðîçïîäië ì๠îäèí ïàðàìåòð  iíòåíñèâíiñòü (𝜆).
Äàíi ëàáîðàòîði¨ ìiñòÿòü ñòàòèñòèêó êiëüêîñòi äåôåêòiâ äëÿ îäíîòèïíèõ
äèñêiâ, âèðîáëåíèõ òðüîìà ðiçíèìè ôiðìàìè-âèðîáíèêàìè (öi ôiðìè ïî-
çíàè÷ìî À,  i Ñ) , íàâåäåíó ó òàáë. 8.1 Òóò ó ïåðøîìó ñòîâï÷èêó âêàçà-
íà êiëüêiñòü äåôåêòiâ íà äèñêó, à ó íàñòóïíèõ  ñêiëüêè äèñêiâ ç òàêîþ
êiëüêiñòþ äåôåêòiâ áóëî âèÿâëåíî ñåðåä äèñêiâ âèðîáíèöòâà âiäïîâiäíî¨
ôiðìè.
Çà öèìè äàíèìè ïîòðiáíî îöiíèòè iíòåíñèâíîñòi ïîÿâè äåôåêòiâ ó ìî-
äåëi ïóàñîíiâñüêîãî ðîçïîäiëó äëÿ êîæíîãî âèðîáíèêà îêðåìî i ïåðåâiðè-
òè íàñêiëüêè âîíè âiäðiçíÿþòüñÿ äëÿ ðiçíèõ âèðîáíèêiâ.
Ñêîðèñòà¹ìîñü äëÿ öüîãî ìåòîäîì ìîìåíòiâ ç ìîìåíòíîþ ôóíêöi¹þ
ℎ(𝑥) = 𝑥. Ìè ìà¹ìî ñïðàâó ç ãðóïîâàíèìè âèáiðêàìè  ó íàÿâíèõ äàíèõ
âêàçàíi íå êiëüêîñòi äåôåêòiâ äëÿ êîíêðåòíèõ äèñêiâ, à ÷àñòîòè ïîÿâ
äèñêiâ ç ïåâíîþ êiëüêiñòþ äåôåêòiâ. Òîìó, ÿê öå îïèñàíî ó ï. 4.5,

𝐾
1 ∑︁
ℎ̂𝑛 = 𝜇
ˆ= 𝑥𝑘 𝑛𝑘 ,
𝑛 𝑘=1

äå 𝑥𝑘 = 𝑘  ÷èñëî äåôåêòiâ íà äèñêó, 𝑛𝑘  êiëüêiñòü äèñêiâ ç òàêèì


÷èñëîì äåôåêòiâ, 𝐾  íàéáiëüøå ÷èñëî äåôåêòiâ, ÿêå çóñòði÷à¹òüñÿ ó
8.1. Оцiнки узагальненого методу моментiв 258

äàíèõ. (Çðîçóìiëî, ùî ïiäðàõóíêè ïîòðiáíî ïðîâîäèòè îêðåìî äëÿ êîæ-


íîãî âèðîáíèêà). Çà ï. 6.4.1 âiäïîâiäíèé òåîðåòè÷íèé ìîìåíò äîðiâíþ¹
𝐻(𝜆) = 𝜆/(1 − exp(−𝜆)). Ìîìåíòíà îöiíêà áóäå ðîçâ'ÿçêîì ðiâíÿííÿ

𝜆
𝜇
ˆ= .
1 − 𝑒−𝜆
Öå ðiâíÿííÿ íå ðîçâ'ÿçó¹òüñÿ àíàëiòè÷íî, òîìó ìè ñêîðèñòà¹ìîñü ôóíê-
öi¹þ nleqslv, âçÿâøè ÿê ïî÷àòêîâå çíà÷åííÿ 𝜆 ïðîñòî 𝜇
ˆ (ÿêå áóëî á
ìîìåíòíîþ îöiíêîþ 𝜆 ó ïðîñòié ïóàññîíîâié ìîäåëi áåç çðiçàííÿ íóëÿ).
Äëÿ íàøèõ äàíèõ ñêðèïò ùî ðåàëiçó¹ îöiíêè ìîæå âèãëÿäàòè íàñòóïíèì
÷èíîì:

library(nleqslv)
# Вводимо данi:
A<-c(20,13,11,6,2,0)
B<-c(25,20,15,7,0,1)
C<-c(33,16,4,1,0,0)
x<-1:6
# моментна оцiнка
# перший момент як функцiя вiд iнтенсивностi l
# мiнус m - емпiричний момент
moment<-function(l,m){
l/(1-exp(-l))-m
}
# Оцiнка iнтенсивностi
# x - вектор значень спостережуваної змiнної
# w - частоти значень у вибiрцi
EstP<-function(x,w){
m<-weighted.mean(x,w)
nleqslv(m,moment,m=m)$x
}
# Оцiнюємо за даними:
EstP(x,A)

## [1] 1.821516

EstP(x,B)
8.1. Оцiнки узагальненого методу моментiв 259

## [1] 1.749454

EstP(x,C)

## [1] 0.8742175
Òàêèì ÷èíîì, íàøà îöiíêà iíòåíñèâíîñòi óòâîðåííÿ äåôåêòiâ íà äèñ-
êàõ ôiðìè À  1.821516, ôiðìè Â  1.749454, ôiðìè Ñ  0.8742175. Çà
öèìè ðåçóëüòàòàìè ìîæíà ñêàçàòè, ùî ÿêiñòü äèñêiâ ôiðì À òà Â ïðè-
áëèçíî îäíàêîâà, à íà äèñêàõ ôiðìè Ñ äåôåêòè óòâîðþþòüñÿ ç âäâi÷i
íèæ÷îþ iíòåíñèâíiñòþ.
Àëå, çâè÷àéíî, öå òiëüêè îöiíêè. Íàâiòü ÿêùî ñïðàâæíi iíòåíñèâíîñòi
óòâîðåííÿ äåôåêòiâ îäíàêîâi äëÿ âñiõ òðüîõ ôiðì, çíà÷åííÿ îöiíîê, ïiä-
ðàõîâàíèõ çà äàíèìè, áóäóòü, ÿê ïðàâèëî, ðiçíèìè. Áiëüøå òîãî, ÿêùî
ïðîâåñòè îöiíþâàííÿ çà äàíèìè iíøèõ ëàáîðàòîðié àáî çà iíøèé ïåðiîä
÷àñó, ìîæíà îòðèìàòè iíøi îöiíêè òèõ ñàìèõ iíòåíñèâíîñòåé. Òîìó âàæ-
ëèâî âìiòè âèçíà÷àòè, íàñêiëüêè ñïîñòåðåæóâàíi âiäìiííîñòi îöiíîê âiä-
ïîâiäàþòü ñïðàâæíiì âiäìiííîñòÿì îöiíþâàíèõ ïàðàìåòðiâ, à íå ¹ ðåçóëü-
òàòîì âèïàäêîâèõ êîëèâàíü. Ìè ïîâåðíåìîñü äî öüîãî ïèòàííÿ ïiçíiøå
3
ó ïiäðîçäiëàõ, ïðèñâÿ÷åíèõ äîâið÷èì iíòåðâàëàì òà ïåðåâiðöi ãiïîòåç . J

Приклад 8.1.6. Ðîçãëÿíåìî äàíi âèìiðþâàííÿ ïåâíî¨ ÷èñëîâî¨ õàðàêòåðè-


ñòèêè 𝜉 òâàðèí (öå ìîæå áóòè, íàïðèêëàä, äîâæèíà òiëà ó ìèøåé). Äëÿ
äîñëiäó âiäiáðàíî íàáið ìèøåé, êîæíà ç ÿêèõ ì๠îäèí ç äâîõ ìîæëèâèõ
òèïiâ ãåíîòèïó (íàçâåìî ¨õ Ã1 i Ã2). Éìîâiðíiñòü òîãî, ùî ó äàíî¨ ìèøi
Ã1 äîðiâíþ¹ 1/2 (òàêà æ, âî÷åâèäü, i éìîâiðíiñòü Ã2). Äîñëiäíèê íå ìîæå
ç'ÿñóâàòè, ÿêèé ñàìå ãåíîòèï ì๠êîæíà ìèøà, àëå ââàæà¹, ùî ðîçïîäië
𝜉 çàëåæèòü âiä ãåíîòèïó. Òî÷íiøå, ðîçïîäië 𝜉 ∼ 𝑁 (𝜇𝑖 , 𝜎 2 ), ÿêùî ìèøà
2
ì๠𝑖-òèé ãåíîòèï. Çíà÷åííÿ 𝜇1 , 𝜇2 , 𝜎  íåâiäîìi, ¨õ ïîòðiáíî îöiíèòè
çà âèáiðêîþ X = (𝜉1 , . . . , 𝜉𝑛 ), äå 𝜉𝑗  çíà÷åííÿ 𝜉 äëÿ 𝑗 -òî¨ ñïîñòåðåæóâà-
íî¨ ìèøi. (Òîáòî ó öüîìó ïðèêëàäi ðiçíèì ãåíîòèïàì âiäïîâiäàþòü ðiçíi
ñåðåäíi çíà÷åííÿ õàðàêòåðèñòèêè 𝜉 , àëå íà ¨ ¨ ðîçêèä ãåíîòèï íå âïëèâà¹).
Òàêèì ÷èíîì, ìè ìà¹ìî âèáiðêó ç íåçàëåæíèõ ñïîñòåðåæåíü 𝜉𝑗 , ðîç-
4
ïîäië ÿêèõ ¹ ñóìiøøþ äâîõ íîðìàëüíèõ :
(︂ )︂ (︂ )︂
1 𝑥 − 𝜇1 1 𝑥 − 𝜇2
P{𝜉 < 𝑥} = 𝐹 (𝑥) = Φ + Φ ,
2 𝜎 2 𝜎
3
Про довiрчi iнтервали — у прикладi 8.5.2, про перевiрку гiпотез — у прикладi 9.3.3.
4
Див. п. 6.4.3 про сумiшi кiлькох розподiлiв.
8.1. Оцiнки узагальненого методу моментiв 260

äå Φ(𝑥)  ôóíêöiÿ ðîçïîäiëó ñòàíäàðòíîãî íîðìàëüíîãî ðîçïîäiëó, 𝜗=


(𝜇1 , 𝜇2 , 𝜎 2 )𝑇  íåâiäîìèé ïàðàìåòð.
Ëåãêî çðîçóìiòè, ùî ïîìiíÿâøè ìiñöÿìè 𝜇1 òà 𝜇2 , ìè íå çìiíèìî ðîç-
ïîäië íàøèõ äàíèõ. Îòæå, çà äàíèìè íåìîæëèâî âèçíà÷èòè, ÿêîìó ç
äâîõ ãåíîòèïiâ âiäïîâiä๠ñåðåäí¹ çíà÷åííÿ 𝜇1 , à ÿêîìó  𝜇2 , íàâiòü ÿê-
ùî íàì âäàñòüñÿ îöiíèòè öi ïàðàìåòðè. Òîìó ìè íàäàëi áóäåìî ââàæàòè,
ùî 𝜇1 ≤ 𝜇2 , òîáòî ïåðøèì ãåíîòèïîì áóäå òîé, ÿêîìó âiäïîâiä๠ìåíøå
ñåðåäí¹ äëÿ õàðàêòåðèñòèêè 𝜉.
Äëÿ îöiíêè 𝜗 ñêîðèñòà¹ìîñü ìåòîäîì ìîìåíòiâ. Ïîìiòèìî, ùî ðîç-
ïîäië äàíèõ ¹ ñèìåòðè÷íèì íàâêîëî ìàòåìàòè÷íîãî ñïîäiâàííÿ 𝜇 =
1
E 𝜉𝑗 = 2
(𝜇1 + 𝜇2 ). Òîìó äëÿ îöiíþâàííÿ çðó÷íî âèêîðèñòîâóâàòè òðî-
õè iíøó ïàðàìåòðèçàöiþ  ââiâøè ïàðàìåòð ∆ = 𝜇2 − 𝜇. Òîäi äëÿ îïèñó
ðîçïîäiëó 𝜉 ìîæíà âèêîðèñòàòè íàáið ïàðàìåòðiâ 𝜗˜ = (𝜇, ∆, 𝜎 2 )𝑇 . Ïðè
öüîìó 𝜉𝑗 ìîæíà òðàêòóâàòè ÿê ñóìó íåçàëåæíèõ âèïàäêîâèõ âåäè÷èí:

𝜉𝑗 = 𝜇 + 𝜂 + 𝜁,

äå 𝜂 ∼ 𝑁 (0, 𝜎 2 ), {︃
∆ ç éìîâiðíiñòþ 1/2,
𝜁=
−∆ ç éìîâiðíiñòþ 1/2.
Öå çîáðàæåííÿ äîçâîëÿ¹ äóæå ïðîñòî ïiäðàõóâàòè ìîìåíòè 𝜉𝑗 :

E 𝜉𝑗 = 𝜇,

D 𝜉𝑗 = E(𝜉𝑗 − 𝜇)2 = 𝜎 2 + ∆2 ,
E(𝜉𝑗 − 𝜇)3 = 0,
E(𝜉𝑗 − 𝜇)4 = E(𝜂 + 𝜁)4 = 3𝜎 4 + 6𝜎 2 ∆2 + ∆4 .
(Ó îñòàííié ðiâíîñòi ìè ñêîðèñòàëèñü òèì, ùî E 𝜂 4 = 3𝜎 4 ).
Ðiâíÿííÿ äëÿ òðåòüîãî öåíòðîâàíîãî ìîìåíòó âèÿâèëîñü íåïðèäàò-
íèì äëÿ îöiíþâàííÿ, îñêiëüêè öåé ìîìåíò íå çàëåæèòü âiä íåâiäîìèõ
ïàðàìåòðiâ. Âèêîðèñòà¹ìî ðiâíÿííÿ äëÿ ïåðøîãî, äðóãîãî i ÷åòâåðòîãî
ìîìåíòiâ, çàìiíèâøè ó íèõ òåîðåòè÷íi ìîìåíòè åìïiðè÷íèìè:

𝑛
1 ∑︁
𝜉¯ = 𝜉𝑗 çàìiñòü E 𝜉𝑗 ,
𝑛 𝑗=1
8.1. Оцiнки узагальненого методу моментiв 261

𝑛
1 ∑︁ ¯2
𝑀2 = (𝜉𝑗 − 𝜉) çàìiñòü E(𝜉𝑗 − 𝜇)2 ,
𝑛 𝑗=1
𝑛
1 ∑︁ ¯4
𝑀4 = (𝜉𝑗 − 𝜉) çàìiñòü E(𝜉𝑗 − 𝜇)4 .
𝑛 𝑗=1

Îòðèìó¹ìî íàñòóïíi ðiâíÿííÿ äëÿ çíàõîäæåííÿ îöiíîê (ˆ ˆ 𝜎


𝜇, ∆, ˆ 2 )𝑇 :
𝜉¯ = 𝜇
ˆ,
𝑀2 = 𝜎 ˆ 2,
ˆ2 + ∆
𝜎 4 + 6ˆ
𝑀4 = 3ˆ 𝜎2∆ˆ2 + ∆
ˆ 4.
ßêùî 3(𝑀2 )2 < 𝑀4 , öi ðiâíÿííÿ íå ìàþòü ðîçâ'ÿçêó. Iíàêøå  ìàþòü
¹äèíèé ðîçâ'ÿçîê:
¯
ˆ𝑀 𝑀 = 𝜉,
𝜇
√︂
2
ˆ 𝑀 𝑀 = 4 3(𝑀2 ) − 𝑀4 ,

2
𝜎
ˆ 2,𝑀 𝑀 ˆ 𝑀 𝑀 )2 .
= 𝑀2 − (∆
Öå i ¹ íàøi ìîìåíòíi îöiíêè. (Îñêiëüêè (𝑀2 )2 < 𝑀4 , îöiíêà ˆ 2.𝑀 𝑀
𝜎 íå
ìîæå áóòè âiä'¹ìíîþ).
2
Äëÿ âèçíà÷åíîñòi, ïðè âèêîíàííi 3(𝑀2 ) < 𝑀4 áóäåìî ââàæàòè
ˆ
∆ 𝑀 𝑀
= 0, 𝜎
ˆ 2,𝑀 𝑀
= 𝑀2 . ßêùî äàíi 𝜉𝑗 äiéñíî ìàþòü ðîçïîäië 𝐹 , òî äëÿ ¨õ
2 4
òåîðåòè÷íèõ ìîìåíòiâ ïîâèííî âèêîíóâàòèñü 3(D 𝜉𝑗 ) > E(𝜉𝑗 − 𝜇) , îòæå,
2
ïðè çðîñòàííi 𝑛 éìîâiðíiñòü òîãî, ùî 3(𝑀2 ) < 𝑀4 , áóäå ïðÿìóâàòè äî
2
0. Àëå ïðè íåâåëèêèõ îáñÿãàõ âèáiðêè ìîæëèâå âèêîíàííÿ 3(𝑀2 ) < 𝑀4
çà ðàõóíîê âiäõèëåííÿ åìïiðè÷íèõ ìîìåíòiâ âiä òåîðåòè÷íèõ. Òîìó íàøå
ðîçøèðåííÿ âèçíà÷åííÿ ìîìåíòíî¨ îöiíêè íà öåé âèïàäîê íå ¹ íåäîðå÷-
íèì.
Çàóâàæèìî, ùî ïðè ðîáîòi ç ðåàëüíèìè äàíèìè òðåáà çàâæäè âðàõî-
âóâàòè ìîæëèâiñòü òîãî, ùî òåîðåòè÷íà ìîäåëü çîâñiì íå ïðèäàòíà äëÿ
2
¨õ îïèñó. Íå âèêîíàííÿ óìîâè 3(𝑀2 ) > 𝑀4 ïðè çíà÷íîìó îáñÿçi äàíèõ
ìîæå áóòè âêàçiâêîþ ñàìå íà òàêó ñèòóàöiþ.
Òåïåð îöiíêè äëÿ 𝜇1 òà 𝜇2 ìîæíà âèçíà÷èòè ÿê
ˆ𝑀
𝜇 𝑀 ˆ 𝑀𝑀 ,
ˆ𝑀 𝑀 − ∆
=𝜇
1
𝜇 𝑀𝑀
ˆ2 = 𝜇 ˆ 𝑀𝑀
+∆ˆ 𝑀𝑀 .
Ó íàñòóïíîìó ñêðèïòi ñïî÷àòêó ãåíåðóþòüñÿ äàíi ç ðîçïîäiëîì 𝐹, à
ïîòiì ïî öèõ äàíèõ ïiäðàõîâóþòüñÿ ìîìåíòíi îöiíêè ïàðàìåòðiâ.
8.1. Оцiнки узагальненого методу моментiв 262

set.seed(2)
# Задаємо параметри:
n<-300 # кiлькiсть спостережень
m1<-1 # математичне сподiвання для Г1
m2<-5 # математичне сподiвання для Г2
s<-1 # стандартне вiдхилення для обох генотипiв
# Генерацiя даних:
m<-c(m1,m2)
# (у ind - номери генотипiв для кожної мишi)
ind<-1+as.numeric(runif(n)<1/2)
mx<-m[ind]
xMixt<-rnorm(n,mx,s) # згенерована вибiрка
# Оцiнка методу моментiв за вибiркою x
# результат - вектор оцiнок для (m1,m2,s^2)
EstMixMom<-function(x){
M1<-mean(x)
x0<-x-M1
M2<-mean(x0^2)
M4<-mean(x0^4)
delta<-(max(c(3*M2^2-M4)/2,0))^0.25
s2<-M2-delta^2
EstM1<-M1-delta
EstM2<-M1+delta
c(EstM1,EstM2,sqrt(s2))
}
# значення оцiнки на моделованiй вибiрцi xMixt:
EstMixMom(xMixt)

## [1] 1.2638559 5.1202688 0.9613953

Òðèñòà ñïîñòåðåæåíü çãåíåðîâàíi çi çíà÷åííÿìè ïàðàìåòðiâ 𝜇1 = 1,


𝜇2 = 5, 𝜎 2 = 1. Îòðèìàíi îöiíêè 𝜇 ˆ𝑀
1
𝑀
ˆ𝑀
= 1.2638559, 𝜇 2
𝑀
= 5.1202688,
2,𝑀 𝑀
𝜎
ˆ = 0.9613953. Ðåçóëüòàò âèãëÿä๠çàäîâiëüíî. J
8.2. Оцiнки методу квантилiв 263

8.2 Оцiнки методу квантилiв


ßê ìè áà÷èëè ó ðîçäiëi 4.1, âèáiðêîâå ñåðåäí¹ i äèñïåðñiÿ ¹ íå ðîáàñò-
íèìè õàðàêòåðèñòèêàìè âèáiðêè. Òå æ âiðíî ùîäî áóäü-ÿêèõ ôóíêöiî-
íàëüíèõ ìîìåíòiâ ç íåîáìåæåíîþ ìîìåíòíîþ ôóíêöi¹þ. Òîìó êîëè ïðè-
ïóñêà¹òüñÿ, ùî äàíi ìîæóòü áóòè çàáðóäíåíi âèêèäàìè, äîöiëüíî çàìiñòü
ìîìåíòiâ âèêîðèñòîâóâàòè äëÿ îöiíþâàííÿ áiëüø ðîáàñòíi ñòàòèñòèêè.
Òàêèìè ñòàòèñòèêàìè ¹ âèáiðêîâi êâàíòèëi, ÿêùî ¨õ ðiâíi íå ¹ áëèçüêèìè
äî 0 àáî 1. Íàéáiëüø ðîáàñòíîþ ñòàòèñòèêîþ ¹ âèáiðêîâà ìåäiàíà, òîáòî
êâàíòèëü ðiâíÿ 1/2.
Íåõàé X = (𝜉1 , . . . , 𝜉𝑛 )  êðàòíà âèáiðêà ç íåïåðåðâíîþ ôóíêöi¹þ ðîç-
ïîäiëó 𝐹𝜗 ñïîñòåðåæåííÿ 𝜉𝑗 , 𝜗 ∈ Θ ⊆ R  íåâiäîìèé ïàðàìåòð. Ïîçíà÷è-
X 𝐹
ìî 𝑄 (𝛼)  âèáiðêîâó êâàíòèëü ðiâíÿ 𝛼, 𝑄 𝜗 (𝛼)  òåîðåòè÷íó êâàíòèëü
ðîçïîäiëó 𝐹𝜗 .
Òîäi äëÿ âñiõ 𝛼, òàêèõ, ùî 𝐹𝜗 (·) ¹ ñòðîãî çðîñòàþ÷îþ ó
𝐹
äåÿêîìó îêîëi 𝑄 𝜗 (𝛼), ì๠ìiñöå çáiæíiñòü

𝑄X (𝛼) → 𝑄𝐹𝜗 (𝛼), ì.í. ïðè 𝑛 → ∞.


𝐹
Íåõàé ïðè äåÿêîìó 𝛼 ôóíêöiÿ 𝑞(𝑡) = 𝑄 𝑡 (𝛼) ì๠íåïåðåðâíó îáåðíåíó
𝑞 −1 (𝑢) íà ìíîæèíi ìîæëèâèõ çíà÷åíü 𝑄X (𝛼) (äëÿ âñiõ ìîæëèâèõ çíà÷åíü
X). Ïîêëàäåìî 𝜗ˆ𝑄 = 𝑞 −1 (𝑄X (𝛼)). Òîäi, ÿêùî ïðè ñïðàâæíüîìó çíà÷åí-
íi íåâiäîìîãî ïàðàìåòðà 𝜗 ôóíêöiÿ 𝐹𝜗 (·) ¹ ñòðîãî çðîñòàþ÷îþ â îêîëi
𝑄𝐹𝜗 (𝛼), òî 𝜗ˆ𝑄  ñòðîãî êîíñèñòåíòíà îöiíêà 𝜗.

Приклад 8.2.1. Íåõàé X = (𝜉1 , . . . , 𝜉𝑛 ) ì๠åêñïîíåíöiéíèé ðîçïîäië ç


íåâiäîìîþ iíòåíñèâíiñòþ 𝜆. Òîäi 𝐹𝜆 (𝑥) = (1 − exp(−𝜆𝑥)) 1{𝑥 > 0}, îòæå
𝑄𝐹𝜆 (1/2) = (log 2)/𝜆. Íà ðîëü îöiíêè äëÿ 𝜆 ìîæíà îáðàòè

ˆ 𝑚𝑒𝑑 = log 2
𝜆
med(X)

Öÿ îöiíêà ¹ ñèëüíî êîíñèñòåíòíîþ i ðîáàñòíîþ. ˆ¨ çâóòü ìåäiàííîþ îöií-


êîþ iíòåíñèâíîñòi åêñïîíåíöiéíîãî ðîçïîäiëó. J

Приклад 8.2.2. Íåõàé X = (𝜉1 , . . . , 𝜉𝑛 )  êðàòíà âèáiðêà ç ðîçïîäiëó


𝐹 ∼ 𝑁 (𝜇, 𝜎 2 ), ïàðàìåòðè 𝜇 òà 𝜎 2  íåâiäîìi, ¨õ ïîòðiáíî îöiíèòè. Îñêiëü-
êè ùiëüíiñòü íîðìàëüíîãî ðîçïîäiëó ñèìåòðè÷íà íàâêîëî 𝜇, òî 𝜇 ¹ ìåäià-
íîþ öüîãî ðîçïîäiëó, îòæå ÿê îöiíêó äëÿ íüîãî ìîæíà âçÿòè âèáiðêîâó
ˆ𝑚𝑒𝑑
ìåäiàíó 𝜇 𝑛 = med(X).
8.2. Оцiнки методу квантилiв 264

Äëÿ îöiíêè 𝜎 ñêîðèñòà¹ìîñü òèì, ùî

2
𝑄𝑁 (𝜇,𝜎 ) (𝛼) = 𝜇 + 𝜎𝑄𝑁 (0,1) (𝛼).

Òîìó, äëÿ áóäü-ÿêîãî 𝛼,

𝑄𝐹 (1 − 𝛼) − 𝑄𝐹 (𝛼)
𝜎= ,
2𝜆𝛼

äå 𝜆𝛼 = 𝑄𝑁 (0,1) (1 − 𝛼). Òðàäèöiéíî äëÿ ïîáóäîâè îöiíêè âèáèðàþòü 𝛼=


1/4 i îòðèìóþòü

𝑄X (3/4) − 𝑄X (1/4) IQ(X)


ˆ𝑛𝐼𝑄 =
𝜎 ≈
2𝜆1/4 1.34898

äå IQ(X)  iíòåðêâàðòèëüíèé ðîçìàõ âèáiðêè X. Öÿ îöiíêà çâåòüñÿ ií-


òåðêâàðòèëüíîþ îöiíêîþ ñåðåäíüîêâàäðàòè÷íîãî âiäõèëåííÿ.
ˆ𝑚𝑒𝑑
Îöiíêè 𝜇 𝑛 ˆ𝑛𝐼𝑄 ¹ ñèëüíî êîíñèñòåíòíèìè. J
òà 𝜎

Приклад 8.2.3. Ðîçãëÿíåìî äàíi ñïîñòåðåæåíü íîðìàëüíèõ âèïàäêîâèõ


âåëè÷èí ç íîðìàëüíîþ ïîõèáêîþ, îïèñàíi ó ïðèêëàäi 3 ðîçäiëó 8.1: X =
(𝜉1 , . . . , 𝜉𝑛 ), 𝜉𝑗 ∼ 𝑁 (𝜇, 𝜎 2 + 𝜎𝑗2 ), ñïîñòåðåæåííÿ íåçàëåæíi.
Õî÷à ñïîñòåðåæåííÿ íå ¹ îäíàêîâî ðîçïîäiëåíèìè, àëå ìåäiàíè âñiõ
𝜉𝑗  îäíàêîâi i äîðiâíþþòü 𝜇. Âèêîðèñòîâóþ÷è öå, ïðè äîäàòêîâié óìîâi
𝜎𝑗2 < 𝑆 < ∞ ìîæíà ïîêàçàòè, ùî med(X) áóäå êîíñèñòåíòíîþ îöiíêîþ
𝜇. J

Ìè, ôàêòè÷íî, âèçíà÷èëè êâàíòèëüíó îöiíêó ÿê ðîçâ'ÿçîê ðiâíÿííÿ

𝑄𝐹𝑡 (𝛼) = 𝑄X (𝛼) (8.4)

âiäíîñíî 𝑡. ×àñòî ôóíêöiþ 𝑄𝐹𝑡 (𝛼) áóâ๠íåìîæëèâî çàïèñàòè ó ÿâíîìó


âèãëÿäi i ðîçâ'ÿçóâàííÿ öüîãî ðiâíÿííÿ ñòàíîâèòü ñàìîñòiéíó ïðîáëåìó.
Ó òàêèõ âèïàäêàõ ìîæíà ïåðåïèñàòè (8.4) ó åêâiâàëåíòíîìó âèãëÿäi

𝐹𝑡 (𝑄X (𝛼)) = 𝛼, (8.5)

i øóêàòè îöiíêó ÿê ðîçâ'ÿçîê öüîãî ðiâíÿííÿ âiäíîñíî 𝑡.


8.2. Оцiнки методу квантилiв 265

Приклад 8.2.4. Ðîçãëÿíåìî çíîâó êðàòíó âèáiðêó çi çðiçàíîãî åêñïîíåí-


öiéíîãî ðîçïîäëió X = (𝜉1 , . . . , 𝜉𝑛 ), îïèñàíó ó ïðèêëàäi 8.1.4. Äëÿ ìåäiàíè
ðiâíÿííÿ (8.5) ïåðåòâîðþ¹òüñÿ íà 𝐹 (med(X), 𝜆, 𝐶) = 1/2, äå 𝐹 (𝑥, 𝜆, 𝐶)
çàäàíî (8.3). Îòæå ìåäiàííà îöiíêà äëÿ 𝜆 ¹ êîðåíåì ðiâíÿííÿ (âiäíîñíî
𝑙):
1 − exp(−𝑙 med(X))
= 1/2.
1 − exp(−𝑙𝐶)
Ó R îôîðìèòè ïiäðàõóíîê òàêèõ îöiíîê ìîæíà òàê ñàìî, ÿê öå áóëî çðîá-
ëåíî äëÿ ìîìåíòíèõ îöiíîê:

# функцiя eqvmed задає медiанне рiвняння F(medi,l)=1/2


# medi - медiана вибiрки, l - оцiнка iнтенсивностi
eqvmed<-function(l,medi,trun){
(1-exp(-l*medi))/(1-exp(-l*trun))-1/2
}
# функцiя EstMmed рахує оцiнку lambda за даними X
# методом медiан
EstMed<-function(x,trun){
Mx<-median(x)
nleqslv(log(2)/Mx,eqvmed,medi=Mx,trun=trun)$x
}

Íà äàíèõ, çãåíåðîâàíèõ ó ï. 8.1, ôóíêöiÿ EstMed() ä๠çíà÷åííÿ îöií-


êè 0.5057097 (ïðè ñïðàâæíüîìó 𝜆 = 1/2. Öå òðîõè ìåíø òî÷íî, íiæ ðå-
çóëüòàò ìîìåíòíîãî îöiíþâàííÿ, àëå òåæ äîñèòü äîáðå.
Öÿ îöiíêà òåæ ìîæå ïðèéìàòè âiä'¹ìíi çíà÷åííÿ, ÿê i îöiíêà ìåòîäó
ìîìåíòiâ ó öié çàäà÷i, ðîçãëÿíóòà ó ïðèêëàäi 8.1.4. Òàêi çíà÷åííÿ ìîæíà
çàìiíèòè 0.
Âiäìiòèìî, ùî ó öüîìó ïðèêëàäi çàáðóäíåííÿ äàíèõ äóæå âåëèêèìè
âèêèäàìè íåìîæëèâå â ïðèíöèïi: ñïîñòåðåæåííÿ, ùî çíàõîäÿòüñÿ çà ìå-
æàìè iíòåðâàëó [0, 𝐶] íå ìîæóòü íàëåæàòè çðiçàíîìó åêñïîíåíöiéíîìó
ðîçïîäiëó. Òàêi ñïîñòåðåæåííÿ, ÿêùî âîíè ïîòðàïëÿòü äî âèáiðêè, ñëiä
òðàêòóâàòè íå ÿê çàáðóäíåííÿ, à ÿê ãðóái ïîìèëêè  i âèëó÷àòè ç ðîçãëÿ-
äó. (Àáî âiäìîâèòèñü âiä ìîäåëi çðiçàíîãî åêñïîíåíöiéíîãî ðîçïîäiëó äëÿ
òàêèõ äàíèõ). Òîìó çàñòîñóâàííÿ ìåäiàííî¨ îöiíêè ó öié çàäà÷i íàâðÿä
÷è ìîæíà îá ðóíòóâàòè, ïîñèëàþ÷èñü íà âèìîãó ðîáàñòíîñòi. J
8.3. Оцiнки методу найбiльшої вiрогiдностi 266

Приклад 8.2.5. À îò ó çàäà÷i îöiíþâàííÿ iíòåíñèâíîñòi ïóàññîíîâíîãî


ðîçïîäiëó çi çðiçàíèì íóëåì (ÿêà îïèñàíà ó ïðèêëàäi 8.1.5) çàñòîñóâàííÿ
ìåäiàííî¨ òåõíiêè íå ïðèâåäå äî êîíñèñòåíòíî¨ îöiíêè. Äiéñíî, ñïîñòåðå-
æåííÿ ó öié çàäà÷i ïðèéìàþòü ëèøå öiëi çíà÷åííÿ. Òîìó ¨õ ìåäiàíà ìîæå
áóòè ëèøå öiëèì àáî ïiâöiëèì ÷èñëîì. Çðîçóìiëî, ùî êîðåíi îöiíî÷íîãî
ðiâíÿííÿ, ïîáóäîâàíîãî íà òàêié ìåäiàíi, íå ìîæóòü íàáëèæàòè äîâiëüíi
äîäàòíi çíà÷åííÿ, ùî ¨õ ìîæå ïðèéìàòè iíòåíñèâíiñòü. J
Öå ñòîñó¹òüñÿ i iíøèõ çàäà÷ ç äèñêðåòíèìè äàíèìè: êâàíòèëüíi îöiíêè
äëÿ íèõ, ÿê ïðàâèëî, çàñòîñîâóâàòè íå ìîæíà.

Приклад 8.2.6. Ó çàäà÷i àíàëiçó ñóìiøi äâîõ íîðìàëüíèõ ðîçïîäiëiâ ç


ïðèêëàäó 8.1.6 êâàíòèëüíi îöiíêè ïîáóäóâàòè ìîæíà. Çîêðåìà, äëÿ îöi-
íþâàííÿ 𝜇
¯ ìîæíà ñêîðèñòàòèñü âèáiðêîâîþ ìåäiàíîþ med(X). Ùîá îöi-
íèòè ∆ i 𝜎 ìîæíà âèêîðèñòàòè iíòåðêâàðòèëüíèé ðîçìàõ òà ðiçíèöþ
X X
êâàíòèëiâ 𝑄 (1 − 𝛼) − 𝑄 (𝛼) ïðè ÿêîìó-íåáóäü 𝛼 ̸= 1/4. Îòðèìàíi êâàí-
òèëüíi ðiâíÿííÿ íå ðîçâ'ÿçóþòüñÿ ó ÿâíîìó âèãëÿäi, òîìó ðîçâ'ÿçêè äîâå-
äåòüñÿ øóêàòè ÿêèì-íåáóäü ÷èñåëüíèì àëãîðèòìîì. ×èòà÷i ìîæóòü ðîç-
ãëÿíóòè öå ÿê êîðèñíó âïðàâó. J

8.3 Оцiнки методу найбiльшої вiрогiдностi


Íà âiäìiíó âiä ìåòîäiâ ìîìåíòiâ i êâàíòèëiâ, ìåòîä íàéáiëüøî¨ âiðî-
ãiäíîñòi ó çàãàëüíîìó âèïàäêó íå ïîòðåáó¹ îäíîðiäíèõ íåçàëåæíèõ ñïî-
ñòåðåæåíü. Àëå ïðè âèêîðèñòàííi öüîãî ìåòîäó ïîòðiáíî, ùîá ðîçïîäië
äàíèõ îïèñóâàâñÿ îöiíþâàíèìè ïàðàìåòðàìè îäíîçíà÷íî. Îòæå, íåõàé
äàíi X
ðîçãëÿäàþòüñÿ ÿê âèïàäêîâèé åëåìåíò äåÿêîãî ïðîñòîðó ìîæëè-
X 𝑑
âèõ çíà÷åíü äàíèõ 𝒳 , ùî ì๠ðîçïîäië 𝑃𝜗 (𝐴) = P{X ∈ 𝐴}, 𝜗 ∈ Θ ⊆ R
 íåâiäîìèé ïàðàìåòð öüîãî ðîçïîäiëó.
X
Ïðèïóñòèìî, ùî iñíó¹ ìiðà 𝜇 íà ïðîñòîði 𝒳 i ñiì'ÿ ôóíêöié 𝑓𝜗 (x),
𝑓𝜗 : 𝒳 → R, 𝜗 ∈ Θ, òàêà, ùî
∫︁
𝑃𝜗X (𝐴) = 𝑓𝜗X (x)𝜇(𝑑x)
𝐴

äëÿ âñiõ âèìiðíèõ ïiäìíîæèí 𝐴 ∈ 𝒳 òà âñiõ 𝜗 ∈ Θ.


X
Ôóíêöiÿ 𝑓𝜗 çâåòüñÿ ùiëüíiñòþ ðîçïîäiëó X âiäíîñíî ìiðè 𝜇. ßêùî
𝒳 ⊆ R𝑛 , à ìiðà 𝜇 ¹ ìiðîþ Ëåáåãà, ôóíêöiþ 𝑓𝜗X íàçèâàþòü ñóìiñíîþ
ùiëüíiñòþ åëåìåíòiâ âåêòîðà X (ñïîñòåðåæåíü).
8.3. Оцiнки методу найбiльшої вiрогiдностi 267

Ôóíêöi¹þ âiðîãiäíîñòi íàçèâàþòü âèïàäêîâó ôóíêöiþ âiä íåâiäîìîãî


ïàðàìåòðà, ÿêà îòðèìó¹òüñÿ ïðè ïiäñòàíîâöi äàíèõ çàìiñòü àðãóìåíòà ó
ùiëüíiñòü ðîçïîäiëó:
𝐿(t) = 𝑓t (X), t ∈ Θ.
Ëîãàðèôìi÷íà ôóíêöiÿ âiðîãiäíîñòi  öå ëîãàðèôì 𝐿(t), òîáòî 𝑙(t) =
log 𝐿(t).
Îöiíêîþ ìåòîäó íàéáiëüøî¨ âiðîãiäíîñòi äëÿ ïàðàìåòðà 𝜗 íàçèâàþòü
ˆ𝑀 𝐿 , íà ÿêié äîñÿãà¹òüñÿ ìàêñèìóì ôóíêöi¨ âiðîãiäíîñòi:
òàêó ñòàòèñòèêó 𝜗𝑛

𝐿(𝜗ˆ𝑀 𝐿
𝑛 ) = max 𝐿(t).
t∈Θ

Çðîçóìiëî, ùî îöiíêà íàéáiëüøî¨ âiðîãiäíîñòi ¹ òàêîæ òî÷êîþ ìàêñèìóìó


ëîãàðèôìi÷íî¨ ôóíêöi¨ âiðîãiäíîñòi.
Ó âèïàäêó, êîëè äàíi X = (𝜉1 , . . . , 𝜉𝑛 ) ÿâëÿþòü ñîáîþ íàáið íåçàëåæ-
íèõ ñïîñòåðåæåíü 𝜉𝑗 , ôóíêöiÿ âiðîãiäíîñòi ¹ äîáóòêîì ùiëüíîñòåé îêðå-
ìèõ ñïîñòåðåæåíü:
𝑛
∏︁
𝐿(t) = 𝑓t𝑗 (𝜉𝑗 ),
𝑗=1

äå 𝑓𝜗𝑗 (x)  ùiëüíiñòü ðîçïîäiëó ñïîñòåðåæåííÿ 𝜉𝑗 â ïðèïóùåííi, ùî


ñïðàâæí¹ çíà÷åííÿ íåâiäîìîãî ïàðàìåòðà äîðiâíþ¹ 𝜗.
𝑗
Äëÿ êðàòíî¨ âèáiðêè 𝑓𝜗 (x) = 𝑓𝜗 (x) íå çàëåæèòü âiä 𝑗.

Приклад 8.3.1. Çíîâó ðîçãëÿíåìî êðàòíó âèáiðêó X = (𝜉1 , . . . , 𝜉𝑛 ) ç åêñ-


ïîíåíöiéíèì ðîçïîäiëîì. Ùiëüíiñòü ðîçïîäiëó 𝑓𝜆 (𝑥) = 𝜆𝑒−𝜆𝑥 1{𝑥 > 0}.
Ïàðàìåòð 𝜆 íåâiäîìèé, éîãî ïîòðiáíî îöiíèòè. Çàïèøåìî ëîãàðèôìi÷íó
ôóíêöiþ âiðîãiäíîñòi:

(︃ 𝑛
)︃ 𝑛
∏︁ ∑︁
𝑙(𝜆) = log 𝑓𝜆 (𝜉𝑗 ) = 𝑛 log(𝜆) − 𝜆 𝜉𝑗 .
𝑗=1 𝑗=1

Ëåãêî áà÷èòè, ùî ìàêñèìóì öi¹¨ ôóíêöi¨ ïî 𝜆 äîñÿãà¹òüñÿ ïðè

ˆ 𝑀 𝐿𝐸 = 1 .
𝜆 𝑛
𝜉¯
Òàêèì ÷èíîì, ó öié çàäà÷i îöiíêà ìåòîäó íàéáiëüøî¨ âiðîãiäíîñòi äîðiâ-
íþ¹ ìîìåíòíié îöiíöi ç ìîìåíòíîþ ôóíêöi¹þ ℎ(𝑥) = 𝑥. J
8.3. Оцiнки методу найбiльшої вiрогiдностi 268

5
0.22

4
0.24
likelihoo

0.26

0.1
0.28

0.2
3
d

sigma
0.32

0.34

0.36

2
0.38

0.3
+

0.1

0.4
4
mu

0.1 8

1
2 0.0
0.1
8
ma 0.0 0.16
sig 6
0.02
0.04

0
−4 −2 0 2 4

mu

Рис. 8.1. Функцiя вiрогiдностi для параметрiв нормального розподiлу

Приклад 8.3.2. Ðîçãëÿíåìî êðàòíó âèáiðêó X = (𝜉1 , . . . , 𝜉𝑛 ) ç íîðìàëüíî-


ãî ðîçïîäiëó ç íåâiäîìèìè ìàòåìàòè÷íèì ñïîäiâàííÿì 𝜇 òà äèñïåðñi¹þ
𝜎 2 . Ùiëüíiñòü îäíîãî ñïîñòåðåæåííÿ ì๠âèãëÿä

(𝑥 − 𝜇)2
(︂ )︂
1
𝑓𝜇,𝜎2 (𝑥) = √ exp − .
2𝜋𝜎 2𝜎 2

Ëîãàðèôìi÷íà ôóíêöiÿ âiðîãiäíîñòi ì๠âèãëÿä

∑︀𝑛
2 𝑗=1 (𝜉𝑗 − 𝜇)2
𝑙(𝜇, 𝜎 ) = −𝑛(log(2𝜋)/2 + log 𝜎) − .
2𝜎 2
Âçÿâøè ïîõiäíi âiä öi¹¨ ôóíêöi¨ ïî îáîõ àðãóìåíòàõ i ïðèðiâíÿâøè ¨õ äî
0, çíàõîäèìî òî÷êó ìàêñèìóìó, ÿêà i áóäå îöiíêîþ ìåòîäó íàéáiëüøî¨
âiðîãiäíîñòi:
ˆ𝑀
𝜇 𝐿𝐸 ¯ 𝜎
= 𝜉, ˆ𝑛2 𝑀 𝐿𝐸 = 𝑆 2 (X).
𝑛

Îòæå, i ó öüîìó âèïàäêó îöiíêè ìåòîäó íàéáiëüøî¨ âiðîãiäíîñòi äîðiâ-


íþþòü îòðèìàíèì ó ïðèêëàäi 8.1.2 îöiíêàì ìåòîäó ìîìåíòiâ. (Òðèâè-
ìiðíèé ãðàôiê òà ãðàôiê ëiíié ðiâíÿ äëÿ ôóíêöi¨ âiðîãiäíîñòi, ïîáóäî-
âàíî¨ çà âèáiðêîþ ç 1000 ñïîñòåðåæåíü ç 𝑁 (1, 2.25)-ðîçïîäiëîì äèâ. íà
ðèñ. 8.1. ×åðâîíèì õðåñòèêîì âiäìi÷åíî ïîëîæåííÿ òî÷êè ìàêñèìóìó 
𝜇𝑀
(ˆ 𝑛
𝐿𝐸
ˆ𝑛𝑀 𝐿𝐸 )).
,𝜎
J
8.3. Оцiнки методу найбiльшої вiрогiдностi 269

Приклад 8.3.3. ßê âèãëÿäàòèìå îöiíêà ìåòîäó íàéáiëüøî¨ âiðîãiäíîñòi


ó çàäà÷i îöiíþâàííÿ ìàòåìàòè÷íîãî ñïîäiâàííÿ òà äèñïåðñi¨ ãàóññîâîãî
ðîçïîäiëó çà ñïîñòåðåæåííÿìè ç íåîäíîðiäíèìè ïîõèáêàìè ç ïðèêëàäó
8.1.3? Ó öüîìó âèïàäêó ùiëüíiñòü ðîçïîäiëó îäíîãî ñïîñòåðåæåííÿ 𝜉𝑗

(𝑥 − 𝜇)2
(︂ )︂
𝑗 1
𝑓𝜇,𝜎 (𝑥) = √︁ exp − .
2𝜋(𝜎 2 + 𝜎𝑗2 ) 2(𝜎 2 + 𝜎𝑗2 )2

𝑗
∏︀𝑛
Ëîãàðèôìi÷íà ôóíêöiÿ âiðîãiäíîñòi ì๠âèãëÿä 𝑗=1 log 𝑓𝜇,𝜎 (𝜉𝑗 ).
𝑙(𝜇, 𝜎) =
Ïåðåòâîðþþ÷è öåé âèðàç îòðèìó¹ìî, ùî òî÷êè ìàêñèìóìó ôóíêöi¨
𝑙(𝜇, 𝜎) ñïiâïàäàþòü ç òî÷êàìè ìiíiìóìó ôóíêöi¨

𝑛 𝑛 (︂
(𝜉𝑗 − 𝜇)2
∑︁ ∑︁ )︂
2
𝑟(𝜇, 𝜎) = log(𝜎 + 𝜎𝑗2 ) + .
𝑗=1 𝑗=1
(𝜎 2 + 𝜎𝑗2 )

5
Ïðè ôiêñîâàíîìó 𝜎 ìiíiìóì öi¹¨ ôóíêöi¨ ïî 𝜇 äîñÿãà¹òüñÿ ïðè

∑︀𝑛 𝜉𝑗
𝑗=1 𝜎 2 +𝜎𝑗2
𝜇 = 𝜇(𝜎) = ∑︀𝑛 1 .
𝑗=1 𝜎 2 +𝜎𝑗2

Òàêèì ÷èíîì, äëÿ çíàõîäæåííÿ îöiíêè íàéáiëüøî¨ âiðîãiäíîñòi ïàðàìåò-


ðiâ 𝜇 òà 𝜎 ìîæíà ñïî÷àòêó çíàéòè îöiíêó 𝜎 ˆ𝑛𝑀 𝐿𝐸 ÿê òî÷êó ìiíiìóìó ôóíê-
öi¨ 𝑟(𝜇(𝑠), 𝑠) ïî 𝑠, à ïîòiì îòðèìàòè îöiíêó äëÿ 𝜇 ÿê 𝜇ˆ𝑀
𝑛
𝐿𝐸
𝜎𝑛𝑀 𝐿𝐸 ).
= 𝜇(ˆ
Ðåàëiçó¹ìî öþ iäåþ â R. Ìiíiìiçóâàòè ôóíêöiþ 𝑟(𝜇(𝑠), 𝑠) àíàëiòè÷íî
íå ìîæíà, òîìó áóäåìî ðîáèòè öå íàáëèæåíèì ìåòîäîì Íüþòîíà, âèêî-
ðèñòîâóþ÷è ôóíêöiþ nlm() . Âèêëèê öi¹¨ ôóíêöi¨: nlm(f,p,...), äå f 
6

÷èñëîâà ôóíêöiÿ âåêòîðíîãî àðãóìåíòó, ÿêó ïîòðiáíî ìiíiìiçóâàòè, p


âåêòîð ïî÷àòêîâèõ çíà÷åíü äëÿ òî÷êè ìiíiìóìó. Ôóíêöiÿ f ïîâèííà ìàòè
ïåðøèì ïàðàìåòðîì âåêòîð, ïî ÿêîìó iäå ìiíiìiçàöiÿ, âií ïîâèíåí áóòè
òi¹¨ æ äîâæèíè, ùî ip. Çàìiñòü ... ó âèêëèêó nlm() ìîæíà âêàçàòè çíà-
÷åííÿ iíøèõ ïàðàìåòðiâ ôóíêöi¨ f ÿêùî âîíè ïîòðiáíi. Çíà÷åííÿ òî÷êè
ìiíiìóìó ôóíêöiÿ nlm() ïîâåðò๠ó àòðèáóòi $estimate.
Îöiíêó (𝜇, 𝜎) ìîæíà îðãàíiçóâàòè òàê:

5
Помiтимо, що коли 𝜎 = 0, тобто в усiх дослiдах вимiрюється одна i та ж фiзична величина
𝜇, ми отримуємо формулу для навантаженого середнього, еквiвалентну запропонованiй у
прикладi 4.5.2.
6
Можна також використати функцiю optim(), яка дозволяє бiлше варiантiв вибору ме-
тоду чисельної оптимiзацiї.
8.3. Оцiнки методу найбiльшої вiрогiдностi 270

ll<-function(s,x,sigm)
{
ss<-s^2+sigm^2
mu<-sum(x/ss)/sum(1/ss)
sum(log(ss))+sum((x-mu)^2/ss)
}
EstMLEGauss<-function(x,sigm)
{
sEst<-nlm(ll,sd(x),x=x,sigm=sigm)$estimate
ss<-sEst^2+sigm^2
muEst<-sum(x/ss)/sum(1/ss)
c(muEst,sEst)
}

Òóò ôóíêöiÿ ll(s,x,sigm) çàáåçïå÷ó¹ îá÷èñëåííÿ 𝑟(𝜇(𝑠), 𝑠). Ïàðà-


ìåòð x  öå âèáiðêà, çà ÿêîþ ïðîâîäèòüñÿ îöiíþâàííÿ, sigm  âåêòîð
çíà÷åíü ñòàíäàðòíèõ âiäõèëåíü ïîìèëîê (𝜎1 , . . . , 𝜎𝑛 ) (âií ïîâèíåí ìàòè
òàêó æ äîâæèíó, ÿê i x).
Ôóíêöiÿ EstMLEGauss çíàõîäèòü òî÷êó ìiíiìóìó ôóíêöi¨ ll(), âèêî-
ðèñòîâóþ÷è ÿê ïî÷àòêîâå íàáëèæåííÿ ñòàíäàðòíå âiäõèëåííÿ âèáiðêè
(öå, âî÷åâèäü, çàâèùåíà îöiíêà, îñêiëüêè ó íå¨ âõîäÿòü äèñïåðñi¨ ïîõè-
áîê).
Ïåðåâiðèìî ðîáîòó öi¹¨ îöiíêè íà ìîäåëüîâàíèõ äàíèõ. Ñòàíäàðòíi
âiäõèëåííÿ ïîõèáîê 𝜎𝑗 äëÿ ìîäåëþâàííÿ âèáåðåìî òàê, ùîá âîíè ðiâ-
íîìiðíî çáiëüøóâàëèñü âiä 1 íà ïî÷àòêó äî 3 íàïðèêiíöi ñïîñòåðåæåíü.
Îöiíþâàíå ñòàíäàðòíå âiäõèëåííÿ âèáåðåìî ðiâíèì 𝜎 = 0.5, ìàòåìàòè÷íå
ñïîäiâàííÿ 𝜇 = 1.

set.seed(2)
n<-1000 # обсяг вибiрки
mu<-1 # математичне сподiвання
sigma0<-0.5 # стандартне вiдхилення
# стандартнi вiдхилення похибок:
sigm<-seq(1,3,length.out = n)
# генерацiя даних:
x<-rnorm(n,mu,sigma0)+sigm*rnorm(n)
res=EstMLEGauss(x,sigm) # пiдрахунок оцiнки
8.3. Оцiнки методу найбiльшої вiрогiдностi 271

2392
2390
y

2388
2386
2384

−0.5 0.0 0.5

Рис. 8.2. Перетворена функцiя вiрогiдностi для даних з похибками

res # значення оцiнок для мат.спод. та ст. вiдх.:

## [1] 1.0718504 -0.4625247

# графiк функцiї r(s):


s<-seq(-0.8,0.8,length.out=100)
y<-sapply(s,ll,x=x,sigm=sigm)
plot(s,y,type="l")
abline(v=res[2],col="red")

Ãðàôiê ôóíêöi¨ 𝑟(𝑠) äëÿ öüîãî ïðèêëàäó çîáðàæåíèé íà ðèñ. 8.2. Íà


íüîìó ÷åðâîíîþ ëiíi¹þ âiäìi÷åíî çíàéäåíå íàìè ïîëîæåííÿ òî÷êè ìiíi-
ìóìó  îöiíêè 𝜎ˆ𝑛𝑀 𝐿𝐸 = −0.4625247.
Àëå æ âîíà âiä'¹ìíà? Òàê, íàñïðàâäi ìè âñþäè ïðè îöiíöi âèêîðè-
2
ñòîâóâàëè íå 𝑠, à 𝑠 , òîìó, ÿêùî 𝑠, òî÷êà ìiíiìóìó 𝑟(𝑠), òî i −𝑠  òàê
ñàìî. Òîìó àëãîðèòì íàáëèæåíîãî ïîøóêó ìîæå çíàéòè àáî äîäàòíó, àáî
âiä'¹ìíó òî÷êó. ßêùî ïîòðiáíå ñàìå äîäàòíå çíà÷åííÿ, íå çàáóäüòå âçÿòè
ìîäóëü âiä îöiíêè.
Îöiíêà 𝜇 çà ìåòîäîì íàéáiëüøî¨ âiðîãiäíîñòi ó öüîìó ïðèêëàäi äîðiâ-
ˆ𝑀
íþ¹ 𝜇 𝑛
𝐿𝐸
= 1.0718504. J
Приклад 8.3.4. Òåïåð ðîçãëÿíåìî îöiíêó ìåòîäó íàéáiëüøî¨ âiðîãiäíî-
ñòi äëÿ iíòåíñèâíîñòi 𝜆 çðiçàíîãî åêñïîíåíöiéíîãî ðîçïîäiëó ç ïðèêëàäó
8.1.4.
8.3. Оцiнки методу найбiльшої вiрогiдностi 272

Ëîãàðèôì ôóíêöi¨ âiðîãiäíîñòi ó öié çàäà÷i ì๠âèãëÿä

¯
𝑙(𝜆) = 𝑛(log(𝜆) − log(1 − 𝑒−𝐶𝜆 ) − 𝜆𝜉).

Ïiäðàõóíîê îöiíêè ìîæíà îðãàíiçóâàòè àíàëîãi÷íî òîìó, ÿê öå çðîáëåíî


ó ïðèêëàäi 8.3.3:

# функцiя ll рахує - log(вiрогiднiсть) з точнiстю


# до константи. Mx - вибiркове середнє,
# trun - порiг зрiзання експоненцiйного розподiлу
ll<-function(l,Mx,trun){
-log(l/(1-exp(-l*trun)))+l*Mx
}
# функцiя EstMLtr рахує оцiнку lambda за даними x
# методом найбiльшої вiрогiдностi
EstMLEtr<-function(x,trun) {
Mx<-mean(x)
nlm(ll,1/Mx,Mx=Mx,trun=trun)$estimate
}

Ïiäðàõóâàâøè öþ îöiíêó íà òèõ æå äàíèõ, íà ÿêèõ ïåðåâiðÿëàñü ðî-


ˆ 𝑀 𝑀 , ìîæíà ïåðåñâiä÷èòèñü, ùî çíà÷åííÿ îöiíîê
áîòà ìîìåíòíèõ îöiíîê 𝜆 𝑛
ñïiâïàäàþòü ç òî÷íiñòþ äî îêðóãëåííÿ. I äiéñíî, ïðîäèôåðåíöiþâàâøè
ôóíêöiþ âiðîãiäíîñòi òà ïðèðiâíÿâøè ¨ ¨ äî 0 äëÿ çíàõîäæåííÿ åêñòðå-
ìóìó, îòðèìó¹ìî â òî÷íîñòi ìîìåíòíå ðiâíÿííÿ äëÿ 𝜆ˆ 𝑀 𝑀 . Òàêèì ÷èíîì,
𝑛
ìè ôàêòè÷íî îòðèìàëè äâi àëãîðèòìi÷íi ðåàëiçàöi¨ îäíi¹¨ i òi¹¨ æ îöiíêè:
â ïåðøîìó âèïàäêó çà äîïîìîãîþ ÷èñåëüíîãî ðîçâ'ÿçóâàííÿ íåëiíiéíîãî
ðiâíÿííÿ, ó äðóãîìó  ç âèêîðèñòàííÿì ÷èñåëüíî¨ íåëiíiéíî¨ îïòèìiçàöi¨.
ßêà ç öèõ ðåàëiçàöié âèÿâèòüñÿ êðàùîþ (áiëø øâèäêîäiéíîþ, ñòàáiëüíi-
øîþ, òî÷íiøîþ) çàëåæèòü âiä òîãî, ÿê çàïðîãðàìîâàíi âiäïîâiäíi ìåòîäè
ðîçâ'ÿçêó ðiâíÿíü òà ìiíiìiçàöi¨. J

Приклад 8.3.5. Äëÿ çàäà÷i îöiíêè iíòåíñèâíîñòi ïóàññîíîâîãî ðîçïîäiëó çi


çðiçàíèì íóëåì (ïðèêëàä 8.1.5) òàêîæ ìîæíà çàñòîñóâàòè ìåòîä íàéáiëü-
øî¨ âiðîãiäíîñòi. Îñêiëüêè äàíi ¹ äèñêðåòíèìè, òî çâè÷àéíî¨ éìîâiðíiñíî¨
ùiëüíîñòi (âiäíîñíî ìiðè Ëåáåãà) âîíè íå ìàþòü. Àëå ó äàíîìó âèïàä-
êó äëÿ ïîáóäîâè ôóíêöi¨ âiðîãiäíîñòi ìîæíà ñêîðèñòàòèñü ùiëüiñòþ ðîç-
ïîäiëó ñïîñòåðåæåíü âiäíîñíî ëi÷èëüíî¨ ìiðè. Öÿ äèñêðåòíà ùiëüíiñòü
8.3. Оцiнки методу найбiльшої вiрогiдностi 273

äîðiâíþ¹ éìîâiðíîñòi òîãî, ùî âèïàäêîâà âåëè÷èíà ïðèéì๠çàäàíå çíà-


÷åííÿ:
𝜆𝑘
𝑓𝜆 (𝑘) = P{𝜉𝑗 = 𝑘} = ,
𝑘!(𝑒𝜆 − 1)
äå 𝜉𝑗  âèïàäêîâà âåëè÷èíà ç ïóàññîíîâèì ðîçïîäiëîì çi çðiçàíèì íóëåì
òà iíòåíñèâíiñòþ 𝜆.
Òàêèì ÷èíîì, ëîãàðèôìi÷íà ôóíêöiÿ âiðîãiäíîñòi ìàòèìå âèãëÿä

𝐾 𝐾
𝜆𝑘
∑︁ (︂ )︂ ∑︁
𝑙(𝜆) = 𝑛𝑘 log 𝜇 log(𝜆) − log(𝑒𝜆 − 1)) −
= 𝑛(ˆ 𝑛𝑘 log(𝑘!).
𝑘=1
𝑘!(𝑒𝜆 − 1) 𝑘=1

(òóò âèêîðèñòàíi òi æ ïîçíà÷åííÿ, ùî i ó ïðèêëàäi 8.1.5). Äèôåðåíöiþþ÷è


𝑙(𝜆) ïî 𝜆 i ïðèðiâíþþ÷è ïîõiäíó äî 0, îòðèìó¹ìî ðiâíÿííÿ äëÿ îöiíêè
ìåòîäó íàéáiëüøî¨ âiðîãiäíîñòi

𝑒𝜆
(︂ )︂
𝜇
ˆ
𝑛 − 𝜆 = 0.
𝜆 𝑒 −1
Öå ðiâíÿííÿ åêâiâàëåíòíå ìîìåíòíîìó ðiâíÿííþ, îòðèìàíîìó ó ïðèêëàäi
8.1.5, îòæå îöiíêà ìåòîäó ìîìåíòiâ i â öüîìó ïðèêëàäi âèÿâèëàñü îöiíêîþ
íàéáiëüøî¨ âiðîãiäíîñòi. J

Приклад 8.3.6. Çàñòîñó¹ìî ìåòîä íàéáiëüøî¨ âiðîãiäíîñòi äëÿ îöiíêè ïà-


ðàìåòðiâ ó ìîäåëi ñóìiøi äâîõ ãàóññîâèõ ðîçïîäiëiâ ç ïðèêëàäó 8.1.6. Äàíi
ÿâëÿþòü ñîáîþ âèáiðêó X = (𝜉1 , . . . , 𝜉𝑛 ) ç íåçàëåæíèõ, îäíàêîâî ðîçïîäi-
ëåíèõ âèïàäêîâèõ âåëè÷èí çi ùiëüíiñòþ ðîçïîäiëó
(︂ (︂ )︂ (︂ )︂)︂
1 𝑥 − 𝜇1 𝑥 − 𝜇2
𝑓 (𝑥) = 𝜙 +𝜙 .
2𝜎 𝜎 𝜎
Ëîãàðèôìi÷íó ôóíêöiþ âiðîãiäíîñòi ìîæíà çàïèñàòè ó âèãëÿäi

𝑛 (︂ (︂ )︂ (︂ )︂)︂
2
∑︁ 𝜉𝑗 − 𝜇1 𝜉𝑗 − 𝜇2
𝑙(𝜇1 , 𝜇2 , 𝜎) = 𝑛(log(𝜎 )/2 − log(2)) + 𝜙 +𝜙 .
𝑗=1
𝜎 𝜎

Òî÷êó ìàêñèìóìó öi¹¨ ôóíêöi¨ çíàéòè àíàëiòè÷íî íåìîæëèâî, òîìó ìè


ñêîðèñòà¹ìîñü ôóíêöi¹þ nlm() äëÿ ÷èñåëüíî¨ ìàêñèìiçàöi¨. Ñêðèïò, ùî
ðåàëiçó¹ îöiíêó ìåòîäó íàéáiëüøî¨ âiðîãiäíîñòi, ì๠âèãëÿä:
8.3. Оцiнки методу найбiльшої вiрогiдностi 274

# ll - логарифмiчна функцiя вiрогiдностi


# (з точнiстю до несутєвих констант)
# theta - невiдомий параметр у форматi
# (mu1,mu2,sigma)
# x - вибiрка
ll<-function(theta,x){
M1<-theta[1]
M2<-theta[2]
s<-theta[3]
log(s^2)/2-mean(log(exp(-(x-M1)^2/(2*s^2))+exp(-(x-M2)^2/(2*s^2))))
}
#
# EstMixML Оцiнка методу найбiльшої вiрогiдностi
# аргумент x - вибiрка,
# результат - вектор, значення оцiнки у форматi
# (mu1,mu2,sigma)
EstMixML<-function(x)nlm(ll,EstMixMom(x),x=x)$estimate
# обчислення оцiнки на вибiрцi xMixt, згенерованiй
# у прикладi моментної оцiнки:
EstMixML(xMixt)

## [1] 1.2451458 5.0869098 0.9762926

ßê ïî÷àòêîâi çíà÷åííÿ äëÿ ïîøóêó òî÷êè ìàêñèìóìó âèêîðèñòîâó-


þòüñÿ îöiíêè ìåòîäó ìîìåíòiâ, îá÷èñëåíi ôóíêöi¹þ EstMixMom() ç ïðè-
êëàäó 8.1.6. Îöiíêè ïiäðàõîâàíi íà äàíèõ, çãåíåðîâàíèõ ó òîìó æ ïðè-
êëàäi. ßê ìè ïàì'ÿòà¹ìî, ïðè ãåíåðàöi¨ âèêîðèñòîâóâàëèñü çíà÷åííÿ
𝜇1 = 1, 𝜇2 = 5, 𝜎 = 1. Îòðèìàíi îöiíêè ìåòîäó íàéáiëüøî¨ âiðîãiäíî-
ñòi 𝜇
ˆ1 = 1.245, 𝜇
ˆ2 = 5.0869, 𝜎
ˆ = 0.976. Öå òðîõè òî÷íiøå, íiæ òå, ùî áóëî
îòðèìàíî ìåòîäîì ìîìåíòiâ ó ïðèêëàäi 8.1.6. Çâè÷àéíî, áóëî á ïåðåä-
÷àñíî ðîáèòè âèñíîâêè ïðî òî÷íiñòü îöiíîê ìåòîäó ìîìåíòiâ òà ìåòîäó
íàéáiëüøî¨ âiðîãiäíîñòi ëèøå çà ðåçóëüòàòîì îäíîãî öüîãî åêñïåðèìåíòó.
J
8.4. Асимптотична нормальнiсть i матриця розсiювання оцiнок 275

8.4 Асимптотична нормальнiсть i матриця розсi-


ювання оцiнок
Ó ïîïåðåäíiõ ïiäðîçäiëàõ îïèñàíî òðè ñïîñîáè ïîáóäîâè îöiíîê íåâi-
äîìèõ ïàðàìåòðiâ. ˆõ çàñòîñóâàííÿ, ÿê ìè áà÷èëè, ïðèâîäèòü äî ðiçíèõ,
âçàãàëi êàæó÷è, îöiíîê. Íàïðèêëàä, äëÿ îöiíþâàííÿ iíòåíñèâíîñòi 𝜆 åêñ-
ïîíåíöiéíîãî ðîçïîäiëó ìè îòðèìàëè òðè ðiçíèõ îöiíêè: îöiíêó íà îñíîâi
ïåðøîãî ìîìåíòó 𝜆 ˆ (1)
𝑛 (âîíà òàêîæ ¹ îöiíêîþ íàéáiëüøî¨ âiðîãiäíîñòi),
ˆ (2)
îöiíêó íà îñíîâi äðóãîãî ìîìåíòó 𝜆 ˆ 𝑚𝑒𝑑
𝑛 òà ìåäiàííó îöiíêó 𝜆𝑛 .
ßêà ç öèõ îöiíîê êðàùà? Ïîêè ùî ìè ìîæåìî ëèøå ñòâåðäæóâàòè, ùî
ìåäiàííà îöiíêà ¹ ðîáàñòíîþ, à ìîìåíòíi  íi. Iíàêøå êàæó÷è, ÿêùî äàíi
çàáðóäíåíi ñïîñòåðåæåííÿìè, ùî ìàþòü íå òàêèé ðîçïîäië, ÿê îñíîâíà
ìàñà, íà ìîìåíòíi îöiíêè ïîêëàäàòèñü íå âàðòî, à ìåäiàííà ìîæå äàâàòè
áiëüø âiäïîâiäíèé ðåçóëüòàò.
À ÿêà ç öèõ îöiíîê òî÷íiøà, ÿêùî íàøà ìîäåëü ïîâíiñòþ âiäïîâi-
ä๠äàíèì? Äëÿ òîãî, ùîá âiäïîâiñòè íà öå çàïèòàííÿ ìîæíà ïðîâåñòè
êîìï'þòåðíèé åêñïåðèìåíò: çãåíåðóâàòè äàíi iç çàäàíèì ðîçïîäiëîì, ïiä-
ðàõóâàòè ðiçíi îöiíêè i ïîðiâíÿòè ¨õ iç ñïðàâæíiì çíà÷åííÿì ïàðàìåòðà.
Çðîçóìiëî, ùî çà îäíèì íàáîðîì âèïàäêîâèõ äàíèõ ðåçóëüòàò áóäå îäèí,
çà iíøèì  iíøèé. Òîìó â åêñïåðèìåíòi ïîòðiáíî çãåíåðóâàòè áàãàòî ðiç-
íèõ íàáîðiâ äàíèõ ç îäíèì i òèì æå ðîçïîäiëîì, ïî êîæíîìó íàáîðó ïiä-
ðàõóâàòè âñi îöiíêè, ÿêi ïîðiâíþþòüñÿ. Ïiñëÿ öüîãî ìîæíà ïîðiâíþâàòè
ðîçïîäiëè îòðèìàíèõ îöiíîê: ÿêi ç íèõ ìàþòü áiëüøèé ðîçêèä íàâêîëî
ñåðåäíüîãî, i íàñêiëüêè ñåðåäí¹ îöiíîê âiäõèëÿ¹òüñÿ âiä îöiíþâàíîãî ïà-
ðàìåòðà.
Ïðîâåäåííÿ òàêèõ åêñïåðèìåíòiâ ¹ íèíi ïðàêòè÷íî îáîâ'ÿçêîâèì åëå-
ìåíòîì ðîçðîáêè íîâèõ àëãîðèòìiâ ñòàòèñòè÷íîãî îöiíþâàííÿ. Àëå, çâè-
÷àéíî, ó òàêèé ñïîñiá íåìîæëèâî ïåðåâiðèòè ðîáîòó îöiíîê äëÿ âñiõ ìîæ-
ëèâèõ çíà÷åíü îöiíþâàíèõ ïàðàìåòðiâ.
Âèÿâëÿ¹òüñÿ, ùî çàäà÷à òåîðåòè÷íîãî ïîðiâíÿííÿ îöiíîê ÷àñòî çíà÷-
íî ñïðîùó¹òüñÿ, ÿêùî ðîçãëÿäàòè ¨õ ïîâåäiíêó ïðè íåñêií÷åííîìó çðîñ-
òàííi îáñÿãó äàíèõ. ×àñòî ïðè öüîìó îöiíêè âèÿâëÿþòüñÿ àñèìïòîòè÷íî
íîðìàëüíèìè, òîáòî ðîçïîäië ¨õ âiäõèëåííÿ âiä ñïðàâæíüîãî çíà÷åííÿ
ñò๠áëèçüêèì äî íîðìàëüíîãî ðîçïîäiëó ç íóëüîâèì ñåðåäíiì. Îñêiëüêè
òàêèé ðîçïîäië â îäíîâèìiðíîìó âèïàäêó õàðàêòåðèçó¹òüñÿ îäíèì ÷èñ-
ëîì  äèñïåðñi¹þ, òî i ïîðiâíþâàòè ðiçíi àñèìïòîòè÷íî íîðìàëüíi îöiíêè
ìîæíà ëèøå çà öi¹þ äèñïåðñi¹þ  êîåôiöi¹íòîì ðîçñiþâàííÿ.
8.4. Асимптотична нормальнiсть i матриця розсiювання оцiнок 276

Îïèøåìî öåé ïiäõiä áiëüø äåòàëüíî, ðîçãëÿäàþ÷è îäðàçó âèïàäîê 𝑑-


𝑇 𝑑
âèìiðíîãî íåâiäîìîãî ïàðàìåòðà 𝜗 = (𝜗1 , . . . , 𝜗𝑑 ) ∈ Θ ⊆ R òà âiäïîâiä-
ˆ 𝑇
íî¨ êîíñèñòåíòíî¨ îöiíêè 𝜗𝑛 = (𝜗1𝑛 , . . . , 𝜗𝑑𝑛 ) . Ç êîíñèñòåíòíîñòi îöiíêè
âèïëèâ๠çáiæíiñòü 𝜗ˆ𝑛 − 𝜗 → 0 (çà éìîâiðíiñòþ) êîëè 𝑛 → ∞. Äëÿ õàðàê-
òåðèçàöi¨ òî÷íîñòi îöiíêè âàæëèâî çíàòè, ÿê øâèäêî öÿ ðiçíèöÿ ïðÿìó¹
äî 0. Øâèäêiñòü çáiæíîñòi äîñëiäæóþòü äîìíîæàþ÷è 𝜗ˆ𝑛 − 𝜗 íà íîðìó-
þ÷ó ïîñëiäîâíiñòü 𝑎𝑛 , ùî ïðÿìó¹ äî íåñêií÷åííîñòi. Öþ ïîñëiäîâíiñòü
ïiäáèðàþòü òàê, ùîá 𝑎𝑛 (𝜗ˆ𝑛 − 𝜗) ïðÿìóâàëî íå äî 0 i íå äî íåñêií÷åííîñòi,
à äî äåÿêîãî ïðîìiæíîãî çíà÷åííÿ.
Ìîæíà äîâåñòè, ùî çà äîñèòü øèðîêèõ óìîâ ïðè ïðàâèëüíîìó âèáîði
íîðìóâàííÿ, ðîçïîäië òàêî¨ íîðìîâàíî¨ ðiçíèöi ïðÿìó¹ äî íîðìàëüíî-
ãî ç íóëüîâèì ìàòåìàòè÷íèì ñïîäiâàííÿì  𝑁 (0, V𝜗^(𝜗)). Òóò V𝜗^(𝜗) 
êîâàðiàöiéíà ìàòðèöÿ ãðàíè÷íîãî íîðìàëüíîãî ðîçïîäiëó, ùî çàëåæèòü
âiä ñïðàâæíüîãî çíà÷åííÿ íåâiäîìîãî ïàðàìåòðà 𝜗. Öþ ìàòðèöþ íàçèâà-
ˆ
þòü матрицею розсiювання îöiíêè 𝜗𝑛 . Äëÿ êðàòíèõ âèáiðîê ïðàâèëüíèì

íîðìóâàííÿì ¹, ÿê ïðàâèëî, 𝑎𝑛 = 𝑛.
Ó îäíîâèìiðíîìó âèïàäêó 𝑑 = 1, êîëè îöiíþâàíèé ïàðàìåòð  öå
îäíå ÷èñëî, ìàòðèöÿ ðîçñiþâàííÿ òåæ ñêëàäà¹òüñÿ ç îäíîãî åëåìåíòà 
äèñïåðñi¨𝑣𝜗^(𝜗) ãðàíè÷íîãî íîðìàëüíîãî ðîçïîäiëó íîðìîâàíî¨ îöiíêè. Öå
÷èñëî çâóòü коефiцiєнтом розсiювання.

Îòæå, â îäíîâèìiðíîìó âèïàäêó çi çáiæíîñòi 𝑛(𝜗𝑛 −𝜗) äî 𝑁 (0, 𝑣𝜗^(𝜗))
âèïëèâà¹, ùî äëÿ áóäü-ÿêîãî 𝜆 > 0,

{︃ √ }︃
| 𝑛(𝜗ˆ𝑛 − 𝜗)
P √︀ ≤ 𝜆 → P{|𝜁| ≤ 𝜆} = 1 − 2Φ(−𝜆), (8.6)
𝑣𝜗^(𝜗)

äå 𝜁 ∼ 𝑁 (0, 1), Φ  ôóíêöiÿ ðîçïîäiëó 𝑁 (0, 1). Ïîêëàâøè 𝜆𝛼 = 𝑄Φ (1−𝛼),


îòðèìó¹ìî {︃ }︃
√︀
𝑣 ^ (𝜗)𝜆 𝛼/2
P |𝜗ˆ𝑛 − 𝜗| ≤ 𝜗
√ = 1 − 𝛼. (8.7)
𝑛
Òàêèì ÷èíîì, ïðè âåëèêèõ îáñÿãàõ âèáiðêè øèðèíà iíòåðâàëó, ó ÿêèé
âiäõèëåííÿ îöiíêè âiä îöiíþâàíîãî çíà÷åííÿ ïîïàä๠iç çàäàíîþ éìîâið-
√︀
íiñòþ 1 − 𝛼, ïðÿìî ïðîïîðöiéíà 𝑣𝜗^(𝜗) (äëÿ âñiõ 𝛼 > 0). Òîìó òî÷íiñòü
àñèìïîòè÷íî íîðìàëüíèõ îöiíîê ïðèéíÿòî õàðàêòåðèçóâàòè çà äîïîìî-
ãîþ êîåôiöi¹íòà ðîçñiþâàííÿ: ÷èì âií ìåíøèé, òèì îöiíêà òî÷íiøà.
Ó áàãàòîâèìiðíîìó âèïàäêó òàêîæ, ÷èì ìåíøà ìàòðèöÿ V𝜗^(𝜗), òèì
îöiíêà 𝜗ˆ𝑛 òî÷íiøà. Ïîðiâíÿííÿ ìàòðèöü òóò ðîáèòüñÿ ó ðîçóìiííi Ëüîâ-
8.4. Асимптотична нормальнiсть i матриця розсiювання оцiнок 277

íåðà: A<B ðiâíîñèëüíî òîìó, ùî B−A ¹ íåâiä'¹ìíî âèçíà÷åíîþ ìàò-


ðèöåþ.
Ç'ÿñó¹ìî òåïåð, ÿê îá÷èñëþâàòè ìàòðèöi ðîçñiþâàííÿ. Ðîçãëÿíåìî
âèïàäîê, êîëè äàíi ÿâëÿþòü ñîáîþ êðàòíó âèáiðêó X = (𝜉1 , . . . , 𝜉𝑛 ),
íåâiäîìèé ïàðàìåòð 𝜗 = (𝜗1 , . . . , 𝜗𝑑 ) ¹ 𝑑-âèìiðíèì i éîãî îöiíêà 𝜗ˆ𝑛 =
(𝜗1𝑛 , . . . , 𝜗𝑑𝑛 )  òàêîæ.
Матриця розсiювання моментної оцiнки. Íåõàé âèêîðèñòîâó¹òüñÿ ìî-
𝑇
ìåíòíà îöiíêà ç ìîìåíòíîþ ôóíêöi¹þ h(𝜉) = (ℎ1 (𝜉), . . . , ℎ𝑑 (𝜉)) , i âåêòî-
ðîì òåîðåòè÷íèõ ìîìåíòiâ 

H(t) = (𝐻1 (t), . . . , 𝐻𝑑 (t))𝑇 = Et h(𝜉1 ), t = (𝑡1 , . . . , 𝑡𝑑 )𝑇 ∈ Θ.

Ïîçíà÷èìî H′ (t) ìàòðèöþ ïåðøèõ ïîõiäíèõ âiä H(t) (ìàòðèöþ ßêîái):

⎛ 𝜕𝐻1 (t) 𝜕𝐻1 (t) ⎞


𝜕𝑡1
... 𝜕𝑡𝑑
𝜕 . .. .
H′ (t) = H(t) = ⎝ . .
⎜ ⎟
𝑇 . . .
𝜕t

𝜕𝐻𝑑 (t) 𝜕𝐻𝑑 (t)
𝜕𝑡1
... 𝜕𝑡𝑑

Теорема 8.4.1. Нехай виконанi наступнi умови.


1. Елементи коварiацiйної матрицi D𝜗 = cov(h(𝜉1 )) є скiнченними,
2. Iснує обернена функцiя H−1 .
3. Функцiя H′ (t) є неперервною по t у деякому околi 𝜗.
Тодi консистентна моментна оцiнка 𝜗ˆ𝑛 , яка задовольняє рiвняння
H(𝜗ˆ𝑛 ) = ĥ𝑛 є асимптотично нормальною з матрицею розсiювання

V𝜗^(𝜗) = (H′ (𝜗))−𝑇 D𝜗 (H′ (𝜗))−1 . (8.8)

Ó îäíîâèìiðíîìó âèïàäêó ôîðìóëà (8.8) ïåðåòâîðþ¹òüñÿ íà

D𝜗 ℎ(𝜉1 )
𝑣𝜗^ = . (8.9)
(𝐻 ′ (𝜗))2
Ç'ÿñó¹ìî, çâiäêè âçÿëàñü ôîðìóëà (8.8). Çàìiíèìî ìîìåíòíå ðiâíÿííÿ
éîãî íàáëèæåííÿì, âèêîðèñòîâóþ÷è ðîçêëàä H çà ôîðìóëîþ Òåéëîðà â
îêîëi òî÷êè 𝜗:
H(𝜗) + H′ (𝜏 )(𝜗ˆ𝑛 − 𝜗) = ĥ𝑛 ,
äå 𝜏  ïðîìiæíà ˆ𝑛 . Âðàõîâóþ÷è, ùî H(𝜗) = E ĥ𝑛 ,
òî÷êà ìiæ 𝜗 i 𝜗 îòðè-
ìó¹ìî
√ √
𝑛(𝜗ˆ𝑛 − 𝜗) = (H(𝜏 ))−1 𝑛(ℎ̂𝑛 − E ℎ̂𝑛 ). (8.10)
8.4. Асимптотична нормальнiсть i матриця розсiювання оцiнок 278


Çà öåíòðàëüíîþ ãðàíè÷íîþ òåîðåìîþ, ðîçïîäië 𝑛(ℎ̂𝑛 − E ℎ̂𝑛 ) çáiãà¹òüñÿ
äî ðîçïîäiëó âèïàäêîâîãî âåêòîðà 𝜁 ∼ 𝑁 (0, D𝜗 ). Âðàõîâóþ÷è íåïåðåðâ-

íiñòü H (t), îòðèìó¹ìî çâiäñè ôîðìóëó (8.8).
Матриця розсiювання оцiнки найбiльшої вiрогiдностi. Íåõàé ðîç-
ïîäië ñïîñòåðåæåíü ì๠ùiëüíiñòü𝑓𝜗 (x) âiäíîñíî äåÿêî¨ ìiðè 𝜇. Ïîçíà-
÷èìî (︂ )︂𝑇
𝜕 𝜕
I(𝜗) = E𝜗 ln 𝑓𝜗 (𝜉1 ) ln 𝑓𝜗 (𝜉1 )
𝜕𝜗 𝜕𝜗
(︃∫︁ 𝜕 𝜕
)︃𝑑
𝜕𝜗𝑖
𝑓 𝜗 (x) 𝜕𝜗𝑘
𝑓 𝜗 (x)
= 𝜇(𝑑𝑥)
𝑓𝜗 (𝑥)
𝑖,𝑘=1
 iíôîðìàöiéíà ìàòðèöÿ Ôiøåðà äëÿ ïàðàìåòðà 𝜗 çà îäíèì ñïîñòåðå-
æåííÿì 𝜉1 .
Ìiðêóâàííÿ, ïîäiáíi ðîçãëÿíóòèì äëÿ ìîìåíòíèõ îöiíîê, ïðèâîäÿòü
äî íàñòóïíî¨ ôîðìóëè äëÿ ìàòðèöi ðîçñiþâàííÿ îöiíîê ìåòîäó íàéáiëü-
øî¨ âiðîãiäíîñòi 𝜗ˆ𝑛 :
V𝜗^(𝜗) = (I(𝜗))−1 (8.11)

 ìàòðèöÿ ðîçñiþâàííÿ ¹ ìàòðèöåþ, îáåðíåíîþ äî iíôîðìàöiéíî¨.


Ó îäíîâèìiðíîìó âèïàäêó äëÿ êîåôiöi¹íòà ðîçñiþâàííÿ îòðèìó¹ìî:

1
𝑣𝜗^(𝜗) = ,
𝐼(𝜗)
äå
∫︁ (︀ 𝜕
)︀2
𝜕𝜗
𝑓 𝜗 (𝑥)
𝐼(𝜗) = 𝜇(𝑑𝑥)
𝑓𝜗 (𝑥)
 iíôîðìàöiÿ Ôiøåðà ïðî ïàðàìåòð 𝜗, ùî ìiñòèòüñÿ ó îäíîìó ñïîñòåðå-
æåííi.
Матриця розсiювання для квантильних оцiнок. Íåõàé çíîâó, äàíi
ÿâëÿþòü ñîáîþ êðàòíó âèáiðêó X âèïàäêîâèõ âåëè÷èí 𝜉𝑗 ç ôóíêöi¹þ
𝑑
ðîçïîäiëó 𝐹𝜗 òà ùiëüíiñòþ 𝑓𝜗 (𝑥), 𝜗 ∈ Θ ∈ R . Çàôiêñó¹ìî íàáið ðiâíiâ
𝛼 = (𝛼1 , . . . , 𝛼𝑑 ), 0 < 𝛼𝑖 < 1. Ïîçíà÷èìî q (𝜗) = (𝑄𝐹𝜗 (𝛼1 ), . . . , 𝑄𝐹𝜗 (𝛼1 ))
𝛼
𝛼 X X
 âåêòîð òåîðåòè÷íèõ êâàíòèëåé, q̂𝑛 = (𝑄 (𝛼1 ), . . . , 𝑄 (𝛼1 ))  íàáið
𝐹
åìïiðè÷íèõ êâàíòèëåé. Íåõàé äëÿ âñiõ 𝛼𝑖 âèêîíàíî 𝑓𝜗 (𝑄 𝜗 (𝛼𝑖 )) > 0. Òîäi
√ 𝛼 𝛼
ç íàñëiäêó 1 ï. 7 ãë. 1 [3] âèïëèâà¹, ùî 𝑛(q̂𝑛 − q (𝜗)) çáiãà¹òüñÿ çà
𝑑
ðîçïîäiëîì äî 𝑁 (0, C), äå C = (𝑐𝑖,𝑘 )𝑖,𝑘=1 ,

min(𝛼𝑖 , 𝛼𝑘 ) − 𝛼𝑖 𝛼𝑘
𝑐𝑖𝑘 = . (8.12)
𝑓𝜗 (𝑄𝐹𝜗 (𝛼𝑖 ))𝑓𝜗 (𝑄𝐹𝜗 (𝛼𝑘 ))
8.4. Асимптотична нормальнiсть i матриця розсiювання оцiнок 279

Íåõàé êâàíòèëüíà îöiíêà 𝜗𝛼𝑛 äëÿ 𝜗 ¹ ðîçâ'ÿçêîì ðiâíÿííÿ

q𝛼 (t) = q̂𝛼𝑛
âiäíîñíî t.
Òîäi ìiðêóâàííÿ, àíàëîãi÷íi äî òèõ, ÿêi ìè âèêîðèñòàëè äëÿ ìîìåíò-
íèõ îöiíîê, ïðèâîäÿòü äî íàñòóïíîãî âèðàçó äëÿ ìàòðèöi ðîçñiþâàííÿ
ˆ𝛼 :
îöiíêè 𝜗 𝑛
V𝜗^𝛼 (𝜗) = Q−𝑇 CQ−1 , (8.13)
𝜕
äå Q =
𝜕𝜗𝑇
q𝛼 (𝜗).
𝑚𝑒𝑑
Çîêðåìà, äëÿ ìåäiàííî¨ îöiíêè 𝜗𝑛 , ùî ¹ ðîçâ'ÿçêîì ðiâíÿííÿ

𝑞 1/2 (𝑡) = med(𝑋),


êîåôiöi¹íò ðîçñiþâàííÿ äîðiâíþ¹

1
𝑣𝜗𝑚𝑒𝑑 = . (8.14)
4(𝑓𝜗 (med(𝜉1 ))(𝑞 1/2 (𝜗))′ )2
Ïîäèâèìîñü òàêîæ, ÿê çàïèñàòè êîåôiöi¹íò ðîçñiþâàííÿ êâàíòèëüíî¨
îöiíêè, ÿêùî âîíà âèçíà÷à¹òüñÿ ÿê ðîçâ'ÿçîê ðiâíÿííÿ (8.5). Ôîðìóëó,
ÿêó ìè îòðèìà¹ìî, ìîæíà âèâåñòè ç (8.13), àëå ìè çðîáèìî öå áåçïîñå-
ðåäíüî.
Îòæå, íåõàé äëÿ îöiíêè 𝜗ˆ𝑛 âèêîíó¹òüñÿ ðiâíÿííÿ

𝐹𝜗^𝑛 (ˆ
𝑞𝑛 ) = 𝛼,

äå 𝑞ˆ𝑛 = 𝑄X (𝛼).  óìîâàõ, ùî âêàçàíi âèùå, 𝑛(ˆ 𝑞𝑛 − 𝑞𝛼 ) çáiãà¹òüñÿ çà
𝐹𝜗 2
ðîçïîäiëîì äî 𝑁 (0, 𝑐), äå 𝑞𝛼 = 𝑄 (𝛼), 𝑐 = 𝛼(1 − 𝛼)/(𝑓𝜗 (𝑞𝛼 )) .
Ðîçêëàäàþ÷è ëiâó ÷àñòèíó öi¹¨ ðiâíîñòi â îêîëi òî÷êè (𝜗, 𝑞𝛼 ), îòðè-
ìó¹ìî
𝜕 𝜕
𝐹𝑡 (𝑞)(𝜗ˆ𝑛 − 𝜗) + 𝐹𝑡 (𝑞)(ˆ
𝐹𝜗 (𝑞𝛼 ) + 𝑞𝑛 − 𝑞𝛼 ) = 𝛼,
𝜕𝑡 𝜕𝑞
äå 𝑡  ïðîìiæíà òî÷êà ìiæ 𝜗 ˆ𝑛 i 𝜗, 𝑞  ïðîìiæíà òî÷êà ìiæ 𝑞ˆ𝑛 i 𝑞𝛼 . Çâiäñè
îòðèìó¹ìî
𝜕
√ 𝐹 (𝑞 )
𝜕𝑞 𝜗 𝛼 √
𝑛(𝜗ˆ𝑛 − 𝜗) ∼ 𝜕
𝑛(ˆ
𝑞𝑛 − 𝑞𝛼 ).
𝐹 (𝑞 )
𝜕𝜗 𝜗 𝛼
Âèêîðèñòîâóþ÷è àñèìïòîòè÷íó íîðìàëüíiñòü 𝑞ˆ𝑛 , îòðèìó¹ìî êîåôiöi¹íò
ðîçñiþâàííÿ 𝜗ˆ: (︃ )︃2
𝜕
𝐹 (𝑞 )
𝜕𝑞 𝜗 𝛼 𝛼(1 − 𝛼)
𝑣𝜗^𝑛 = 𝜕
(8.15)
𝐹 (𝑞 )
𝜕𝜗 𝜗 𝛼
(𝑓𝜗 (𝑞𝛼 ))2
8.4. Асимптотична нормальнiсть i матриця розсiювання оцiнок 280

Приклад 8.4.1. Ïîâåðíåìîñÿ äî ðîçãëÿäó çàäà÷i îöiíêè iíòåíñèâíîñòi 𝜆


åêñïîíåíöiéíîãî ðîçïîäiëó çà êðàòíîþ âèáiðêîþ X = (𝜉1 , . . . , 𝜉𝑛 ). Ó ïî-
ïåðåäíiõ ðîçäiëàõ áóëè ââåäåíi òðè îöiíêè:
√︃
ˆ (1) ¯ ˆ (2) 2𝑛 ˆ med = log 2
𝜆 𝑛 = 1/𝜉, 𝜆 𝑛 = ∑︀𝑛 2
, 𝜆 𝑛 .
𝑗=1 𝜉𝑗 med(𝑋)
Ïåðøi äâi îöiíêè îòðèìàíi ìåòîäîì ìîìåíòiâ ç ìîìåíòíèìè ôóíêöiÿìè
ℎ1 (𝑥) = 𝑥 òà ℎ2 (𝑥) = 𝑥2 . Âðàõîâóþ÷è, ùî
1 23
D𝜆 ℎ1 (𝜉1 ) = 2
, D𝜆 ℎ2 (𝜉1 ) = 4 ,
𝜆 𝜆
çà (8.9) îòðèìó¹ìî êîåôiöi¹íòè ðîçñiþâàííÿ öèõ îöiíîê:

23 2
𝑣𝜆^(1) = 𝜆2 , 𝑣𝜆^(2) = 𝜆.
16
Òðåòÿ îöiíêà  ìåäiàííà. Òåîðåòè÷íà ìåäiàíà åêñïîíåíöiéíîãî ðîçïîäiëó
med(𝜉1 ) = log 2/𝜆, à ùiëüíiñòü ðîçïîäiëó ó ìåäiàíi  𝑓𝜆 (med(𝜉1 )) = 𝜆/2.
Òîìó êîåôiöi¹íò ðîçñiþâàííÿ öi¹¨ îöiíêè

𝜆2
𝑣𝜆^𝑚𝑒𝑑 = .
(log 2)2
Îñêiëüêè 23/16 ≈ 1.4375 < 2.08137 ≈ 1/(log 2)2 , öi ðåçóëüòàòè ïîêàçóþòü,
ùî íàéáiëüø òî÷íîþ ïðè âåëèêèõ îáñÿãàõ âèáiðîê ¹ îöiíêà 𝜆 ˆ (1)
𝑛 , íàñòóï-
ˆ (2)
íîþ  𝜆𝑛 , à íàéìåíø òî÷íîþ ç òðüîõ ðîçãëÿíóòèõ ¹ ìåäiàííà îöiíêà.
Âiäíîøåííÿ êîåôiöi¹íòiâ âàðiàöi¨ äâîõ ðiçíèõ îöiíîê îäíîãî ïàðà-
ìåòðà íàçèâàþòü ¨õ вiдносною асиптотичною ефективнiстю (asymptotic
2
relative eciency, ARE). Íàïðèêëàä, 𝑣𝜆 ^ (1) = 1/(log 2) ≈ 2.08137
^ 𝑚𝑒𝑑 /𝑣𝜆
 ARE îöiíêè íàéáiëüøî¨ âiðîãiäíîñòi ïîðiâíÿíî ç ìåäiàííîþ îöiíêîþ.
ARE ì๠ïðîñòèé ñòàòèñòè÷íèé çìiñò, ÿêèé ëåãêî çðîçóìiòè âðàõîâóþ÷è
(8.7). ßêùî ìè ðàíiøå êîðèñòóâàëèñü îöiíêîþ 𝜆ˆ (1)
𝑛 , à òåïåð çàìiñòü íå¨ õî-
(𝑚𝑒𝑑)
ˆ 𝑛 , òî äëÿ çàáåçïå÷åííÿ òàêî¨ æ òî÷íîñòi ÿê i ðàíiøå
÷åìî âèêîðèñòàòè 𝜆
íàì ïðèéäåòüñÿ çáiëüøèòè îáñÿã âèáiðêè ó äâà (òî÷íiøå ó 2.08137) ðàçè.
Öå âàðòî ðîáèòè, ÿêùî âèãîäè âiä ðîáàñòíîñòi ìåäiàííî¨ îöiíêè ïåðåâè-
ùóþòü äîäàòêîâi âèòðàòè íà çáiëüøåííÿ îáñÿãó ñïîñòåðåæåíü. Iíàêøå
ñëiä âèêîðèñòîâóâàòè îöiíêó íàéáiëüøî¨ âiðîãiäíîñòi.
Òå, ùî íàéêðàùîþ âèÿâèòüñÿ 𝜆 ˆ (1)
𝑛 , ìîæíà áóëî ñêàçàòè âæå òîäi, êî-
ëè âèÿâèëîñü, ùî öå îöiíêà íàéáiëüøî¨ âiðîãiäíîñòi. Ñïðàâà â òîìó, ùî
7
ïðè âèêîíàííi äîñèòü øèðîêèõ óìîâ ÎÍ ¹ àñèìïòîòè÷íî íîðìàëüíèìè

7
умов регулярностi, [3], роздiл 2, п. 16.
8.4. Асимптотична нормальнiсть i матриця розсiювання оцiнок 281

îöiíêàìè ç êîåôiöi¹íòîì ðîçñiþâàííÿ, íàéìåíøèì ñåðåä âñiõ ïðàâèëü-


íèõ (ò. çâ. ðåãóëÿðíèõ) îöiíîê. J
Приклад 8.4.2. Íåõàé òåïåð îöiíþþòüñÿ ìàòåìàòè÷íå ñïîäiâàííÿ 𝜇 i äèñ-
2
ïåðñiÿ 𝜎 çà êðàòíîþ âèáiðêîþ ãàóññîâèõ ñïîñòåðåæåíü X. Ìè îòðèìàëè
ïî äâi îöiíêè äëÿ êîæíîãî ïàðàìåòðà: ìåòîä ìîìåíòiâ äàâ òîé æå ðå-
çóëüòàò, ùî i ìåòîä íàéáiëüøî¨ âiðîãiäíîñòi (ïðèêëàäè 8.1.2 i 8.3.2)

𝜇 ¯ 𝜎
ˆ𝑀 𝐿𝐸 = 𝜉, ˆ𝑛2 𝑀 𝐿𝐸 = 𝑆 2 (X),
à ìåòîä êâàíòèëiâ (ïðèêëàä 8.2.2) 

)︂2
𝑄X (3/4) − 𝑄X (1/4)
(︂
ˆ𝑚𝑒𝑑
𝜇 𝑛 = med X, 𝜎
ˆ 2 𝐼𝑄
= .
2𝜆𝛼/4

(Òóò, ÿê i ðàíiøå, 𝜆𝛼 = 𝑄𝑁 (0,1) (1 − 𝛼))


Äëÿ ïiäðàõóíêó ìàòðèöi ðîçñiþâàííÿ îöiíîê íàéáiëüøî¨ âiðîãiäíîñòi
2 𝑇 8
çíàéäåìî iíôîðìàöiéíó ìàòðèöþ äëÿ 𝜗 = (𝜇, 𝜎 ) . Ëåãêî áà÷èòè, ùî

𝜕 𝜉1 − 𝜇 𝜕 1 (𝜉1 − 𝜇)2
𝑓𝜗 (𝜉1 ) = , 𝑓𝜗 (𝜉1 ) = − 2 − .
𝜕𝜇 𝜎2 𝜕𝜎 2 2𝜎 2𝜎 4
Îòæå iíôîðìàöiéíà ìàòðèöÿ äëÿ îäíîãî ñïîñòåðåæåííÿ ì๠âèãëÿä
(︃ )︃
(𝜉1 −𝜇)2 𝜉1 −𝜇 −𝜇)3
+ (𝜉12𝜎 1
(︂ )︂
𝜎4 2𝜎 4 6 𝜎2
0
I(𝜗) = E 𝜉1 −𝜇 (𝜉1 −𝜇)3 ((𝜉1 −𝜇)2 −𝜎 2 )2 = 1 .
+ 0 2𝜎 4
2𝜎 4 2𝜎 6 4𝜎 8

Òàêèì ÷èíîì, ìàòðèöÿ ðîçñiþâàííÿ îöiíîê íàéáiëüøî¨ âiðîãiäíîñòi


(︂ )︂
−1 𝜎2 0
V𝜗^𝑀 𝐿𝐸 (𝜗) = I (𝜗) = . (8.16)
0 2𝜎 4
Ìè îòðèìàëè, ùî êîåôiöi¹íò ðîçñiþâàííÿ 𝜇 ˆ𝑀
𝑛
𝐿𝐸 2
äîðiâíþ¹ 𝜎 , à êîåôiöi¹íò
ˆ𝑛2 𝑀 𝐿𝐸 äîðiâíþ¹ 2𝜎 4 . Öi îöiíêè ¹ àñèìïòîòè÷íî íåêîðåëüî-
ðîçñiþâàííÿ 𝜎
âàíèìè.
Ïiäðàõó¹ìî êîåôiöi¹íòè ðîçñiþâàííÿ êâàíòèëüíèõ îöiíîê. Äëÿ 𝜇 ˆ𝑚𝑒𝑑
𝑛
öå ìîæíà çðîáèòè áåçïîñåðåäíüî çà ôîðìóëîþ (8.14):

1 𝜋𝜎 2
𝑣𝜇^𝑚𝑒𝑑 = = .
4(𝑓𝜗 (𝜇))2 2
Тут 𝑓𝜗 (𝑥) — щiльнiсть нормального розподiлу з параметрами 𝜇, 𝜎 2 , причому диферен-
8

цiюючи по 𝜎 2 слiд розумiти це як єдиний символ, а не як квадрат 𝜎.


8.4. Асимптотична нормальнiсть i матриця розсiювання оцiнок 282

Äëÿ ˆ𝑛2 𝐼𝑄
𝜎 ïiäðàõóíîê äåùî ñêëàäíiøèé. Ïî÷íåìî ç âèçíà÷åííÿ ãðàíè÷-

1 2 𝑇
íî¨ êîâàðiàöiéíî¨ ìàòðèöi äëÿ âåêòîðà z𝑛 = (𝑧𝑛 , 𝑧𝑛 ) = 𝑛(q̂𝑛 − q), äå
2 2
q̂𝑛 = (𝑄X (1/4), 𝑄X (3/4))𝑇 , q = (𝑄𝑁 (𝜇,𝜎 ) (1/4), 𝑄𝑁 (𝜇,𝜎 ) (3/4))𝑇 . Çà (8.12)
êîâàðiàöiéíà ìàòðèöÿ ðîçïîäiëó äâîâèìiðíîãî íîðìàëüíîãî âåêòîðà z,
äî ÿêîãî çáiãà¹òüñÿ ðîçïîäië z𝑛 , äîðiâíþ¹

3 1
(︂ )︂
1
C= (𝑐𝑖𝑘 )2𝑖,𝑘=1 16
1
16
3 .
(𝑓𝜗 (𝜇 + 𝜎𝜆1/4 ))2 16 16

Çâiäñè îòðèìó¹ìî, ùî ïîñëiäîâíiñòü 𝑧˜𝑛 = (𝑧𝑛1 −𝑧𝑛2 )/(2𝜆1/4 ) òàêîæ ¹ àñèìï-


òîòè÷íî íîðìàëüíîþ ç àñèìïòîòè÷íîþ äèñïåðñi¹þ

2
1 𝜋𝑒−𝜆1/4 𝜎 2
𝑐˜ = (𝑐 11 − 2𝑐 12 + 𝑐 22 ) = .
(2𝜆1/4 )2 8𝜆21/4

Îñêiëüêè ïðè âåëèêèõ 𝑛



𝜎𝑛2 𝐼𝑄 − 𝜎 2 ) ∼ 2𝜎˜
𝑛(ˆ 𝑧,

òî
2
𝜋𝑒−𝜆1/4 𝜎 4
2
𝑣𝜎^ 2 𝐼𝑄 = 4𝜎 𝑐˜ = 2
≈ 5.44184𝜎 4 .
2𝜆1/4
Òàêèì ÷èíîì, âiäíîñíà àñèìïòîòè÷íà åôåêòèâíiñòü îöiíêè íàéáiëüøî¨
âiðîãiäíîñòi äëÿ 𝜇 ïîðiâíÿíî ç ìåäiàííîþ

𝑣𝜇^𝑚𝑒𝑑 /𝑣𝜇^𝑀 𝐿𝐸 = 𝜋/2 ≈ 1.5708.

Äëÿ ÎÍ äèñïåðñi¨ ïîðiâíÿíî ç êâàðòèëüíîþ âiäíîñíà àñèìïòîòè÷íà


åôåêòèâíiñòü
2
𝜋𝑒−𝜆1/4
𝑣𝜎^ 2 𝐼𝑄 /𝑣𝜎^ 2 𝑀 𝐿𝐸 = ≈ 2.72092.
4𝜆21/4
Òîáòî ïðè âèêîðèñòàííi êâàðòèëüíî¨ îöiíêè ïîòðiáíî ó 2.72 ðàçè áiëüøå
ñïîñòåðåæåíü, íiæ ïðè âèêîðèñòàííi çâè÷àéíî¨ âèáiðîêîâî¨ äèñïåðñi¨ äëÿ
äîñÿãíåííÿ îäíàêîâî¨ òî÷íîñòi îöiíþâàííÿ.
Çðîçóìiëî, ùî âñÿ öÿ àñèìïòîòè÷íà òåîðiÿ ïðàöþ¹ ëèøå ïðè äîñòàò-
íüî âåëèêèõ îáñÿãàõ âèáiðêè. Íàñêiëüêè âåëèêèõ? ßêîþ áóäå ñèòóàöiÿ
äëÿ íåâåëèêèõ îáñÿãiâ? Ùîá âiäïîâiñòè íà òàêi çàïèòàííÿ, ïðîâîäÿòü
ñïåöiàëüíi iìiòàöiéíi åêñïåðèìåíòè (simulation study). Ïîäèâèìîñü, ÿê öå
ìîæå âèãëÿäàòè ó íàøîìó ïðèêëàäi.
8.4. Асимптотична нормальнiсть i матриця розсiювання оцiнок 283

Ìè çãåíåðó¹ìî B=1000 ðiçíèõ âèáiðîê ç îäíèì i òèì æå íîðìàëü-


íèì ðîçïîäiëîì ç ïàðàìåòðàìè mu=1 (ìàòåìàòè÷íå ñïîäiâàííÿ) i sigma=1
(ñòàíäàðòíå âiäõèëåííÿ). Ïî êîæíié âèáiðöi áóäóòü ïiäðàõîâàíi ÷îòèðè
îöiíêè, ÿêi âìiùóþòüñÿ ó ìàñèâè îöiíîê 
ˆ𝑀 ó EstMuMom, 𝜇 ó EstMuMed, 𝜎
ˆ𝑛2 𝑀 𝐿𝐸 ó EstSMom, 𝜎
ˆ𝑛2 𝐼𝑄 ó EstSMed.
𝐿𝐸
𝜇 𝑛 ˆ𝑚𝑒𝑑
𝑛
Ïî êîæíîìó ç öèõ ìàñèâiâ ìè ðàõó¹ìî âèáiðêîâå ñåðåäí¹, ùî ìà¹
íàáëèæàòè ìàòåìàòè÷íå ñïîäiâàííÿ âi