Вы находитесь на странице: 1из 153

СТАТИСТИКА

Христо Вълчев, Павлина Йорданова

Учебник за дистанционно обучение

УВОД

Учебникът е предназначен за студенти от специалности Туризъм и Икономика в


Шуменския Университет “Епископ Константин Преславски”. Той дава
първоначални представи за изучаваните понятия и препратки към източници с
по-задълбочена информация. Въпреки това е дадена основната теоретична
информация за разработването на статистически модели, така че читателят да
може сам да модифицира представените методи според задачата, която трябва
да реши.

Това е само учебно пособие. Един професионалист не би трябвало да се


задоволи със съдържанието само на този учебник. Той е ценен по-скоро като
справочник и ориентир в необятното поле на Статистиката. Целта на авторите е
той да служи не само при самоподготовка за изпита по Статистика, но и като
наръчник и справочник в бъдещата практическа дейност на студента.

Поради малкия обем на учебника някои от задачите не са решени. Ако срещнете


затруднения по време на самоподготовката си можете да пишете на
електронните адреси на авторите.

Данните в учебника са само примерни и не са резултат от действителни


статистически проучвания. На практика, за да е вярно статистическото ви
заключение, данните трябва да са качествено събрани и внимателно обработени.

Всякакви препоръки към следващите издания на учебника ще са добре приети.

От авторите

ГЛАВА 1. СТАТИСТИЧЕСКО ИЗУЧАВАНЕ

Отговорите, на всички въпроси, които ни вълнуват са около нас, само трябва


да се научим да ги виждаме.

След усвояването на информацията от тази глава Вие ще знаете:

• С какво се занимава статистиката?


• Кои са основните източници на статистическа информация?
• Как да достигнете до тях?
• Какво представлява статистическото изучаване?
• Как да направим статистическо наблюдение?
• Как да групираме данните от наблюдението, така че да са в удобен вид за
по-нататъшно прилагане на статистически методи?

Въведение. Статистическите методи започват да се развиват преди около 300


години с изучаването на игрите на шанса. В наши дни статистическата
наука разработва методи, с помощта на които да може да се вземе правилно
решение в условия на неопределеност, да се характеризират тенденциите и
закономерностите в развитието на социално-икономическите процеси, да се
разкрият връзките и зависимостите между явленията, да се направят прогнози за
бъдещото им развитие.

Статистическата дейност включва разработването на методология и


планирането на статистическите изследвания, получаването, събирането,
обработването, анализирането и съхраняването на статистически данни,
предоставянето и разпространяването на статистическа информация.

Смисълът на статистическата дейност се състои в осигуряването на


държавното и стопанско ръководство на всички нива с необходимата
информация за управление, както и в информирането на обществеността за хода
на процесите, които ни заобикалят.

Най-популярните източници на информация са: преброяванията на


населението, счетоводната отчетност, ежедневните анализи на пазара,
проучванията на общественото мнение и много други. Националният
Статистически Институт е най-големият разпространител на статистически
данни в страната. На неговата интернет страница www.nsi.bg можете да
откриете резултатите от последното преброяване на сградите, жилищата,
населението и земеделските стопанства през 2001 г., както и информация за
Брутния вътрешен продукт на България по компоненти, вътрешната и външна
миграция и здравното състояние на населението, пазара на труда, домакинските
бюджети, туризма, престъпността и др. В уеблиографията в края на тази тема са
посочени банки със статистическа информация. Други адреси могат да бъдат
намерени на страницата на Стопански факултет на Софийски Университет.
Като източник на данни може да ни служат още месечния информационен
бюлетин на БНБ, статистическият годишник или статистическият справочник.

1.1. ОСНОВНИ СТАТИСТИЧЕСКИ ПОНЯТИЯ

За да подложим на изучаване разнообразните популации и протичащите в тях


масови явления и процеси е необходимо по някакъв начин да ги уеднаквим. За
тази цел ще въведем следващите понятия.

Статистическа единица ще наричаме най-малкия обект върху, който се


извършва статистическото наблюдение и чиято общност се изучава. Могат да
бъдат: домакинства, фирми, лица, предмети, явления и други. Често пъти в
статистиката освен термина статистическа единица се употребява и термина -
случай, когато става въпрос за явление, например: раждане, умиране, брак,
развод и др.
Статистически признак - това са качествени или количествени
характеристики на статистическите единици.

В зависимост от начина, по който се описват статистическите признаци най-


общо се делят на вариационнии категорийни.

Вариационните признаци са количествени т.е. стойността на признака е число.


Тези признаци обикновено се измерват в съответната мярка: метра, лева,
години, броя и т.н за това се наричат още - метрирани. В зависимост от
стойностите, които могат да приемат се подразделят на дискретни
(прекъснати), непрекъснати и смесици от такива. При непрекъснатите
метрирани признаци обикновено се използва интервална скала, за по подробно
описание виж Гатев, К. Въведение в общата теория на статистиката. Cофия,
1980, стр. 46.

Категорийните признаци са качествени. Техните значения са словесни,


описателни. За това тези признаци се наричат още - неметрирани. В случая,
когато имаме само две определения на признака говорим за дихотомни
(бинарни, алтернативни) признаци.

За количественото измерване на зависимостите между различните видове


признаци е необходимо да се въведе метрика за категорийните признаци. Най-
често се използва рангова скала. Тя характеризира степента на притежаване на
дадено качество чрез число. Виж Гатев, К. Въведение в общата теория на
статистиката. Cофия, 1980, стр. 46.

В зависимост от това допустимо ли е или не повече от едно значение на


признака при отделна статистическа единица имаме съответно - кумулативни и
некумулативни признаци. Пример за кумулативен признак е “езици, които
владее дадено лице”.

Статистическа съвкупност ще наричаме еднородни по същество


статистически единици, т.е. обединени от едно и също значение на един или
няколко признака и ограничени по време и място. Тези статистически единици,
обаче могат да се различават по други признаци и това са точно признаците,
които подлежат на изучаване.

Броят на единиците в съвкупността се нарича обем на съвкупността.

В зависимост от момента или периода от време, за който се изучават,


статистическите съвкупности биват: моментни и периодни.

В зависимост от обхвата на единиците на съвкупността, съвкупностите биват:


генерални и извадкови. В първия вид влизат всички единици, за които ще
правим статистическо заключение, а във втория вид - само част от тях. Една
извадкова статистическа съвкупност е представителна (репрезентативна),
когато е микромодел на генералната съвкупност.

Ако при случаен избор на единиците, някоя от тях може да попадане в


извадката повече от веднъж, говорим за възвратен подбор. Иначе подбора е
безвъзвратен. От гледна точка на статистическите методи, когато извадката е
много по-малка по обем от генералната съвкупност двата начина на
формирането й съвпадат.

ЗА САМОПОДГОТОВКА

Въпроси към темата

Дайте примери на всички дефинирани понятия.

Ако трябва да изследвате туристическия поток в курортен комплекс Х за


периода 2000-2004 г. включително, по национална принадлежност,
интензивност на посещенията в този или други курорти, продължителност на
престоя, предпочитания на хотели, предпочитания на персонал, начини на
забавление, начини на хранене и нощувка и допустими разходи за тях, кои биха
били статистическата съвкупност, статистическите единици и статистическите
признаци, които ще наблюдавате? Как бихте измерили значенията на тези
признаци при отделните статистически единици? Какви по вид са изброените от
вас признаци?

Примерни ситуации и решения

Ако се интересуваме от възрастовия състав, степента на образованост и


структурата по пол на отделните възрастови групи на лицата с българско
гражданство. Значението на признака, който обуславя еднородността на
съвкупността е - българско гражданство. Изучаваните признаци са - възраст на
навършени години, образование и пол. Първият е вариационен, а вторият и
третият - категорийни. Признака пол е и алтернативен. Статистическите
единици са отделните лица с българско гражданство, а тяхната общност е
генералната съвкупност.

Задачи за упражнение

Задача 1: Запознайте се със статистическото изучаване на работната сила. Кои


признаци трябва да наблюдавате, за да изчислите Коефициент на
трудоспособност на населението - Петров, В., Тодоров, Т. Основи на
статистиката. В. Търново, 2000, стр. 332, Коефициент на натовареност на
трудоспособното население, Коефициент на икономическа активност на
населението, Коефициент на заетост на работната сила, Коефициент на
безработица. Определете статистическата съвкупност и статистическите
единици, както и вида на наблюдаваните признаци.

Казуси: Запознайте се с дейността на избрана от вас производствена фирма и


при прочитане на този учебник помислете: Какви статистически методи ще
използвате за да анализирате дейността й? А за изучаване на персонала? Какви
статистически методи бихте предложили на управителя на фирмата свързани с
маркетинга й?

Литература

1. Гатев, К. Въведение в общата теория на статистиката. Cофия, 1980.

2. Петров, В., Тодоров, Т. Основи на статистиката. В. Търново, 2000.

Уеблиография

http://www.nsi.bg - Национален Статистически Институт

http://www.feb.uni-sofia.bg - СУ “Св. Климент Охридски”

http://www.bnb.bg - Българска Народна Банка

http://epp.eurostat.cec.eu.int/pls/portal - Статистически център на Европейския


съюз

http://www.statistik-bund.de/d_home.htm - Германски държавни статистически


центрове

http://www.hm-treasury.gov.uk - Статистическа информация от Великобритания

http://ideas.repec.org - База данни за икономически издания


ГЛАВА 1. СТАТИСТИЧЕСКО ИЗУЧАВАНЕ

1.2. СЪЩНОСТ НА СТАТИСТИЧЕСКОТО ИЗУЧАВАНЕ

Никой от нас не би бил в състояние да анализира заобикалящата го огромна


информация без тя да е поднесена в подходящ систематизиран вид. През
последните десетилетия тази необходимост нарасна. Как да направим така, че без
субективизъм данните да говорят сами за себе си? Отговор на този въпрос ни дава
Статистиката.

Статистическото изучаване е изследователски процес. Целта му е да се извлекат


научно обосновани изводи, които да служат на управленческите органи при
вземането на оптимални решения. Няма строго регламентирана последователност
на статистическото изучаване. В началото обикновено се съставя план и програма
на действие. Програмата включва темата, предмета и обекта (статистическата
съвкупност, статистическите единици, статистическите признаци) на
статистическото изследване, бюджета и начина на провеждането му. В нея трябва
да бъдат описани източниците и формата на събиране на данните, както и
задълженията по предоставянето им. Планът включва методологичните и
организационни въпроси, които предстои да бъдат решени в предвид целите на
изучаването: времето, мястото, начините и органите на регистрация, източници и
анализ на сведенията, срокове и начин на обработване, публикуване и оформяне
на резултатите. Дори и много скъпо статистическо проучване може да се окаже
безполезно ако данните са събрани по неподходящ начин, от неподходящи
статистически единици или в неподходящо място или време.

Условно статистическото изучаване се разделя на три етапа: статистическо


наблюдение, статистическа групировка и статистически анализ.

Статистическото наблюдение представлява събиране на първична информация


за статистическите единици. За да се направи правилен статистически извод е
необходимо осигуряване на достоверни данни. За целта специално обучени
анкетьори могат да извършат непосредствени наблюдения или интервюта. Когато
статистическата единица е човек или се представя от човек, се допуска
самонаблюдение. В най-добрия случай данните се вземат от документи.
Обичайните статистически формуляри са анкети, отчети, въпросници. В един
добре съставен статистически формуляр въпросите трябва да са формулирани
ясно, точно и просто, да имат еднозначен отговор и да предоставят възможност за
контрол. Методологията на съставяне на тестовете може да бъде намерена в
Crocker, L., Algina, J. Introduction to Classical and Modern Test Theory. Harcourt
Brace, 1986., Стоименова, Е. Измерителни качества на тестовете. София, 2000 или
Madsen, H. S. Techniques in Testing, Oxford, 1983. След попълване на формулярите
резултатите се пренасят в електронна таблица, на която всеки ред съответства на
една статистическа единица, а всяка колона на един признак. Ако признака е
кумулативен има основно два начина за въвеждане на резултатите от анкетата,
така че след това данните да се обработват по-лесно: за всяка възможна
комбинация от отговори се въвежда код или за всеки възможен отговор се оформя
подколона, в която се отбелязва 1 ако отговора е посочен или 0 ако не е посочен.
За останалите особености при въвеждане на статистически данни от въпросници и
анкети за електронна обработка виж Crocker, L., Algina, J. Introduction to Classical
and Modern Test Theory. Harcourt Brace, 1986.

Грешките при наблюдения се допускат най-често

- при регистрация - в резултат от неспазване на инструкциите, недостоверна,


непълна информация, неправилно зададени въпроси, неправилно избрано време на
наблюдение. Техен подвид са логическите грешки, когато на някои въпроси са
дадени недостоверни отговори. Много проблеми може да създаде и неправилното
набиране на данните.

Грешките прирегистрация могат да се избегнат чрез превантивен контрол,


предварителни статистически наблюдения, или чрез репрезентативни, контролни
наблюдения с цел ревизия на органите на регистрация. Може да се използват също
формална аритметична и логическа проверка за взаимно изключващи се отговори.
След поправяне на грешките при регистрация статистическото наблюдение
приключва.

- грешки на репрезентативността (стохастични грешки) - изразяват се в


случайните отклонения на измерваните величини от тяхната средна. Действат в
различни посоки и взаимно се компенсират.

Статистическа групировка - През този етап на статистическото изучаване,


сведенията за отделните единици се окрупняват в статистически данни, които се
отнасят до еднородни по даден признак групи. Признаците се наричат
групировачни. Избират се преди да започне статистическото наблюдение в
зависимост от целта на изследването. По значенията на тези признаци сe
обособяват групи. Статистическите единици се отнасят към съответните групи и
се определя броя им във всяка една от тях. В резултат на всичко това се получава
емпирично статистическо разпределение на единиците от съвкупността по
съответния признак или ако групировката е по време стигаме до динамичен ред.

При групировка по вариационен непрекъснат признак трябва да се решат


допълнително въпросите за брой на групите и ширина на интервалите на всяка
група. Ширината на интервалите се определя по един от следните два
принципа:

Аритметичен принцип - образуваните групи са еднакво широки. Ширината на


интервала h се намира по формулата:

където:

Xmax е максималната стойност на признака измерено при статистическите единици,


Xmin е минималната стойност на признака измерено при статистическите единици, а
k е броя на групите.

Когато броят на групите не е предварително фиксиран от изследователя,


приблизителната ширината на интервалите може да се определи по формулата на
Стърджес (виж Sturges, H. A. The Choise of a Class Interval. - Journal of the American
Statistical Association, 1926.),

където N е броя на наблюденията. Когато броят на групите в знаменателя не е


цяло число го закръгляме, а след това преизчисляваме ширините на интервалите.

При аритметичния способ по подразбиране се прави предположението, че


единиците са разпределени равномерно в съответните интервали. Това става
причина за загуба на информация, което е цената, която плащаме за представянето
на данните в по-удобна за използване форма.

При геометричният принцип, ширината на интервалите нараства или намалява


еднакъв брой пъти, т.е. в геометрична прогресия.

Има и други подходи. Съответния принцип се избира, така че минималната


измерена стойност да е в първия, а максималната - в последния интервал.
Краищата на интервалите трябва да са така обособени, че всяка от единиците да
попада само в един интервал. Ако единият от краищата в първия или последния
интервал не са посочени, съответният интервал се нарича отворен и при
изчисляване на различните количествени характеристики се приема, че
отворените групи са образувани по същата закономерност както и при
останалите интервали.

Често пъти вместо така описаната групировка групите са образувани с помощта на


думите “по-малко от” и после се посочва горния край на току що описаните
интервали. В този случай говорим за групировка по абсолютни или относителни
кумулативни честоти или това са честотите с натрупване.

В зависимост от броя на признаците, по които се извършва групирането имаме -


проста и сложна групировка. В резултат от сложната групировка се получават
двумерни, тримерни и т.н. многомерни емпирични разпределения. Резултатите от
статистическата групировка се представят под формата на т.н. дескриптивни
статистики. Това са статистическите редове, таблици, графики, средни величини и
относителни дялове.

Статистически анализ - това е последния и най-съществен етап от


статистическото изучаване. В него първо се определят статистическите методи и
вида на количествените измерители, после - стойността им, а накрая се анализират
получените резултати и се оформят изводи и заключения предназначени за
крайния потребител на статистическото изследване.

Най-често, когато искаме да опишем структурата на изследвания обект или


явление задачата се свежда до характеризиране типа и определяне на числовите
характеристики на разпределението на единиците на генералната съвкупност по
съответните признаци, ако търсим тенденцията в развитието на дадено явление
или искаме да направим прогноза се използва динамичен анализ, ако се
интересуваме от връзки и зависимости на помощ ще ни дойдат дисперсионния,
корелационния, регресионния или индексно-факторния анализ. Има не по-малко
случаи, в които изследователят сам трябва да си изработи алгоритъм,
обосновавайки се на Теорията на вероятностите, в зависимост от поставената
задача. За да се извърши съдържателен статистически анализ, той трябва
задължително да се запознае и със същността на изследваното явление или процес,
а не само да анализира числа.

Да отделим особено внимание на сравнимостта и съпоставимостта на


статистическите данни. Неспазването на предпоставките за сравнимост често е
причина за недостоверни статистически заключения.

За да сравним две или повече статистически величини е необходимо:

• да са едноименни, т.е. измерени в една и съща мярка;


• да са еднородни по съдържание;
• да са еднородни по обхват.

За да съпоставим (отнесем една към друга) две величини, е необходимо да се


получи смислена производна величина. Съпоставяните величини могат да са
едноименни или разноименни.

На края на тази тема да разграничим понятията статистическа отчетност и


статистически анализ. В първият случай имаме само регистрация, групировка на
данните, пресмятане на средни и относителни величини или накратко -
ограничаваме се с т.нар. дескриптивни статистики, докато във втория се
предполага използване на по-задълбочен статистически апарат.

ЗА САМОПОДГОТОВКА

Въпроси към темата

При групиране на данни, когато групите са образувани по аритметичния способ,


какво предположение за статистическите единици се прави?

Литература

1. Crocker, L., Algina, J. Introduction to Classical and Modern Test Theory. Harcourt
Brace, 1986.

2. Стоименова, Е. Измерителни качества на тестовете. София, 2000.

3. Madsen, H. S. Techniques in Testing, Oxford, 1983.

4. Гоев, В. Д. Статистическа обработка и анализ на информацията от


социологически, маркетингови и политически изследвания с SPSS. София, 1996.

5. Sturges, H. A. The Choise of a Class Interval. - Journal of the American Statistical


Association, 1926.

Примерни ситуации и решения

Пример 1: През 2004 г. в България е извършено наблюдение в 147 фирми,


занимаващи се с производство на сладкарски изделия. Един от разглежданите
признаци е бил “брутна печалба”. Установените резултати са дадени в Табл. 1.

Табл. 1 Брутна печалба на 147 фирми в България за 2004 г. в х. лв.

65.7 33.9 54.0 79.5 67.7 54.7 41.4 86.0 43.0 73.0 71.1 32.3 59.3
80.5 46.8 68.6 63.5 72.5 81.1 71.4 53.2 76.6 29.1 85.7 59.3 44.6
74.5 34.5 57.5 55.1 78.5 71.2 65.0 68.2 78.1 78.1 66.8 18.0 59.3
59.1 23.5 68.8 53.1 74.7 64.5 75.9 78.4 75.0 58.0 54.2 47.6 60.2
54.6 27.4 70.6 35.0 26.7 51.0 78.4 72.6 62.1 56.5 28.2 34.4 71.7
44.9 36.5 61.5 45.5 52.7 22.6 74.7 58.3 32.9 77.4 73.9 35.8 42.6
67.3 41.3 64.1 44.5 68.7 31 56.1 47.3 40.7 58.1 55.5 50.3 60.3
51.6 85.8 57.2 47 64.6 67.5 44.3 64.3 13.5 63.3 66.2 21.7 64.8
62.7 79.7 51.6 57.1 29.8 67.8 59.6 48.9 70.8 25.9 61.8 27.3 33.1
83.6 65.2 37 70.2 73.4 56.7 69.2 61.6 69.3 20.9 63.2 64.7 55.2
40.4 37.8 17.7 13.9 46.5 25.2 45.5 75.8 43.3 14.0 61.8 46.0 44.9
39.4 33.4 63.4 59.9

а) Извършете групировка като определите ширините на интервалите по формулата


на Стърджес;

б) Определете кумулативните честоти в съответните групи.

Решение:

а) Минималният размер на брутна печалба при наблюдаваните фирми е 13.5 х.лв.


Тогава = 13.5 х.лв. Аналогично за максималния размер, получаваме, че =
86 х.лв. Прилагаме формулата на Стърджес и получаваме

Табл. 2

Брутна печалба в х.лв. fi Сi


Над 13.5000 до 22.5625 7 7
Над 22.5625 до 31.625 11 19
Над 31.6250 до 40.6875 14 32
Над 40.6875 до 49.75 20 52
Над 49.7500 до 58.8125 22 74
Над 58.8125 до 67.875 32 108
Над 67.8750 до 76.9375 27 123
Над 76.9375 до 86 12 147
Общо: x

Групите трябва да са с приблизителна ширина 8,8183 х.лв. Построяваме 8 групи с


ширини на интервалите

След групировката получаваме първите две колони на Табл. 2.

С fi сме означили броят фирми, които попадат в i-татагрупа.

б) Кумулативните честоти в групите са дадени в последната колона на горната


таблица. Те се получават по формулата:

където fi е честотата в i-тата група, т.е. броят фирми, чиито брутна печалба е в
съответния интервал, описан в първата колонка на таблицата.

Задачи за упражнение

Задача 1: През 2004 г. в курортен комплекс Х е извършено наблюдение над 126


туристи. Един от изследваните признаци е бил “средномесечен им разход за
нощувки в разглеждания курорт за 2004 г.”. Установените резултати са дадени в
Табл. 3.

а) Извършете групировка като определите ширините на интервалите по формулата


на Стърджес;

б) Определете кумулативните честоти в съответните групи.

Табл. 3 Средномес. разход за нощувки на турист в Х през 2004 г. в лв.

25.7 19.9 14.0 9.5 27.7 47.0 114 16.0 13.0 73.0 51.1 32.0 59.3
80.5 46.0 68.6 63.5 72.0 81.1 71.0 53.2 76.6 91.0 85.0 59.3 44.6
64.5 34.0 57.5 55.1 48.5 41.0 65.0 68.2 48.1 48.1 66.8 18.0 59.3
59.1 23.0 48.8 53.0 74.7 64.5 45.9 78.4 45.0 58.0 54.2 47.0 60.2
54.6 27.4 70.6 35.0 26.7 51.0 48.4 42.6 62.0 56.5 28.0 34.4 51.7
67.3 51.0 44.1 44.0 68.0 31.0 56.1 47.3 64.6 67.5 44.0 34.3 61.8
51.6 85.0 57.0 47.0 83.6 65.2 37.0 40.2 43.4 56.7 69.0 51.6 25.9
12.0 49.7 51.6 57.1 29.8 67.0 59.6 48.9 27.3 33.1 40.4 37.8 17.7
13.5 63.3 56.2 21.7 64.8 64.7 55.2 13.9 70.8 77.4 73.9 35.8 42.6
44.9 36.5 61.5 45.5 52.7 22.6 74.7 58.3 32.9

ГЛАВА 2. НАЧИНИ ЗА ПРЕДСТАВЯНЕ НА ИНФОРМАЦИЯТА ОТ


НАБЛЮДЕНИЕТО

Във всеки миг около нас тече информация, но не всяка информация сме готови да
уловим, анализираме и превърнем в практически полезно за нас знание.
След усвояването на информацията от тази глава Вие ще можете:

• Да систематизирате статистическа информация в статистически таблици и


редове.
• Да построявате графични изображения разкриващи структурата на
разглежданите явления.
• Да представяте емпиричното разпределение на единиците от съвкупността
чрез полигон, хистограма, кумулата или огива.
• Да изобразявате графично зависимостта между наблюдаваните явления.
• Да визуализирате динамиката и цикличността на процесите.
• Да използвате логаритмична скала.

Въведение. Събраната информация от статистическото наблюдение е огромна по


обем. За да я анализираме трябва да я представим в по-компактен вид. В тази глава
ще разгледаме начини за систематизирането й. Поради големия обем литература,
който дискутира тази тема ще се спрем само на по-често използваните средства.
2.1. КРЪСТОСАНИ ТАБЛИЦИ И СТАТИСТИЧЕСКИ РЕДОВЕ
Всички данни могат да бъдат изложени в текстова форма, но в този вид се
затруднява анализирането им. Статистическите таблици и редове са по-нагледни,
по-лесни за четене и интуитивно анализиране на данните. Те съдържат по-важната
за нас информация в по-лаконична форма. Предоставят възможност за бързо и
първично анализиране на данните. При статистическите таблици и редове,
задължителен елемент е заглавието. То трябва да съдържа кратко и точно
описание на статистическите единици, признака, който се изследва, времето и
мястото на измерването. В него може да бъде упомената и използваната мярка.
Когато изследваната съвкупност не е голяма и е необходимо да се запази
индивидуалното значение на признака измерено при всяка единица поотделно,
можем не извършваме групировка, а да работим непосредствено с редицата от
данни получена след наблюдението. Най-непосредствената обработка на тези
данни се състои в подреждането им по големина. Така получаваме ранжирания ред
от данни.
Статистическите редове се получават в резултат от статистическата групировка по
един признак. Представляват систематизирано представяне на информацията за
броя на статистическите единици в отделните групи по разглеждания признак. На
първия ред се записват значенията на признака обособили групите, а на втория -
броевете статистически единици, попадащи в съответните групи (т.е. абсолютните
честоти), процентното съдържание или частите от единицата (т.е. относителните
честоти, дялове). Вида на честотите (абсолютни или относителни) обикновено се
споменава в заглавието.
В зависимост от това дали или не групировката е по време статистическите редове
се делят на статични и динамични. Първите се наричат още - редове на
разпределение. В зависимост от вида на признака, по който е извършено
групировката статичните редове биват: вариационни, категорийни и териториални.
Когато вариационният ред изразява разпределение по дискретен метриран
признак, чиито групи са образувани само по едно значение на признака, говорим
за степенен ред. Ако значенията на признака са много и групите, по които е
извършена групировката са обособени като интервали, вариационният ред на
разпределение се нарича интервален. Определянето на ширината на интервалите
беше коментирано в предния параграф.
Да се спрем по-подробно на вариационните редове на разпределение. При
групировка по дискретен метриран признак и по-точно при степенен ред, класов
представител ще наричаме това значение на признака, което определя съответната
група. При групировка по непрекъснат метриран признак, това са средите на
интервалите.
Ако значенията на признака, по които е извършена групировката са описани като
ограничени само от едната страна интервали, т.е. групите са описани като “до …”,
казваме че редът е от абсолютни или относителни прогресивно - кумулативни
честоти. Аналогично, ако е използвано “над …”, говорим за регресивно -
кумулативни честоти.
При динамичните редове на първия ред се записват моментите или периодите от
време и съответно говорим за моментни или периодни динамични редове. На
втория ред отбелязваме обема, средната величина или относителния дял на
изследваното явление през съответния момент или период от време. В зависимост
от това дали данните в реда съдържат или не тенденция на развитие имаме
нестационарни и стационарни динамични редове.
Местата на колоните и редовете могат да бъдат сменени.
За разлика от статистическите редове, статистическите таблици са няколко вида.
По-важните от тях са таблиците с изходни за изследването данни, които се
попълват преди групировката и кръстосаните таблици, които се попълват след
групировката. Всяка таблица има два вида елементи: формални и логически.
Формалните описват съдържанието на таблицата. Към тях се отнасят: заглавието,
антетката и челният ред. При пресичането на колоните и редовете се получават
клетките на таблицата. Числовите характеристики, които се съдържат в тях (като
изключим формалните клетки) се наричат логически елементи. Други логически
елементи на таблицата са статистическия субект и статистическия предикат.
Статистическият субект, това е териториалната единица, съвкупността, групата, за
която се отнася таблицата. Статистическият предикат това са признаците, с които
се описва статистическия субект в тази таблица.
Кръстосаните таблици представляват систематизирано представяне на резултатите
от групировката. Те характеризират съвместното разпределение на единиците от
съвкупността по повече от един признак. Предоставят възможност за комбиниране
и сравняване на данните.
Освен заглавие статистическите таблици съдържат заглавен ред(ове) - антетка и
челна колона. В заглавната колона се нанасят значенията на основния
групировачен признак, за който се извършва изследването, а в заглавният ред(ове)
значенията на останалите групировачни признаци. В клетките получени при
кръстосването на съответните редове и колони се нанасят абсолютните или
относителните честоти в съответните групи или различни коефициенти на
зависимост.
Ако някой от признаците е време говорим за динамични таблици, в другия случай
таблиците се наричат статични.
По-важните правила и изисквания при построяването на статистически таблици са
следните при Гатев, К. Въведение в общата теория на статистиката. София, 1980,
стр. 91:
1. Те трябва да съдържат само необходимите данни за целта, за които се съставя;
2. Статистическата таблица не трябва да има много големи размери;
3. Надписите в челния ред и челната колона не бива да повтарят информация,
която се съдържа в заглавието;
4. Ако в дадена колона с числа от един и същи вид има десетични дробни числа,
всички числа в колоната трябва да имат еднакъв брой знаци след десетичната
точка, като при закръгляне трябва да се спазват съответните правила;
5. Когато в дадена колона са дадени всички части и техния сбор, сборът се пише
след частите. Ако са дадени само цялото и някои избрани негови части, частите се
пишат след общата величина, като се използва израза “в това число”, написан след
наименованието на цялото.
При попълване на клетките в таблиците в практиката са се утвърдили следните
условни знаци:
х - не е уместно да има число в тази клетка;
? - верността на числото е поставена под съмнение;
… - липсват данни за съдържанието на тази клетка, но могат да се установят и да
се попълнят;
. – няма и не е възможно да се получат данни за съдържанието на тази клетка,
Гатев, К. Въведение в общата теория на статистиката. София, 1980.
При номериране на колоните, с цел пренасяне на таблицата на няколко страници,
формалните колони се номерират с букви, а логическите с цифри.
Да отбележим, че кръстосаните таблици се различават от таблиците с изходни
данни. Първите се построяват след групировката, а вторите преди нея.

ЗА САМОПОДГОТОВКА
Въпроси към темата
Представете си, че сте застрахователен агент и трябва да направите отчет на
извършените от вас застраховки през 2004 г. Какъв по вид статистически ред ще
получите след групировката по признаците: вид на застраховката,
продължителност, застрахователна сума, пол и възраст на навършени години на
застрахованото лице.
Изследвате инфлацията в страната през последните 20 години. Какъв
статистически ред ще построите, ако разполагате с данни за индекса на
инфлацията (виж Петров, В., Тодоров, Т. Основи на статистиката. В. Търново,
2000, стр. 403) за този период по месеци?

Литература
1. Гатев, К. Въведение в общата теория на статистиката. София, 1980.
2. Петков, П. Статистика. Варна, 2001.
3. Петров, В., Тодоров, Т. Основи на статистиката. В. Търново, 2000.
Казуси:
Направете план и програма на статистическо наблюдение, характеризиращо
финансовото състояние на строителните фирми в гр. Шумен. За целта използвайте
признаци като: краткотрайни активи, дълготрайни активи, собствен капитал,
заемен капитал, парични средства, краткосрочни вземания и краткосрочни заеми
(виж 3, стр.521-526) и др. Представете си, че сте извършили наблюдението и
използвайте избрани от вас данни. Постройте ранжиран, вариационен и
прогресивно-кумулативен ред на разпределение по разглежданите признаци, като
използвате първо - абсолютните, а след това и относителни честоти на
разпределение на единиците по разглежданите признаци. Определете ширината на
интервалите по формулата на Стъджерс. Визуализирайте резултатите от
статистическото наблюдение с подходящи статистически графични изображения.
Определете класовите представители. Направете статистически анализ. Приложете
съответните статистически методи, които той изисква.

Примерни ситуации и решения


Пример 1: Като използвате данните от Error! Reference source not found. постройте
интервални вариационни редове на разпределение на фирмите, съдържащи
абсолютните и относителните честоти по признака “брутна печалба”. Определете
класовите представители.
Брутната печалба се получава като от постъпленията от продажбите извадим
сумата на разходите за производство и продажба на продукцията.
Табл. 1
Кл.
(fi \ 360 fi \
Брутна печалба в х.лв. fi fi \ n
n)100% n
предст.

Над 13.5000 до 22.5625 7 0.0476 4.76 17.136 18.0313


Над 22.5625 до 31.625 11 0.0748 7.48 26.928 27.0938

Над 31.6250 до 40.6875 14 0.0952 9.52 34.272 36.1563

Над 40.6875 до 49.75 21 0.1429 14.29 51.336 45.2188

Над 49.7500 до 58.8125 23 0.1566 15.66 56.376 54.2813

Над 58.8125 до 67.875 32 0.2177 21.77 78.372 63.3438

Над 67.8750 до 76.9375 27 0.1837 18.37 66.132 72.4063

Над 76.9375 до 86 12 0.0816 8.16 29.376 81.4688

Общо: 147 ≈ 1 ≈ 100.00 ≈ 360 x


Решение: В Тема 1.2 е определена ширината на интервалите. След групировката е
получен реда на разпределение състоящ се от първите две колони на Табл. 1.
Както се вижда при сравняването на тези два примера, абсолютните честоти fi
съвпадат с броя фирми в съответната група. За да получим относителните честоти,
разделяме този брой на общия брой наблюдения. Получаваме третата колона от
Табл. 1. Да отбележим, че сумата в тази колона винаги трябва да е 1. Умножаваме
числата от третата колона по 100 и получаваме относителните честоти в проценти.
Класовите представители определяме като среди на интервалите, спрямо които
сме извършили групировката, т.е. получаваме последната колона от Табл. 1.

ГЛАВА 2. НАЧИНИ ЗА ПРЕДСТАВЯНЕ НА ИНФОРМАЦИЯТА ОТ


НАБЛЮДЕНИЕТО
2.2. СТАТИСТИЧЕСКИ ГРАФИЧНИ ИЗОБРАЖЕНИЯ

Статистическите данни съдържат информация за изследвания обект или явление,


които не могат да се видят непосредствено. Графичните изображения се използват
с цел по-лесно възприемане, съпоставяне и анализиране на резултатите от
наблюдението, както и по-широка достъпност и бързина при определяне
тенденциите, пропорциите, зависимостите или числовите характеристики на
разпределенията. Те съдържат задължително заглавие, графичен образ, скала
(мащаб) или легенда.
Скалите могат да бъдат различни по отделните оси. Могат да бъдат и прекъсвани.
Според равномерността на интервалите по-важните видове скали са
аритметичните и логаритмичните. Скалите от първия вид са по-популярни. Те
съдържат равни по размер отсечки. При логаритмичните скали дължината на
интервалите нараства или намалява в зависимост от това дали основата на
логаритъма е по-голяма или по-малка от единица. Например: ако разгледаме
логаритмична скала с основа 2, на мястото на 0 от аритметичната скала ще стои 1
т.к. 0 = log2 1, на мястото на 1 от аритметичната скала ще стои 2 т.к. 1 = log2 2, на
мястото на 2 ще стои 4 т.к. 2 = log2 4, на мястото на 3 ще стои 8 т.к. 3 = log2 8 и
т.н., т.е. по тази скала отсечките между 1 и 2, 2 и 4, 4 и 8 и т.н. 2 к и 2 к+1 ще са
равни.
Мащабът показва колко единици от изследваното явление съответстват на единица
мярка от графичното изображение.
Легендата описва логическото съдържание на използваните условни знаци.
Според закономерността, която разкриват статистическите графични изображения
се разделят най-общо на: статистически графични изображения на
разпределението на единиците на съвкупностите по един или повече признаци,
статистически графични изображения за сравняване, статистически графични
изображения на структурата на разглежданата съвкупност или явление, на
динамиката, на зависимостта между наблюдаваните явления, на териториалното
различие и др.
Според вида на графичния образ различаваме линейни диаграми, плоскостни
диаграми, стериограми, картограми, картодиаграми и др.
При графичното представяне на емпиричното разпределение на единиците от
съвкупността по дадени един или няколко вариационни признака обикновено се
използват полигон и хистограма на абсолютните и относителните честоти на
разпределение или графика на емпиричната функция на разпределение.
Полигон на разпределение се нарича многоъгълникът получен при свързване на
точките с координати (Х1, 0), (Х1, f1), (Х2, f2), …, (Хk, fk), (Хk, 0), и (Х1, 0),
където Хi е класовия представител, а fi е честотата в i-тата група.
Понякога полигонът се дефинира като линейна диаграма, получена при
свързването на горните точки с изключение на първата и последните две.
Основното преимущество на полигона е, че можем на същата координатна система
да начертаем и съответния теоретичен аналог на даденото емпирично
разпределение, както и полигоните на разпределение на други съвкупности по
същия признак и да ги сравним. Ако има много големи различия в честотите в тези
съвкупности, трябва да преминем към относителни числа, за да получим по-
красива графика.
Кумулатата е полигон на разпределение построен по прогресивно или регресивно-
кумулативните честоти.
Огивата се получава от кумулатата като се сменят местата на абсцисната и
ординатната оси.
Хистограма на разпределение се нарича многоъгълникът получен при свързване на
точките с координати (Y1, 0), (Y1, f1), (Y2, f1) (Y2, f2), (Y3, f2), …, (Yk, fk), (Yk+1,
fk), (Yk+1, 0) и (Y1, 0), където Yi е долния край на i-тия интервал, а fi е честотата в
i-тата група.
Тя е подходяща при работа с интервални статистически редове.
Емпирична функция на разпределение наричане функцията

(1)
където Xi е измерената стойност на разглеждания признак при i-тата
статистическа единица, n е броя на наблюденията, а

Да отбележим, че числителят във формула (1) e точно броя на наблюденията със


стойност по-малка от х.
Според горната дефиниция емпиричната функция на разпределение е
ненамаляваща. Тя е нула, когато х Î (-¥ , min(X1,…,Xn)] и единица за х Î (max(X1,
…,Xn), ¥ ). Когато хÎ (min(X1,…,Xn), max(X1,…,Xn)] съвпада с хистограмата на
относителните, прогресивно – кумулативни честоти на разпределение на
единиците от съвкупността, построена по съответния степенен ред. Когато търсим
емпирична функция на разпределение по данни от интервален ред не можем да
използваме (1). В този случай работим със следната приблизителна формула

(2)
където Yi са левите краища на интервалите, а к е броя на групите.
Виж трите примера след тази тема.
За сравняване на две и повече еднородни статистически величини обикновено се
използват плосткостни диаграми. Това са графични изображения във вид на
правоъгълници, триъгълници, кръгове и др. Основното правило при тяхното
построяване е:
Отношението на лицата на получените фигури да е равно на отношението на
сравняваните величини.
Често заедно със сравняването на обема се представя и структурата на
съвкупностите. За целта фигурите от плосткостната диаграма се разделят на
сектори, оцветени в различен цвят. Всеки сектор представя дела на съответната
подсъвкупност. Правилото при определянето, големината на секторите е:
Отношението на броя на статистическите единици в подсъвкупността и обема на
съвкупността да е равно на отношението на лицето на съответния сектор и лицето
на цялата фигура.
Ако структурната диаграма е кръгова на 100% съответстват 360° . Това значи, че
на 1% съответстват 3,6° .
Когато е необходимо да се представи диференциацията или концентрацията на
единиците на съвкупността по даден признак, се използва кривата на Лоренц -
Lorenz, M. O. Methods of measuring the Concentration of Wealth. - Journal of the
American Statistical Association. Vol.70, 1995. В първи квадрант на координатна
система се нанася ъглополовяща, която изобразява линията на равномерността. По
двете координатни оси, в определен мащаб се нанасят числата от 0 до 100 в %-ти.
За да обясним нейния смисъл да разгледаме един пример. Разглеждаме
населението на България по “годишен доход на глава от населението” през 2003г.
Разполагаме с прогресивно-кумулативен ред на разпределение с относителни
честоти. Определяме какъв процент от общия доход на населението за 2003 г.
представлява дохода на населението, който е по-малък от горната граница на всяка
група. Така за всяка група имаме по две относителни честоти. Чертаем начупена
линия свързваща точките с тези две координати. Колкото нашата линия е по-
отдалечена от линията на неравномерността, толкова по-неравномерно е
разпределението на доходите на населението.
Пример за изгладена крива на концентрацията на доходите на населението за
1990г и 2003г е дадена на Фиг. 1.
Фиг. 1
За представянето на динамиката на изследваното явление най-популярна е
линейната, а за цикличността – радиалната диаграма.
При линейната диаграма по абсцисната ос се нанасят моментите или периодите от
време, а по ординатната – членовете на динамичния ред.
Сега да си представим, че разглеждаме динамичен ред с равноотдалечени
интервали от време. Ако относителните изменения между съседните му членове са
еднакви и приблизително равни на а и по ординатната ос използваме
логаритмична скала с основа на логаритъма а, линейната диаграма е близка до
права.
Радиалната диаграма има толкова ординатни оси, колкото са моментите или
периодите включени в един цикъл на изследваното явление. Те започват от
центъра на кръг и са равноотдалечени. Скалата с мерките за обема на явлението се
нанася по един от лъчите. Значенията на величините се нанасят по съответните за
момента или периода лъчи. Ако искаме да представим сезонни колебания,
радиусите – ординати ще са 12. Можем да направим радиална диаграма на
индексите на сезонните колебания в проценти. Ако върху радиалната диаграма
начертаем един по-ярък кръг идентифициращ 100%, тогава отклоненията от този
кръг характеризират сезонните колебания в проценти. Виж Пример 2 след тази
тема.
Остана да разгледаме корелационното поле. От неговия графичен образ можем да
определим какви са силата и формата на зависимостта между два метрирани
признака. Прилага се при негрупирани данни. На всяка статистическа единица
съответства точка с координати съответните измерени значения на наблюдаваните
признаци. По аналогичен начин при групирани данни се построяват стереограми.
По-подробно описание може да бъде намерено в Гатев, К. Въведение в общата
теория на статистиката. София, 1980 и Петков, П. Статистика. Варна, 2001.

ЗА САМОПОДГОТОВКА
Въпроси към темата
В кои случаи е удачно да изберем логаритмична скала за представяне на данните?
Какви статистически графични изображения за представяне на разпределението на
единиците от съвкупността познавате? А какви за представяне на структурата на
съвкупността?
Кога се използва радиална диаграма?

Литература
1. Lorenz, M. O. Methods of measuring the Concentration of Wealth. - Journal of the
American Statistical Association. Vol.70, 1995.
2. Гатев, К. Въведение в общата теория на статистиката. София, 1980.
3. Петков, П. Статистика. Варна, 2001.
Примерни ситуации и решения
Пример 1: Като използвате данните от Error! Reference source not found.
а) Начертайте кръгова диаграма, разкриваща структурата на наблюдаваната
съвкупност по признака “брутна печалба”;
б) Постройте полигон и хистограма на абсолютните честоти на разпределението на
фирмите според тяхната брутна печалба;
в) Постройте графиката на емпиричната функция на разпределение на фирмите
според тяхната брутна печалба.
Решение: а) За да начертаем кръгова диаграма от Фиг. 2, трябва да пресметнем
колко градуса от централния ъгъл ще съответстват на всяка група поотделно. На
100% съответстват 360° , значи на 1% ще съответстват 3,6° . Умножаваме числата
от третата колонка наТабл. 1 по 3.6 и получаваме съответните ъгли. Може да ги
видите в предпоследната й колона.
Фиг. 2 Разпределение на фирмите по признака "брутна печалба през 2004 г".

б) Полигонът и хистограмата на разпределението на фирмите според тяхната


брутна печалба по абсолютни честоти може да видите на Фиг. 3 и Фиг. 4.
Фиг. 3 Полигон на разпределение на фирмите по признака "брутна печалба през
2004 г".

Фиг. 4 Хистограма на разпределение на фирмите по признака "брутна печалба


през 2004 г."
в) От формула (2) се вижда, че графиката на емпиричната
Фиг. 5 Емпирична функция на разпределение на фирмите по "брутна печалба през
2004 г".

функция на разпределение има скокове в краищата на интервалите и те са с размер


колкото са относителните кумулативни честоти. Получават се като разделим
абсолютните кумулативни честоти на броя на наблюденията, в случая на 147.
Получаваме Фиг. 5.
Пример 2: В Табл. 2 са разположени данните за хилядите броя туристи посетили
курортен комплекс Х през 2003 и 2004 г. по месеци.
Табл. 2
Год.\мес. I II III IV V VI VII VIII IX X XI XII

2003 2 4 8 16 32 64 128 64 32 16 8 4

2004 3 6 9 18 27 90 243 81 54 24 9 4
а) Характеризирайте динамиката на посещенията като начертаете линейни
диаграми на данните с аритметична и логаритмична скали.
б) Характеризирайте сезонността в наблюдаваното явление като начертаете
радиална диаграма.
Решение:
а) Линейната диаграма на данните с аритметична скала (Фиг. 6) показва силно
изразена сезонност.
Линейната диаграма на същите данни, но с логаритмична скала по ординатната ос
(Фиг. 7) показва сравнително постоянен темп на изменение.
б) Радиалната диаграма (Фиг. 8) е с 12 сектора, т.к. периодичността на
изследваното явление е от сезонен тип.
Фиг. 6 Посещения на туристите в курортен комплекс Х през 2003 и 2004 г. по
месеци.
Фиг. 7 Посещения на туристите в курортен комплекс Х през 2003 и 2004 г. по
месеци.

Фиг. 8 Посещения на туристи в курортен комплекс Х през 2003 и 2004 г. по


месеци

Пример 3: С цел изучаване зависимостта между производителността на труда на


работниците (ПТ) и средната работната заплата (СРЗ) във фирмата, в която
работят е направено статистическо наблюдение в 14 фирми произвеждащи
еднородна продукция. Резултатите са разположени в Табл. 3. По тези данни
начертайте корелационно поле и чрез него характеризирайте силата и формата на
зависимостта между двата разглеждани признака.
Табл. 3
Фирма 1 2 3 4 5 6 7 8 9 10 11 12 13 14

СРЗ в 220’ 250’ 300’ 310’ 280’ 330’ 350’ 400’ 270’ 420’ 370’ 350’ 330’ 310’
лв.

ПТ 4 6 7 8 7 9 9 10 6 8 9 8 7 6
изд/ч.

Решение: Чертаем последователно точки чиито първи координати вземаме от


втория ред наТабл. 3, а вторите координати от третия ред на същата таблица.
Получаваме Фиг. 9.
Фиг. 9 Корелационно поле на зависимостта между РЗ и ПТ
Точките от корелационното поле са силно концентрирани около възходяща права,
ето защо можем да заключим, че между наблюдаваните признаци има силна,
праволинейна, правопропорционална зависимост.

Задачи за упражнение
Задача 1: Като използвате данните от Error! Reference source not found.
а) Постройте ранжирания ред на изходните данни;
б) Постройте полигон и хистограма на относителните честоти на разпределението
на фирмите според тяхната брутна печалба.
Задача 2: Като използвате данните от Error! Reference source not found.
а) Постройте ранжирания ред на изходните данни;
б) Постройте полигон и хистограма на относителните често-ти на разпределението
на туристите според техния средномесечен разход за нощувки в курортен
комплекс Х през 2004 г.
в) Постройте интервален вариационен ред на разпределе-нието на туристите,
съдържащ абсолютните и с относителните честоти по признака “Средномесечен
разход за нощувки в курортен комплекс Х през 2004 г.” и определете класовите
представители;
г) Начертайте кръгова диаграма, разкриваща структурата на наблюдаваната
съвкупност по признака “Средномесечен разход за нощувки в курортен комплекс
Х през 2004 г. в лв.”;
д) Постройте полигон и хистограма на абсолютните честоти на разпределението на
туристите според техния средномесечен разход за нощувки в Х през 2004 г.;
е) Постройте графиката на емпиричната функция на разпределение на туристите
според техния средномесечен разход за нощувки в курортен комплекс Х през 2004
г.

ГЛАВА 3. СТАТИСТИЧЕСКИ ВЕЛИЧИНИ

След усвояването на информацията от тази глава Вие ще можете:

• Да елиминирате случайните колебания и да описвате най-типичното за


съвкупностите.
• Да характеризирате отношенията, в които се намират подсъвкупностите.
• Да осъзнаете смисъла на средните величини.
• Да разберете защо по-точно се работи с не групирани данни.

Въведение. Статистически величини се получават във всеки етап от


статистическото изследване. Те служат за описание на наблюдаваните признаци,
за характеризиране на единиците от изучаваната съвкупност. Помагат ни да
преценим шанса за сбъдване на дадено събитие и да оценим зависимостите между
явленията. Тъй като те са азбуката на статистиката, от съществено значение е
доброто им познаване.

3.1. СЪЩНОСТ
Статистически величини са количествени измерители на характеристиките на
разпределението на единиците от разглежданата съвкупност, на зависимостите
между наблюдаваните признаци или развитието във времето и пространството на
масовите явления и процеси. С тяхна помощ могат да се проверяват хипотези, да
се оформят прогнози или да се моделират зависимости. Получават се след
отброяване на единици от съвкупността или чрез използване на определени
формули. В зависимост от това дали се пресмятат от групирани или от не
групирани данни формулите се разделят на претеглени и непретеглени.
Претеглените формули са приблизителни и за това ще ги означаваме с точка върху
съответния символ. Това се дължи на факта, че при групирането се губи част от
статистическата информация.
В зависимост от мярката си статистическите величини биват наименовани и
ненаименовани. Наименованите величини изразяват размера на съответната
характеристика в мерни единици например: лев, брой, метър, литър, килограм,
човекочас, kWh и др. Ненаименованите изразяват обикновено относителен дял или
относително изменение в изследваното явление. Според базата си за сравнение те
се подразделят на:

• коефициенти, темпове на развитие и относителни дялове – изискват


специално описание на базата за сравнение;
• индекси – базата им за сравнение е 1.
• проценти (%) – базата им за сравнение е 100;
• промили – базата им за сравнение е 1000;
• продецимили – базата им за сравнение е 10 000;
• пунктове – представляват разликата между отделните проценти при
изучаване динамиката на едно явление или изменението на структурата на
съвкупността по даден признак във времето.

Ненаименованите величини са относителни числа, които представляват


измерители за различието във времето и пространството между измерените
резултати и влиянията на отделните фактори върху тези различия. Състоят се от
делимо – компонента, за която се установяват измененията и делител – такава
спрямо, която се измерват измененията. Полученото частно умножаваме по
единицата на базата, която сме избрали. Самото частно се нарича индексно
отношение.
Ще се спрем по-подробно на индексите. С останалите относителни величини се
работи по аналогичен начин. При разглеждане на явлението в статика, индексите
показват колко единици от величината в числителя се падат на една единица от
величината в знаменателя. Когато индекса характеризира явлението в динамика,
величината за периода, който определяме като индексиран, се пише в числител, а
тази за периода, който определяме като базисен – в знаменател.
Според това дали се измерват относителни различия за единични или за сложни
явления различаваме единични и множествени индекси. Последните се разглеждат
в Глава 13.

ЗА САМОПОДГОТОВКА
Въпроси към темата
Колко са а% от d лв.?
Колко процента от r лв. са h лв.?
Ако имаме нарастване на обема на дадено явление от g% на f% с колко пункта е
нараснал обема на това явление?
Ако имаме нарастване на обема на дадено явление от g% на f% с колко процента е
нараснал обема на това явление?

ГЛАВА 3. СТАТИСТИЧЕСКИ ВЕЛИЧИНИ


3.2. АБСОЛЮТНИ И ОТНОСИТЕЛНИ СТАТИСТИЧЕСКИ ВЕЛИЧИНИ
Първоначалното представяне на статистическите данни става чрез абсолютни
величини. Те се получават в резултат от статистическото наблюдение и
групировка, чрез отброяване т.е. не се използват никакви аритметични операции
(освен ако целим улесняване на преброяването). Това са наименовани числови
характеристики, които носят мярката на признака (явлението), за който се отнасят.
Чрез тях могат да се направят само статистически отчети. Ето защо те служат само
като изходни данни за статистическото изследване.
Относителните величини представляват отношение на сравняваната величина –
наречена още индексирана величина, и величината спрямо, която се сравнява,
наречена - базисна. От тук произлиза и тяхното наименование. Тези величини
трябва да са реално-съпоставими.
При сравняване на две едноименни величини, т.е. измерени в една и съща мярка,
отношението е ненаименована величина. Ако числителят и знаменателят са
разноименни, частното е наименована величина, чиято мярка е отношението на
двете мерки.
Според познавателното им значение различаваме относителни величини на:
структурата, динамиката, интензивността, екстензивността и териториалните
различия.
Относителните величини на структурата или както се наричат още –
относителните дялове са ненаименовани величини. Характеризират частите на
статистическата съвкупност по значенията на даден признак. За определянето им е
необходимо да знаем емпиричното разпределение на единиците по признака,
който формира подсъвкупностите.
Относителните величини на структурата биват разчленителни и съотносителни.
Първите показват каква част представлява дадена подсъвкупност от цялата
съвкупност и се определят по формулата:

където
ni - брой статистически единици в i – тата подсъвкупност,
n - обем на разглежданата съвкупност.
Съотносителните величини показват колко пъти една подсъвкупност е по-голяма
или по-малка в сравнение с друга подсъвкупност образувана от единиците
притежаващи друго значение на същия признак. Пресмятат се чрез отношението
Когато разчленяването е по повече от един признак говорим за вътрешногрупова и
междугрупова структура.
Ако се съпоставят структурите на една и съща съвкупност за няколко
последователни периода е възможно да се установят структурните изменения,
тяхното направление и тенденции. Те се изразяват обикновено в пунктове.
За характеризиране на скоростта на изменение на дадена, величина или явление
във времето се използват относителни величини на динамиката. Това са
ненаименовани величини, които обикновено се записват като индекси. При
изчисляването им се включват два момента или периода от време. Пресмятат се
като разделим величината през индексирания период на величината през базисния.
Когато се разглеждат два или повече динамични индекси в зависимост от базата за
сравнение имаме индекси с постоянна и променлива база. При първите базисния
период за различните индекси е един и същ, а при вторите се променя и той е
предходен на индексирания период.
При съпоставянето на две съвкупности, като едната съвкупност, която ще
наричаме явление, се получава в резултат от някакво събитие свързано с
единиците на другата съвкупност – среда, е удобно да използваме относителните
величини на интензивността. Това са наименовани числови характеристики, които
показват с каква интензивност се случва явлението при единиците от съвкупността
среда. В зависимост от това дали явлението може или не може да се случи при
всички единици от съвкупността среда към разглеждания период, различаваме
брутни и нетни относителни величини на интензивност. Ако съвкупността среда е
разделена на подсъвкупности по даден признак на единиците в нея и пресметнем
относителните величини на интензивността за тези подсъвкупности говорим за
частни относителни величини, а в противния случай за общи.
Екстензивните относителни величини показват колко единици от една съвкупност
се падат на една (сто, 1000, … ) единици от друга разнородна на първата
съвкупност, но свързана с нея в логическа връзка. Това са именовани числови
характеристики. Образуват се като разделим обема на първата съвкупност на
обема на втората. Такива величини са БВП на едно лице от носелението,
националния доход на лице от населението, брой лекари на 1000 човека от
населението, разходите за обръщение на единица стокооборот и др. Напишете като
отношение на кои величини се получават те.
Различията по място на едноименни величини за един и същ период се измерват с
относителните величини на териториални сравнения. Това са ненаименовани
числови характеристики. Показват каква част представлява абсолютната или
производна величина за индексирания район (чиято стойност се пише в числителя)
от същата величина за базисния район. Често пъти, за да се осигури възможност за
сравняване на териториалните индекси, се разглеждат величините например на
квадратен метър или на една статистическа единица за съответните териториални
поделения и вместо величина за базисния район в знаменателя се поставя средния
размер на съответния показател общо за целия район.

ЗА САМОПОДГОТОВКА
Въпроси към темата
Какви величини трябва да се пресметнат ако искаме да сравним стокооборота на
глава от населението в различните области на България?
Какви величини трябва да се пресметнат ако искаме да сравним средния доход на
глава от населението в различните области на България?
Какви величини трябва да се пресметнат ако искаме да сравним средната работна
заплата в различните области на България?
За да се сравни икономическото развитие на отделните страни се използва БВП на
глава от населението. Каква величина е това и как се пресмята?
По какво се различават относителните величини на интензивност и тези на
екстензивност?
Дайте примери на относителни величини от всеки от посочените видове.

Литература
1. Петров, В., Тодоров, Т. Основи на статистиката. В.Търново, 2000.
Казуси:
От http://www.nsi.bg вземете данни и характеризирайте структурите на брутния
вътрешен продукт, брутния национален продукт и чистия национален продукт
през 2003 г.
Забележка: За дефиниция на понятията брутен вътрешен продукт, брутен
национален продукт и чист национален продукт виж Петров, В., Тодоров, Т.
Основи на статистиката. В. Търново, 2000, стр. 410.

ГЛАВА 3. СТАТИСТИЧЕСКИ ВЕЛИЧИНИ


3.3. СРЕДНИ ВЕЛИЧИНИ
Средните величини описват най-типичното, закономерното за статистическата
съвкупност. Използват се при определяне на разпределението на значенията на
признака измерени при статистическите единици. Пресмятат се само за метрирани
признаци. Те са именовани числови характеристики, които имат същата мярка
както и осредняваните величини. Характеризират струпването на единиците около
едно значение на признака или средата на ранжирания ред от наблюдения.
Степента на вариране около средните величини се изразява с измерителите за
разсейване. Формата на разпределението на статистическите единици в
съвкупността се характеризира с коефициентите на асиметрия и ексцес, които ще
разгледаме в Глава 4.
В зависимост от това дали всички значения на признака измерени при отделните
статистически единици участват или не при определянето на средната величина
имаме съответно: алгебрични и неалгебрични средни.

3.3.1. Алгебрични средни величини


Общото правило при образуването им е, че ако заместим значенията на признака
измерени при отделните статистически единици със съответната средна, резултата
няма да се промени. Т.е. ако функцията, която определя средната е F(x1, …, xn),
където n е броя на статистическите единици попаднали в наблюдението ни, а xi -
осредняваните величини, то

При различните определящи функции се получават средни с различни свойства,


които са подходящи за осредняване на величини с различна природа. Ще се спрем
по-подробно на средна аритметична, средна квадратична,средна геометрична и
средна хармонична. Информация за останалите средни величини може да се
намери в Гатев, К. Въведение в общата теория на статистиката. София, 1980.

• Средна аритметична

Определящата функция е

(1)
Тъй като тук не участват честотите, т.е. тази формула се използва при работа с
негрупирани данни, тя се нарича непретеглена формула за пресмятане на средна
аритметична величина. Ако включим и честотите получаваме съответната
претеглена формула:

(2)
където
fi - е честотата в i -тата група на осреднявания признак
- e класовия представител в i - тата група,
k - броя на групите.
Да припомним, че точката означава, че това е формула за приблизително
пресмятане на съответната величина, тъй като използва значения от интервален
ред. Оценката на величината е по-точна, когато се пресмята от негрупирани данни.
Защото при групировката се предполага, че разпределението на единиците в
групите е равномерно, което не винаги е вярно.
Когато обемът на извадката е голям e в сила Закона за големите числа:
С увеличаване обема на извадката средното аритметично пресметнато по данни от
нея се приближава към средното теоретично за съвкупността, т.е. към значението,
което би имал признака при отделните статистически единици, ако върху тях не
действаха случайни фактори.
В сила са следните свойства на средната аритметична величина, които лесно се
доказват.
- Сумата от отклоненията на членовете на реда от тяхната средна аритметична е
нула, т.е.

- Ако към всеки член на реда прибавим или извадим една и съща константа или го
умножим или разделим с една и съща константа, то средната аритметична на
новия ред се получава като със средната аритметична на стария ред извършим
същата аритметична операция, т.е.

където g ( x ) е една от следните функции: g ( x ) = c x, g ( x ) = x - c, g ( x ) = x + c


или g ( x ) = x : c, а c е константа.
- Ако всички честоти от реда на разпределение ги умножим или разделим с една и
съща константа, претеглената средна аритметична не се променя.
- Ако статистическия ред на разпределение се раздели на s подгрупи и за всяка от
тях се пресметне средната аритметична , то средната аритметична на целия
ред е равна на претеглената средна аритметична на ,…., като вместо тегла
се използват честотите в подгрупите.
- Ако всички измерени значения на осреднявания признак са равни, то на тях е
равна и средната им аритметична.

• Средна квадратична

Определящата функция и непретеглената формула за средна квадратична е

Използва се при съществуването на квадратична зависимост. Например, когато се


определя средна площ на квадрати в квадратни метри, а се разполага със страните
им или когато се търси средно напречно сечение на цилиндрични тръби, а се
разполага с радиусите им.
Съответната претеглена формула е

• Средна геометрична

Определящата функция и непретеглената формула за средна геометрична е

Претеглената формула е

• Средна хармонична

Определящата функция и непретеглената формула за средна хармонична е

Използва се, когато осредняваният признак е обратно пропорционален на


осредняваните величини.
Претеглената формула е
ЗА САМОПОДГОТОВКА
Въпроси към темата
Пресметнете средния си успех от положените до сега от вас изпити. Коя формула
използвахте?

Литература
1. Гатев, К. Въведение в общата теория на статистиката. София, 1980.

Примерни ситуации и решения


Пример 1: Като използвате данните от Error! Reference source not found.
пресметнете средния размер на брутната печалба на наблюдаваните фирми.
Определете същата средна от групирани данни.
Решение:
По формула (1) определяме средната аритметична от негрупирани данни тя е
55,05442 х.лв. За да определим средната аритметична от групирани данни (2), се
нуждаем от изчисляване на числителя й. За целта построяваме четвъртата колона в
Табл. 1.
Получаваме

Табл. 1
Брутна печалба в х.лв. fi
fi
Над 13.5000 до 22.5625 7 18.0313 126.2191
Над 22.5625 до 31.625 11 27.0938 298.0318
Над 31.6250 до 40.6875 14 36.1563 506.1882
Над 40.6875 до 49.75 21 45.2188 949.5948
Над 49.7500 до 58.8125 23 54.2813 1248.4700
Над 58.8125 до 67.875 32 63.3438 2027.0020
Над 67.8750 до 76.9375 27 72.4063 1954.9700
Над 76.9375 до 86 12 81.4688 977.6256
Общо: 147 x 8088.1010

Задачи за упражнение
Задача 1: ІІ курс специалност Икономика се състои от две групи съответно по 20 и
30 човека. По дисциплината Статистика двете групи имат среден успех съответно
4 и 5. Какъв е средния успех на целия курс?
Задача 2: Фирма продава в два магазина еднакви фаянсови плочки. През месец май
в І магазин цената на един квадратен метър е 10 лв. и са продадени 1000 м2, във ІІ
магазин цената на един квадратен метър е 12лв. и са продадени 500 м2. Каква е
средната цена на квадратен метър, на която са продадени плочките в двата
магазина през месец май?
Задача 3: ІІо данните от Error! Reference source not found. пресметнете
средномесечния разход за нощувки в курортен комплекс Х през 2004 г. на
всичките 126 наблюдавани туристи. Определете същата средна от групирани
данни. Защо двете средни се различават?

3.3.2. Средни величини по данни от динамичен ред


Средните величини по данни от динамичен ред се наричат още средни
хронологични. Те са онова значение на признака, което биха имали
статистическите единици, ако през изследвания период не им действаха тенденция
на развитие, цикличност и случайни фактори. Използват се за индивидуализиране
на временния ред. Определят се по различен начин в зависимост от това дали реда
е моментен или периоден.

• При периоден ред с n равни периоди

За да получим добри резултати по формулата за средна аритметична членовете на


реда трябва да се изменят приблизително по аритметична прогресия. Ако
членовете на реда се изменят приблизително по геометрична прогресия за
осредняване се използва формулата за средна геометрична

o с n периоди с различни ширини съответно t1, …, tn

• При моментен ред на практика се минава към периоден чрез усредняване и


после се използват съответните формули за периоден ред.
o когато имаме n еднакво отдалечени моменти от време съответния
периоден ред има n-1 периода и членове

o при n различно отдалечени моменти от време на разстояние


съответно t1, …, tn-1 периодният ред има n-1 различни по
продължителност t1, …, tn-1 периода и членове
За по-подробно обяснение и примери виж Гатев, К. Въведение в общата теория на
статистиката. София, 1980, стр. 114.

ЗА САМОПОДГОТОВКА
Въпроси към темата
Какъв динамичен ред ще използвате ако искате да характеризирате следните
величини в динамика

o броя на населението в страната ни;


o добивите от пшеница на фирма Х;
o стокооборота на магазин за спортни стоки?

Литература
1. Гатев, К. Въведение в общата теория на статистиката. София, 1980.

3.3.3. Неалгебрични средни величини


При пресмятането на алгебричните средни се използват всички значения на
признака измерени при отделните статистически единици. Ако едно измерване се
различава значително от останалите, то ще предизвика голяма промяна в
стойността на средната величина и няма да е добра характеристика за типичното
за съвкупността. В такива случаи е уместно да се разгледат и неалгебричните
средни или както се наричат още - позиционни средни. Примери за такива са
медиана, квартили, мода и т.н.
Медианата е онова значение на признака, ще го означаваме с Me, за което е в сила,
че точно половината от статистическите единици имат измерена стойност по
същия признак, по-малко от Me.
Ако още не е извършена групировка, Me се намира в средата на предварително
подредения възходящо или низходящо ред от емпирични данни, получени при
измерването на значенията на признака при отделните единици.
Ако сме извършили групировка и разполагаме с интервален ред на разпределение
по метриран признак с равни ширини на интервалите, първо трябва да определим
номера на

медианния случай където N е броя на статистическите единици попаднали


в наблюдението, а с [а] сме означили най-голямото цяло число, което е по-малко
от а. Медианната група е тази, в която попада медианния случай. В нея за първи
път кумулативната честота е по-голяма от номера на медианния случай.
Самата медиана се определя по формулата:

където е долния край на медианния интервал,


- кумулативната честота в предмедианната група,
честотата в медианната група,
w - ширината на интервалите.
За разлика от средното аритметично, медианата не се влияе така силно от
измерените екстремални значения на признака.
Други средни на положение са квартилите и децилите. Те разделят статистическия
ред съответно на четири и десет равни части. Вторият квартил съвпада с петия
децил и с медианата. Тези средни са разгледани подробно в Гатев, К. Въведение в
общата теория на статистиката. София, 1980, стр. 107.
Модата е най-често срещаната средна на гъстота. Тя е онова значение на признака,
което се среща с най-голяма честота или около което има най-голямо струпване на
статистически единици.
При интервален ред се намира приблизителна стойност на модата. Първо се
определя модалния интервал. Това е интервала, в който честотата е най-голяма.
После се прилага формулата

където е долния край на модалния интервал,


- честотата в предмодалната група,
честотата в следмодалната група.
Относно графичните методи за определане на неалгебричните средни разгледай в
Гатев, К. Въведение в общата теория на статистиката. София, 1980, стр.111.
Разположението на средното аритметично, модата и медианата е обусловено от
асиметрията на разпределението. При умерено асиметрични разпределения

При симетрични разпределения . При лява асиметрия ,


респективно при дясна .

ЗА САМОПОДГОТОВКА
Въпроси към темата
Обяснете защо модата, медианата, както и средното аритметично, построени от
групирани данни, са по-неточни в сравнение с тези определени от негрупирани
данни.
Какво значи “разпределението на единиците в групите е равномерно”? Дайте
пример на равномерно разпределени единици в групите от конкретен ред на
разпределение построен по метриран признак.

Литература
1. Гатев, К. Въведение в общата теория на статистиката. София, 1980.

Примерни ситуации и решения


Пример 1: След извадково наблюдение в 100 частни земеделски стопанства (зс)
област Х са установени следните данни
Табл. 3 Размер на ДМА на 100 частни зем. ст-ва в обл. Х към 31.12.2003 г.
ДМА Зем. Междинни изчисления

в х. лв. Ci
ст-ва
До 10 5 5 25 5

над 10 до 20 15 15 225 20

над 20 до 30 45 25 1125 65

над 30 до 40 25 35 875 90

над 40 10 45 450 100

Общо: 100 x 2700 x


Пресметнете средния размер на дълготрайните материални активи (ДМА) в
наблюдаваните стопанства. Определете модата и медианата на разпределението на
стопанствата по признака размер на ДМА.
Решение:

Медианни случаи са 50-тия и 51-вия. Два на брой т.к. статистическия ред има
четен брой членове. От колонката с кумулативни честоти определяме, че
медианната група е “над 20 до 30”. Тогава медианата е

От където заключаваме, че 50 стопанства имат ДМА под 26,78 х.лв. и 50


стопанства имат ДМА над 26,78 х.лв.
Групата “над 20 до 30” е и модална защото там честотата е най-голяма. Да
пресметнем модата.

и следователно имаме умерено дясно


асиметрично разпределение. Коефициентите на асиметрия и ексцес са определени
в § 4.3.
Пример 2: Работник изразходва 10 часа на изделие. Втори изработва 6, а трети - 9.
Първият работил 10 часа, вторият - 15, а третият - 12. Намерете средно колко часа
е изразходвал един работник за производството на 1 изделие.
Решение:

Задачи за упражнение
Задача 1: По данните от Error! Reference source not found. определете Мо и Ме на
разпределението на фирмите по признака “Средна брутна печалба за 2004 г.”
Пресметнете същите характеристики и по данните от Error! Reference source not
found. На какво се дължат различията в получените резултати?
Задача 2: ІІо данните от Error! Reference source not found. определете Мо и Ме на
разпределението на туристите по признака “Средномесечен разход за нощувки в
курортен комплекс Х през 2004 г.”. Определете същите Мо и Ме от групирани
данни. Защо съответните характеристики, пресметнати по двата начина се
различават?

ГЛАВА 4. СТАТИСТИЧЕСКО РАЗСЕЙВАНЕ, АСИМЕТРИЯ, ЕКСЦЕС

Само едно число никога не е достатъчно за описване на действител-ността.


След усвояването на информацията от тази глава Вие ще знаете:

• Защо само средната величина не е достатъчна за описване на съвкупността.


• Може ли тя да се различава много от измерените значения на признака и да
не съвпада с нито едно от тях.
• Какви измерители за разсейването около средната величина се използват
обикновено.
• Как се характеризира формата на разпределението на единиците от
наблюдаваната съвкупност.
• Какво е асиметрия.
• Какво е ексцес?

Въведение. Средните величини са обобщаващи характеристики и не дават


информация за разпръстнатостта на измерените значения на признака около тях.
Вярно е, че значенията на признака са около средната аритметична, но също така е
вярно, че много от тях се различават от нея. Отклоненията се измерват с
различните измерители на вариация. Колкото вариацията е по-малка, толкова
съвкупността е по-еднородна. Ако всички значения на признака са равни
вариацията е начин е нула.

4.1. СТАТИСТИЧЕСКА ВАРИАЦИЯ. МЕТОДИ ЗА ИЗМЕРВАНЕ


Най-често използваните характеристики на разсейването са: размах на
разсейването, средноаритметично отклонение, средноквадратично отклонение,
дисперсия. Всеки измерител може да бъде определен в абсолютни числа, като
наследява мярката на признака, който характеризира или в относителни числа -
като процент от средната аритметична величина. Когато сравняваме вариации се
използва втория подход.

• Размах на разсейването

Дава представа за амплитудата на изменение на признака при отделните единици.


При определянето му участват само най-малкото и най-голямото измерено
значение на признака, за това е много груб измерител. Прилага се предимно при
степенни редове.
Абсолютният размер на размаха на разсейването се определя по формулата:
R = Xmax - Xmin
Среден размер на размаха на разсейването е наименованата величината

Относителният размер е

• Средноаритметично отклонение

Измерва степента на разсейване на отделните определения около средното


аритметично, независимо в каква посока са самите отклонения.
В абсолютни числа, в зависимост от това дали се пресмята от групирани или от
негрупирани данни имаме:
- непретеглено средноаритметично отклонение

- претеглено средноаритметично отклонение

За сравняване се използва неговия относитeлен размер

• Средноквадратично (стандартно) отклонение

Представлява осредняване на отклоненията на измерените значения на признака


при отделните единици от тяхната средна аритметична по формулата за средна
квадратична, т.е.
- при негрупирани данни стандартното отклонение се пресмята по формулата

- при групирани

Това е именована величина и нейната стойност винаги е по-малка от стойността на


средната аритметична.
Със средствата на Математическата статистика е показано, че когато се работи с
извадки по-добра оценка на стандартното отклонение на генералната съвкупност
се получава, когато от n в знаменателя извадим единица и това е най-добрия
измерител на разсейването на единиците около .
Относителната вариация изчислена от стандартното отклонение се намира от
Квадратът на стандартното отклонение се нарича дисперсия. Това е
ненаименована величина и има следните свойства:
- дисперсията на равни наблюдения е нула.
- ако към всички измерени значения на признака прибавим или извадим една и
съща константа дисперсията не се променя.
- ако всички измерени значения на признака умножим с една и съща константа
дисперсията на новата съвкупност се получава като умножим дисперсията на
старата съвкупност по квадрата на тази константа.
До сега разгледахме общата дисперсия. Тя измерва вариацията на признака в
цялата съвкупност и има n-1 степени на свобода. Ако разделим съвкупността на k
подгрупи можем да анализираме междугруповата и вътрешногруповата дисперсия.
Виж Дисперсионен анализ, Петров, В., Тодоров, Т. Основи на статистиката. В.
Търново, 2000, стр.127.
Методът на средните разлики на Корадо Джини може да бъде намерен в Петров,
В., Тодоров, Т. Основи на статистиката. В. Търново, 2000, стр. 134.

ЗА САМОПОДГОТОВКА
Въпроси към темата
Защо абсолютният размах на разсейването е твърде груба негова характеристика?

Литература
1. Петров, В., Тодоров, Т. Основи на статистиката. В. Търново, 2000.

Примерни ситуации и решения


Пример 1: По данните от Error! Reference source not found. пресметнете средния
абсолютен и относителен размер на размаха на разсейването, абсолютния и
относителен размер на средното аритметично отклонение и на стандартното
отклонение, определете дисперсията на разпределението на наблюдаваните фирми
по признака “брутна печалба”. Определете същите характеристикиот групирани
данни, т.е. Error! Reference source not found..
Решение: Първо ще използваме Error! Reference source not found. и ще определим
съответните характеристики от негрупирани данни.
Средният абсолютен размер на размаха на разсейването е

Относителният размер на размаха на разсейването е

което е един сравнително широк размах около средното, т.е. екстремалните


измерени значения значително се различават от останалите.
Абсолютният размер на средното аритметично отклонение е

Съответният относителен размер на средното аритметично отклонение е


Абсолютният размер на стандартното откланение е

Относителният размер на стандартното откланение е

Дисперсията е квадрата на абсолютния размер на стандартното отклонение и е


312,5.
Сега ще определим съответните характеристики от групирани данни.
Табл. 1
Бр. печалба в
fi
х.лв.
Над 13.50 до 7 18.03 36.9898 258.929 1368.245 9577.717
22.56
Над 22.56 до 11 27.09 27.9273 307.200 779.934 8579.275
31.63
Над 31.63 до 14 36.16 18.8648 264.107 355.881 4982.330
40.69
Над 40.69 до 21 45.22 9.8023 205.848 96.085 2017.787
49.75
Над 49.75 до 23 54.28 0.7398 17.015 0.547 12.588
58.81
Над 58.81 до 32 63.34 8.3227 266.326 69.267 2216.555
67.88
Над 67.88 до 27 72.41 17.3852 469.400 302.245 8160.620
76.94
Над 76.94до 12 81.47 26.4477 317.372 699.481 8393.770
86
Общо: 147 x x 2106.197 43940.640
Средните абсолютен и относителен размер на размаха на разсейването при
групирани данни са същите както при негрупирани данни, което е индикатор, че
добре сме подбрали интервалите, по които е извършена групировката.
От Табл. 1 определяме абсолютния размер на средното аритметично отклонение е

Съответният му относителен е
Абсолютният размер на стандартното откланение е

Относителният е

Дисперсията е квадрата на абсолютния размер на стандартното отклонение и е


298,9.
Приблизителните стойности на числовите характеристики на извадката сметнати
от групирани и негрупирани данни се дължат на сравнително равномерното
разпределение на единиците в отделните интервали, по които е извършена
групировката.

Задачи за упражнение
Задача 1: По данните от Error! Reference source not found. пресметнете абсолютния
и относителен размер на размаха на разсейването, абсолютния и относителен
размер на средното аритметично отклонение и на стандартното отклонение и
определете дисперсията на разпределението на туристите по признака
“Средномесечен разход за нощувки в курортен комплекс Х през 2004 г.”.
Пресметнете същите характеристики и от групирани данни. На какво се дължат
различията в получените резултати? Кои са по-точни и защо?

4.2. МОМЕНТИ, АСИМЕТРИЯ, ЕКСЦЕС. НОРМАЛНА КРИВА

Моментите са обобщаващи характеристики на разпределението. Биват начални и


централни. Централните се получават от началните, като на мястото на самите
величини поставим отклоненията им от средната аритметична. В названията на
моментите обикновено се споменава и степента на значенията на признака във
формулата. Освен първите, останалите моменти са ненаименовани величини. В
зависимост от вида на изходните данни началните моменти се пресмятат по
формулите:
- при негрупирани данни

- при групирани данни

S – тия централен момент ще означаваме с ms.


Първият централен момент m1 е нула. Вторият съвпада с дисперсията, т.е. m2 = s
2. Третият m3 характеризира асиметрията, а четвъртият m4 - ексцеса. Първият
начален момент съвпада със средната аритметична, т.е. M1 = .
Фиг. 1
х
0
Нормалната крива е графиката на функцията

, x Î R.
На Фиг. 1 и Фиг. 2 е начертана с плътна линия. Лицето на фигурата под
нормалната крива и над абсцисната ос е единица.
Отклоненията в хоризонтална посока от нормалната крива се наричат – асиметрия.
Илюстрирани са на Фиг. 1. Първични представи за асиметрията на
разпределението на единиците от извадката по групировачния признак
получаваме, когато начертаем полигона или хистограмата на разпределението и ги
сравним с нормалната крива. Количествено можем да я измерим чрез следните
ненаименовани величини:

• коефициент на асиметрия на Пирсън

• коефициент на асиметрия на Юл

• моментен коефициент на асиметрия

.
Различните коефициенти на асиметрия изчислени по една и съща извадка имат
различни стойности, за това при сравнителен анализ трябва да се използва един и
същ коефициент. Общото при трите коефициента е, че при симетрични
разпределения са равни на нула. Положителни са, когато имаме дясна асиметрия
(виж --- на Фиг. 1), а отрицателни при лява (виж -× × -× × - на Фиг. 1). Колкото
абсолютната стойност на коефициента на асиметрия е по-голяма, толкова по-
несиметрични са двата склона на кривата на разпределението на изследваната
съвкупност.
Отклоненията във вертикална посока от нормалната крива се наричат – ексцес
(изостреност). Първични представи за ексцеса на разпределението на единиците от
извадката по групировачния признак получаваме, когато начертаем полигона или
хистограмата на разпределението и ги сравним с нормалната крива. Моментният
коефициент на ексцес е един ненаименован количествен измерител на ексцеса и се
определя по формулата:

Тук имаме -3 за да сравняваме Е с нулата. Когато Е > 0 говорим за положителен


ексцес и изостреност над нормалната крива, при Е < 0 имаме отрицателен ексцес и
полигона и хистограмата са по-ниски от нормалната крива иначе имаме нормален
ексцес. Различните случаи са илюстрирани на Фиг. 2.
Фиг. 2

ЗА САМОПОДГОТОВКА
Въпроси към темата
Напишете претеглената и непретеглената формула за s – ти централен момент.

Примерни ситуации и решения


Пример 1: По данните от Error! Reference source not found. пресметнахме, че
средната аритметична е 27 х.лв., Me = 26,28 х.лв., Mo = 26 х.лв., намерете
средноаритметичното и средното квадратично отклонение в абсолютни и
относителни числа и пресметнете дисперсията. Определете коефициентите на
асиметрия и ексцес.
Решение:

Средноаритметичното отклонение е 7,6 х.лв. и е 28,15% от средноаритметичния


размер на ДМА.

Табл. 2 Р-р на ДМА на 100 частни зем. ст-ва в обл. Х към 31.12.2003 г.
ДМА ЗC Междинни изчисления

в х. лв. в
До 10. бр.
5 5 22 110 2420 -53240 1171280
10 ÷ 15 15 12 180 2160 -52920 311040
20
20 ÷ 45 25 2 90 180 -360 720
30
30 ÷ 25 35 8 200 1600 12800 102400
40
над 40 10 45 18 180 3240 58320 1049760
Общо: 100 x 62 760 9600 -35400 2635200

Стандартното отклонение е 9,798 х.лв. и е 36,3% от средноаритметичния размер на


ДМА. Дисперсията е 96 х.лв.
За да пресметнем асиметрията и ексцеса ни е необходимо да определим третия и
четвъртия централен момент.

• Коефициентът на асиметрия на Пирсън е

• Коефициентът на асиметрия на Юл е

• Моментният коефициент на асиметрия е

следователно имаме почти симетрично разпределение на единиците в извадката.

• Моментният коефициент на ексцес е


,
т.е. имаме по-ниска от нормалната крива.

Задачи за упражнение
Задача 1: По данните от Error! Reference source not found. определете
коефициентите на асиметрия и ексцес на разпределението на фирмите по признака
"Средна брутна печалба за 2004 г." Пресметнете същите характеристики и по
данните от Error! Reference source not found.. На какво се дължат различията в
получените резултати?
Задача 2: ІІо данните от Error! Reference source not found. определете
коефициентите на асиметрия и ексцес на разпределението на туристите по
признака "Средномесечен разход за нощувки в курортен комплекс Х през 2004 г.".
Определете същите коефициенти от групирани данни. Защо съответните
характеристики, пресметнати по двата начина, се различават?

ГЛАВА 5. ЕЛЕМЕНТИ ОТ ТЕОРИЯТА НА ВЕРОЯТНОСТИТЕ

Случайността поражда разнообразието в природата.


След усвояването на информацията от тази глава Вие ще можете:

• Да преброявате елементите на крайни множества и някои техни


подмножества.
• Да определяте броя на различните възможни изходи от даден опит, при
които се сбъдва твърдението А.
• Да намирате вероятностите на случайни събития.
• Да моделирате статистически величини с помощта на случайни величини и
да намирате техните закони на разпределение.
• Да намирате числови характеристики на случайни величини и вектори
(средни значения, моменти, дисперсии, ковариации, коефициенти на
корелации и др.).
• Да се запознаете с вероятностни разпределения намиращи непосредствено
приложение в Статистиката и Иконометрията (Поасоново, Нормално, χ2 -
разпределение, t - разпределение, F - разпределение и др.).
• Да се запознаете с основните гранични теореми, с помощта на които ще
разберете защо можем да правим статистически изводи за цялата генерална
съвкупност по наблюдения от извадки.

Въведение: Теорията на вероятностите моделира масовите явления, събития и


величини, които се използват в Статистиката и Иконометрията. В тази са дадени
основни понятия и твърдения от Теорията на вероятностите. Тези знания ще ви
послужат за основа, върху която ще изградите следващите статистически методи и
алгоритми.

5.1. ОПИТ. СЪБИТИЯ. ВЕРОЯТНОСТ


Най-общо казано, опитът е комплекс от определени условия. Най-често той е
действие. За да приложим Теорията на вероятностите ефективно е необходимо да
бъдат изяснени изключително точно и изчерпателно условията, при които се
провежда опита.
Да разгледаме няколко примери на опити.

1. Подхвърля се зар. Условията са следните:

a) зарът е направен от кубче, масата на което е разпределена равномерно;


б) зарът се подхвърля върху достатъчно голяма и абсолютно гладка равнинна
повърхнина;
в) върху шестте страни са посочени числата 1, 2, 3, 4, 5 и 6 като сумата от точките
върху срещулежащите стени е равна на 7.

2. Условията на опита наречен Парламентарен избор в България е


регламентиран от закона.
3. Потомците на метеорите, които могат да достигнат до Земята е описан от
Астрономията.
4. “По случаен начин избираме едно от n лица” означава, че опита е
организиран, така че което и да е от тези лица има еднакъв шанс да бъде
избрано.

Основно понятие в Теорията на вероятностите е “случайно събитие”. То е


твърдение, което в резултат от опита може да се сбъдне, но може и да не се
сбъдне.
Да дадем примери за събития свързани съответно с горните четири опита.

1. Подхвърленият зар ще покаже четно число.


2. На следващите парламентарни избори една от партиите ще има
парламентарно болшинство.
3. Следващият метеорит с разрушителни размери ще попадне на територията
на Тихия океан.
4. Избраното лице е от мъжки пол.

Събитие, което в резултат от опита сигурно ще се сбъдне се нарича достоверно


(сигурно) събитие. Ще го бележим с W . Сигурно събитие е например “Сумата от
точките върху два зара, подхвърлени по случаен начин не е по-малка от 2”.
Събитие, което в резултат от опита сигурно няма да се сбъдне се нарича
невъзможно събитие. Ще го бележим с Æ . Невъзможно събитие е например
“Сумата от точките върху два зара, подхвърлени по случаен начин е 1”.
Ще казваме, че събитието А е благоприятстващо за събитието В, ако от сбъдването
на А следва сбъдването на В, т.е. от А Þ В. Например
1. Ако означим с А събитието “Върху подхвърлен по случаен начин зар са се
паднали 4 точки”, а с В събитието “Върху подхвърлен по случаен начин зар са се
паднали четен брой точки” то А е благоприятстващо за В.
2. Събитието “x и h са четни” е благоприятстващо за събитието “x + h е четно”.
W e eлементарно събитие ако няма друго благоприятстващо го събитие освен W.
Множеството от всички елементарни събития се нарича пространство на
елементарните събития и се бележи с W (също както и сигурното събитие, т.к. за
сигурното събитие всички елементарни събития са благоприятстващи). Виж
примери 1 и 2 след тази тема.
Ще казваме, че събитията Н1, Н2,…, Нk образуват пълна група събития ако в
резултат от разглеждания опит сигурно ще се сбъдне точно едно от тях.
От определението за елементарно събитие се вижда, че пространството от
елементарните събития винаги е пълна група събития. В Пример 1 след тази тема
ще намерите примери на пълни групи събития.
В много случаи е удобно на всяко случайно събитие А да съпоставим множество
от благоприятстващите го елементарни събития. Това множество се бележи също с
А. Следните две таблици поясняват връзката между два различни начина на
задаване на една и съща информация.
Събития Множество на бл. ел. събития

А А

Сигурното събитие Пространството от ел. събития

Невъзможно събитие Празно множество

Релации между събития Релации между множествата от


благоприятстващи събития

⇒ ⊆

Ще се сбъднат А и В А∩ В

Ще се сбъдне А или В А∪ В

А и В са несъвместими А∩ В=∅

А няма да се сбъдне
Понякога знакът Ç се пропуска и вместо А Ç В пишем АВ.
Вероятността на елементарното събитие, най-общо казано е мярка за обективната
възможност то да се сбъдне. Тя е неотрицателно число и сумата от всички такива
вероятности е 1. Когато пространството на елементарните събития е крайно или
безкрайно, но изброимо, вероятността на А се задава като сума от вероятностите
на благоприятстващите А елементарни събития и се означава с Р(А).
Ако елементарните събития са равновъзможни и пространството им е крайно
множество, е приложима класическа дефиниция за вероятност. Ако А е събитие
свързано със същия опит

(1)
където с m(A) сме означили броя на благоприятстващите елементарни събития за
събитието А, а с m(W ) - броя на всички елементарни събития.
Ако опитът е случаен избор на точка в геометрично множество G с положително
крайно лице (повърхнина) S(g(W )), то е приложима геометричната дефиниция за
вероятност

(2)
където S(g(A)) e лицето (повърхнината) на онова подмножество g(A) на G, в което
ако попадне избраната точка със сигурност ще се сбъдне събитието А.
Очевидно G = g(W ).
Ако многократно и независимо се повтаря един и същ опит N пъти, то

(3)
където m (A) е броя на изходите, при които е настъпило събитието А, се нарича
относителна честота за А.
Числото, около което при големи N варира относителната честота се нарича
статистическа вероятност и се бележи с P(A).
Пълната група Н1, Н2,…, Нk ще наричаме базова пълна група
за събитието А, ако от всяко нейно събитие следва А или . Елементите на
базовите групи ще наричаме базови събития. Лесно се доказва, че всяка пълна
група събития съдържаща n елемента, може да бъде базова за 2n събития. Пълната
група от елементарни събития може винаги да се избере за група на базовите
събития на всяко събитие, но това не винаги е разумно, защото пълната група от
елементарни събития е най-многобройна и често е трудно обозрима.
Да изброим по-важните свойства на вероятностната мярка.
1. Формула за събиране на вероятностите - Ако всеки две от събитията А1, А2, …,
Аn са несъвместими, то
Р(А1 È А2 È … È Аn ) = Р(А1) + Р(А2) + …+ Р(Аn)
Това свойство е вярно и ако n = ¥ .
2. При всяка крайна или бeзкрайна базова група за А, Р(А) е равна на сума от
вероятностите на благоприятстващите А базови събития. Частен случай на това
твърдение е следната
Класическа формула за вероятност - Ако съществува група от n равновъзможни
базови събития за А, М(А) от които благоприятстват А, то

(4)
3. Ако събитията А1, А2, …, Аn образуват пълна група, то
Р(А1) + Р(А2) + …+ Р(Аn) = 1.
Това свойство е също е вярно и ако n = ¥ .
В частност

ЗА САМОПОДГОТОВКА
Въпроси към темата
Подхвърля се зар с размери 9 мм на 10 мм на 11 мм. Защо при този опит не е
приложима класическа дефиниция за вероятност?
Ако зара е с правилна форма. Намерете вероятността на събитието “След като е
подхвърлен по случаен начин зара показва четен брой точки”. А каква е
вероятността на събитието той да покаже точно 6 точки?
Подхвърлете 1000 пъти правилен зар и се убедете, че действително броят на
падналите се 6-ци, разделен на 1000 е около 1/6. Защо това е така?

Литература

1. Портев, Л. и колектив. Математика. Учебно помагало за държавен изпит в


четири части. I и IV част. Пловдив, 2003.
2. Стоянов, Й., Миразчийски, Х., Игнатов, Цв., Танушев, М. Ръководство за
упражнения по Теория на вероятностите. София, 1976.

Примерни ситуации и решения


Пример 1: Едновременно се подхвърлят бял и черен зар. Опишете пространството
от всички елементарни събития. Дайте примери на група от базови събития за
разглежданите събития, така че базовите събития да са равновъзможни. Дайте
примери на други пълни групи събития свързани с този опит. Намерете
вероятностите на събитията
А1 = “Белият зар показва по-малко точки от черния”,
А2 = “Белият зар показва повече точки от черния”,
А3 = “Белият и черният зар показват равен брой точки”.
В1 = “Сумата от точките върху двата зара е четно число”
В2 = “Сумата от точките върху двата зара е нечетно число”
С1 = “Поне един от заровете да покаже три точки”
Е1 = “Сумата от точките върху заровете е точно 8”
Решение: Може с твърдения да опишем всички възможни изходи от експеримента,
но това би било много тромаво за записване. Ето защо всяко такова твърдение ще
отбележим с една клетка с по-плътен контур от следната таблица.

Пространството на елементарните събития съдържа точно 36 равновъзможни


елементарни събития. Както вече казахме пълната група на всички елементарни
събития е група от базови събития за всяко събитие, така че ще работим с нея.
Благоприятстващите елементарни събития за А1 са означени с диагонална черта в
таблицата. Те са 15 на брой. Тогава от класическа дефиниция за вероятност

P(А1) =
По аналогичен начин благоприятстващите елементарни събития за А2 са означени
с клетките над главния диагонал в таблицата. Те са също 15 на брой. Тогава

P(А2) =
Благоприятстващите елементарни събития за А3 са означени в таблицата с
клетките от главния диагонал. Те са 6 на брой. Тогава

P(А1) =
Един пример на пълна група събития свързани с този опит е А1, А2, А3. За това и
сумата от техните вероятности е 1.
Друга пълна група събития е В1, В2. Благоприятстващите елементарни събития за
В1 са означени в табличката с триъгълник. Те са 18 на брой. Тогава

P(В1) =
Тогава, от свойство 3 на вероятностната мярка
Благоприятстващите елементарни събития за С1 се моделират с означените с “ ”
11 клетки. От класическа дефиниция за вероятност

Благоприятстващите елементарни събития за събитието Е1 се моделират с


означените с “ ” 5 на брой клетки.

Пример 2: По случаен начин се избира трицифрено, цяло, положително число,


започващо с 4. Опишете пространството от всички елементарни събития, така че
да са равновъзможни. Посочете група от равновъзможни базови събития, за всяко
от разглежданите събития. Намерете вероятността на
В4 = “Втората цифра на избраното число е 4”
Т4 = “Третата цифра на избраното число е 4”
С4 = “Сумата от II и III - та цифра на избраното число е 4”
К = “Втората и третата цифра на избраното число са равни”
А4 = “Третата минус втората цифра на избраното число е 4”
Н4 = “II - та минус III - та цифра на избраното число дава 4”.
Решение: Отново словесното описание на всички възможни изходи от
експеримента би ни отнело много време и място за писане. По тази причина всяко
такова събитие ще отбележим с една точка в двумерна координатна система, с
първа и втора координати съвпадащи съответно с втората и третата цифра на
избраното число. Тогава всички елементарни събития можем да моделираме
накратко посредством точките от Фиг. 1.
Фиг. 1

Те са точно 100 на брой. С по-голяма точка е означено събитието “Избраното


число е 493”. Множеството от елементарни събития е обозримо и няма нужда да
търсим друга, по-окрупнена група от равновероятни базови събития за
разглежданите събития.
Благоприятстващите елементарни събития за събитието В4 се моделират с точките
на линията
--.-- , които са 10 на брой.
Тогава от класическа дефиниция за вероятност

P(В4) =
По аналогичен начин, благоприятставщите елементарни събития за събитието Т4
се моделират с точките на линията
, които са също 10 на брой. P(Т4) = 0,1.
Благоприятстващите елементарни събития за събитието С4 се моделират с точките
под линията
, които са 5 на брой. P(С4) = 0,05.
Благоприятстващите елементарни събития за събитието К се моделират с точките
на линията
P(Т4) = 0,1.
Благоприятстващите елементарни събития за събитието А4 се моделират с точките
на линията
, които са 6 на брой. P(А4) = 0,06.
Благоприятстващите елементарни събития за събитието Н4 се моделират с точките
на линията
P(А4) = 0,06.
Пример 3: От касичка, в която има 2 банкноти по 10 лв. и 3 банкноти по 5 лв., по
случаен начин, едновременно се изваждат две банкноти. Опишете пространството
от всички елементарни събития. Намерете вероятностите на събитията
Е = “Извадените банкноти са с еднаква стойност”,
И10 = “Извадени са 10 лв.”,
И15 = “Извадени са 15 лв.”,
И20 = “Извадени са 20 лв.”
Решение: За да опишем по-лесно всички възможни изходи от експеримента,
номерираме банкнотите от по 10 лв. с числата 1 и 2, а банкнотите от по 5 лв. с
числата 3, 4 и 5. Ще отбележим с една клетка с по-плътен контур от следната
таблица без диагонала

всеки възможен изход от експеримента. Пространството на елементарните събития


съдържа точно 20 равновъзможни елементарни събития. То е обозримо и няма
нужда да търсим група от други базови събития.
Благоприятстващите елементарни събития за И15 са означени в табличката с “ ”.
Те са 12 на брой. От класическа дефиниция за вероятност P(И15) = 0,6.
Благоприятстващите елементарни събития за И20 са означени в табличката с “ ”
и P(И20) = 0,3.
Благоприятстващите елементарни събития за И10 са означени в табличката с “ ”
и P(И10) = 0,1.
Разгледаните три събития образуват пълна група за това сумата от вероятностите
им е 1.
P(Е) можем да я намерим с класическа дефиниция за вероятност, а можем и да
използваме формулата за събиране на вероятности. Да използваме втория начин
P(Е) = P(И10 È И20) = P(И10) + P(И20)=0,4.
Пример 4: По случаен начин се избира точка Т в квадрат ABCD с дължина на
страната 2 дм. С О е означена пресечната точка на диагоналите на квадрата. Освен
това с q е означено разстоянието от Т до най-близката от страните на квадрата, с t -
дължината на отсечката ОТ. Намерете вероятностите на събитията
А = “Т ще се окаже в четириъгълника определен от средите на страните на
квадрата”,
В = “Т ще се окаже извън вписаната в квадрата окръжност”,
С = “Т ще се окаже на равни разстояния от поне две от страните на квадрата”,
“t < 0,5”, “q < z, където zÎ [0, 1]”.
Решение: Множеството g(W ) = G, в което по случаен начин се избира точка Т е
квадратът АВСD. Неговото лице S(g(W )) = S(G) = 4 дм2. g(А) е квадрата PNQM
(виж Фиг. 2) и неговото лице е S(g(А)) = 2 дм2. От дефиницията за геометрична
вероятност

Фиг. 2

По аналогичен начин, отново като използваме дефиницията за геометрична


вероятност получаваме

От свойствата на вероятностната мярка

g(C) e обединението на отсечките AC, DB, MN и PQ. Лицето на това обединение е


0, значи ако приложим дефиницията за геометрична вероятност Р(C) = 0.
За да намерим Р(t < 0,5), трябва да видим къде са точките от квадрата, с които ако
съвпадне Т, събитието “t < 0,5” ще се сбъдне. От дефиницията на t , те съвпадат с
точките, които се намират на разстояние по-малко от 0,5 от т.О, т.е. това са
точките от малкия кръг на Фиг. 2. Неговото лице е p 0,52. Тогава

Сега да намерим Р(q < z ). Трябва да видим къде са точките от квадрата, с които
ако съвпадне Т, събитието “q < z ” ще се сбъдне. От дефиницията на q , те съвпадат
с точките, които се намират на разстояние по-малко от z от най-близката страна на
квадрата ABCD, т.е. ако страната на малкия квадрат на Фиг. 2 е на разстояние z от
най-близката страна на големия квадрат, точките от големия квадрат, които са на
по-малко от z разстояние от най-близката страна са между големия и малкия
квадрат. Страната на малкия квадрат е 2-2z. Лицето на фигурата заключена между
големия и малкия квадрат е 4 – (2-2z)2. Тогава

за z Î (0, 1].

Задачи за упражнение
Задача 1: Около кръгла маса има 6 стола, на които по случаен начин сядат, три
момчета, между които е и Ромео и три момичета, сред които е и Жулиета.
Намерете вероятността на събитията
А = “Ромео ще седне до Жулиета”,
В = “Ромео ще седне срещу Жулиета”,
С = “Ромео ще седне от ляво на Жулиета”,
Е = “Момичетата ще седнат едно до друго”,
О = “От двете страни на всяко момиче ще има момчета”.
Н = “От двете страни на Жулиета ще има момчета”.
3адача 2: На 7 картончета са написани цифрите 1, 2, 3, 4, 5, 6 и 7. По случаен
начин, последователно без връщане се изваждат три картончета и се поставят едно
до друго в реда на изваждането. Намерете вероятността на събитията
А = “Полученото трицифрено число ще е четно”,
В = “Полученото трицифрено число ще е нечетно”,
С = “Полученото трицифрено число ще е по – голямо от 300”,
Е = “Полученото трицифрено число ще е съставено само от нечетни цифри”,
F = “Полученото трицифрено число ще се дели на 9”,
За i = 0, 1, 2 или 3
Gi = “Точно i от цифрите му ще бъдат четни”,
Н = “Полученото трицифрено число ще е със строго растящи от ляво на дясно
цифри”,
I = “Полученото трицифрено число ще е със строго намаляващи от ляво на дясно
цифри”,
М = “Цифрите на полученото трицифрено число ще образуват от ляво на дясно
аритметична прогресия”.
Задача 3: В урна има 4 черни и 2 бели топки. Топките се вадят последователно,
a) без връщане,
б) с връщане
до първата поява на бяла топка. Нека с h (ета) е означен броя на изважданията.
Намерете вероятността на събитията
А = “h да е 3”,
В = “h да е четно”,
С = “h да е нечетно”,
Е = “никога да не извадим бяла топка”.
Задача 4: В урна има 7 топки, номерирани с числата от 1 до 7. Всички топки се
изваждат последователно, без връщане. Нека с x i е означен номера на i - тата
извадeна топка. Намерете вероятността на събитията
“x 1 < x 2 < x 3 < x 4 < x 5 < x 6 < x 7”,
“x 1 < x 2 < x 3 ”,
“x 1 £ x 2 £ x 3 ”,
А = “x 1 + x 2 + x 3 да е нечетно”,
В = “x 1 + x 2 + x 3 да е четно”,
С = “Няма да има последователно извадени топки с нечетни номера”,
D = “Няма да има последователно извадени топки с четни номера”,
E = “Ще има поне две последователно извадени топки с четни номера”,
F = “Ще има поне две последователно извадени топки с нечетни номера”.

ГЛАВА 5. ЕЛЕМЕНТИ ОТ ТЕОРИЯТА НА ВЕРОЯТНОСТИТЕ


5.2. УСЛОВНА ВЕРОЯТНОСТ. ФОРМУЛА ЗА УМНОЖЕНИЕ НА
ВЕРОЯТНОСТИТЕ. НЕЗАВИСИМОСТ. ФОРМУЛА ЗА ПЪЛНАТА
ВЕРОЯТНОСТ. ФОРМУЛА НА БЕЙС

Понякога сбъдването на събитие В увеличава или намалява обективната


възможност за сбъдването на друго събитие А. За да се определи шанса на тази
възможност се въвежда следното понятие.
Вероятността на събитието А, при условие, че се е сбъднало събитието В се
означава с P(A/B) и се дефинира посредством

където P(B)>0.
От тази дефиниция, лесно се получава следната формула за умножение на
вероятностите. Ако P(B)>0, то

Вярно е също, че ако P(А)>0

От последните две равенства получаваме формулата на Бейс, че когато P(А)>0 и


P(B)>0

Формулата за умножение на вероятностите се обобщава за повече от две събития


Ако P(Аi)>0, за всяко i = 1,…,n

По-горе е написана една от всичките n! = 1…n формули за умножение на


вероятностите. Останалите се получават като разместим по всички възможни
начини местата на събитията А1,…Аn.
Ще казваме, че събитията А и В са независими ако
P( A / B ) = P( A ).
Вярно е и следното твърдение.
Ако P( A,B ) > 0, събитията А и В са независими тогава и само тогава, когато
P( AB ) = P( A )P( B ).
При повече от две събития имаме два вида независимост.
Събитията А1,…Аn са 2 по 2 независими, когато всеки две от тези събития са
независими.
Ще казваме, че събитията А1,…Аn, за които P(А1,…Аn) > 0 са независими в
съвкупност, когато вероятността за едновременното сбъдване на всеки к от тях е
равна на произведение от вероятностите им.
Четирите равенства, определящи независимостта в съвкупност на събитията А, В и
С са следните
P(AB) = P(A)P(B), P(AC) = P(A)P(C), P(CB) = P(C)P(B) и P(ABС) = P(A)P(B)P(С).
Общият брой на подобни равенства за независимост в съвкупност на n на брой
събития е 2n-n-1.
Когато за няколко събития се говори, че са независими се подразбира, че са
независими в съвкупност.
От независимост в съвкупност следва независимост 2 по 2. Обратното твърдение
не е вярно.
Вероятностите на събитията от всяка пълна група събития се наричат априорни
вероятности. Сумата им винаги е равна на 1.
Ако Н1,…Нn образуват пълна група и P(А)>0, то P(A/H1),…,P(A/Hn) се наричат
апостериорни вероятности. Тяхната сума също е 1.
За всяка пълна група събития Н1,…Нn с положителни вероятности и за всяко
събитие А е в сила следната формула за пълната вероятност
P(A) = P(A/H1)P(H1)+ …+ P(A/ Hn)P(Hn).
Тя е вярна и когато пълната група съдържа ¥ събития.
Когато проведеният опит е двуетапен, то е разумно пълната група събития да бъде
съставена от събития, описващи възможните изходи от първия етап на
експеримента.

ЗА САМОПОДГОТОВКА
Въпроси към темата
Могат ли две несъвместими събития да са независими? Обосновете отговора си.

Литература

1. Стоянов, Й., Миразчийски, Х., Игнатов, Цв., Танушев, М. Ръководство за


упражнения по теория на вероятностите. София, 1976.

Примерни ситуации и решения


Пример 1: В първа урна има 2 бели и 2 черни топки. Във втора урна има 2 бели и 3
черни топки. От първа урна по случаен начин се изважда една топка и се
прехвърля във втора урна, след което от втора урна по случаен начин се изважда
една топка. Нека
Б1 = “От първа урна е извадена бяла топка”
Ч1 = “От първа урна е извадена черна топка” и
Б2 = “От втора урна е извадена бяла топка” и
Ч2 = “От втора урна е извадена черна топка”. Намерете:
P(Б1/Б2), P(Ч1/Б2), P(Б1/Ч2), P(Ч1/Ч2).
Решение: Като се възползваме от формулата за умножение на вероятностите
получаваме

P(Б1Б2) = P(Б1)P(Б2/Б1) =
Аналогично се доказва, че

P(Б1Ч2) = P(Ч1Б2) = и P(Ч1Ч2) = .


Ще се възползваме от базовата група “Б1Б2”, “Б1Ч2”, “Ч1Б2” и “Ч1Ч2”. От
класическата формула за събиране на вероятностите намираме

P(Б2) = P(Ч1Б2) + P(Б1Б2) = .


Тогава от дефиницията за условна вероятност

Т.к. “Б1” и “Ч1” образуват пълна група, то


Р(Б1/Б2)+P(Ч1/ Б2) = 1,

от където следва, че Р(Ч1/Б2) = 1 - P(Ч1/ Б2) = 1 - = .

Аналогично се доказва, че Р(Б1/Ч2) = P(Ч1/ Ч2) =


Пример 2: През една смяна първи работник изработва а1 детайла, всеки от които
може да бъде дефектен с вероятност Р1, автори изработва а2 детайла, всеки един
от които може да бъде дефектен с вероятност Р2. По случаен начин се избира един
от изработените а1 + а2 детайла.
а) Каква е вероятността избраният детайл да е дефектен?
б) Ако избраният детайл е дефектен, каква е вероятността той да е бил изработен
от i – тия работник (i = 1, 2)?
Решение: Ще означим с Нi събитието “Избрания детайл е бил изработен от i – тия
работник”, (i = 1, 2), а с D = “Избрания детайл е дефектен”. С помощта на
формулата за умножение на вероятностите ще получим

P(Н1D) = P(H1)P(D/H1) =
Аналогично се доказва, че

P(Н2D) = , P(H1 )= и

P( H1 ) =
Тъй като благоприятстващите, базови за D събития са “Н1D” и “Н2D”, то

Прилагайки дефиницията за условна вероятност ще получим

откъдето следва, че

Пример 3: Трима стрелци стрелят едновременно по цел. Първият улучва целта с


вероятност 0,5, вторият – с вероятност 0,4, а третият - с вероятност 0,6. Намерете
вероятността на събитията:
а) i – тият стрелец (i = 1, 2, 3) не е улучил целта при условие, че точно двама от
стрелците са улучили целта;
б) i – тият стрелец (i = 1, 2, 3) е улучил целта при условие, че точно един стрелец е
улучил целта;
в) i – тият стрелец (i = 1, 2, 3) е улучил целта при условие, че поне един стрелец е
улучил целта.
Решение: Ще означим с Нi събитието “i – тият стрелец не е улучил целта”, с Yi
събитието “i – тият стрелец е улучил целта”, за i = 1, 2, 3, а с h - общия брой на
улучилите целта стрелци. Ще опишем една базова група с помощта на Табл. 1.
Табл. 1
Базови събития P(Hk) η
А1 Y1, Y2 ,Y3 0,12 3

А2 Y1, Y2 ,H3 0,08 2

А3 Y1, H2 ,Y3 0,18 2

А4 H1, Y2 ,Y3 0,12 2

А5 Y1, H2 ,H3 0,12 1

А6 H1, Y2 ,H3 0,08 1

А7 H1, H2 ,Y3 0,18 1

А8 H1, H2 ,H3 0,12 0


Използвайки факта, че за всяко i = 1, 2, 3 P( Yi ) + P( Нi ) = 1 ще получим P( Н1 ) =
0,5, P( Н2 ) = 0,6, P( Н3 ) = 0,4. Тъй като Н1, Y2 и Y3 са независими, то P( А4 ) =
P( Н1 Y2 Y3 ) = P( Н1 )P( Y2 )P( Y3 ) =
= 0,5.0,4.0,6 = 0,12. Аналогично се намират вероятностите на останалите базови
събития (виж третата колонка на горната табличка). С помощта на дефиницията за
условна вероятност получаваме

Аналогично се получава, че

Ще намерим

Аналогично се получава, че

Пример 4: В първа урна има 2 бели и 2 черни топки. Във втора урна има 2 бели и 3
черни топки. От всяка урна по случаен начин се изваждат по две топки и се
поставят в трета празна урна, след което от нея пак по случаен начин се изваждат
две топки. Нека за i = 0, 1, 2, 3, Нi = “Броят на поставените в трета урна бели топки
е i”, а за i = 0, 1, 2 да означим с Аi събитието “Броят на извадените от трета урна
бели топки е i”. Намерете вероятностите на тези седем събития. Колко най-
вероятно е бил броят на белите топки, ако се е сбъднало събитието Аi, за i = 0, 1,
2?
Табл. 2
K 0 1 2 3 4 Сума
P (Hk) 3/60 18/60 28/60 10/60 1/60 1
P (A0 / Hk) 1 3/6 1/6 0 0 -
P (Hk) P (A0 / Hk) 9/180 27/180 14/180 0 0 P(A0)=50/180
P (Hk / A0) 9/50 27/50 14/50 0 0 1
P (A1 / Hk) 0 3/6 4/6 3/6 0 -
P (Hk) P (A1 / Hk) 0 27/180 56/180 15/180 0 P(A1)=98/180
P (Hk / A1) 0 27/98 56/98 15/98 0 1
P (A2 / Hk) 0 0 1/6 3/6 1 -
P (Hk) P (A2 / Hk) 0 0 14/180 15/180 3/180 P(A2)=32/180
P (Hk / A2) 0 0 14/32 15/32 3/32 1
Решение: При решаването на подобни задачи, трябва да се съобрази кой е първият
етап на провеждания опит. В тази задача, това е поставянето на топки в трета урна.
Една подходяща пълна група събития описваща резултатите от тази част на опита
е Н0, Н1, Н2, Н3, Н4. Удобно е да се състави Табл. 2:
За i = 0, 1, 2 да означим с Di събитието “Броят на извадените бели топки от първа
урна е i”, а с Еi събитието “Броят на извадените бели топки от втора урна е i”. Като
използваме факта, че събитията D0E2, D1E1 и D2E0 са 2 по 2 несъвместими, а
събитията Di и Еj са независими, получаваме
P(H2) = P(D0E2 È D1E1 È D2E0) =
= P(D0E2) + P(D1E1) + P(D2E0) =
= P(D0)P(E2) + P(D1)P(E1) + P(D0)P(E2) =

=
Аналогично се намират останалите четири априорни вероятности.
Сумите в първи, четвърти, седми и десети ред на таблицата са единици, защото се
сумират вероятности на пълни групи събития. По силата на формулата за пълната
вероятност, сумирайки числата от трети, шести и девети ред ще получим
съответно P(А0), P(А1) и P(А2). Апостериорните вероятности от четвърти, седми и
десети ред на горната таблица, са пресметнати по формулата на Бейс. От
таблицата се вижда, че ако са се сбъднали събитията А0, А1 и А2, то най-
вероятните предположения за състава на третата урна са съответно - Н1, Н2 и Н3.

Задачи за упражнение
Задача 1: Разпишете 24-те формули за умножение на вероятности на 4 събития.
Задача 2: Разпишете 11-те равенства определящи незави-симостта в съвкупност на
събитията А, В, С, D.
Задача 3: В първа урна има 2 бели и 2 черни топки. Във втора урна има 2 бели и 3
черни топки. От всяка от урните се изважда по една топка. Независими ли са
събитията
А1 = “От първа урна е извадена бяла топка” и
А2 = “От втора урна е извадена бяла топка”? Защо?
Задача 4: В първа урна има 2 бели и 2 черни топки. Във втора урна има 2 бели и 3
черни топки. От първа урна се изважда една топка и се прехвърля във втора урна,
след което от втора урна се изважда една топка. Независими ли са събитията
А1 = “От първа урна е извадена бяла топка” и
А2 = “От втора урна е извадена бяла топка”? Защо?
Задача 5: Едновременно се подхвърлят бял, зелен и червен зар. Нека с x 1, x 2, x 3,
са означени броевете на точките, които показват съответно белия, зеления и
червения зар.Независими ли са събитията:
а) “x 1 = 3”, “x 2 = 3” и“x 3 = 3”;
б) “x 1 = 3”, “x 2 < x 1” и“x 3 = 3”.
Защо? Независими ли са 2 по 2 горните тройки събития? Посочете 2 от тези 4
събития, които са независими.
в) Докажете, че събитията “x 1 + x 2 = 7” и “x 3 + x 2 = 7” са независими, а
събитията “x 1 + x 2 = 8” и “x 3 + x 2 = 10” не са независими;
г) Покажете, че P( x 1 = 3 / x 1 + x 2 = 8 ) = 0,2, P( x 1 + x 2 = 8 / x 2 + x 3 = 10 ) =
1/6, P( x 3 + x 2 = 10 / x 1 + x 2 = 8 ) = 0,1.
д) Докажете, че събитията “x 1 = 3”, “x 2 = x 1” и“x 2 = 3” са 2 по 2 независими, но
са зависими в съвкупност.
е) Докажете, че събитията “x 1 = 3”, “x 2 + x 1 = 7” и “x 2 = 4” са 2 по 2
независими, но са зависими в съвкупност.
Задача 6: В първа урна има 2 бели и 3 черни топки. Във втора урна има 2 бели и 2
черни топки. В трета - 3 бели и 1 черна топка. От първа урна по случаен начин се
изважда една топка и се прехвърля във втора урна, след което от втора урна се
изважда една произволна топка и се прехвърля в трета и накрая от трета урна по
случаен начин се изважда топка и се прехвърля в първа урна. Ако с d i смe
означили събитието от i – та урна е извадена бяла топка, за i = 1, 2, 3, а с А
събитието “След това трикратно прехвърляне цветовият състав на топките в
урните да е както в началото”, намерете
а) P( A );
б) P( d 1 / d 3 );
в) P( d 3 / d 1 ).
Задача 7: В първа урна има 2 бели и 3 черни топки. Във втора урна има 2 бели и 1
черна топка. В трета - 2 бели и 1 черна топка. От първа урна по случаен начин се
изваждат две топки и се прехвърлят във втора урна, след което от втора урна се
изваждат две произволни топки и се прехвърлят в трета и накрая от трета урна по
случаен начин се изваждат две топки и се прехвърлят в първа урна. Намерете
вероятността на събитието А = “След това трикратно прехвърляне броевете на
белите топки в урните да е както в началото”. Ако се е сбъднало А намерете
вероятностите на събитията “От трета урна да са извадени точно i – бели топки”,
за i = 0, 1, 2.
Задача 8: В урна има една червена, една зелена и 6 бели топки. Топките се вадят по
случаен начин, последователно, без връщане, до появата на червената топка. С q е
означен броят на извадените бели топки, а с G - събитието “Зелената топка ще
бъде една от извадените топки”. Кое е единственото възможно за q значение к, при
което събитията “ q = к ” и G са независими?
Задача 9: В урна има една 3 бели и 3 черни топки. От нея се изваждат по случаен
начин, без връщане толкова топки, колкото точки показва подхвърлен зар. Колко
точки най-вероятно е показал зарът, ако от урната са извадени i - бели топки,
където i = 0, 1, 2, 3?
Задача 10: По случаен начин, последователно, без връщане се изваждат две от
плочките на играта домино. Намерете вероятностите на събитията
а) “Извадените плочки ще паснат”, т.е. поне на едната половинка от първата
плочка броят на точките ще бъде равен на броя на точките върху поне едната
половинка от втората плочка;
б) “Броя на точките върху двете половинки на първата извадена плочка са равни,
ако двете извадени плочки са паснали”.

ГЛАВА 5. ЕЛЕМЕНТИ ОТ ТЕОРИЯТА НА ВЕРОЯТНОСТИТЕ


5.3. СЛУЧАЙНИ ВЕЛИЧИНИ. ЗАКОНИ НА РАЗПРЕДЕЛЕНИЕ. ЧИСЛОВИ
ХАРАКТЕРИСТИКИ

Много величини, с които се сблъскваме в ежедневието си са случайни. Например:


Курсът на долара на 01.06. следващата година, населението на България към 31.12.
тази година, Брутния вътрешен продукт на България през текущата финансова
година, броя на туристите, които ще посетят Варна през следващата година.
Най-общо казано, случайната величина е функция на елементарното събитие.
Ще наричаме P(x < х) функция на разпределение на случайната величина x и ще я
означаваме с Fx (x).
Ще казваме, че няколко случайни величини са еднакво разпределени, ако имат
една и съща функция на разпределение.
Ще наричаме хa a - квантил на функцията F(x) ако
хa = min { x : F ( x ) ³ a }.
Ще казваме, че случайните величини x 1,x 2,…,x n са две по две независими, ако за
всяка n-торка реални числа х1,х2,…,хn, събитията “x 1 < x1”, …, “x n < xn” са две
по две независими.
Ще казваме, че случайните величини x 1,x 2,…,x n са независими в съвкупност,
ако за всяка n-торка реални числа х1,х2,…,хn, събитията “x 1 < x1”, …, “x n < xn”
са независими в съвкупност.
Когато за няколко случайни величини се говори, че са независими, се подразбира,
че са независими в съвкупност.
Ще казваме, че случайната величина x е непрекъснато разпределена, когато
функцията й на разпределение Fx (x) има призводна. Тази производна ще
означаваме с Рx (x) и ще я наричаме плътност на разпределение на случайната
величина x .
Лицето на фигурата, определена от абсцисната ос и графиката на Рx (x) е равно на
1.
Лицето на фигурата, определена от абсцисната ос и графи-ката на Рx (x) при х Î [a,
b) е равно на P(a £ x < b) = Fx (b) - Fx (a). На Фиг. 3 тази фигура е защрихована.
Фиг. 3

Това лице се означава с

Когато x има плътност на разпределение Рx (x), средно значение (математическо


очакване) на непрекъснатата случайна величина x , наричаме

Втори момент на непрекъснатата случайна величина x наричаме

По аналогичен начин се дефинира l–ти момент на непрекъснатата случайна


величина x .
Случайната величина, чиито възможни стойности могат да се запишат като крайна
или безкрайна числова редица се нарича дискретна случайна величина.
Тя няма плътност на разпределение, но има функция на разпределение.
Таблицата
i x1 х2 … xn … Общо:
P( ξ = i ) p1 р2 … pn … 1
където x1 ,…, xn,… са възможните значения на x , а pi = P(x = xi ), се нарича ред на
разпределение на случайната величина x .
Тъй като “x = x1”, “x = x2”,…,“x = xк”,… образуват пълна група събития, то р1 +
р2 + …+ рк + … = 1.
Ако x е дискретна случайна величина, с възможни значения x1 ,…, xn,…, h е
дискретна случайна величина, с възможни значения y1 ,…, ym,…, q е дискретна
случайна величина, с възможни значения z1 ,…, zs, … лесно може да се докаже, че
x , h и q са независими в съвкупност тогава и само тогава, когато за всяка тройка
цели, положителни числа n, m, s е изпълнено
P( x = xn, h = ym, q = zs ) = P(x = xn)P(h = ym)P(q = zs).
Нататък в този параграф x1 < x2 < … < xк < … ще са запазени символи за
възможните значения на дискретната случайна величина x .
Последователно съединените с отсечки, точки с координати ( x1, p1 ), ( x2, p2 ), …,
( xk, pk ),… образуват полигон (многоъгълник) на разпределение на x .
Функцията на разпределение на гореописаната дискретна случайна величина x e
стъпаловидна с интервали на постоянство (-¥ , x1], ( x1, x2], … , ( xk-1, хk], …, а в
точката хk, Fx (x) скача нагоре, с величина на скока pk. Ако възможните й
значения x1 ,…, xn са краен брой, то функцията й на разпределение за х Î (-¥ , x1] е
0, а за
х Î ( xn, ¥ ] e 1.
Редът на разпределение и полигонът определят еднозначно функцията на
разпределение на дискретната случайна величина. От тук следва, че за да бъдат
няколко случайни величини еднакво разпределени е необходимо и достатъчно, те
да имат един и същ ред на разпределение или да имат един и същ полигон.
Сумата х1 р1 + х2 р2 + …+ хкрк +… се нарича средно значение (математическо
очакване) на дискретната случайна величина x и се бележи с Еx .
Суматах12 р1 + х22 р2 + …+ хк2рк +… се нарича втори момент на дискретната
случайна величина x и се бележи с Еx 2.
Най-вероятните на дискретната случайна величина x се наричат моди на x и се
означават с mod x . Една добра оценка на mod x е модата, която в §3.3.3, вече
обяснихме как се определя от емпиричните данни. Да отбележим, че емпиричната
мода М0 и теоретичната mod x са две различни величини. Първата е случайна, а
втората не е.
И в дискретния и в непрекъснатия случай са верни следните дефиниции и
свойства.
Математическото очакване на константа е равно на същата константа.
Математическото очакване на константа умножена по случайна величина е равно
на същата константа умножена по математическото очакване на случайната
величина.
Математическо очакване на сума от случайни величини е равно на сумата от
математическите очаквания на случайните величини, т.е.
Е(x 1+…+x n) = Еx 1+…+Еx n.
Математическото очакване на произведение от независими случайни величини x 1,
…,x n е равно на произведението от математическите очаквания на същите
случайни величини, т.е.
Е(x 1.….x n) = Еx 1.….Еx n.
Е(x -Ex )2 се нарича дисперсия на случайната величина x и се означава с Dx .
Лесно се доказва, че Dx = Ex 2 - (Ex )2.
Дисперсията е неотрицателно число.
Да обърнем внимание на факта, че теоретичната и емпиричната дисперсии са две
различни величини. Първата е случайна, докато втората е константа. Както ще
покажем в §7.1 емпиричната дисперсия

е най-добрата оценка на теоретичната дисперсия, т.е. за Dx .


Дисперсията на константа плюс случайна величина е равна на дисперсията на
случайната величина.
Дисперсията на константа по случайна величина е равна на квадрата на
константата по дисперсията на случайната величина.
Ако x 1, x 2, …, x n са независими, D(x 1+…+x n) = Dx 1+…+Dx n. Обратното
твърдение не е вярно.
Ковариация на x 1 и x 2 се нарича Е((x 1-Ex 1)(x 2-Ex 2)) и се означава с cov(x 1, x
2).
Вярно е, че D(x 1 + x 2) = Dx 1 + Dx 2 + 2cov(x 1,x 1).
Коефициент на корелация на случайните величини x 1 и x 2 наричаме
отношението

Ще казваме, че случайните величини x 1 и x 2 са некорелирани ако cor(x 1 , x 2) =


0.
Лесно се доказва, че:
- случайните величини x 1 и x 2 са некорелирани тогава и само тогава, когато Еx
1x 2 = Еx 1Еx 2.
- ако случайните величини x 1 и x 2 са независими, то те са некорелирани.
Обратното не е вярно.
Средноквадратично отклонение на x се нарича .
Броя на ненаредените к-елементни подмножества на крайно множество,
съдържащо n елемента ще означаваме с . Този брой е равен на
при k = 1, 2, … , n, а
Много често се прави избор на част от елементите на множество, които се
отличават по някакъв признак. В такъв случай се стига до хипергеометричното
разпределение.
Ако разполагаме с a елемента от един вид и с b елемента от друг вид, условно да
ги наречем a бели топки и b черни топки. По случаен начин, без връщане избираме
N от тях, където N£ a + b. Нека x е броя на извадените елементи от първия вид, т.е.
извадените бели топки. Дискретната случайна величина x е хипергеометрично
разпределена с параметри N, a и b, т.е. x ~ Hi (N; a, b). Възможните значения на x
са целите числа в интервала [max(0, N-b), min(N, a)]. Реда на разпределение на x е
следния

Където k = max(0, N-b), max(0, N-b)+1, … , min(N, a).


С цел опростяване на записа да означим с

Ако m e цяло число, то x има две моди m и m-1. Ако m не е цяло число, mod x =
[m].
Вярно е, че

Нека N пъти се повтаря един и същ опит и резултатите от всеки опит са


независими един от друг. Нека р e вероятността да се осъществи събитието А, в
резултат от провеждането на един от тези опити. Да означим с m N броя на
сбъдванията на събитието А при всичките N опита. Ще наричаме m N биномно
разпределена случайна величина с параметри N и p, накратко m N ~ Bi(N, p).
Реда на разпределение на m N е
където k = 0, 1, 2, … ,N.
Ако m = (N+1)p e цяло число, то m N има две моди m и m-1. Ако m не е цяло
число, mod m N = [m].
Вярно е, че Em N = Np, a Dm N = Np(1-p).
Ще казваме, че h е разпределена по закона на Поасон с параметър l > 0, накратко h

~ Р0(l ), ако
където k = 0, 1, 2, …
Ако l e цяло число, то h има две моди l и l -1. Ако l не е цяло число, mod h = [l].
Вярно е, че Eh = l , a Dh = l .
Нека един и същ опит се повтаря, докато се сбъдне събитието А и резултатите от
всеки опит са независими един от друг. Нека р e вероятността да се осъществи
събитието А, в резултат от провеждането на един от тези опити. Да означим с m
номера на опита, при който за първи път се е сбъднало събитието А. Ще наричаме
m геометрично разпределена случайна величина с вероятност за успех p.
Реда на разпределение на m е където
k = 1, 2, ….
mod m = 1, Em = , a Dm = .
Ще казваме, че x е равномерно разпределена случайна величина върху интервала
[а,b], накратко x ~ U (a, b), ако плътността на разпределение на x има вида

Ще казваме, че x е нормално (гаусово) разпределена случайна величина с


параметри а и s > 0, накратко x ~ N (a, s 2), ако за всяко реално число х, плътността
на разпределение на x има вида

Да припомним че лицето на фигурата получена под кривата на плътността и над


абсцисната ос винаги е 1. Виж Фиг. 4.
Eh = а, a Dh = s 2.
Ще казваме, че x е стандартно гаусово разпределена случайна величина ако x ~ N
(0, 1).
Плътността на стандартно гаусово разпределена случайна величина е табулирана,
виж табл. 2. на приложението.
Верни са следните твърдения.

• Ако x ~ N (a, s 2), то

• Ако x k ~ N (ak, s k 2) при k = 1, 2,…, n, са независими, то

x 1 +…+ x n ~ N (a1 +…+ an, s 1 2 +…+ s n 2).

• Ако x ~ N (a, s 2), то kx +b ~ N (ka+b, k2s 2).

Функцията на разпределение

на стандартно гаусово разпределена случайна величина е изключително важна за


статистиката поради което е табулирана за х Î [0, 3], виж табл.1 . на приложението.
При х > 3, F ( х ) е почти 1, а когато х е отрицателно число, стойностите на F (х)
могат да се определят като се използва равенството F (-х)=1-F (х). На следващата
фигура е дадено геометричното представяне на х и F (х). F (х) е лицето на
защрихованата част. Лицето на незащрихованата фигура между кривата на
плътността на стандартното гаусово разпределение и абсцисната ос е 1-F (х).
Фиг. 4
Ако x ~ N (0, 1) и a Î [0, 1] и P(-za < x < za ) = 2F ( za ) – 1= .
Често се прави извадка от наблюдения на значението на даден признак при
наблюдаваните, n на брой статистически единици. На значението на признака се
гледа като на случайна величина с неизвестна функция на разпределение F(x), а
нанаблюденията както на реализации на тази случайна величина. Ако извадката е
от независими наблюдения, тя се нарича проста. Нататък ще изкажем
необходимите за работата ни с проста извадка твърдения. Както знаем функцията
на разпределение еднозначно определя законът на разпределение на случайната
величина. Възниква въпроса как да бъде оценена тази функция на разпределение.
През първата половина на миналия век, руският математик Гливенко е доказал
една от основните теореми на статистиката, според която с нарастването на n
емпиричната функция на разпределение Fn(x) може да апроксимира с произволна
точност теоретичната функция на разпределение F(x).
Двата най-важни, неизвестни параметри, свързани с изучавания признак на
разглежданата генерална съвкупност са математическото очакване и дисперсията.
При построяване на точкови оценки на математическото очакване и дисперсията
на изучавания признак, когато разполагаме с данни от проста извадка често се
използва следнатна теорема на Колмогоров. Ако x 1, x 2, …, x n са независими,
еднакво разпределени случайни величини с Еx i = а, i = 1, 2, …, n, то с
нарастването на n случайната величина

се доближава все повече и повече към математическото очакване а. Ако освен


товаи Dx i = s 2 < ¥ , i = 1, 2, …, n, то с нарастването на n случайната величина

се доближава все повече и повече към дисперсията s 2.


При построяване на доверителен интервал на относителен дял ще използваме
следната теорема на Моавър – Лаплас. Ако m N ~ Bi(N, p), то при големи N

При проверка на хипотези и построяване на доверителен интервал на средното


аритметично, както и при извеждането на много други статистически методи се
използва следната централна гранична теорема. Ако x 1, x 2, …, x n са независими,
еднакво разпределени случайни величини с Еx i = а и Dx i = s 2 < ¥ за i = 1, 2, …, n,
то при големи n случайната величина

Горните две твърдения показват, че асимптотичните, теоретични разпределения на


много от реално съществуващите случайни величини са нормално разпределени.
Ако x 1, x 2, …, x n са независими, стандартно гаусово разпределени случайни
величини, то случайната величина

се нарича χ 2 разпределена с n степени на свобода.


Съществуват таблици, с помощта на които приблизително могат да се определят
функцията на разпределение и квантилите на χ 2 разпределението. Виж табл. 4 от
приложението.
Нека x 1,x 2,…,x n са независими, еднакво гаусово разпределени случайни
величини с параметри а и s 2. Случайната величина

където и
се нарича разпределена по закона на Стюдент случайна величина с n-1 степени на
свобода. Накратко t n-1 ~ t (n-1).
Съществуват таблици, с помощта на които се определят, функцията на
разпределение, кватнилите и т.н. на стюдентово разпределени случайни величини.
Една такава таблица е табл. 3 в приложението.
Нека x 1, x 2,…,x n са независими, еднакво гаусово разпределени случайни
величини с параметри а1 и s 2. Нека h 1, h 2,…, h m също са независими, еднакво
гаусово разпределени случайни величини, но с параметри а2 и s 2 и редиците x 1, x
2, …, x n и h 1, h 2, …, h m също да са независими. Случайната величина

където

се нарича разпределена по закона на Фишер случайна величина с n-1 степени на


свобода на числителя и m-1 степени на свобода на знаменателя. Накратко Fn-1,m-1
~ F (n-1, m-1).
Разпределението на Фишер също е табулирано. Таблиците са построени за n < m.
В случая, когато това неравенство е нарушено се използва връзката Fn,m (x) = 1 -
Fm,n (1/x), където с Fn,m (x) сме означили функцията на разпределение на Фишер
с n степени на свобода на числителя и m степени на свобода на знаменателя. Виж
табл. 5 в приложението.
Горната дефиниция е еквивалентна на следната. Нека x n e χ 2 разпределена
случайна величина с n степени на свобода, h m e χ 2 разпределена случайна
величина с m степени на свобода и x n и h m са независими. Случайната величина

се нарича разпределена по закона на Фишер случайна величина с n степени на


свобода на числителя и m степени на свобода на знаменателя.

ЗА САМОПОДГОТОВКА
Въпроси към темата
За всяко реално число х функцията на разпределение е вероятност. Може ли да се
каже същото за плътността на разпределение?
Може ли средноквадратичното отклонение да е отрицателно число?
Ковариацията може да приема произволни реални значения. Може ли да се каже
същото за корелационния коефициент?
Може ли математическото очакване на случайната величина q да е извън
интервала от възможни значения на q ? Може ли да се каже същото за mod q ?

Литература

1. Стоянов, Й., Миразчийски, Х., Игнатов, Цв., Танушев, М. Ръководство за


упражнения по теория на вероятностите. София, 1976.

Примерни ситуации и решения


Пример 1: В урна има n топки номерирани с числата от 1 до n. Всички топки се
изваждат последователно, без връщане. Нека означим с x i номера на i – тата
извадена по ред топка.
а) Еднакво разпределени ли са x 1, x 2,…,x n?
б) Независими ли са x 1, x 2,…,x n?
в) Намерете Еx k, Dx k и стандартното отклонение на x k.
Решение: Събитията “x i = 1”, “x i = 2”,…,“x i = n” са равновъзможни и образуват
пълна група, тогава техните вероятности са по 1/n. Реда на разпределение на x i е
K 1 2 … n Общо:

P( ξ i = k ) 1/n 1/n … 1/n 1


Тъй като редът на разпределение на x i не зависи от i, то x 1, x 2 , …, x n са еднакво
разпределени случайни величини. Тези случайни величини са зависими т.к.
съществуват реални числа i1, i2,…, in, такива че P( x 1 = i1, x 2 = i2,…, x n= in ) ¹
P(x 1 = i1)P(x 2 = i2)…P(x n= in).
Например P( x 1 = 1, x 2 = 1,…, x n= 1 ) = 0, а P(x i = 1) = 1/n, за i = 1, 2,…, n. За i =
1, 2,…, n

Стандартното отклонение е
Пример 2: В урна има 3 бели, 3 зелени и 3 червени топки. От урната по случаен
начин, без връщане се изваждат 3 топки. С x 1, x 2 и x 3 да означим броя на
извадените съответно бели, зелени и червени топки.
а) Еднакво разпределени ли са x 1, x 2, x 3?
б) Независими ли са x 1, x 2,x 3?
в) Намерете Еx k, Dx k, стандартното отклонение на x k, cov(x 1, x 2) и cor(x 1, x 2).
Решение: x i ~ Hi(3; 3, 6), k = 1, 2, 3, откъдето следва, че те са

еднакво разпределени, Еx i = = 1, Dx i = = 0,5. Тъй като


x 1 + x 2 + x 3 = 3, то x 1 + x 2 = 3 - x 3. Като вземем дисперсия от двете страни на
това равенство ще получим,
Dx 1 + Dx 2 + 2cov(x 1, x 2) = D( 3 - x 3 ) = Dx 3,
откъдето следва, че cov(x 1, x 2) = - 0,25, а cor(x 1, x 2) = - 0,5.
Случайните величини са дори 2 по 2 зависими, т.к.
P( x 1 = 0, x 2 = 0 ) ¹ P(x 1 = 0)P(x 2 = 0).

P( x 1 = 0, x 2 = 0 ) =

P(x 1 = 0) = P(x 2 = 0) =
Пример 3: Последователно се подхвърля зар до третата поява на шест. С x 1, x 2 и
x 3 да означим съответно броя на подхвърлянията до първата поява на шестица,
след първата до втората поява на шестица включително и след втората до третата
поява на шестица, включително.Да означим с q общия брой на подхвърлянията на
зара.
а) Еднакво разпределени ли са x 1, x 2, x 3?
б) Независими ли са x 1, x 2,x 3?
в) Намерете Еx k, Dx k, стандартното отклонение на x k, Еq , Dq и стандартното
отклонение на q .
Решение: x 1,x 2,x 3 са независими геометрично разпределени случайни величини
с вероятност за успех р = 1 / 6, от където следва, че Еx k = 1 / р = 6, Dx k = (1-p) / p2
= 30, стандартното отклонение на x k, тогава е . Еq = Е(x 1 + x 2 + x 3 ) = Еx 1
+ Еx 2 + Еx 3 = 18, Dq = D(x 1 + x 2 + x 3 ) = Dx 1 + Dx 2 + Dx 3 = 90 и
стандартното отклонение на q e .
Пример 4: Със статистически методи е доказано, че h - броя на корабите, които
акустират на пристанище Варна на 01.06. е разпределена по закона на Поасон
случайна величина със средно значение 9 кораба. Намерете mod h , Eh , Dh ,
стандартното отклонение и вероятността на следващия 01.06. на пристанище
Варна да акустират най-много 6 кораба.
Решение: Eh = Dh = 9, cтандартното отклонение е 3, mod h = 7;8 кораба.
P(“На 01.06. на пр. Варна да акустират най-много 6 кораба”) =

Пример 5: Зар се подхвърля 180 пъти. Нека h е броя на падналите се шестици при
тези подхвърляния. Намерете mod h , Eh , Dh и стандартното й отклонение.

Решение: h ~ Bi(180; 1/6). Eh = 180. = 30,

Dh = 180. = 25, стандартното отклонение е 5 шестиции


mod h = [181. ] = 30.
Пример 6: Със статистически методи е доказано, че количеството бензин x , което
поръчва клиент на бензиностанция е нормално разпределена случайна величина
със средно значение 23 литра и средно квадратично отклонение 12 л. Намерете
вероятността следващия клиент да поръча между 20 и 30 л.

Решение: x ~ N( 23; 122), тогава ~ N( 0, 1).

Задачи за упражнение
Задача 1: Ако е известно, че данните от Error! Reference source not found. са от
нормално разпределена извадка, пресметнете вероятността ако на събитието
“Брутната печалба на случайно избрана българска фирма, занимаваща се с
разглеждания вид дейност, да е между 30 000 и 40 000 лв.”.
Задача 2: Човек, който има в джоба си 2 монети по 20 ст. и 4 – по 5 ст., по случаен
начин изважда 3 монети. Нека q е общата стойност (в стотинки) на извадените
монети. Намерете реда на разпределение, модата, средното значение, дисперсията
и средното квадратично отклонение на q . Начертайте полигона и графиката на
функцията на разпределение на q .
Задача 3: Монета се подхвърля до третата поява на герб. Нека q е общият брой на
подхвърлянията на монетата. Намерете реда на разпределение, модата, средното
значение, дисперсията и средното квадратично отклонение на q . Начертайте
полигона и графиката на функцията на разпределение на q .
Упътване: q може да се представи като сума от 3 незав-исими, геометрично
разпределени случайни величини.
Задача 4: Със статистически методи е доказано, че h - броя на клиентите, които
посещават определен магазин между 9 часа и 9 часа и 5 мин. е разпределена по
закона на Поасон случайна величина със средно значение 3 клиента. Намерете mod
h , Eh , Dh , стандартното отклонение и вероятността на следващия ден между 9
часа и 9 часа и 5 мин. същия магазин да бъде посетен най-много от 5 клиента.
Задача 5: Когато човек купува 1 кг. сирене, той го получава с известно
приближение, така че точното тегло, което получава е случайна величина. Да я
означим с q . От предварителни изследвания е известно, че q ~ N(1, 0.0001).
Намерете вероятността на събитието действително закупения от нас грамаж на
сиренето да се отличава най-много с 5% от желания грамаж.
Задача 6: Човек има в джоба си 1 монета от 50 ст., 1 монета от 20 ст. и 4 – по 5 ст.
По случаен начин, последователно, без връщане изважда монети до момента,
когато общата им стойност ще стане повече от 20 ст. Нека q е общата стойност (в
стотинки) на извадените монети, t - стойността на последната извадена монета, x -
стойността на първата извадена монета, h 1 – общата стойност на извадените бели
монети, h 2 – общата стойност на извадените жълти монети, x 1 – броя на
извадените бели монети, x 2 – броя на извадените жълти монети. Намерете
редовете на разпределение, вероятностите поотделно всяка от разглежданите
величини да е четно число, намерете модите, средните значения, дисперсиите и
средните квадратични отклонения на така определените случайни величини.
Начертайте полигоните им и графиките на функциите им на разпределение.
Задача 7: От урна, в която има 2 бели, 2 зелени и 2 червени топки по случаен
начин, без връщане се изваждат 3 топки. С x 1, x 2 и x 3 да означим броя на
извадените съответно бели, зелени и червени топки. q да е x 1 + x 2 , t да е x 1 - x 2,
h да е x 1.x 2, m да е min(x 1,x 2), n да е max(x 1, x 2), z да е |x 1- x 2|. Намерете
редовете на разпределение, вероятностите поотделно всяка от разглежданите
величини да е четно число, намерете модите, средните значения, дисперсиите и
средните квадратични отклонения на така определените случайни величини.
Начертайте полигоните им и графиките на функциите им на разпределение.
Задача 8: От урна, в която има 5 топки номерирани с числата от 1 до 5 по случаен
начин, последователно, без връщане се изваждат 3 топки. С x 1, x 2 и x 3 да
означим номерата на извадените съответно първа, втора и трета топки. q да е x 1 +
x 2 , t да е x 1 - x 2, h да е x 1.x 2, m да е min(x 1,x 2), n да е max(x 1, x 2), z да е |x 1-
x 2|. Намерете редовете на разпределение, вероятностите поотделно всяка от
разглежданите величини да е четно число, намерете модите, средните значения,
дисперсиите и средните квадратични отклонения на така определените случайни
величини. Начертайте полигоните им и графиките на функциите им на
разпределение.
Задача 9: В урна има 6 бели и 2 черни топки. Всички топки се изваждат по случаен
начин, последователно, без връщане. С x 1, x 2 и x 3 да означим броя на
извадените бели топки съответно преди първата поява на черна топка, между
първата и втората поява на черна топка и след втората поява на черна топка. q да е
x 1 + x 2 , t да е x 1 - x 2, h да е x 1.x 2, m да е min(x 1,x 2), n да е max(x 1, x 2), z да
е |x 1- x 2|. Намерете редовете на разпределение, вероятностите поотделно всяка от
разглежданите величини да е четно число, намерете модите, средните значения,
дисперсиите и средните квадратични отклонения на така определените случайни
величини. Начертайте полигоните им и графиките на функциите им на
разпределение.
Задача 10: По случаен начин се избира трицифрено число. С x 1, x 2 и x 3 да
означим съответно първата, втората и третата цифра на това число. q да е x 1 + x
2 , t да е x 1 - x 2, h да е x 1.x 2, m да е min(x 1,x 2), n да е max(x 1, x 2), z да е |x 1- x
2|. Намерете редовете на разпределение, вероятностите поотделно всяка от
разглежданите величини да е четно число, намерете модите, средните значения,
дисперсиите и средните квадратични отклонения на така определените случайни
величини. Начертайте полигоните им и графиките на функциите им на
разпределение.
Задача 11: Едновременно се подхвърлят бял, зелен ичервен зар. Нека x 1, x 2 и x 3
са броя на точките, които са се паднали съответно на белия, зеления и червения
зар. q да е x 1 + x 2 , t да е x 1 - x 2, h да е x 1.x 2, m да е min(x 1,x 2), n да е max(x 1,
x 2), z да е |x 1- x 2|. Намерете редовете на разпределение, вероятностите
поотделно всяка от разглежданите величини да е четно число, намерете модите,
средните значения, дисперсиите и средните квадратични отклонения на така
определените случайни величини. Начертайте полигоните им и графиките на
функциите им на разпределение.
Задача 12: В първа урна има 3 бели и 2 зелени топки. Във втора урна има 1 бяла и
3 червени топки. От двете урни по случаен начин, последователно, без връщане се
изваждат по 2 топки. С x 1, x 2 и x 3 да означим съответно общия брой на
извадените бели, зелени и червени топки. q да е x 1 + x 2 , t да е x 1 - x 2, h да е x
1.x 2, m да е min(x 1,x 2), n да е max(x 1, x 2), z да е |x 1- x 2|. Намерете редовете на
разпределение, вероятностите поотделно всяка от разглежданите величини да е
четно число, намерете модите, средните значения, дисперсиите и средните
квадратични отклонения на така определените случайни величини. Начертайте
полигоните им и графиките на функциите им на разпределение.
Задача 13: Човек има в джоба си 1 монета от 50 ст., 1 монета от 20 ст. и 2 – по 5 ст.
По случаен начин, последователно, без връщане изважда 3 монети. . С x 1, x 2 и x
3 да означим съответно стойността в стотинки на извадените първа, втора и трета
монети. Нека q е x 1 + x 2 , t да е x 1 - x 2, h да е x 1.x 2, m да е min(x 1,x 2), n да е
max(x 1, x 2), z да е |x 1- x 2|. Намерете редовете на разпределение, вероятностите
поотделно всяка от разглежданите величини да е четно число, намерете модите,
средните значения, дисперсиите и средните квадратични отклонения на така
определените случайни величини. Начертайте полигоните им и графиките на
функциите им на разпределение.
Задача 14: По случаен начин, последователно се избират 3 от върховете на
правилен шестоъгълник със страна 1 дм. С x 1, x 2 и x 3 да означим съответно най-
малкия, средния и най-големия от ъглите в градуси на получения триъгълник.
Нека q е x 1 + x 2 , t да е x 1 - x 2, h да е x 1.x 2, m да е min(x 1,x 2), n да е max(x 1, x
2), z да е |x 1- x 2|. Намерете редовете на разпределение, вероятностите поотделно
всяка от разглежданите величини да е четно число, намерете модите, средните
значения, дисперсиите и средните квадратични отклонения на така определените
случайни величини. Начертайте полигоните им и графиките на функциите им на
разпределение.
Задача 15: По случаен начин, последователно се избират 3 от върховете на
правилен шестоъгълник със страна 1 дм. С x 1, x 2 и x 3 да означим съответно най-
малката, средната и най-голямата дължина на страна в дециметри на получения
триъгълник. Нека q е x 1 + x 2 , t да е x 1 - x 2, h да е x 1.x 2, m да е min(x 1,x 2), n
да е max(x 1, x 2), z да е |x 1- x 2|. Намерете редовете на разпределение,
вероятностите поотделно всяка от разглежданите величини да е четно число,
намерете модите, средните значения, дисперсиите и средните квадратични
отклонения на така определените случайни величини. Начертайте полигоните им и
графиките на функциите им на разпределение.
Задача 16: Група от 5 мъже и 10 жени по случаен начин се разделя на пет групи по
трима човека. С x 1, x 2 и x 3 да означим съответно броя на групите само от мъже,
само от жени и такива в които има и мъже и жени. Нека q е x 1 + x 2 , t да е x 1 - x
2, h да е x 1.x 2, m да е min(x 1,x 2), n да е max(x 1, x 2), z да е |x 1- x 2|. Намерете
редовете на разпределение, вероятностите поотделно всяка от разглежданите
величини да е четно число, намерете модите, средните значения, дисперсиите и
средните квадратични отклонения на така определените случайни величини.
Начертайте полигоните им и графиките на функциите им на разпределение.

ГЛАВА 6. ГЕАФИЧНИ МЕТОДИ ЗА ОПРЕДЕЛЯНЕ ТИПА НА


РАЗПРЕДЕЛЕНИЕТО НА ИЗВАДКАТА

Ако искате да опознаете случайните величини, първо определете правилно


разпределението им.
След усвояването на информацията от тази глава Вие ще можете:

• Правилно, бързо и научно-обосновано да определяте разпределението на


изучавания признак.
• Да разберете защо можем да работим с емпиричната функция на
разпределение вместо с теоретичната.

Въведение: Названието P-P plot, с което ще се запознаем след малко, произлиза от


английски език и по-точно от думите рlot – графика и probability – вероятности.
Аналогично за Q-Q plot, идва от quantile – квантил. Причината да запазим
английските названия на тези графики е, че точно с тези названия са и
процедурите за изчертаването им, които се използват в популярният статистически
софтуер. По-подробна информация за разглежданите тук методи може да бъде
намерена в [Klueppelberg, Cl. Tomas Mikosh and Paul Embrechts. Modelling Extremal
Events. 1997, стр. 290-294.
P-P plot и Q-Q plot
Една от най-знаменитите книги в статистиката е Gumbel, E. J. Statistics of extremes.
Columbia University Press. New York, 1958. Тя е празник за читателя. Съдържа
приблизително 100 графики и 50 таблици. Авторът набляга на важността да
разгледаме внимателно данните преди да ги обработим. В тази секция ще се спрем
на два от по-важните графични методи за анализ на типа на разпределението на
величината, върху която сме извършили наблюдения.
След като сме събрали статистическите данни, обикновено започваме
анализирането им с изчертаване на хистограма, емпирична функция на
разпределение или в многомерния случай с корелационно поле. За простота на
изложението да се ограничим с едномерния случай.
Да предположим, че разполагаме с данни X1, X2, …, Xn, от n на брой наблюдения
върху една и съща величина X с неизвестна за нас функция на разпределение F.
Търсим теоретичното разпределение на X, т.е. F. Да подредим данните възходящо
и така подредени да ги означим съответно с Xn1, Xn2, …, Xnn, т.е. Xn1 = min( X1,
X2, …, Xn ) и Xn1 = max(X1, X2, …, Xn). Да означим a - квантила на функцията F
с хa и емпиричната функция на разпределение на извадката с Fn. Теоретичната
основа на следващите два графични метода се дава от знаменитата теорема на
Гливенко-Кантели, която гласи, че когато увеличаваме обема на извадката, т.е. n,
можем с безкрайна точност да приближим емпиричната функция на разпределение
на извадката, т.е. Fn до теоретичната функция на разпределение на наблюдаваната
величина, т.е. F.
P-P plot наричаме множеството от точки с координати

Q-Q plot наричаме множеството от точки с координати

От дефинициите на Fn и хa лесно се вижда, че

ето защо ако F е теоретичното разпределение на X, би трябвало горните две


графики да се състоят от точки, лежащи на ъглополовящата на първи квадрант на
координатната система. На практика, обаче ние не разполагаме с теоретичната
функция на разпределение F. по тази причина си избираме някаква функция на
разпределение, да я означим с Fт и изчертаваме графиката от точки
Ако тези точки се групират около ъглополовящата на първи квадрант, на основата
на P-P plot имаме основание да твърдим, че Fт е търсената функция на
разпределение F. Ако тези точки се групират около права, която не минава през
началото на координатната система или не сключва ъгъл 45° с абсцисната ос,
значи Fт е от типа на F, но не е съвпада все още с нея. Необходимо е да
центрираме и нормираме извадката си преди да приложим този метод. Ако
точките не се групират около права значи не сме улучили нито средното, нито
стандартното отклонение на Х нито пък Fт е от типа на F. В този случай сменяме
параметрите на тестваната функция на разпределение Fт или самата функция Fт и
повтаряме горната процедура. Продължаваме така докато улучим подходящата
функция Fт. Виж Пример 1 в края на тази глава.
По аналогичен начин се анализират и Q-Q plot. По-подробно описание на
разгледаните от нас и други графични методи може да бъде намерено в
Klueppelberg, Cl. Tomas Mikosh and Paul Embrechts. Modelling Extremal Events.
1997.
Освен за определяне на типа на разпределението P-P plot и Q-Q plot могат да ни
послужат и да определим аутлайърите (outliers). Това са значения, които силно си
отличават от останалите, т.е. може би съдържат грешка и е добре да бъдат
премахнати. Да не забравяме обаче, че тези отклоняващи се точки могат да се
появят на графиката ни и ако не сме подбрали правилно тестваната функция на
разпределение.

ЗА САМОПОДГОТОВКА
Въпроси към темата
Кога е удобно да използваме P-P plot и кога Q-Q plot?

Литература

1. Klueppelberg, Cl. Tomas Mikosh and Paul Embrechts. Modelling Extremal


Events. 1997.
2. Gumbel, E. J. Statistics of extremes. Columbia University Press. New York,
1958.

Примерни ситуации и решения


Пример 1: Определете средната брутна печалба на разглежданите в пример 1 на §
1.2 фирми и стандартното отклонение по този признак. Като използвате данните от
Error! Reference source not found. и P-P plot определете типа на разпределението на
фирмите по признака “брутна печалба за 2004 г.”.
Решение: На Фиг. 1 и Фиг. 2 е показано как изглежда P-P plot за данните от Error!
Reference source not found. при различни параметри на нормалното разпределение.
Да отбележим, че средното аритметично на данните от генералната съвкупност е
55.05442 х. лв. и стандартното отклонение е 17.67822 х.лв.
Фиг. 1 P-P plot на данните от Error! Reference source not found. с Fт нормално
разпределена със средни съответно 40, 80 и 55.05442 и дисп. 25
Фиг. 2 P-P plot на данните от Error! Reference source not found. с Fт нормално
разпределена със средно 55.05442 и дисперсии съответно10, 50 и 17.67822
Тъй като точките от последната графика на Фиг. 2 най-добре се концентрират
около ъглополовящата на първи квадрант имаме основание да твърдим, че данните
са от нормално разпределена съвкупност със средно 55.05442 х. лв. и стандартното
отклонение е 17.67822 х.лв.

Задачи за упражнение
Задача 1: Изчертайте емпиричната функция на разпределение на студентите от
вашия курс по признака среден успех от дипломата за средно образование.
Приложими ли са разгледаните два метода за определянето на разпределението на
наблюдавания от вас признак? Защо?
Задача 2: Определете средномесечния разход за нощувки на туристите посетили
курортен комплекс Х и стандартното отклонение по този признак като използвате
данните от Задача 1 на § 1.2. Начертайте P-P plot и определете типа на
разпределението на фирмите по този признак.

ГЛАВА 7. СТАТИСТИЧЕСКА ОЦЕНКА НА ПАРАМЕТРИ

Оценката е отражение на действителността. Внимавайте с “лещата”, която


пречупва светлината.
След усвояването на информацията от тази глава Вие ще можете:

• Да различавате добрите от лошите оценки.


• Да построявате точкови оценки.
• Да използвате доверителни интервали.
• Да определяте броя на единиците, които трябва да попаднат в извадката ви,
за да достигнете до желаната точност на оценките, които ще построявате.
Въведение: Често пъти на практика не можем да извършим наблюдения върху
цялата генерална съвкупност, а само върху част от нея, т.е. върху извадка. По тази
причина не можем да установим параметрите на съвкупността, а пресмятаме само
числови характеристики от извадката. Ако тя е репрезентативна (представителна),
на основата на характеристиките й правим заключения за неизвестните параметри
на съвкупността. В основата на тези заключения стои Теорията на вероятностите,
т.к. колкото и правил-но да сме подбрали статистическите единици попадащи в
извадката не можем да пренебрегнем случайния й характер. Така статистическата
съвкупност се анализира в някакво приближение. Числовите характеристики
получени от извадката се наричат оценки. В тази глава ще разберем каква трябва
да е една оценка за да е добра и защо в примера от предната глава вместо първия
параметър на нормалното разпределение, т.е. математическото му очакване,
използвахме средното аритметично, а вместо дисперсия - s 2.
По-задълбочена информация относно разработването на статистически методи
може да бъде намерена на страниците на електронния вариант на учебника на
Въндев, Д., Димитров, Б., Янев, Н. Вероятности и статистика. София, 1990 -
http://www.fmi.uni-sofia.bg/fmi/statist/lectures.htm.
7.1. ТОЧКОВИ ОЦЕНКИ
Ще наричаме “оценка” или “статистика”, всяка функция на извадката, която
приемаме за стойност на неизвестния параметър.
Да предположим, че се интересуваме от средната брутна печалба на всички фирми
в България, занимаващи се с разглежданата от нас дейност. Един изследовател ще
оцени неизвестното средно с медианата, друг със средното аритметично. Кой от
двамата ще даде по-точна оценка? За да отговорим на този и подобни въпроси,
първо трябва да разгледаме някои свойства на оценките и след това да кажем коя
оценка е добра.
Разполагаме с извадка X1, X2, …, Xn, от n на брой наблюдения върху някакъв
метриран признак измерен при единици от една и съща съвкупност. От теоретична
гледна точка казваме, че това са реализациите на n на брой случайни величини
X`1, X`2, …, X`n с една и съща функция на разпределение F. Търсим оценка за
неизвестния параметър q в това разпределение. Ще означаваме стойността на
оценките на q с tn(X1, X2, …, Xn ), а техния теоретичен еквивалент с tn(X`1, X`2,
…, X`n). Теоретичният еквивалент на оценките е случайна величина.
Една оценка tn(X`1, X`2, …, X`n) се нарича неизместена за q ако математическото
й очакване е равно на оценявания параметър q , т.е. ако
Е tn(X`1, X`2, …, X`n) = q .
Ще използваме досегашните означения за различните числови характеристики, но
когато е необходимо да уточним дали става въпрос за емпиричния или
теоретичния им вариант, ще пишем след тях съответно (X1, X2, …, Xn ) или (X`1,
X`2, …, X`n).
От свойствата на математическото очакване лесно се проверяват следващите
резултати.

• Средното аритметично на X`1, X`2, …, X`n е неизместена оценка за


математическото очакване.

От практическа гледна точка това значи, че при репрезентативна извадка средното


аритметично на данните от извадката е неизместена оценка на съответното средно
аритметично на генералната съвкупност.
• s n(X`1, X`2, …, X`n) е слабо изместена оценка за стандартното отклонение
на разпределението на извадката.

• Дисперсията S2n(X`1, X`2, …, X`n) е неизместена оценка за дисперсията на


разпределението на извадката.

Тук

При пресмятането на тази характеристика по данни от извадка претеглената


формула има вида:

Да обърнем внимание, че

• Емпиричната функция на разпределение Fn е неизместена оценка за


теоретичната функция на разпределение F на наблюдавания признак.

За една и съща характеристика на генералната съвкупност може да има повече от


една неизместени оценки. Коя от тях да изберем? Естествено е да заключим, че
оценката е по-ефективна, колкото по-малка е дисперсията й. Така тя ще има най-
малко разсейване около средната си стойност и най-близка стойност до
оценявания параметър. Да припомним, че според определението на понятието
“неизместеност”, оценявания параметър съвпада със средното значение на
оценката. От Математическата статистика е известно, че ако съществува
неизместена оценка с минимална дисперсия, тя е единствена и се нарича
ефективна оценка. Задачата затърсене на такава оценка се решава с помощта на
Неравенството на Рао-Крамер виж в Кендал, М., Стюард, А. Статистически изводи
и връзки. Москва, 1973, Димитров, Б., Янев, Н. Вероятности и статистика. София,
1990. Тя е обект на Математическата статистика и ние няма да се занимаваме с
нея. Ще се ограничим само с твърдението, че

• Средното аритметично е ефективна оценка за математическото очакване на


разпределението на извадката, т.е. при репрезентативна извадка средното
аритметично на данните от извадката е много добра оценка на съответното
средно аритметично на генералната съвкупност.

Ако не съществува ефективна оценка, се търси друга функция на извадката, която


при увеличаване на обема на извадката се стреми към оценявания параметър.
Такива оценки се наричат състоятелни. При увеличаване броя на единиците в
извадката дисперсиите на тези оценки намаляват. Ще дадем само по-важните за
нас твърдения, които се отнасят до състоятелност на оценките.

• Средното аритметично и медианата са състоятелни оценки за средното


значение на разпределението на извадката.
• Дисперсията на извадката S2n е състоятелна оценка за дисперсията на
наблюдавания признак на генералната съвкупност .
• Емпиричната функция на разпределение Fn е състоятелна оценка за
теоретичната функция на разпределение F.

Самите методи за построяване на точкови оценки могат да бъдат намерени в


Гатев, К. Въведение в общата теория на статистиката. София, 1980. Ще се спрем
накратко на два от тях: Метода на максималното правдоподобие и Метода на най-
малките квадрати. За целта да въведем още няколко понятия. Съвкупността À от
всички възможни стойности на вектора (X`1, X`2, …, X`n) ще наричаме извадково
пространство. В много случаи в статистиката се използват едни и същи методи
при работа с дискретни и непрекъснати разпределения. Ето защо за
разпределението на вектора (X`1, X`2, …, X`n), което може да зависи от
неизвестен параметър q , се въвежда сборно понятие - функция на правдоподобие.
Ще я означаваме с L( x1, x 2, …, x n / q ). Ако разпределението на извадката е
дискретно
L( x1, x 2, …, x n / q ) = Р( X1 = x1, X2 = x2…, Xn = xn / q ).
Ако е непрекъснато L( x1, x 2, …, x n /q ) съвпада със съвместната плътност на
разпределение на X1, X2, …, Xn. Когато наблюденията, които попадат в извадката
са независими едно от друго, извадката се нарича проста. В този случай
многомерното разпределение е произведение от съответните едномерни
разпределения, т.е. в дискретния случай
L( x1, x 2, …, x n /q ) = Р( X1 = x1 /q )Р( X2 = x2/q )… Р( Xn = xn /q ),
а в непрекъснатия
L( x1, x 2, …, x n /q ) = РX1 ( x1 /q ) РX2 ( x2/q )… РXn ( xn /q ).
Метода на максималното правдоподобие се състои в намирането на такава оценка
tn(X1, X2, …, Xn), която максимизира функцията на правдоподобие по отношение
на неизвестния параметър. Чрез този метод се построяват ефективни и
състоятелни оценки. Да отбележим, че от това не следва, че са неизместени.
Метода на най-малките квадрати се състои се в минимизиране на сумата от
квадратите на отклоненията на фактическите измерени стойности на
характеристиките в извадката от съответните неизвестни параметри.
При нормално разпределени извадки двата метода дават едни и същи резултати.

ЗА САМОПОДГОТОВКА
Въпроси към темата
Кои оценки са най-добри?
Каква е разликата между съвместно разпределение на независими дискретни
случайни величини, независими непрекъснати случайни величини и функция на
правдоподобие?
Ако разполагате с данни от репрезентативна извадка, посочете добри оценки за
математическото очакване, дисперсията и емпиричната функция на разпределение
на изучавания признак. Обосновете защо избрахте точно тях.

Литература

1. Гатев, К. Въведение в общата теория на статистиката. София, 1980.


2. Кендал, М., Стюард, А. Статистически изводи и връзки. Москва, 1973.

3. Димитров, Б., Янев, Н. Вероятности и статистика. София, 1990.

ГЛАВА 7. СТАТИСТИЧЕСКА ОЦЕНКА НА ПАРАМЕТРИ


7.2. ИНТЕРВАЛНИ ОЦЕНКИ

Точковите оценки предлагат за неизвестния параметър на генералната съвкупност


конкретно число. Ако вече сме построили такава оценка, например за средната на
съвкупността по даден признак и извършим нови наблюдения, средната на новата
извадка в общия случай ще се отклонява от оценката за средната на съвкупността.
По тази причина е за предпочитане да получим цял интервал, в който попада
неизвестния параметър, с избрана от нас вероятност 1 - a , т.е. търсеният интервал
е такъв, че ако имаме възможност да направим 100 извадки, в (1 - a )100 от тях
средната на извадката ще се намира в получения от нас интервал. В този случай
говорим за интервална оценка и доверителен интервал. a се нарича ниво на
доверие или равнище на значимост, а 1 - a - гаранционна вероятност. a може да
бъде всяко число между 0 и 1. Колкото е по-близо до 0, толкова доверителния
интервал е по-широк. Обикновено се работи с a Î (0.01, 0.05].
Ще се спрем по-подробно на построяване на доверителен интервал на един
неизвестен параметър. Задачата за определянето му изглежда така: Разполагаме с
извадка X1, X2, …, Xn, от n на брой наблюдения върху една и съща величина
(метриран признак), формирана чрез възвратен подбор, което съвпадаше по
същество със случая, когато извадката е много по-малка по обем от генералната
съвкупност. Търсим две числа а n(X1, X2, …, Xn ) и вn(X1, X2, …, Xn ) такива, че
неизвестния параметър q попада в интервала (аn(X1, X2, …, Xn ), вn(X1, X2, …,
Xn )] с вероятност 1- a , т.е.
(1) P(а n(X1, X2, …, Xn ) £ q < вn(X1, X2, …, Xn )) = 1- a .

Фиг. 1
и дължината на интервала (аn(X1, X2, …, Xn ), вn(X1, X2, …, Xn )] е минимална за
така избраното от нас a . За простота на записа надолу ще пишем само аn и вn.
Ще се спрем по-подробно на определяне на доверителен интервал на средното
аритметично на нормално разпределена съвкупност. Нека са извършени n на брой
независими наблюдения X1, X2, …, Xn върху нормално разпределена съвкупност,
т.е. X`1, X`2, …, X`n са независими, еднакво нормално разпределени и q е
неизвестния параметър. От математическата статистика е известно, че средната
аритметична q на нормално разпределени величини е нормално разпределена.
Тогава разпределението на q е симетрично относно математическото й очакване.
От свойствата на математическото очакване знаем, че математическото очакване
на средното аритметично съвпада с математическото очакване на осредняваните
величини. Ние не го знаем, но знаем, че средното аритметично на извадката е
много добра негова оценка. Тогава можем с него да центрираме q . С цел
опростяване на записа да изпуснем означението (X1, X2, …, Xn ) и да означим с

За центрираната q формула (1) приема вида


(2) P(а n - £q- < вn - ) = 1- a .
Математическото очакване на q - е нула и нормалното разпределение е
симетрично относно и концентрирано около математическото си очакване, т.е.
разпределението на q - e симетрично относно и концентрирано около нулата,
тогава
(3) P(q - < - x ) = 1- P(q - <x)
и за да получим възможно най-тесен доверителен интервал трябва
(4) а n - = - ( вn - ).
Търсим а n и вn такива, че да удовлетворяват (4) и (2). Задачата ни ще бъде
решена, ако намерим едно от тези числа такова, че
(5) P( - ( вn - )£ q - < вn - ) = 1- a .
и после използваме (4), за да намерим другото число.
От свойствата на вероятностната мярка (5) е еквивалентно на
P( q - < вn - ) - P( q - < - ( вn - )) = 1- a
От (3) P( q - < вn - ) - ( 1 - P( q - < вn - ))= 1- a ,
т.е. P( q - < вn - ) = 1- a / 2.
Тогава вn - е 1- a / 2 квантила на разпределението на q - , значи вече можем
да определим вn. Само, че ако приложим така изработената процедура за
построяване на доверителен интервал, всеки път ще ни се налага да определяме
квантил на разпределението на q - , което не е стандартно, а ние разпола-гаме
само с таблици на стандартното нормално разпределение. За да ги използваме
трябва да нормираме q - , т.е. трябва да разделим q - на стандартното й
отклонение. Да припомним, че ако s е стандартното отклонение на
разпределението на съвкупността, стандартното отклонение на средното
аритметично на извадката,

т.е. на q е и то не се променя, ако към осредняваните величини прибавим


или извадим константа. Ето защо в последната формула ще разделим на
стандартното отклонение на q , получаваме

(6) P( ) = 1- a / 2

където е стандартно нормално разпределена. Тогава ако


означим със z 1-a /2 1- a / 2 квантила на това разпределение

Като използваме това равенство и (4) получаваме, че търсените краища на


доверителния интелвал са

т.е. с вероятност 1-a , средното аритметично на величините от извадката е в


интервала

В приложната статистика, означението

(7)
се използва не само за нормално разпределени извадки. Тази величина се нарича
стандартна стохастична грешка на средната аритметична, а z 1-a /2 – гаранционен
множител. Величината

(8)
се нарича максимална стохастична грешка.
Често пъти стандартното отклонение s на генералната съвкупност не е известно. В
този случай, при определянето на доверителния интервал се използва неговата

неизместена оценка и като имаме предвид, че , за доверителен


интервал на средното аритметично на нормално разпределена съвкупност
получаваме

(9)
В случаите, когато съвкупността не е нормално разпределена се използва
Централната гранична теорема:
Асимптотичното разпределение на средното аритметично на всяка съвкупност с
крайна дисперсия е нормално.
С други думи при голям обем на извадката можем да приложим горния алгоритъм
за намиране на доверителен интервал на средното аритметично на извадка от
съвкупност с произволно разпределение и с крайна дисперсия. При възвратен
подбор, условието извадката да е голяма по обем, за да важи Централната
гранична теорема, не създава проблем. Ако обаче извадката е формирана с
връщане, за да важи Централната гранична теорема трябва тя да е голяма по обем,
а за да имаме проста извадка тя трябва да е с обем много по-малък от обема на
съвкупността. Във втория случай изследователят трябва да е много внимателен и
да намери подходящия обем на извадката, така че и двете условия за n да са
удовлетворени.
Когато подборът е с връщане и обема на извадката не е много по-малък от обема
на генералната съвкупност, стандартната грешка е по-малка в сравнение с тази

определена по формула (7) и оценката й трябва да се коригира. В този случай


(10)
където N е обема на генералната съвкупност, n – обема на извадката, а

(11)
Доверителния интервал за средната аритметична в този случай (при известна
дисперсия на генералната съвкупност) е

(12)
Когато дисперсията на генералната съвкупност не е известна, заменяме s с .
Ако построяваме доверителен интервал на относителен дял, границите му се

намират по същите формули, като заменим в тях с относителния дял ,


определен по данни от извадката, а s
и с . Този факт се обяснява със свойствата на биномното
разпределение.
Когато не можем да построим толкова голяма извадка, че да е в сила Централната
гранична теорема и разпределението на средното аритметично е неизвестно или
неудобно за работа, гаранционният множител z 1-a /2 се определя като 1-a /2-
квантил на разпределението на Стюдент.
Изложената методология за определяне на доверителен интервал може да се
използва и при оценка на други параметри на извадката. Това, което се променя е
разпределението на съответния параметър q , а от тук и вида на максималната
стохастична грешка на съответния доверителен интервал.

ЗА САМОПОДГОТОВКА
Въпроси към темата
Защо се налага при построяване на доверителен интервал на средното
аритметично на генерална съвкупност да центрираме и нормираме случайните
величини и какво означава това?
Кога се използва Централната гранична теорема и какъв е смисъла й?
Начертайте на графиката на плътността на стандартното нормално разпределение
къде се намира гаранционния множител
z 1-a /2. Обяснете в какви съотношения правата, която минава през него и е
успоредна на ординатната ос, разделя лицата под кривата на плътността? Колко е
цялото лице на фигурата под кривата на плътността? Само за нормалното
разпределение ли е толкова или и за другите също?
В различните задачи при едно и също ниво на доверие един и същ гаранционен
множител ли се получава?
Променят ли се стандартната стохастична грешка и максималната стохастична
грешка, ако данните са различни, а гаранционния множител е един и същ?

Примерни ситуации и решения


Пример 1: По данните от Error! Reference source not found., с равнище на
значимост 0.05, постройте доверителен интервал за средната брутна печалба на
фирмите в България за 2004г., които се занимават с разглеждания вид дейност.
Решение: В пример 1 на Глава 6 вече проверихме, че разпределението на извадката
е нормално. Лесно се пресмята, че
= 55,05442 х. лв.
Тъй като не разполагаме с дисперсията на генералната съвкупност
ще използваме нейната неизместена оценка , която пресметната по данните
от Error! Reference source not found. е 17,4383. Стандартната грешка на оценката е

Освен това 1-a /2 = 0, 975. От таблиците на стандартното нормално разпределение


(виж табл. 1 на приложението) определяме 0, 975 – квантила z 0,975 = 1.96.
Максималната грешка на оценката е

Тогава от (9) с равнище на значимост 0,05, търсеният доверителен интервал е

Можем да твърдим, че средната брутна печалба на фирмите в България


занимаващи се с разглеждания вид дейност е в интервала (52,192; 57,849].

Задачи за упражнение
Задача 1: В пример 1 на този параграф, е намерен доверителен интервал, като
използваните величини са пресметнати по непретеглените формули. По данните от
Error! Reference source not found., с равнище на значимост 0.05, постройте
доверителен интервал за средната брутна печалба на фирмите в България за 2004
г., които се занимават с разглеждания вид дейност.
Упътване: Трябва да използвате претеглените формули.
Кой доверителен интервал е по-точен и защо?

ГЛАВА 7. СТАТИСТИЧЕСКА ОЦЕНКА НА ПАРАМЕТРИ


7.3. ОПРЕДЕЛЯНЕ ОБЕМА НА ИЗВАДКАТА ПРИ ПРЕДВАРИТЕЛНО
ИЗВЕСТНА МАКСИМАЛНА ГРЕШКА И ГАРАНЦИОННА ВЕРОЯТНОСТ

При извадкови проучвания, на практика, изследователят определя обема на


извадката преди да е извършил самите наблюдения, в зависимост от поставените
си цели. Той първо избира каква да е максималната стохастична грешка и
гаранционна вероятност на оценките, които предстои да построи, а после използва
формулите (8) или(11) и определя обема на извадката. Да обърнем внимание, че
това може да стане само ако е известна дисперсията на генералната съвкупност. В
повечето случаи тя не е известна. В този случай се правят предварителни
проучвания и се построяват нейни приблизителни оценки.
И така да предположим, че сме избралимаксималната стохастична грешка и
гаранционна вероятност и сме намерили приблизителна оценка на дисперсията на
съвкупността, тогава
- при възвратен подбор от (8) получаваме, че обема на извадката, с която ще
извършим бъдещи проучвания трябва да е
(13)
- при безвъзвратен подбор от (11) получаваме, че той трябва да е

(14)
И от двете формули се вижда, че връзката между обема на извадката и
максималната стохастична грешка е обратно пропорционална. Това значи, че при
по-малки n ще получим по-широк доверителен интервал. Не можем, обаче да
намалим неограничено максималната стохастична грешка. Работа на
изследователя е да намери оптималния вариант.
Ако определяме n, с цел построяване на доверителен интервал на относителен дял,
се използват същите формули, но
като заменим в тях s с .
Изложената методология за определяне на обема на извадката може да се използва
и при оценка на други параметри на извадката. Това, което се променя е връзката
между максималната стохастична грешка на съответния параметър и n, а от тук и
вида на формулите (13) и (14).

ЗА САМОПОДГОТОВКА
Въпроси към темата
Покажете защо формули (13) и (14) са верни. В кои случаи се използват?
При една и съща максимална стохастична грешка и гаранционна вероятност, за
различни съвкупности еднакъв обем на извадката ли ще получим?

Примерни ситуации и решения


Пример 1: Търговска организация е получила 500 топа плат от един артикул.
Приемателните органи са решили да направят проверка на отклонението в
метража на платовете от стандартно определения метраж. От досегашните
проверки е установено, че дисперсията по този признак е 150 см. Извадката ще
бъде излъчена по лотарийния
а) безвъзвратен подбор;
б) възвратен подбор.
Колко топа плат трябва да бъдат проверени, така че резултатите да се гарантират с
риск за грешка 10% и максималното отклонение да е 10 см?

Решение: а) От табл. 1 в приложението при 1- = 1-0,05 =


0,95 определяме z = 2, по условие N = 500, = 10 см., s 2 = 150 и т.к. в тази
подточка подбора е безвъзвратен, трябва да използваме формула (14). Получаваме

Следователно трябва да проверим дължините на минимум 6 топа плат, за да


можем след пресмятането на средната им да твърдим, с 95% сигурност, че средния
метраж на всички топове се различава с по-малко от 10 см от така определената
средна.
б) Независимо от начина на подбиране на единиците в извадката, само от
гаранционната вероятност и с помощта на табл. 1 в приложението определяме
същото z = 2, по условие = 10 см, s 2 = 150 и като използваме формула (13)
получаваме

Или независимо от това дали подбора на топовете е възвратен или безвъзвратен за


да получим желаната точност за средния метраж на всичките 500 топа трябва да
проверим минимум 6 топа плат.

Задачи за упражнение
Задача 1: В разсадник се отглеждат за продажба дръвчета. В края на зимата трябва
да се определи броя на здравите дръвчета за продан. При изследване на леха от
сребрист клен с ширина 1 м, и дължина 430 м, по пътя на изчерпателното
изследване е намерен средният брой фиданки на м2. Той е 19 броя. Дисперсията се
е оказала 85,6 броя на м2. Колко метра леха трябва да се наблюдават, за да може да
се твърди с риск за грешка 5%, че броя на дръвчетата на м2 е средния брой,
пресметнат от извадката ± 2 бр.

ГЛАВА 8. СТАТИСТИЧЕСКА ПРОВЕРКА НА ХИПОТЕЗИ

След усвояването на информацията от тази глава Вие ще можете:

• Да моделирате статистически хипотези.


• Да проверявате статистически хипотези относно параметри в известно
разпределение.
• Да проверявате статистически хипотези относно типа на разпределението.
• Да проверявате дали две извадки са от една и съща съвкупност.

Въведение: Основните идеи на изложената от нас, в тази глава теория,


принадлежат най-вече на Джърси Неймън и Егон Пирсън. При по-задълбочена
подготовка е добре да използвате учебниците на Боян Димитров и Николай Янев
Димитров, Б., Янев, Н. Вероятности и статистика. София, 1990 или на Кирил
Гатев- Гатев, К. Въведение в общата теория на статистиката. София, 1980. Много
често използвани критерии за проверка на хипотезата дали две извадки са или не
са статистически различими са Х-критерия на Ван-дер-Варден и U-критерия на
Уилкоксън (Манна - Уитни). Те могат да бъдат намерени съответно във Ван-ден-
Верден, Б. Д. Математическая статистика. 1960. Интересен непараметричен метод
за проверка на хипотези относно сравняване на две зависими, свързани извадки е
критерия на знаците. Той може да бъде намерен в Hald, A. Statistical Theory with
Engineering Applications. London, 1952.
Това е последната част от учебника, в която посочваме връзката между теорията и
практиката. В останалите части ще опишем само алгоритмите, необходими за
прилагането на статистическите методи.

8.1. ОСНОВНИ ПОНЯТИЯ


Нека разполагаме с n на брой наблюдения X1, X2, …, Xn, над една и съща
величина (метриран признак) Х. Под хипотеза в статистиката се разбира
твърдение, чиято истинност се съдържа по някакъв начин в типа или параметрите
на разпределението на извадката. Така всяка хипотеза е еквивалентна на
предположение за закона на разпределение на вектора (X`1, X`2, …, X`n). Както
вече знаем, в статистиката този закон се описва с функцията на правдоподобие. И
така, формулираме две хипотези, такива че имаме основание да смятаме, че точно
едната от тях е вярна. Основната, проверявана хипотеза се нарича нулева и
формално се означава по следния начин:
Н0 : L ( x1, x 2, …, x n ) = L0 ( x1, x 2, …, x n ).
Когато тя не е вярна, е вярна някоя друга хипотеза, която ще наричаме
алтернативна и ще означаваме с
Н1 : L ( x1, x 2, …, x n ) = L1 ( x1, x 2, …, x n ).
Ако на предположението на хипотезата съответства точно една функция на
правдоподобие, говорим за проста хипотеза, иначе хипотезата се нарича сложна.
Ако хипотезите се отнасят до типа на разпределението се наричат
непараметрични. Ако се отнасят до параметри на разпределението се наричат
параметрични.
P (“ Да отхвърлим Н0“ / “Н0 е вярна“) се нарича риск за грешка от първи род.
Ниво на съгласие се нарича максималната вероятност, с която сме съгласни да
допуснем грешка от първи род. Обикновено се означава с a . Както всяка
вероятност, a Î [0, 1]. Определянето й не е математическа задача. Избира се
обикновено между 0.01 и 0.05, в зависимост от естеството на изследването.
P (“Да не отхвърлим Н0“ / “Н1 е вярна“) се означава с b и се нарича риск за грешка
от втори род, b Î [0, 1]. Определя се в края на проверката на хипотезите.
Величината 1 - b = P(“Да отхвърлим Н0“ / “Н1 е вярна“) се нарича мощност на
критерия.
При зададено ниво на съгласие a , търсим подмножество Wa на À , нарeчено
критична област за нулевата хипотеза, такова че ако извадката попадне в Wa
отхвърляме Н0, иначе нямаме основание отхвърлим Н0. Това значи, че събитието
“Да отхвърлим Н0”, съвпада със събитието “( X`1, X`2, …, X`n ) Î Wa ” и
съответно “Н0 е вярна” е същото като “( X`1, X`2, …, X`n ) Ï Wa ”. Множеството
Wa удовлетворява условието
(1) P(“( X`1, X`2, …, X`n ) Î Wa ” / “Н0 е вярна”) £ a .
Така построена, критичната област не е единствена. Коя от всички критични
области с ниво на съгласие a да изберем? Естествено е да предпочетем тази, при
която се получава най-малък риск за грешка от втори род b . Ако съществува
такава, ще я означаваме с Wa *.
Да обърнем внимание, че от монотонността на вероятностната мярка, колкото
намаляваме грешката от първи род, толкова повече критичната област за нулевата
хипотеза намалява, а това означава, че в по-малко случаи извадката ще й
принадлежи. Ставаме по-малко взискателни към удовлетвореността на нулевата
хипотеза. По същата причина обаче нараства грешката от втори род и изкуството
на статистика се състои в избора на подходящо a . Един добър изход от този
порочен кръг е при избрано a и b , да определим обема на извадката, така че да
получим риск за грешка от втори род най-много b .

ЗА САМОПОДГОТОВКА
Въпроси към темата
Дефинирайте понятията: Критична област, ниво на доверие, мощност на критерия.
Какво се получава с критичната област, грешката от втори род и мощността на
критерия, когато грешката от първи род намалява? Защо?
Какво значи, от математическа гледна точка, да проверим статистическа хипотеза?
Каква е математическата постановка на задачата?
Дайте примери на задачи, които изискват статистическа проверка на хипотези.
Формулирайте хипотезите и определете вида им.

Литература
1. Димитров, Б., Янев, Н. Вероятности и статистика. София, 1990.
2. Гатев, К. Въведение в общата теория на статистиката. София, 1980.
3. Ван-ден-Верден, Б. Д. Математическая статистика. 1960.
4. Hald, A. Statistical Theory with Engineering Applications. London, 1952.

Задачи за упражнение
Задача 1: Млекопреработвателна фирма решава да произвежда и пакетира краве
масло. За целта закупува машина, която го пакетира. След началото на
производствената дейност, контролните органи решават да проверят дали са
спазени изискванията по пакетирането. По случаен начин избират 100 пакетчета и
проверяват техните маси. Средната маса от извадката е 121 гр. Формулирайте
хипотезите, чиято проверка ще ни покаже дали средната маса на всички
произведени пакетчета е 125 гр или трябва да пренастроим машината? Определете
вида на хипотезите.
Задача 2: Фирма прозводител на хлебна пшеница решава да провери
ефективността на два вида торове върху добивите от пшеница. За целта се засяват
2 дка, от които половината се торят с тор А, а другата половина с тор В. Цените на
изразходваните торове са съответно 12 лв. и 12,80 лв. От пшеницата торена с тор А
са добити 300 кг при стандартно отклонение 0.3 кг на м2, а от тази торена с тор В -
350 кг, при стандартно отклонение 0.7 кг на м2. Каква проверка на хипотези ще
предложите на производителите за да решат кой тип тор е за предпочитане?
Определете вида на хипотезите.
Задача 3: Главният готвач на кухня в ресторант твърди, че не повече от 1% от
приготвените в кухнята стоки са с нестандартно тегло. Управителят на ресторанта
се съмнява в това и подлага на проверка 100 продукта, чрез случаен избор с
връщане. Оказва се, че Х бр. са нестандартни. Каква проверка на хипотези ще
предложите на управителя на ресторанта, за да постъпи коректно, без да обиди
своя персонал? Определете вида на хипотезите.

ГЛАВА 8. СТАТИСТИЧЕСКА ПРОВЕРКА НА ХИПОТЕЗИ


8.2. ПРОВЕРКА НА ПАРАМЕТРИЧНИ ХИПОТЕЗИ

Ако е известен типа на закона на разпределение на изследваната величина, а сме


оформили хипотеза относно параметрите на това разпределение, казваме, че
хипотезата е параметрична. Задачите от този тип, условно се разделят на три вида:
проверка на проста хипотеза срещу проста алтернатива, задачи за проверка на
проста хипотеза срещу сложна алтернатива и проверка на сложна хипотеза срещу
сложна алтернатива.

• При проверка на проста хипотеза,


Н0 : L ( x1, x 2, …, x n ) = L0 ( x1, x 2, …, x n )= L ( x1, x 2, …, x n /q 0 )
срещу проста алтернатива
Н1 : L ( x1, x 2, …, x n ) = L1 ( x1, x 2, …, x n )= L ( x1, x 2, …, x n /q 1)
се използва следната
Лема на Ноймън - Пирсън: При проверка на проста хипотеза срещу проста
алтернатива с ниво на съгласие a съществува константа Сa такава, че множеството
Wa * = { (x1, x 2, …, x n) Î À : L1 (x1, x 2, …, x n) ³ Сa L0 (x1, x 2, …, x n)}
е оптималната критична област Wa * Í À .
КонстантатаСa се определя от условието
(2) P(“( X`1, X`2, …, X`n ) Î Wa *” / “Н0 е вярна”) = a .
Доказателството на тази лема е обект на Математическата статистика. Ние ще
дадем пример, показващ приложението й в статистическия контрол на качеството.
Виж пример 1 след тази тема.
В случаи, когато квантилите на съответното разпределение не се пресмятат лесно,
т.е. Сa се определя трудно, се преминава към асимптотичното определяне на тази
константа. Т.е. извадката трябва да е достатъчно голяма по обем, толкова, че да е в
сила съответната гранична теорема.

• При проверка на проста хипотеза, срещу сложна алтернатива основната


разлика от предния случай е, че алтернативната хипотеза се описва с
множество от стойности за съответния параметър и по тази причина
грешката от втори род се третира по по-различен начин. Ако Q е
множеството от всички допустими стойности за параметъра q хипотезите са
съответно

Н0 : L ( x1, x 2, …, x n ) = L0 ( x1, x 2, …, x n )= L ( x1, x 2, …, x n /q 0 ).


Н1 : L ( x1, x 2, …, x n ) = L1 ( x1, x 2, …, x n )= L ( x1, x 2, …, x n /q 1) за някое q 1Î
Q - q 0.
Рискът за грешка от втори род се дефинира като

При даден риск за грешка a ако за всяко фиксирано q 1Î Q -q 0 поотделно строим


оптимална критична област за проверка на простата хипотеза
Н0 : L ( x1, x 2, …, x n ) = L ( x1, x 2, …, x n /q 0 )
срещу простата алтернатива
Н1 : L ( x1, x 2, …, x n ) = L ( x1, x 2, …, x n /q 1)
Ако се окаже, че тези области съвпадат, т.е. не зависят от q 1, говорим за
равномерно най-мощна критична област. Ако такава област съществува, тя е най-
добрата в сравнение с всяка друга критична област. Ако не съществува такава
област, проверката на простата хипотеза срещу сложната алтернатива се извършва
с критерия с частното на правдоподобията.
Сега ще разгледаме няколко конкретни случаи за проверка на хипотези за
равенство между средни.
При конкретни емпирични изследвания, често се налага при зададено ниво на
доверие a да се провери хипотезата за равенство между средна на нормално
разпределена извадка и средна на генерална съвкупност със стандартно
отклонение s 0, т.е.

срещу алтернативата, че едната средна е по-голяма от другата,


Н1 :
При така дефинирана алтернатива казваме, че имаме едностранна критична
област.
По своето естество, това е проверка на проста хипотеза срещу сложна алтернатива.
Като приложим Лемата на Ноймън - Пирсън за една фиксирана положителна
стойност на разликата в алтернативата, виждаме, че съществува равномерно най-
мощна критична област и тя е

Разпределението на случайната величина

е стандартно нормално, по тази причинаусловието (2) в случая е еквивалентно на


условието Сa да е 1-a квантила на стандартното нормално разпределение. Т.е.
определя се от таблица в приложението.
Често пъти при решаване на предната задача не разполагаме с дисперсията на
генералната съвкупност и използваме нейната неизместена оценка пресметната
по данни от извадката. В този случай едностранната критична област има вида

и случайната величина

има разпределение на Стюдент с n-1 степени на свобода. По тази причина ( 2) ни


казва, че константата Сa е 1-a квантил на разпределението на Стюдент с n-1
степени на свобода.
Ако проверяваме хипотеза за равенство между средни на две независими
нормално разпределени извадки със средни съответно и , неизместени
оценки на дисперсиите и и обеми n1 и n2 и ако тези извадки са от една и
съща съвкупност с неизвестна дисперсия s 0 и сме избрали едностранна критична
област, формалният запис на хипотезите изглежда така

срещу алтернативата
Н1 :
Една неизместена оценка на дисперсията на генералната съвкупност, в този
случай, се получава като претеглена средна аритметична на неизместените оценки
на дисперсиите на двете извадки с тегла съответно n1 - 1 и n2 - 1, т.е. тя е

От независимостта на извадките получаваме, че дисперсията на разликата на


средните им е
По тази причина една неизместена оценка на дисперсията на разликата на
средните е

Критичната област има вида

Случайната величина

има разпределение на Стюдент с (n1 – 1) + (n2 – 1) степени на свобода. Тогава


константата Сa е 1-a квантил на разпределението на Стюдент с (n1 – 1) + (n2 – 1)
степени на свобода.
Ако проверяваме хипотеза за равенство между средни на две независими
нормално разпределени извадки със средни съответно и , неизместени
оценки на дисперсиите и и обеми n1 и n2 и тези извадки са от съвкупности с
неизвестни и различни дисперсии s 1 и s 2 от независимостта на извадките
получаваме, че дисперсията на разликата на средните им е

Тогава една неизместена оценка на дисперсията на разликата на средните е

.
Критичната област има вида

Случайната величина
има разпределение на Стюдент с

степени на свобода и константата Сa е 1-a квантила на това разпределение.


Друг важен клас задачи в статистиката се свеждат до проверка на хипотези за
равенство между дисперсии. От отношението на правдоподобията в този случай
остава отношение на неизместени оценки на тези дисперсии. Ще опишем
критичните области в два такива случаи.
Първо ще се спрем на проверка на хипотези за равенство между дисперсия на
нормално разпределена генерална съвкупност s 0 и константа а. Разполагаме с
извадка от n наблюдения върху тази съвкупност. При едностранна критична
област формалното описание на хипотезите изглежда така
Н0 : s 0 = а
Н1 : s 0 > а.
Критична област е от вида

Случайната величина има c 2 - разпределение с n – 1 степени на свобода.


Тогава константата Сa е 1-a квантил на това разпределение.
Сега да разгледаме проверка на хипотези за равенство между две дисперсии на
нормално разпределени съвкупности. Разполагаме с две извадки съответно от n1 и

n2 наблюдения и с оценки на дисперсиите съответно и .


При едностранна критична област формалното описание на хипотезите изглежда
така
Н0 : s 1 = s 2, т.е. разликата между двете оценки на дисперсиите е случайна.
Н1 : s 1 > s 2, т.е. разликата между двете оценки на дисперсиите се дължи на
системно действащи фактори.
Критична област е от вида

където винаги алтернативната хипотеза трябва да е подбрана така, че по-голямата


неизместена оценка на дисперсията да е в числителя.

Случайната величина има F - разпределение ( на Фишър ) с n1 – 1 степени на


свобода на числителя и n2 – 1 степени на свобода на знаменателя. Тогава
константата Сa е 1-a квантил на това разпределение.
За съжаление често пъти проблемът за разпределението на теоретичната
характеристика съвсем не е лек и изисква знания, които са извън обхвата на този
учебник. Когато обемът на извадката е голям, за разрешаването му, може да се
използват различни гранични теореми.
От горните примери се вижда, че за да приложим методите за проверка на
хипотези ни интересуват нивото на съгласие, вида на критичната област и
разпределението на теоретичната характеристика за съответната задача. С цел, във
всеки случай, читателят сам да може да построява вида на критичната област ще
разгледаме още един метод за проверка на параметрични хипотези.
· При проверка на сложна хипотеза, срещу сложна алтернатива ако Q е
множеството от всички допустими стойности за параметъра q хипотезите са
съответно
Н0 : L ( x1, x 2, …, x n ) = L ( x1, x 2, …, x n /q 0 ) за някое q 0Î Q 0Í Q .
Н1 : L ( x1, x 2, …, x n ) =L ( x1, x 2, …, x n /q 1) за някое q 1Î Q - Q 0.
Рискът за грешка от втори род се дефинира като в предния случай, но рискът за
грешка от първи род е

В този случай обикновено се използва следния


Критерий с отношението на правдоподобията
При проверка на сложна хипотеза срещу сложна алтернатива с ниво на съгласие a
съществува константа Сa Î (0, 1) такава, че множеството

е най-добрата критична област.


Константата Сa се определя от условието, риска за грешка от първи род да е a .
Нека отново разполагаме с нормално разпределена извадка със средна и с
генерална съвкупност със средна и стандартно отклонение s 0. Да изберем ниво
на доверие a и да проверим хипотезата

срещу алтернативата,

В този случай говорим за двустранна критична област и ако приложим Лемата на


Неймън – Пирсън ще видим, че не съществува равномерно най-мощна критична
област. По тази причина прилагаме критерия с отношението на правдоподобията,
разгледан по-горе и получаваме

където условието (2) в случая е еквивалентно на условието Сa да е 1-a /2 квантила


на стандартното нормално разпределение. Т.е. отново се определя от таблици.
Ако не разполагаме с дисперсията на генералната съвкупност

и Сa е 1-a /2 квантила на разпределението на Стюдент с n-1 степени на свобода.


По аналогичен начин се работи с двустранни критични области. Разликата е в
това, че Сa е 1-a /2 квантила на съответното разпределение.
При проверка на хипотези за равенство между относителни дялове се подхожда по
аналогичен начин. Формулите, които се получават се различават по това, че на
мястото на средните аритметични имаме съответните относителни дялове pi, а на
мястото на дисперсиите ni.pi.(1- pi) (припомнете си свойствата на Биномното
разпределение).

ЗА САМОПОДГОТОВКА
Въпроси към темата
Какво е ниво на съгласие, критична област, грешка от първи род, риск за грешка от
първи род, грешка от втори род, риск за грешка от втори род, мощност на
критерия, оптимална критична област?
Как се определя грешката от първи род?
В кои случаи и как се построява оптимална критична област?
Можем ли да използваме критерия с отношението на правдоподобията при
проверка на проста хипотеза срещу проста алтернатива? Каква критична област ще
получим?
Казуси: По аналогичен начин с разгледаните в тази глава задачи изберете своя
постановка на задача произлязла от практиката. Направете изследвания и я
решете.

Примерни ситуации и решения


Пример 1: Главният готвач на кухня в ресторант твърди, че не повече от 1% от
приготвените в кухнята стоки са с нестандартно тегло. Управителят на ресторанта
се съмнява в това и подлага на проверка 100 продукта, чрез случаен избор с
връщане. Оказва се, че Х бр. са нестандартни. Той не иска да обиди своите готвачи
и избира ниво на съгласие 0.05. Проверява хипотезата
Н0 : 1% от всички приготвени в кухнята стоки са с нестандартно тегло.
срещу алтернативата
Н1 : 2% от всички приготвени в кухнята стоки са с нестандартно тегло.
Да се построи оптимална критична област, която да използва управителя на
ресторанта. Дайте обяснения как точно той да направи своето заключение.
Решение: Как изглеждат тези хипотези на езика на функциите на правдоподобие?
Можем да разгледаме тези 100 опита като независими опити на Бернули.
Наричаме “успех” събитието “Избран е продукт с нестандартно тегло”. Тогава
разпределението на извадката е биномно с неизвестен параметър р. Проверяваме
хипотези относно стойността на този параметър.
Н0 : р = 0.01
Н1 : р = 0.02.
Като вземем предвид реда на разпределение на Биномно разпределена случайна
величина, получаваме:
Н0 : L ( x1, x 2, …, x n ) =
Н1 : L ( x1, x 2, …, x n ) = .
От Лемата на Неймън – Пирсън оптималната критична област е
Wa * = { x Î {1,…,100} : x ³ С*0.05 },
където константата С0.05,100 се определя от (2), което в момента изглежда така
P( X`³ С*0.05 / “Н0 е вярна”) £ 0,05.
Т.е. С*0.05 е най-малкото цяло число, по-голямо от 1-0,05 квантила на Биномното
разпределение. Ако след провеждане на проверката се окаже, че X ³ С*0.05
отхвърляме нулевата хипотеза, т.е. процента на стоките с нестандартен грамаж не
е 1.
Не е лесно да определим С*a , от биномната функцията на разпределение, за това е
добре да разгледаме асимптотиката й. Ще използваме Теоремата на Моавър –
Лаплас за приближението на Биномното разпределение с нормалното. По-точно
Т.е. С*a е такава, че
От таблиците на нормалното разпределение определяме, че 0,95 квантилът му е
1,645, т.е. F (1,645) = 0,95. И както всяка функция на разпределение и F (х) е
ненамаляваща, значи последното неравенство е еквивалентно на неравенството

От тук намираме, че С*0.05 ³ 2,6368. Тогава оптималната критична област за


нулевата хипотеза е Wa * = { x Î {1,…,100} : x ³ 2,6368 }, т.е. ако при проверката
ни се окаже, че 3 и повече изделия са с нестандартен грамаж, с ниво на доверие 5%
имаме право да твърдим, че повече от 1% от всичките изделия приготвени в
кухнята на ресторанта ни са с нестандартен грамаж и съответно би трябвало
управителя на ресторанта да вземе някакви мерки.
Пример 2: С цел изследване влиянието на пола на съпрузите върху средния им
месечен доход в гр. Х, са наблюдавани 10 семейни мъже и 12 семейни жени.
Оказало се е, че извадките са от нормално разпределени съвкупности със средни

съответно 220 лв. и 200 лв. и с неизместени оценки на дисперсиите = 80 лв. и


= 50 лв. Имаме ли основание да смятаме, че двете извадки са от съвкупности с
различни дисперсии или отклоненията в оценките на дисперсиите се дължат на
случайни фактори?
Решение: Избираме ниво на съгласие a = 0,05. При едностранна критична област
формалното описание на хипотезите изглежда така
Н0 : s 1 = s 2, т.е. разликата между двете оценки на дисперсиите е случайна.
Н1 : s 1 > s 2, т.е. разликата между двете оценки на дисперсиите не е случайна.
Критичната област е от вида

където константата С0,05 е 1 - 0,05 = 0,95 квантила на F - разпределението с 9


степени на свобода на числителя и 11 степени на свобода на знаменателя. От табл.
5 на приложението определяме С0,05 = 2,9. Тогава тъй като

не сме в критичната област за нулевата хипотеза, т.е. нямаме основание да


считаме, че извадките са от съвкупности с различни дисперсии.

Задачи за упражнение
Задача 1: С ниво на съгласие 5% постройте критерий за проверка на хипотезата, че
средното на нормално разпределена генералната съвкупност е 125 срещу
алтернативата от 120 при предположение, че дисперсиите са известни и равни на
25 и a = 0.01.
Задача 2: Млекопреработвателна фирма решава да произвежда и пакетира краве
масло. За целта закупува машина, която го пакетира. След началото на
производствената дейност, контролните органи решават да проверят дали са
спазени изискванията по пакетирането. По случаен начин избират 100 пакетчета и
проверяват техните маси. Оказва се, че разпределението на извадката е нормално и
средната маса от извадката е 121 гр. С ниво на съгласие 5% можем ли да твърдим,
че средната маса на всички произведени пакетчета е 125 гр или трябва да
пренастроим машината?

ГЛАВА 8. СТАТИСТИЧЕСКА ПРОВЕРКА НА ХИПОТЕЗИ


8.3. ПРОВЕРКА НА НЕПАРАМЕТРИЧНИ ХИПОТЕЗИ
В началото на всеки статистически анализ по една или друга причина ни се налага
да определим типа на разпределението на извадката. Вече показахме, че това може
да стане с помощта на PP-plot или QQ-plot. Тези два графични метода, обаче дават
добри резултати само при непрекъснати разпределения. Дори и в този случай, е
добре да се оцени доколко данните от извадката удовлетворяват избрания от нас
закон на разпределение. Това може да стане по два начина. Единият е чрез
средствата на регресионния анализ да преценим коя от правите съответстващи на
избраните от нас разпределения доближава най-добре точките от графиката, а
другия е да използваме методите за проверка на непараметрични хипотези. Тук ще
разгледаме втория начин.
Най-популярният метод за проверка на типа на разпределението е c 2-критерия на
Пирсън. Прилага се, както при дискретен така и при непрекъснат метриран
признак.
Първо ще разгледаме случая, когато реда на разпределение е интервален. Нека
разполагаме с проста извадка с обем n от наблюдения върху случайна величина x с
разпределение F. Данните да са групирани и разположени в затворен
статистически ред на разпределение с краища на интервалите а0, а1, …, ак,.
Означаваме с f1, f2, …, fк съответните емпирични честоти в тези интервали, а
теоретичните с
np1 := P( x < a1 ),
(3) за m=2,…, k-1
npk := 1- P( x < ak).
От свойствата на вероятностната мярка, сумата от вероятностите на събития
образуващи пълна група е единица. Тогава

(4)
Проверяваме хипотезата

Н0 : F( x ) = F0( x ), т.е. L ( x1, x 2, …, x n ) =


където във функцията на разпределение F0 участват r на брой параметъра, оценени
от извадката, срещу алтернативата

Н1 : F( x ) ¹ F0( x ), т.е. L ( x1, x 2, …, x n ) ¹


с ниво на съгласие a.
Като мярка за близостта между разпределението на извадката и теоретичното
разпределение служи разликата между наблюдаваните, емпирични и теоретичните
честоти и по-точно величината
Ако нулевата хипотеза е вярна и случайната величина

ще има асимптотично c 2 разпределение с k-1-r степени на свобода. Виж в Закс,


Ш. Теория статистических выводов. Москва, 1975. В случая, когато нулевата
хипотеза гласи, че извадката е от стандартно нормално разпределена съвкупност
дори тя ще има точно c 2 разпределение. Доказателството на това твърдение е
обект на Математическата статистика и може да бъде намерено в Cramer, H.
Mathematical Methods of Statistics. Prienceton, 1946.
Ако алтернативната хипотеза е вярна тази величина ще е строго по-голяма от нула.
Ето защо критичната област за нулевата хипотеза има вида:

където Сa се определя от условието - риска за грешка от първи род да е a , т.е. Сa е


1- a квантила на c 2 разпределението с k-1-r степени на свобода. След като
определим критичната област, както при всяка проверка на хипотези, ако вектора
на извадката попадне в критичната област отхвърляме нулевата хипотеза. Иначе
нямаме основание да я отхвърлим. Може да се случи за две различни
разпределения да получим, че извадката е от техния тип. В този случай, по-точен е
критерия, който има по-голяма мощност.
Както е показано в Cramer, H. Mathematical Methods of Statistics. Prienceton, 1946,
за да прилагаме c 2 критерия трябва величините npm да не бъдат прекалено малки,
те трябва да са по-големи или равни на 4. Ако това условие е нарушено
обединяваме съответната група с по-малобройната от съседните и така прилагаме
критерия на Пирсън. Да отбележим обаче, че при пресмятане на неизместените
оценки на числовите характеристики на извадката, претеглените формули
изискват равна ширина на интервалите. Ето защо тези характеристики се
пресмятат преди да обединим интервали.
Когато реда на разпределение е степенен и нулевата хипотеза предполага някакво
конкретно дискретно разпределение, подходът е аналогичен, но с а1, …, ак,
означаваме значенията на признака, по които е извършена групировката. f1, f2, …,
fк отново са съответните емпирични честоти, а теоретичните честоти са
(5) npi := nP( x = ai ), за i = 1,…, k.
Виж пример 2.
Често пъти за определянето на квантилите е удобно да се използват готови
таблици. За целта е необходимо преди да приложим проверката на хипотези, да
стандартизираме извадката. Така е подходено в пример 1.

ЗА САМОПОДГОТОВКА
Въпроси към темата
Колкото интервалите са по-тесни толкова разгледаните методи са по-точни. Защо?
За какво се използва c 2 критерия на Пирсън?
Защо Сa е 1- a квантила на c 2 разпределението с k-1-r степени на свобода?

Литература
1. Закс, Ш. Теория статистических выводов. Москва, 1975.
2. Cramer, H. Mathematical Methods of Statistics. Prienceton, 1946.

Примерни ситуации и решения


Пример 1: По данните от Error! Reference source not found., като използвате c 2
критерия, проверете хипотезата, че разпределението на извадката е нормално с
риск за грешка от първи род
а) 0,05;
б) 0.01.
Решение:
а) Ще използваме групировката направена в Пример 1 на Секция 1.2. За да
използваме таблиците на стандартното нормално разпределение първо трябва да
центрираме и нормираме извадката, т.е. вместо с ще работим с

Ще използваме оценките на два параметъра от извадката, т.е. r = 2.

Да припомним, че и
Центрираме краищата на интервалите и получаваме третата колона в Табл. 1.,
където за i = 1,…, k сме използвали означението

От табл. 1 на приложението намираме функцията на разпределение на нормалното


разпределение F (aic) и попълваме четвъртата колонка на Табл. 1. Вече сме готови
да намерим теоретичните честоти в съответните интервали. От формула (3)
получаваме, че за i = 2, …, 7

Освен това F (а1c) = np1 и 1- F (а8c) = np8. Попълваме петата колонка от Табл. 1.
Табл. 1
aI fi аic Φ (aic) npi (fi -npi) (fi -npi)2 (fi -npi)2\(npi)

22.5625 7 -1.8710 0.0307 4.509 2.4910 6.2051 1.376148

31.625 11 -1.3486 0.0887 8.535 2.4653 6.0779 0.712149

40.6875 14 -0.8262 0.2043 16.994 -2.9943 8.9655 0.527563

49.75 21 -0.3038 0.3806 25.914 -4.9141 24.1482 0.931857

58.8125 23 0.2185 0.5865 30.263 -7.2632 52.7534 1.743156

67.875 32 0.7409 0.7706 27.068 4.9324 24.3281 0.898788

76.9375 27 1.2633 0.8968 18.541 8.4589 71.5536 3.859193

86 12 1.7857 1 15.176 -3.1761 10.0879 0.664718

Общо: 147 х x 147.000 x 10.71357

Можем да проверим досегашните си изчисления, като използваме (4). Сумата в


тази колонка е 147. Ако има много голяма разлика между току-що определените
теоретични честоти и емпирични честоти fi , не е логично да продължаваме
проверката тъй като е очевидно, че ще стигнем до отхвърляне на нулевата
хипотеза. Ако втора и пета колона си приличат, можем да продължим.
Преминаваме към изчисляването на емпиричната характеристика на критерия

Междинните изчисления може да видите в последните три колонки на Табл. 1.


Да построим критичната област за нулевата хипотеза. За целта определяме
константата С0.05. Тя е 0,95 квантила на c 2 разпределението с 8-1-2 = 5 степени
на свобода и едностранна критична област. Т.е. използваме табл. 4 от
приложението. Тогава С0.05 = 11,07 и критичната област за нулевата хипотеза е

От стойността на емпиричната характеристика виждаме, че извадката не е в


критичната област за нулевата хипотеза, значи нямаме основание да отхвърлим
нулевата хипотеза, т.е. извадката е от наблюдения над нормално разпределена
случайна величина и отклоненията в теоретичните честоти се дължат на случайни,
кратковременно действащи фактори.
б) До определянето на критичната област решението на задачата е същото и
съответно емпиричната характеристика има същата стойност. В случая
константата С0.01 е 0,99 квантила на c 2 разпределението с 8-1-2 = 5 степени на
свобода и едностранна критична област. От табл. 4 от приложението, С0.01 =
15,08632. и критичната област за нулевата хипотеза е

Т.е. и този път извадката не е в критичната област за нулевата хипотеза и


принадлежи на нормално разпределена съвкупност.
Пример 2: В цех има 10 шивашки машини. Всеки ден в определено време се
записва броя на повредените машини. Проведени са 200 наблюдения, данните са
групирани и резултатите са дадени в първите две колони на Табл. 2. Като
използвате c 2 критерия, проверете хипотезата, че разпределението на извадката е
Поасоново с риск за грешка от първи род
а) 0,05;
б) 0.01.
Решение: а) Проверяваме хипотезата

Н0 : F( x ) =
срещу алтернативата

Н1 : F( x ) ¹
с ниво на съгласие a .
Както вече знаем параметъра на Поасоновото разпределение е равен на
математическото му очакване, а средното аритметично е ефективна оценка за
математическото очакване. Ето защо в тази задача е логично да използваме вместо
параметъра l , неговата оценка
Т.е. през наблюдаваните дни средно на ден са били повредени 1,8 шевни машини.
От дефиницията за ред на разпределение на поасоново разпределена случайна
величина и от формула (5) определяме теоретичните честоти на съответните
значения. Получаваме, че за i = 0, …, 10

Табл. 2
Брой Брой Междинни изчисления
повредени дни
ifi npi npi (fi -npi) (fi -npi)2 (fi -npi)2\(npi)
машини ai fi
об. об. об. об.

0 41 0 33.060 33.060 7.9402 63.0471 1.90706


1 62 62 59.508 59.508 2.4924 6.21206 0.10439
2 45 90 53.557 53.557 -8.5568 73.2195 1.36714
3 22 66 32.134 32.134 -10.134 102.7 3.19598
4 16 64 14.460 14.460 1.5397 2.37053 0.16393
5 8 40 5.205
6 4 24 1.562
7 2 14 0.402
7.281 6.7193 45.1489 6.20117
8 0 0 0.090
9 0 0 0.018
10 0 0 0.003
Общо: 200 360 199.999 200 x x 12.93968
Попълваме четвъртата колона на Табл. 2. Както трябваше да получим сумата в
тази колонка е приблизително 200. Получената разлика се дължи на
закръглянията. Между току що определените теоретични честоти и емпиричните
честоти fi има известна прилика, значи е логично да продължаваме проверката.
Последните шест интервала трябва да ги обединим, за да спазим изискването във
всяка група npi ³ 4.
Преминаваме към изчисляването на емпиричната характеристика на критерия. Тъй
като работим с данните с обединените последни шест интервала в табличката сме
отразили това с (об.). Получаваме

Междинните изчисления може да видите в последните три колонки на Табл. 2.


Във функцията на разпределение F0 участва един параметър, оценен от извадката,
значи r = 1.
Да построим критичната област за нулевата хипотеза. За целта определяме
константата С0.05. Тя е 0,95 квантила на c 2 разпределението с 6-1-1 = 4 степени
на свобода и едностранна критична обраст. Т.е. използваме табл. 4 от
приложението. Тогава С0.05 = 9,487728 и критичната област за нулевата хипотеза
е

От стойността на емпиричната характеристика виждаме, че извадката е в


критичната област за нулевата хипотеза, значи отхвърляме нулевата хипотеза, т.е.
нямаме основание да смятаме, че извадката е от наблюдения над Поасоново
разпределена случайна величина и отклоненията в теоретичните честоти се дължат
на системно действащи фактори.
б) До определянето на критичната област решението на задачата е същото и
съответно емпиричната характеристика има същата стойност. В случая
константата С0.01 е 0,99 квантила на c 2 разпределението с 6-1-1 = 4 степени на
свобода и едностранна критична област. От табл. 4 от приложението, С0.01 =
13,2767 и критичната област за нулевата хипотеза е

Този път емпиричната характеристика е по-малка от теоретичната и извадката не е


в критичната област за нулевата хипотеза и трябва да заключим, че тя принадлежи
на поасоново разпределена съвкупност. Да отбележим, че в тази подточка
мощността на критерия е по-малка. Работа на изследователя е да прецени кое ще
избере: по-малка мощност или по-малка грешка от първи род.
Задачи за упражнение
Задача 1: По данните от Error! Reference source not found., като използвате c 2
критерия, проверете хипотезата, че разпределението на извадката е нормално с
риск за грешка от първи род
а) 0,05;
б) 0.01.
ГЛАВА 9. ДИСПЕРСИОНЕН АНАЛИЗ

След усвояването на информацията от тази глава Вие ще знаете:

• За какво се използва дисперсионния анализ


• Как да проверите дали влиянието на един неметриран признак на
статистическите единици е статистически значимо за друг техен метриран
признак.

Въведение: Дисперсионния анализ се прилага, когато се интересуваме дали


влиянието на един или няколко неметрирани фактор признаци е съществено за
друг непрекъснат, метриран признак на единиците от съвкупността, наречен
резултативен. В зависимост от броя на фактор признаците имаме еднофакторен,
двуфакторен и т.н., многофакторен дисперсионен анализ. Тук ще разгледаме само
случая с един фактор признак. По същество това е проверка на хипотези за
равенство между средните на две или повече извадки от нормално разпределени и
независими съвкупности при предположение, че дисперсиите им са равни.
Използва се обикновено когато значенията на фактор признака са повече от две, в
противен случай бихме могли да използваме по-кратката проверка на хипотези за
равенство между средни на две извадки. Задачата се свежда до проверка на
хипотези за равенство между две дисперсии (между групова и вътрешно групова).
Методологията му е разработена от Р. Фишер.
Тъй като реализацията му е свързана с много пресмятания, обикновено тя се
извършва с помощта на компютър. Например със Statistiсa, Excel, SPSS или др.

9.1. ЕДНОФАКТОРЕН ДИСПЕРСИОНЕН АНАЛИЗ


Нека наблюдаваме n статистически единици. Целта ни ще е да отговорим на
въпроса дали влиянието на признака Х, върху значенията на метрирания признак
Y е статистически значимо. Да предположим, че извадката е от нормално
разпределена съвкупност. Резултатите от наблюдението са дадени в Табл. 1.
Табл. 1
X Y Общо:
X1 y11, y12, …, y1n n1
… … …
Xk y11, y12, …, y1n nk
Общо: n
Приемаме, че извадките в групите са независими. Да означим средната в i – тата
група с

за i = 1, …, k.
Избираме ниво на съгласие a . Проверяваме хипотезата
Н0 : , отклоненията между средните в различните групи се дължат
на случайни, кратко действащи фактори, т.е. влиянието на фактор признака върху
резултативния признак не е статистически значимо,
Алтернативата е Н1 :
Някои са различни, т.е. влиянието на фактор признака е статистически значимо.
Като критерий за проверка на тези хипотези се използва отношението на между
груповата и вътрешно груповата дисперсии. За да ги дефинираме се нуждаем от
следните понятия.
Обща девиация (отклонение) се нарича сумата от квадратите на отклоненията на
всичките n измерени стойности на метрирания признак от тяхната средна
аритметична. Ще я означаваме с SSо. Т.е. ако общата средна е

тогава

Тя измерва разпръснатостта на единиците около общата средна. Има n – 1 степени


на свобода.
Вътрешно групова девиация се нарича сумата от квадратите на отклоненията на
всичките n измерени значения на метрирания признак от тяхната средна
аритметична в съответната група. Ще я означаваме с SSВ. Т.е

Тази девиация има n – k степени на свобода.


Между групова девиация се нарича сумата от квадратите на отклоненията на
средните аритметични в групите от общата средна аритметична. Ще я означаваме
с SSМ и

Тя има k - 1 степени на свобода.


Общата девиация е сума от вътрешно груповата и между груповата девиации.
Същото съотношение, както се вижда от по-горните разсъждения, е в сила и за
степените им на свобода.
Като разделим девиациите на степените им на свобода получаваме оценки за
съответните дисперсии. Т.е.
Вътрешно групова дисперсия ще наричаме

Между групова дисперсия ще наричаме

Вече сме готови да построим критичната област за проверка на нулевата хипотеза.


Тя е
Случайната величина има F - разпределение с k – 1 степени на свобода на
числителя и n – k степени на свобода на знаменателя. Тогава константата Сa е 1-a
квантил на това разпределение. Както и при проверката на хипотези за равенство
между дисперсиите с критерия на Фишър, така и тук, критичната област се
трансформира с еквивалентни преобразования, така че оценката на дисперсията от
числителя да е по-голям от тази в знаменателя. Т.е. ако оценката на вътрешно
груповата дисперсия е по-голяма от тази на между груповата

Случайната величина има F - разпределение с n - k степени на свобода на


числителя и k - 1 степени на свобода на знаменателя. Константата Сa -1 е 1 - a
квантила на това разпределение.

ЗА САМОПОДГОТОВКА
Въпроси към темата
За какво се използва дисперсионния анализ?
За какви съвкупности заключенията получени чрез дисперсионен анализ са най-
точни?
Какво характеризират общата, вътрешно груповата и между груповата девиации?
Ако знаем общата и вътрешно груповата девиации как ще намерим между
груповата?
В случая, когато оценката на между груповата дисперсия е по-малка от тази на
вътрешно груповата, защо и как се трансформира критичната област?
Вярно ли е, че вътрешно груповата девиация измерва разпръснатостта на средните
в групите около общата средна?

Примерни ситуации и решения


Пример 1: С цел изучаване влиянието на степента на образованост (обр.) на
управителя на фирмата върху размера на брутната й печалба са наблюдавани 147
фирми. Резултатите от наблюдението са дадени в Табл. 2. Определете
статистически значимо ли е това влияние.
Решение: Имаме един неметриран и един метриран признак. В пример 1 на глава 6
показахме, че разпределението на извадката е нормално. По аналогичен начин се
проверява и че разпределенията в подсъвкупностите са нормални. Освен това
може да се провери, че подсъвкупностите са независими. Тогава ще използваме
средствата на дисперсионния анализ. Избираме риск за грешка a = 0,05.
Табл. 2
Обр. Размер на брутната печалба в х.лв.

Основно 65.7 33.9 54.0 31 67.7 54.7 41.4 32.3 43.0 22.6

80.5 46.8 68.6 63.5 72.5 81.1 71.4 53.2 76.6 29.1 85.7 59.3 44.6
Средно
74.5 34.5 57.5 55.1 78.5 71.2 65.0 68.2 78.1 78.1 66.8 18.0 59.3

Бакалавър 59.1 23.5 68.8 53.1 74.7 64.5 75.9 78.4 75.0 58.0 54.2 47.6 60.2

54.6 27.4 70.6 35.0 26.7 51.0 78.4 72.6 62.1 56.5 28.2 34.4 71.7
44.9 36.5 61.5 45.5 52.7 59.3 74.7 58.3 32.9 77.4 73.9 35.8 42.6

67.3 41.3 64.1 44.5 68.7 73 56.1 47.3 40.7 58.1 55.5 50.3 60.3

51.6 85.8 57.2 47 64.6 67.5 44.3 64.3 13.5 63.3 66.2 21.7 64.8

магистър 62.7 79.7 51.6 57.1 29.8 67.8 59.6 48.9 70.8 25.9 61.8 27.3 33.1

83.6 65.2 37 70.2 73.4 56.7 69.2 61.6 69.3 20.9 63.2 64.7 55.2

40.4 37.8 17.7 13.9 46.5 25.2 45.5 75.8 43.3 14.0 61.8 46.0 44.9

доктор 39.4 33.4 63.4 59.9 86 79.5 71.1

В пример 1 на § 4.1 намерихме, че средната аритметична на всички наблюдения е


= 55,05442 х.лв. От Табл. 2 намираме средните аритметични на петте
подсъвкупности. Получаваме третата колонка на Табл. 3.
Табл. 3
Междинни изчисления
Образование
ni

Основно 10 44.6 -10.5 109 1093


Средно 26 63.0 7.95 63.1 1641
Бакалавър 39 55.3 0.25 0.06 2.35
Магистър 65 52.6 -2.45 6.02 392
Доктор 7 61.8 6.75 45.5 319
Общо: 147 x x x 3447
За да определим критичната област, трябва да изчислим оценките на дисперсиите,
а за целта пресмятаме девиациите и определяме техните степени на свобода.
За да пресметнем вътрешно груповата девиация, е най-добре да използваме
компютър. Например чрез средствата на Excel пресмятаме

Има 147 – 5 = 142 степени на свобода. Тогава

Между груповата девиация определяме с помощта на междинните изчисления в


Табл. 3

Има 5 – 1 = 4 степени на свобода.

Вече сме готови да проверим дали сме в критичната област за нулевата хипотеза.
Тъй като между груповата дисперсия е по-голяма от вътрешно груповата тя има
вида

където константата С0,05 е 1-0,05 = 0,95 квантила на F-разпределението с 4


степени на свобода на числителя и 142 степени на свобода на знаменателя. От
табл. 5 на приложението виждаме, че С0,05 = 2,37. В нашата задача

Тогава сме в критичната област за нулевата хипотеза, т.е. с риск за грешка 0,05
можем да твърдим, че степента на образованост на управителя на фирмата оказва
статистически значимо влияние върху брутната й печалба.

Задачи за упражнение
Задача 1: Завод произвежда 3 вида автомобилни гуми. Наблюдавани са 36 от тях.
В Табл. 4 е даден пробега им в хиляди километри до момента на пълното им
износване, поотделно за трите вида. Проверете дали извадките са от нормално
разпределени съвкупности (като пренебрегнете факта, че наблюденията са
прекалено малко на брой за да получите правилно заключение). С ниво на
съгласие a , проверете можем ли да твърдим, че вида на гумите е статистически
значим за пробега им.
Табл. 4
Вид на Пробег в х.км.
гумите
А 4.5, 6.7, 8.8, 7.9, 3.0, 9.4, 6.5, 6.0, 4.4, 7.2, 5.7
В 4.4, 6.0, 5.0, 6.4, 3.7, 8.0, 7.9, 3.2, 9.3, 7.5, 6.0, 7.4, 6.3
С 5.4, 6.4, 7.0, 6.8, 5.7, 7.3, 7.7, 3.7, 8.4, 9.7, 7.2, 5.5

ГЛАВА 10. КОРЕЛАЦИОНЕН АНАЛИЗ

След усвояването на информацията от тази глава Вие ще знаете:

• Какво е корелационна зависимост?


• Каква е разликата между корелационна и функционална зависимост?
• Как да определяте силата на зависимостта между два признака?

Въведение: При изследване на зависимости между статистически признаци


обикновено се решават две задачи. Едната е определяне на формата на
зависимостта, а другата е определяне на силата на зависимостта. Първата е обект
на регресионния анализ, а втората на корелационния.
Детерминистичната математика се занимава основно с изучаването на
“функционални зависимости”, т.е. на един фиксиран аргумент на функцията се
съпоставя винаги едно и също детерминирано, множество от числа, най-често
точно едно число. В тази глава ще се научим да измерваме корелационна
зависимост или връзка. Това е зависимост, при която на едно фиксирано значение
на единия признак, съответства множество от значения на другия, всяко от които с
определена вероятност. С корелационния коефициент се измерва силата на
връзката или зависимостта между разглежданите признаци. Чрез него можем да
отговорим на въпроса:
До каква степен като изменяме едната величина ще влияем на значенията на
другата?
Възможно е обаче тази зависимост да се предизвиква или да се повлияе и от други
неизследвани признаци, ето защо трябва да бъдем особено внимателни при
анализиране на резултатите.
Ако искаме да измерим статистическата връзка между повече от две променливи,
говорим за многофакторен корелационен анализ. Няма да се спираме на тази тема,
но подробна нейна разработка може да бъде намерена на стр. 355 в Гатев, К.
Въведение в общата теория на статистиката. София, 1980.
Тук ще разгледаме методите, които намират приложение в по-голяма част от
изследванията.

10.1. ОСНОВНИ ПОНЯТИЯ


Всеки корелационен анализ започва обикновено с изчертаване на корелационно
поле (виж § 2.2). От неговия графичен образ получаваме първична представа за
очакваните резултати. В процеса на работа се пресмята корелационен коефициент
r. Да се спрем на някои негови свойства.

• Всеки корелационен коефициент е в интервала [-1,1].


• Когато начина за пресмятане на корелационния коефициент е правилно
подбран и | r | = 1, имаме функционална зависимост.
• При нормално разпределени съвкупности r = 0 е еквивалентно на
независимост на данните. В общия случай при анализирането на нулев
корелационен коефициент трябва да бъдем особено внимателни. Ако
измерваните величини са независими, то безусловно r = 0, обратното обаче
не винаги е вярно. Ето защо, когато r = 0 можем да кажем само, че между X
и Y не може да съществува праволинейна зависимост, но криволинейна
може. В този случай говорим само за некорелираност на разглежданите
признаци.
• Повечето корелационните коефициенти са симетрични относно двата
наблюдавани признака. Не е правилно обаче, винаги да говорим за
корелационна връзка. В случаите, когато единият признак влияе на другия,
казваме, че има зависимост.

Квадрата на корелационния коефициент се нарича коефициент на детерминация.


Той показва каква част или ако е превърнат в проценти, колко процента от
вариацията на единия, зависимия признак се дължи на вариацията на другия,
независимия признак. 1 – r2 се нарича коефициент на индетерминация,
неопределеност (ако работим в проценти умножаваме по 100). Показва каква част
от вариацията на зависимата променлива се дължи на други, неразглеждани в
модела фактори.
Определянето на методологията за пресмятане на корелационния коефициент
става в зависимост от вида на скалата, по която са отчетени значенията на
изследвания признак.

ЗА САМОПОДГОТОВКА
Въпроси към темата
За какво служи корелационния анализ?
В какъв интервал се изменят корелационните коефициенти и какво значи когато са
близо до 1? А до -1?
За какви съвкупности е вярно, че когато корелационния коефициент е 0 значи
имаме независимост на разглежданите признаци?
Кога пресмятаме коефициент на детерминация?

Литература

1. Гатев, К. Въведение в общата теория на статистиката. София, 1980.


ГЛАВА 10. КОРЕЛАЦИОНЕН АНАЛИЗ
10.2. ИЗМЕРВАНЕ НА ЗАВИСИМОСТИ ПРИ ИНТЕРВАЛНИ СКАЛИ

Да разгледаме двумерно, просто наблюдение (X1, Y1),… , (Xn, Yn), т.е. при
всички статистически единици се измерват значенията на два признака, правят се
наблюдения върху две случайни величини X` и Y`.
Коефициента на праволинейна корелация на Браве се определя по формулата

(1)
Както си личи от названието му, този коефициент измерва до колко точките от
корелационното поле се групират около права. В случая на репрезентативна
извадка, корелационния коефициент е точкова оценка за cor(X`,Y`). Повече за
качествата на тази оценка може да прочетете в Закс, Ш. Теория статистических
выводов. Москва, 1975.
Когато данните са групирани, т.е. представени в корелационна таблица се прилага
следната формула:

(2)
където k1, k2 са броя на групите, а s 1 и s 2 са съответно стандартните отклонения
на признаците X и Y. С fij е означен броя на статистическите единици, попаднали
в i – тата група на признака Х и в j – тата група на признака Y.

и представлява броя на всички наблюдавани единици.


Когато този корелационен коефициент е положителен имаме
правопропорционална зависимост между значенията на двата признака, и точките
от корелационното поле се групират около възходяща права. Ако r < 0
зависимостта е обратно пропорционална и правата около, която се групират
точките е низходяща.

ЗА САМОПОДГОТОВКА
Въпроси към темата
Какво измерва коефициента на корелация на Браве?
Може ли при функционална зависимост между данните да получим корелационен
коефициент на Браве различен от 1?

Литература
1. Закс, Ш. Теория статистических выводов. Москва, 1975.

Примерни ситуации и решения


Пример 1: По данните от пример 3 на § 2.2 определете силата на праволинейната
зависимост между производителността на труда и средната работна заплата.
Решение: От корелационното поле на фиг. 9 виждаме, че има силна
правопропорционална зависимост, т.е. корелационния коефициент би трябвало да
е близо до 1. Тъй като това са два метрирани признака използваме корелационния
коефициент на Браве. Определяме средните аритметични

Останалите междинни изчисления са дадени в Табл. 1.


Използваме (1) и получаваме

Табл. 1
Ср.РЗ ПТ
Междинни изчисления
Откл от Откл от Произв. от Кв. на откл. Кв. на откл.
Xi Yi
ф. № ср. на Х ср. на Y откл. по Х по Y

1 220 4 -100.7 -3.429 345.31 10143 11.755

2 250 6 -70.71 -1.429 101.02 5000.6 2.0408

3 300 7 -20.71 -0.429 8.8777 429.1 0.1837

4 310 8 -10.71 0.5714 -6.123 114.8 0.3265

5 280 7 -40.71 -0.429 17.449 1657.7 0.1837

6 330 9 9.2853 1.5714 14.591 86.217 2.4694

7 350 9 29.285 1.5714 46.02 857.63 2.4694

8 400 10 79.285 2.5714 203.88 6286.2 6.6123

9 270 6 -50.71 -1.429 72.449 2572 2.0408

10 420 8 99.285 0.5714 56.735 9857.6 0.3265

11 370 9 49.285 1.5714 77.448 2429 2.4694

12 350 8 29.285 0.5714 16.734 857.63 0.3265

13 330 7 9.2853 -0.429 -3.979 86.217 0.1837

14 310 6 -10.71 -1.429 15.307 114.8 2.0408

Общо: 4490 104 -0.006 2E-05 965.71 40493 33.429

Пример 2: С цел да се определи силата на праволинейната зависимост между


краткотрайните активи и дълготрайните материални активи на туристическите
фирми обслужващи страната са извършени 200 наблюдения върху такива фирми.
Данните са дадени в Табл. 2. Оценете корелационния коефициент между тези два
признака.
Решение: Ще използваме формула ( 2). За целта пресмятаме средните аритметични
и стандартните отклонения на двата признака. Получаваме
За определянето на сумата от числителя на корелационния коефициент
построяваме помощна Табл. 3 съдържаща произведенията.

Изчисляваме корелационния коефициент на Браве по групирани данни

Табл. 2
Обем на краткотрайните активи в х.лв.
до 35 над 35 до 45 над 45 до 55 Над 55 до над 65
65

Среди на интервалите
Обем на ДМА в Брой
Д.х. лв. 30 40 50 60 70 фирми

до 15 10 15 5 3 0 0 23

над 15 до 25 20 7 20 7 4 0 38

над 25 до 35 30 3 15 18 9 2 47

над 35 до 45 40 1 4 17 19 5 46

над 45 до 55 50 0 3 5 10 5 23

Над 55 60 0 1 5 8 9 23

Брой фирми x 26 48 55 50 21 200

Табл. 3
30 40 50 60 70 Общо:

10 4500 2000 1500 0 0 8000

20 4200 16000 7000 4800 0 32000

30 2700 18000 27000 16200 4200 68100

40 1200 6400 34000 45600 14000 101200

50 0 6000 12500 30000 17500 66000

60 0 2400 15000 28800 37800 84000

Общо: 12600 50800 97000 125400 73500 359300

Задачи за упражнение
Задача 1: С цел изследване на зависимостта между обема на дълготрайните
материални активи и равнището на производи-телността на труда са наблюдавани
12 еднотипни промишлени предприятия. Резултатите от наблюдението са дадени в
Табл. 4.
Табл. 4
Фирма № 1 2 3 4 5 6 7 8 9 10 11 12

ДМА в млн. лв. 2 3.3 5.3 2.5 7 4.5 1.1 3.2 6.3 4.2 3.7 5.2

ПТ изд/ч. 4.1 6.2 7 6.7 7.7 6.3 4 6 7 6.8 4 8

Подберете подходящ коефициент и определете силата на тази зависимост.


Задача 2: Управител на фирмарешава да изследва зависимостта между обема на
персонала и обема на чистата печалба за една година в еднородни на своята
фирми. Наблюдава 120 такива фирми. Данните са дадени в Табл. 5. Помогнете му
да оцени силата на праволинейната зависимост между тези два признака.
Табл. 5
Обем на персонала в бр. лица
Обем на чистата печалба в млн.
Брой фирми
лв. до 45 над 45 до 65 над 65 до 85 над 85

До 0,2 5 5 3 0 13

над 0,2 до 0,4 7 10 7 0 24

над 0,4 до 0,6 3 15 12 2 32

над 0,6 до 0,8 1 4 13 5 23

над 0,8 до 1 0 3 7 6 16

над 1 0 1 5 6 12

Брой фирми 16 38 47 19 120


ГЛАВА 10. КОРЕЛАЦИОНЕН АНАЛИЗ
10.3. ИЗМЕРВАНЕ НА ЗАВИСИМОСТИ ПРИ НЕИНТЕРВАЛНИ СКАЛИ

Ако поне един от изследваните признаци е представен на слаба скала, не можем да


пресметнем корелационния коефициент на Браве. Ако двата признака са
представени на рангова скала се използват коефициентите на корелация на
Спирмън или Кендал. В общия случай можем да използваме коефициентите на
взаимносвързаност (на контингенция) на Пирсън и Чупров и като техен частен
случай при две дихотомни скали се използва коефициента на четириклетъчна
корелация на Пирсън. При един дихотомен и един метриран признак са
подходящи бисериалните коефициенти на корелация и т.н. До част от тези
резултати учените са достигнали по емпиричен път.
Да започнем с ранговите коефициенти на корелация.
Да предположим, че над единиците от съвкупността са извършени наблюдения,
върху два признака измерени на рангова скала. Спирмън използва като измерител
на близостта на ранговете, сумата от квадратите на разликите им. Ако съществува
силна положителна зависимост между ранговете на единиците, те би трябвало да
съвпадат и сумата от квадратите на разликите им би била нула. Ако зависимостта е
силна отрицателна, ранговете ще са подредени в обратен ред. Разликите им в този
случай, ако n е четно, ще образуват редица само от нечетните числа от –(n-1) до (n-
1) или ако n е нечетно, само от четните числа в този интервал. Тогава сумата от
квадратите им ще е

При липсата на каквато и да е зависимост можем да приемем, че тази сума ще е


средното аритметично на двете крайни възможности, т.е.

Като отнесем тази величина към действителната сума от квадратите на разликите,


т.е.

получаваме измерител на зависимостта, който обаче би бил нула при силна


правопропорционална зависимост между ранговете. Ето защо ранговият
коефициент на корелация на Спирмън се пресмята по формулата

(3)
Да обърнем внимание, че от описаните разсъждения става ясно, че за да
използваме този коефициент, ранговете по един и същ признак трябва да са
различни числа от 1 до n.
За да разкажем как се пресмята ранговия коефициент на корелация на Кендал,
трябва да дефинираме понятията съответствия и инверсии. Да предположим, че
статистическите единици са подредени по ранговете на признака Х във възходящ
ред. Брой на съответствията рi на i – тата статистическа единица, се нарича броя на
двойките след i – тата, т.е. за j = i+1,…,n такива че Хi < Xj и Yi < Yj. Брой на
инверсиите qi на i – тата статистическа единица, се нарича броя на двойките след i
ГЛАВА 11. РЕГРЕСИОНЕН АНАЛИЗ
След усвояването на информацията от тази глава Вие ще можете:

• Да моделирате формата на влиянието на един независим, фактор-признак


върху друг зависим, резултативен признак на единиците от съвкупността
• Да оценявате значенията на резултативния признак като знаете значението
на фактор-признака
• Да определяте изменението на резултативния признак като знаете
изменението на фактор-признака.

Въведение: Със средствата на регресионния анализ се моделира формата на


зависимостта на една зависима, резултативна променлива от един или няколко
фактор признаци, като не се отчита, че изменението на разглежданите величини
може да се дължи на външни, невключени в модела признаци. Ако фактор-
признака е един, говорим за единична регресия. Иначе говорим за множествена
регресия. Тук ще се спрем на методологията на единичната регресия, а тази на
множествена регресия може да бъде намерена на стр. 355 в Гатев, К. Въведение в
общата теория на статистиката. София, 1980.

11.1. СЪЩНОСТ
При еднофакторния регресионен анализ е добре да започнем с изчертаване на
корелационно поле. По абсцисната ос се нанасят значенията на фактор-признака
X, а по ординатната, на резултативния признак Y. По графичния образ на това
поле избираме линия, която най-добре ще приближава точките му. Трябва да
знаем аналитичното й представяне
(1) y = F(x, a),
където а е d-мерен вектор, чиито координати са неизвестни параметри за
функцията F.
По данните от извадката, използвайки метода на най-малките квадрати, правим
оценка на вектора а. Ще я означаваме с . Тя минимизира сумата от квадратите на
отклоненията (Yi – F(Xi, a)). Намира се като решим относно а, следната система

(2)

наречена система нормални уравнения.


След като се определят оценките на параметрите в избрания модел се прави
проверка на хипотезата за статистическата им значимост. Алгоритъмът за тази
проверка може да намерите на стр.419, Петков, П. Статистика. ВСУ “Черноризец
Храбър”, 2001.
От полученото уравнение на регресия пресмятаме оценки на стойностите на
зависимата променлива. Тези оценки ще означаваме с , т.е.

Може да тестваме повече от една функция F. При всяка от тях ще получаваме


различни оценки. Най-добър модел за съответните данни, дава тази линия, за
която сумата от квадратите на отклоненията на фактическите (измерените
значения на
резултативната величина Y ) от техните оценки е минимална. Това е все едно да
кажем, че модела с най-малка обща стандартна грешка

(3)
е най-добър.
След избора на модел се прави проверка на хипотезата, че отклоненията на
фактическите стойности от техните оценки имат случаен характер. За целта се
използва критерия за възходящите и низходящите серии от знаци. Проверява се
дали тези остатъци са еднакво разпределени. С някои от критериите за съгласие се
проверява дали разпределението им е нормално. Чрез критерия на Фон Нойман се
проверява хипотезата за липса на корелация в остатъчния компонент.
Алгоритмите и теоретичните обосновки на всички тези проверки могат да бъдат
намерени в Гатев, К. Въведение в общата теория на статистиката. София, 1980.
След намирането на уравнението на регресия можем да получим най-добра оценка
за Y по зададено значение на X.
В следващите параграфи на тази глава ще разгледаме по-подробно случаите,
когато точките от корелационното поле се групират около права или част от крива
от втора степен. В останалите случаи се работи по аналогичен начин. примери на
други модели могат да бъдат намерени на стр. 353 в Гатев, К. Въведение в общата
теория на статистиката. София, 1980.

ЗА САМОПОДГОТОВКА
Въпроси към темата
В кои случаи пресмятаме обща стандартна грешка на модела?
Защо решаваме система нормални уравнения?
По какво се различават фактор-признака и резултативния признак? Ще се промени
ли извода от регресионния анализ ако сменим местата им? Винаги ли можем да
сменим местата им?
Литература
1. Гатев, К. Въведение в общата теория на статистиката. София, 1980.
2. Петков, П. Статистика. ВСУ “Черноризец Храбър”, 2001.

ГЛАВА 11. РЕГРЕСИОНЕН АНАЛИЗ


11.2. ЕДИНИЧНА ЛИНЕЙНА РЕГРЕСИЯ

Нека изследваме влиянието на фактора Х върху резултативния признак Y. Да


предположим, че разполагаме с n на
Фиг.18
брой двойки от наблюдения (X1,Y1), (X2,Y2),… ,(Xn,Yn). Изчертали сме
корелационното поле и сме видели, че точките се групират около права. Виж
фиг.18.
Представяме я аналитично
(4) y = a1 + а2 х,
където a1 и а2 са неизвестни параметри.
По данните от извадката, използвайки метода на най-малките квадрати,
построяваме оценка на вектора а. Система нормални уравнения ( 2 ) в случая има
вида

(5)
Нейното решение означаваме с ( ). Тогава уравнението на регресия е

Коефициентът в това уравнение показва, с колко единици, в приетата за


резултативния признак Y мярка, би се изменил той, ако изменим фактор-признака
с една единица в приетата за него мярка. Когато зависимостта на резултативния
признак от фактор-признака е правопропорционална, коефициентът е
положителен. Обратно, ако тази зависимост е обратнопропорционална, този
коефициент е отрицателен. Коефициентът е равен на ординатата на точката, в
която линията на регресия пресича ординатната ос. Линията на регресия ще е
успоредна на абсцисната ос ако значенията на резултативния признак не се влияят
от тези на фактор-признака.
Като заместим измерените значения на фактор-признака Х, в уравнението на
регресия, намираме съответните оценки за значенията на резултативния признак
Y. Сумата и съответно средната аритметична на тези оценки е равна на
съответната характеристика на изходните данни.
За да можем да съпоставим този модел с останалите пресмятаме общата
стандартна грешка на модела по формула (3). Ако тази грешка е нула, значи имаме
пълно съвпадение на изходните данни за резултативната величина с техните
оценки. Ако отнесем тази грешка към стандартното отклонение на данните от
извадката отнасящи се за резултативния признак, ще получим величина, която е 0
при пълно съвпадение, т.е. при функционална зависимост между Х и Y и е 1 ако
оценките на Y не се влияят от Х. В последния случай всички оценки на
резултативния признак ще са равни помежду си и по тази причина ще са равни на
своята средна аритметична и на средната аритметична на изходните данни за този
признак. На основата на тези разсъждения е образуван корелационния коефициент
на Пирсън
(6)
Той се изменя от 0 до 1 и съвпада с корелационния коефициент на Браве. За
посоката на зависимостта се съди по знака на регресионния коефициент . Друга
обосновка на корелационния коефициент на Пирсън, както и някои негови
свойства може да намерите на стр. 341 от Гатев, К. Въведение в общата теория на
статистиката. София, 1980.

ЗА САМОПОДГОТОВКА
Въпроси към темата
Какъв е смисъла на коефициента в уравнението на изглаждащата права и как се
намира самия коефициент?
С какво се различава изглаждащата права от всички останали прави, които можем
да прекараме между точките от корелационното поле?
Кои са логическите обосновки, които ни дават основание да използваме
корелационния коефициент на Пирсън за измерител на силата на зависимостта
между наблюдаваните признаци?

Литература
1. Гатев, К. Въведение в общата теория на статистиката. София, 1980.
2. Петков, П. Статистика. ВСУ “Черноризец Храбър”, 2001.

Примерни ситуации и решения


Пример 1: По данните от пример 3 на §2.2 моделирайте формата на зависимостта
между производителността на труда и средната работна заплата. Определете
силата на зависимостта между тези два признака чрез корелационния коефициент
на Пирсън.
Решение: От корелационното поле на фиг. 18 виждаме, че е добре да изберем
уравнение на права с > 0. Тъй като имаме изместване на координатното начало
по осите, заключението че » 4,7 няма да бъде вярно. Ако координатното начало
не беше изместено, можехме от графиката да определим и приблизителната
стойност на .
За да определим системата нормални уравнения (5), извършваме част от
междинните изчисления показани в Табл. 1.
Табл. 1
Ср.РЗ ПТ Междинни изчисления
ф. №
Xi Yi X i Yi Xi2
1 220 4 880 48400 5.027 -1.03 1.054

2 250 6 1500 62500 5.742 0.26 0.066

3 300 7 2100 90000 6.935 0.07 0.004

4 310 8 2480 96100 7.173 0.83 0.684

5 280 7 1960 78400 6.458 0.54 0.294

6 330 9 2970 108900 7.650 1.35 1.822

7 350 9 3150 122500 8.127 0.87 0.762


8 400 10 4000 160000 9.320 0.68 0.463

9 270 6 1620 72900 6.219 -0.22 0.048

10 420 8 3360 176400 9.797 -1.80 3.228

11 370 9 3330 136900 8.604 0.40 0.157

12 350 8 2800 122500 8.127 -0.13 0.016

13 330 7 2310 108900 7.650 -0.65 0.423

14 310 6 1860 96100 7.173 -1.17 1.376

Общо: 4490 104 34320 1480500 104.000 0.00 10.400

Получаваме

и нейното решение е = 0,023849, = -0,22. Това са коефициентите в


уравнението на регресионната права. От стойността на правим извода, че според
изходните данни ако средната работна заплата нарасне с 1 лв., производителността
на труда ще нарасне с 0,023849 изделия на час.
Вече можем да определим оценките на значенията на резултативния признак

Попълваме ги в шестата колонка на Табл. 1.


За да определим стандартната грешка на модела намираме разликите на
фактическите стойности на резултативния признак и техните оценки (колона
седма на Табл. 1). От формула (3) получаваме

В пример 1 на §10.2 определихме

Освен това по непретеглената формула за стандартно отклонение s Y = 1,55


изделия на час. Корелационния коефициент на Пирсън е

и съвпада с корелационния коефициент на Браве изчислен в пример 1 на §10.2.

Задачи за упражнение
Задача 1: При условието на Задача 1 на §10.2 определете формата на зависимостта
между обема на дълготрайните материални активи и равнището на
производителността на труда в наблюдаваните промишлени предприятия.
Пресметнете корелационния каефициент на Пирсън и го сравнете с този на Браве.
ГЛАВА 11. РЕГРЕСИОНЕН АНАЛИЗ
11.3. ЕДИНИЧНА НЕЛИНЕЙНА РЕГРЕСИЯ

По аналогичен начин на построяване на регресионна права се работи и в случая,


когато линията около, която се групират точките от корелационното поле не е
права. Основната разлика е във вида на системата нормални уравнения. Нека
отново Х е независимата променлива и Y е резултативния признак. С (X1,Y1),
(X2,Y2),…, (Xn,Yn) означаваме наблюденията. Изчертали сме корелационното
поле и сме видели, че точките се групират около част от крива от втора степен с
уравнение
(7) y = a1 + а2 х + а3 х2,
където a1, а2 и а3 са неизвестни коефициенти.
По метода на най-малките квадрати построяваме оценка на вектора а. Система
нормални уравнения (2) в случая има вида

(8)
Нейното решение означаваме с ( ). Тогава уравнението на регресия е

За да можем да съпоставим този модел с останалите пресмятаме общата


стандартна грешка на модела по формула (3). Както при линейния модел, така и
тук можем да пресметнем корелационния коефициент на Пирсън

(9)
Анализирането му също е аналогично на праволинейния случай, с тази разлика, че
измерва разпръснатостта на точките от корелационното поле около разглежданата
крива от втора степен.

Ако точките се групират около клон от хипербола с уравнение

полагаме и за определяне на коефициентите в уравнението на регресия


използваме методологията за работа с праволинейния модел. За определянето на
корелационния коефициент на Пирсън се използва формула (9).

ЗА САМОПОДГОТОВКА
Въпроси към темата
Вярно ли е, че щом при праволинейна зависимост корелационния коефициент на
Пирсън съвпада с корелационния коефициент на Браве, то коефициента на Пирсън
не е подходящ за измерване на криволинейна зависимост?
Напишете системата нормални уравнения, която ще се получи ако за моделиране
на данните използваме клон от хипербола.

Примерни ситуации и решения


Пример 1: Моделирайте зависимостта между производителността на труда и
средната работна заплата от пример 1 на стр.175 като използвате уравнение на
крива от втора степен. Кой модел е по-добър? Определете силата на зависимостта
между тези два признака чрез корелационния коефициент на Пирсън. Кой
коефициент е по-точен?
Решение: Междинните изчисления за получаването насистемата нормални
уравнения (8) са дадени в Табл. 1 и Табл. 2 . (8) има вида

Нейното решение е
а1 = -5,799, а2 = 0,0410343, а3 = -0,0000006373.
Третият коефициент е близо до 0, следователно параболата е много близо до
права. Виж фиг. 19.
Фиг. 1

Пресмятаме оценките за резултативната променлива от


= -5,799 + 0,0410343 Xi – 0,000000633 Xi 2
и попълваме седмата колонка от Табл. 2.
Табл. 2
Ср.РЗ ПТ Междинни изчисления
ф. №
Xi Yi Xi 310-3 Xi 410-4 Xi2Yi3
1 220 4 10648 234256 193600 3.20 0.80 0.6438

2 250 6 15625 390625 375000 4.42 1.58 2.4975

3 300 7 27000 810000 630000 6.45 0.55 0.2983

4 310 8 29791 923521 768800 6.86 1.14 1.2989

5 280 7 21952 614656 548800 5.64 1.36 1.8481

6 330 9 35937 1185921 980100 7.67 1.33 1.7614

7 350 9 42875 1500625 1102500 8.48 0.52 0.2654

8 400 10 64000 2560000 1600000 10.51 -0.51 0.2628

9 270 6 19683 531441 437400 5.23 0.77 0.5872

10 420 8 74088 3111696 1411200 11.32 -3.32 11.042

11 370 9 50653 1874161 1232100 9.30 -0.30 0.0878


12 350 8 42875 1500625 980000 8.48 -0.48 0.2351

13 330 7 35937 1185921 762300 7.67 -0.67 0.4527

14 310 6 29791 923521 576600 6.86 -0.86 0.7401

Сума: 4490 104 500855 17346969 11598400 102.11 х 22.021

Пресмятаме общата стандартна грешка на модела

Тази грешка е по-голяма от грешката при праволинейния модел, по тази причина


правим извода, че моделирането с права е по-добро. При това положение няма
нужда да пресмятаме корелационния коефициент на Пирсън за този модел, т.к.
при праволинейния модел той е по-точен.

Задачи за упражнение
Задача 1: При условието на Задача 1 на § 10.2 моделирайте зависимостта между
равнището на производителността на труда и дълготрайните материални активи
като използвате уравнение на крива от втора степен. Кой модел е по-добър този
или праволинейния от Задача 1 на предния параграф?

ГЛАВА 12. АНАЛИЗ НА ДИНАМИЧНИ РЕДОВЕ

Мото: Бъдещето принадлежи на този, който го планира добре.


След усвояването на информацията от тази глава Вие ще можете:

• Да измервате скоростта на развитие на явленията във времето.


• Да моделирате тенденцията им на развитие.
• Да изработвате прогноза за стойността на наблюдаваното явление в близко
бъдеще.
• Да определяте характеристиките на сезонността в динамиката на
изследваното явление.
• Да правите прогноза по месеци на явление от сезонен тип.

Въведение: Всички методи, които ще разгледаме в тази глава се отнасят до


периодни временни редове с еднаква продължителност на периодите. Ако реда не
е такъв може да се преработи, така че да се сведе към такъв. Членовете на реда
трябва да са реално съпоставими във времето, т.е. да няма глобални промени в
структурата на съвкупността и района, за които се извършва наблюдението.
Значенията на наблюдавания признак трябва да са измерени по една и съща
методология и в една и съща мярка.
Статистическият анализ на развитие се осъществява в следните направления:
- Статистически анализ на скоростта и тенденцията на развитие
- Индивидуализиране на временния ред чрез средни, флуктоации и др.
- Разкриване на вътрешния механизъм на временния ред. Анализ на сезонните и
циклични колебания.
- Статистически анализ на взаимно свързани редове – индексен факторен,
корелационен и регресионен анализ.
- Прогнозтичен анализ
12.1. ОПИСАТЕЛНИ ХАРАКТЕРИСТИКИ НА ДИНАМИЧНИТЕ РЕДОВЕ
Членовете на динамичния ред се изменят под едновременното въздействие на
случайни и системно действащи фактори. Основното направление в развитието на
разглежданото явление се нарича тренд или тенденция на развитие. Трендът
отчита влиянието на всички съществени, трайни и закономерно действащи
фактори. Самата закономерност описваща тази тенденция също се нарича
понякога тренд. Случайни колебания наричаме зигзагообразните отклонения от
общата тенденция на развитие, породени от несистемно действащи фактори в
сравнително къси периоди от време. Причина за появата на отклонения от тренда
могат да бъдат и трайно действащи фактори, които периодично променят посоката
си на въздействие върху изследвания признак. Такъв фактор може да бъде
например сезонността.
Еднородните, по отклонения от простата или коригирана средна хронолотична,
етапи в развитието на динамичния ред се наричат - периоди.
В началото на анализа на динамичния ред обикновено се чертае линейна диаграма
на данните. Така се придобива приблизителна представа за числовите
характеристики, които предстои да се изчислят. Средният абсолютен обем на
изследваното явление през наблюдавания период се характеризира чрез средната
хронологична, а скоростта и интензивността му на развитие във времето се
измерват чрез абсолютния прираст, темпа на ръста, темпа на прираста и
съответните средни величини, а също така и чрез абсолютното значение на един
процент от прираста.
Абсолютният прираст измерва в абсолютни числа изменението на изследваното
явление в даден период от време, спрямо друг период, приет за база.
Характеризира скоростта на ръста. Абсолютният прираст е нула, когато нямаме
ръст.
В зависимост от това дали за базисни периоди са взети предходните периоди или
един конкретен минал период, различаваме съответно абсолютен прираст с
постоянна база
Di/о = yi – yo,
и абсолютен прираст с променлива, верижна база
Di/ i -1 = yi – y i -1.
Тук yi е абсолютния обем през i-тия период, а yо е абсолютния обем през базисния
период.
Пресметнат с верижна база, абсолютния прираст е постоянен, когато членовете на
реда образуват аритметична прогресия. Ако имаме геометрична тенденция на
развитие, прирастите с променлив състав се изменят по експоненциален закон.
Средният абсолютен прираст - се изчислява по формулата да непретеглена
средна аритметична от абсолютните прирасти.
Темпът на ръста показва относителното изменение на изучаваната съвкупност
през отчетния спрямо базисния период или момент от време. Темпът на ръст с
постоянна база се изчислява по формулата

а с верижна база

Средният темп на ръст -


се изчислява по формулата за средна геометрична от верижните темпове или по
формулата за средна аритметична се осредняват логаритмите им, т.е.

Темпът на прираста е относителна характеристика на скоростта на развитие на


реда. Показва каква част от величината приета за база е абсолютния прираст.
Обикновено се смята и тълкува в проценти. Формулите за пресмятането му са
следните

• с постоянна база:

• с верижна база:

Средният темп на прираст се изчислява принципно както годишните темпове на


прираст

Абсолютното значение на 1% от прираста, както си личи от названието, е


именована величина, която показва по колко абсолютни единици трябва да
умножим темпа на прираста за съответния период, за да получим абсолютния
прираст за същия период. Пресмята се по формулата:

Коефициентът на изпреварване служи за сравняване на два темпа на ръст,


отнасящи се до един и същ период и различни явления намиращи се в логическа
връзка. Получава се като тяхно частно.
Средният коефициент на изпреварване е отношение от средните темпове на ръст.

ЗА САМОПОДГОТОВКА
Въпроси към темата
Като използвате понятията, дефинирани в този параграф, определете понятието
сложна лихва. Припомнете си как се пресмята.
Като сума от какви компоненти може да се представи всеки динамичен ред?
Кои от дефинираните в този параграф характеристики на динамичните редове са
абсолютни и кои са относителни величини?
Какъв е смисъла на понятието абсолютно значение на 1% от прираста? А на
понятието среден темп на прираста?
Примерни ситуации и решения
Пример 1: Посещенията на туристите в хотел Х за периода 1998–2004 г. са дадени
в първите две колонки на Табл. 1. Определете описателните характеристики за
изучаване на този динамичен ред.
Табл. 1
Абс. прираст в х. броя Темп на ръст в % Темп на прираст в % Абс. зн. на
Туристи в
Год. с пост. с пром. с пост. с пром. с пост. с пром. 1% от пр. в
х. души
база база база База база база х. бр.

1998 90 - - - - - - -

1999 89 -1 -1 98,89 98,89 -1,11 -1,11 0.90

2000 87 -3 -2 96,67 97,75 -3,33 -2,25 0.89

2001 88 -2 1 97,78 101,15 -2,22 1,15 0.87

2002 91 1 3 101,11 103,41 1,11 3,41 0.88

2003 93 3 2 103,33 102,20 3,33 2,20 0.91

2004 96 6 3 106,67 103,23 6,67 3,23 0.93

Общо: 634 4 6 x x x x х

Решение: Средногодишният брой туристи посетили хотел Х през наблюдавания


период се определя по формулата за средна хронологична за периоден ред с
еднакво дълги периоди

.
Абсолютните прирасти с постоянна база са изчислени спрямо 1998 г. Например
D 1999/1998 = 89 – 90 = -1.
Т.е. през 1999 г. посещенията на туристите са намалели с 1000 души спрямо 1998
г.
D 2000/1998 = 87 – 90 = -3.
Т.е. през 2000 г. спрямо 1998 г. посещенията на туристите са намалели с 3000
души.
По аналогичен начин за останалите периоди.
Абсолютните прирасти с променлива база са изчислени по отделно за всяка година
спрямо предходната. Първият прираст съвпада. Втория се пресмята от
D 2000/1999 = 87 – 89 = -2.
Т.е. през 2000 г. спрямо 1999 г. посещенията на туристите са намалели с 2000
души и т.н.
По аналогичен начин за останалите периоди.
Средният абсолютен прираст за периода 1998 г.–2004 г. е

Т.е. ако броя на туристите през 1998 г. е 90 000 души и всяка година техния брой
нараства с 1000 души, през 2004 г. броя на туристите посетили хотел Х ще се
запази 96 000 души.
Темповете на ръст с постоянна база също са изчислени спрямо 1998 г.

отразява, че броят на туристите посетили разглеждания хотел през 1999 г.


представлява 98,89% от броя на туристите посетили същия хотел през 1998 г. По
аналогичен начин за останалите.
Първият темп на ръст с верижна база съвпада с този с постоянна база. Вторият
темп на ръст с верижна база е

и отразява, че броят на туристите посетили разглеждания хотел през 2000 г.


представлява 97,75% от броя на туристите посетили същия хотел през 1999 г. По
аналогичен начин за останалите.

Средният темп на ръст е


Това значи, че ако броя на туристите през 1998 г. е 90 000 души и всяка година
техния брой e 1.010814 пъти броя на туристите през предходната година, през 2004
г. броя на туристите посетили хотел Х ще се запази 96 000 души.
Темпа на прираста в проценти се изчислява най-бързо, когато от съответния темп
на ръст, определен в проценти извадим сто. Така получените резултати са дадени в
седма и осма колона на Табл. 1. Средния темп на прираст се определя по
аналогичен начин. Получаваме

Това значи, че ако броя на туристите през 1998 г. е 90 000 души. и всяка година
техния брой нараства с 1,0814% в сравнение с предходната година, тогава броя на
туристите посетили хотел Х през 2004 г. ще се запази на 96 000 души.
По аналогичен начин могат да се тълкуват и средните величини пресметнати от
характеристиките на динамичния ред с постоянна база.
Абсолютното значение на 1% от прираста в броя на туристите през 1999 г. спрямо
1998 г. е

По аналогичен начин пресмятаме абсолютните значения на 1% от прираста за


останалите периоди.

Задачи за упражнение
Задача 1: Броят на туристите посетили през 1995 година еднотипните хотели А и Б
е бил равен. През 1996 г. броя на туристите в хотел А е намалял с 2,9%, през 1997
г., той се е увеличил с 8,9% в сравнение с предходната година и през 1998 г.
нараства с още 6,9% в сравнение с 1997 г. Броя на туристите в хотел Б, нараства
всяка година с r%. В края на 1998 г. броя на туристите в двата хотела е един и същ.
Намерете с колко процента на година нараства броя на туристите в хотел Б, т.е.
колко е r?
Задача 2: Броят на кандидат-студентите общо за редовно и задочно обучение в
специалност Икономика в университет Х за периода 1996–2004 г. са както следва
Табл. 2
Год. 1996 1997 1998 1999 2000 2001 2002 2003 2004
к.- ст. в бр. 330 420 480 540 560 600 670 720 890
Определете описателните характеристики за изучаване на този динамичен ред.
ГЛАВА 12. АНАЛИЗ НА ДИНАМИЧНИ РЕДОВЕ
12.2. МЕТОДИ И МОДЕЛИ ЗА АНАЛИЗ НА ТЕНДЕНЦИЯТА В РАЗВИТИЕТО

Да моделираме тренда ще рече да образуваме нов динамичен ред, който е получен


от стария след отстраняване на случайните колебания. Така се създават условия за
прогнозтичен анализ, т.е. за екстраполация на данни. Има методи, по които можем
да попълним липсващи членове на реда, по данни за наличните. В този случай
говорим за интерполация на данни. Преди да започнем да моделираме тренда
трябва да проверим хипотезата, че той съществува, т.е. че членовете на реда са
автокорелирани, а самия ред е нестационарен. Тъй като в повечето случаи това се
вижда от линейната диаграма, няма да се спираме на метода за проверка на тази
хипотеза. Той може да бъде намерен в Петков, П. Статистика. Варна, 2001, стр.
400 или Петров, С., Велева–Стефанова, С. Обща теория на статистиката. Габрово,
2001, стр. 267. В зависимост от това дали остарялата информация съдържаща се в
първите членове на реда се използва като по-малко ценна или не, имаме съответно
адаптивни и неадаптивни методи за моделиране на тренда.
Ще разгледаме първо неадаптивните методи за моделиране на тренда.
· Метод на окрупнените периоди
Използва се, когато имаме дълъг динамичен ред. Неточен е, но за това пък е много
бърз за реализация. Състои се в уголемяване на периодите и пресумиране на
величините в новите периоди. Дължините на новите периоди трябва да са еднакви.
Например: от годишни стават 5-годишни, от 5-годишни стават 10-годишни и т.н.
Ако в членовете на реда се наблюдава цикличност, не се препоръчва да се
използва този метод, защото получените резултати няма да отразяват точно
тенденцията на развитие.
Ако членовете на първоначалния ред са ненаименовани или средни величини,
членовете на реда с удължени интервали от време се намират чрез подходящо
осредняване.
· Метод на свободното изравняване
Състои се в начертаване на линейна диаграма и построяване на гладка линия,
която трябва така да минава между точките от линейната диаграма, така че при
едни и същи първи координати, сумата от положителните разлики между вторите
координати на съответните точки от линейната диаграма и вторите координати на
точките от прекараната от нас линия да е равна на сумата от получените по същия
начин отрицателни разлики. Негов недостатък е неточността, а преимущество е
бързината на реализацията му.
· Метод на плъзгащите се средни
Членовете на изгладения ред се получават, чрез осредняване на еднакъв брой – 2,
3, 4, 5, 6,… членове на началния ред.
При нечетен брой членове новото значение се записва за интервала, който заема
централно място. За тричленни верижни средни формулите изглеждат по следния
начин:

(1)
За петчленни
…,
По аналогичен начин за 7, 9, 11 и т.н. членни плъзгащи се средни. Виж пример 1.
При четен брой членове на реда, средните периоди са два, за това не можем да
работим както по-горе. При четиричленните плъзгащи се средни, първо
пресмятаме средната хронологична на първите четири члена на реда, после на
втория до петия член включително, след което определяме средната на тези две
величини и полученото число е третия член на изгладения ред. По аналогичен
начин постъпваме и с останалите членове на реда. Получаваме следните формули
за членовете на изгладения ред:

(2) …
Така при увеличаване броя на осредняваните величини, линейната диаграма на
изгладения ред е все по-плавна линия.
Основният недостатък на този метод е, че не може да се използва за прогнозиране.
Освен това, колкото повече увеличаваме броя на осредняваните величини, толкова
повече членове на реда губим.
Този метод също не се препоръчва при циклични временни редове.
· Метод на средния абсолютен прираст и средния темп
Първият метод се прилага, когато членовете на реда се изменят подобно на
аритметична прогресия, а втория - когато изменението е подобно на геометрична
прогресия. И двата начина могат да бъдат използвани за интерполация и
екстраполация на данни.
При осредняването чрез средния абсолютен прираст, първо пресмятаме , а след
това изгладените стойности на реда се получават, като към предходната
изгладена стойност прибавим , т.е.

Изгладените стойности по метода на средния темп се получават по формулите:

· Метод на аналитичното изравняване


Нека разполагаме с динамичен ред с n члена. Търсим аналитично описание на
функция на времето, такава че ако бъде начертана върху линейната диаграма на
данните да се отклонява минимално от точките й. Ще означаваме с ti номера на i –
тия интервал от време като периода, за който ti = 0 се намира в началото на
координатната система. Т.е. в зависимост от ti ще се изменя положението на
линейната диаграма в ляво и в дясно по абсцисната ос. Това няма да промени
отмерването на трайната тенденция на развитие. t1 < t2 < … < tn се подбират както
е най-удобно, но все пак трябва да са равноотдалечени, тъй като периодите ни са с
еднаква продължителност.
Най-често използваните функции са изброени по-долу.
- полином от n-та степен

- експоненциална функция

(Когато членовете на динамичния ред са само положителни можем да


логаритмуваме от двете страни горното равенство и по този начин да го сведем
към уравнение на права )
- логистична функция

където z е коснтанта, обикновено 10 или неперовото число е.


- когато членовете на реда се групират около клон от хипербола с асимптоти
координатните оси, можем да използваме уравнението

При работа с него за леснота полагаме t –1 = t`. Така го свеждаме към уравнение на
права.
Неизвестните коефициенти в избрания модел се определят по метода на най-
малките квадрати, т.е. така, че сумата от квадратите на разликите между
фактическите стойности yi и изгладените стойности да е минимална. Това се
постига с решаването на система нормални уравнения.
След пресмятане на изгладените стойности сравняваме разгледаните модели. Най-
подходяща е функцията, за която се получава най-малка стандартна грешка на
оценката

където p е броя на неизвестните параметри в уравнението.


След като се определят оценките на параметрите в избрания модел се прави
проверка на хипотезата за статистическата им значимост. Алгоритъма за тази
проверка може да намерите в Гатев, К. Въведение в общата теория на
статистиката. София, 1980, стр. 419.
В края обикновено се прави проверка на хипотезата, че отклоненията от тренда
имат случаен характер, т.е. че случайните компоненти не зависят от времето. За
целта се използва критерия за възходящите и низходящите серии от знаци. Също
се проверява дали тези остатъци са еднакво разпределени, т.е. дали имаме
хомоскедастичност. Иначе казваме, че имаме хетеро-скедастичност. Освен това с
някои от критериите за съгласие се проверява дали разпределението им е
нормално. Чрез критерия на Фон Нойман се проверява хипотезата за липса на
корелация в остатъчния компонент.
Сега да се спрем по-подробно на изглаждане на динамичен ред с уравнение на
права
(3)
Работата с други функции е аналогична. Основната разлика е в системата
нормални уравнения.
Оценките и на коефициентите a0 и a1 трябва да се определят, така че

По аналогичен начин на Регресионния анализ получаваме, че това е все същото да


решим системата нормални уравнения:

Можем да номерираме периодите така, че сумата от номерата им да е нула и да са


равноотдалечени. (например за ред с четен брой периоди, номерата им могат да са
…, -5, -3, -1, 1, 3, 5,… или при нечетен брой членове - … -3, -2, -1, 0, 1, 2, 3,….).
Системата нормални уравнения, тогава ще има значително по-прост вид:

(4)

Този подход е известен като съкратен способ.


Заместваме така намерените оценки и на коефициентите a0 и a1 в ( 3 ) и
получаваме изгладените стойности на динамичния ред. Те показват какви
членове би имал динамичния ред, ако явлението което описва, се изменяше плавно
и не се намираше под въздействието на случайни фактори. Коефициентът няма
икономически смисъл. Той измерва по абсолютна стойност отреза на
изглаждащата права от ординатната ос. Коефициентът измерва средното
изменение на изследваното явление за ti – ti-1 периода от време. И двата
коефициента са само точкови оценки на действителните параметри a0 и а1. На
практика е добре да им се построи доверителен интервал.
По аналогичен начин се изглажда динамичен ред с уравнение на крива от втора
степен
(5)
Този път оценките на неизвестните коефициенти a0, a1 и a2 трябва да се
определят, така че
Системата нормални уравнения има вида:

За намирането на оценките на коефициентите a0, a1 и a2 отново е удачно да


използваме съкратения способ.
Заместваме ги в (5) и получаваме .

ЗА САМОПОДГОТОВКА
Въпроси към темата
За какво се използва метода на аналитичното изравняване?
По кои от изброените по-горе методи можем да направим прогноза за стойността
на изследваното явление през следващи периоди и за колко периода напред
прогнозата е добра?
В какво се състои метода на най-малките квадрати? Кога се използва?
Каква ще е системата нормални уравнения ако изглаждаме реда с полином от
трета степен?
Избройте уравнения на познати за вас функции, които могат се използват при
моделиране на тренда? Начертайте графиките на тези функции. Кога е удачно да
ги изберем? Виж Гатев, К. Въведение в общата теория на статистиката. София,
1980, стр. 353.

Литература
1. Петков, П. Статистика. Варна, 2001.
2. Петров, С., Велева–Стефанова, С. Обща теория на статистиката. Габрово, 2001.
3. Гатев, К. Въведение в общата теория на статистиката. София, 1980.

Примерни ситуации и решения


Пример 1: За периода 1995–2003 г. броят на телевизионните приемници продадени
в България е съответно: 15 432, 17 406, 16 616, 18 532, 18 480, 16 405, 19 680, 22
210 и 20 525. Моделирайте тенденцията на развитие
a) по метода на тричленните плъзгащи се средни;
б) по метода на четиричленните плъзгащи се средни;
в) по метода на аналитичното изглаждане с уравнение на права. Направете
прогноза за следващата година.
Решение: а) Използваме формули (1) и получаваме третата колонка в Табл. 3.
Табл. 3. Оценки на броя на продадените телевизори в България за периода 1995–
2003 г. по метода на плъзгащите се средни
Оценки по метода на плъзгащите се средни
Год. Тел. пр. в бр. yi
Тричленни Четиричленни
15 432 - -
1995
17 406 16484.67 -
1996
16 616 17518 17377.5
1997
18 532 17876 17633.38
1998
18 480 17805.67 17891.25
1999
16 405 18188.33 18734
2000
19 680 19431.67 19449.38
2001
22 210 20805 -
2002
20 525 - -
2003
165 286 х х
Общо:
б) Използваме формули ( 2) и получаваме четвъртата колонка в Табл. 3.
Виждаме, че оценките по метода на четиричленните плъзгащи се средни се
изменят много по-плавно от тези получени по метода на тричленните плъзгащи се
средни.
в) След заместване в системата нормални уравнения (4) по съкратения способ
получаваме:

и следователно
Табл. 4. Брой на продадените телевизори в България за периода 1995–2003 г.
Междинни изчисления
Телев. в
Год.
бр. yi ti yi ti ti2
1995 15 432 -4 - 16 15 779.3 347.33 120640.35

1996 17 406 -3 - 9 16 425.8 -980.25 960890.26

1997 16 616 -2 - 4 17 072.2 456.17 208087.97

1998 18 532 -1 -18532 1 17 718.6 -813.42 661646.73

1999 18 480 0 0 0 18 365.0 -115.00 13225.00

2000 16 405 1 16 405 1 19 011.4 2606.42 6793408.01

2001 19 680 2 39 360 4 19 657.8 -22.17 491.36

2002 22 210 3 66 630 9 20 304.3 -1905.75 3631882.68

2003 20 525 4 82 100 16 20 950.7 425.67 181192.23

165286 0 38 785 60 165 285.0 0 12571464.58


Общо:

Намираме изгладените стойности на членовете на реда. Да отбележим, че


тяхната сума е равна на сумата на измерените значения, а сумата от отклоненията
на фактическите от изгладените стойности е нула. Виж в Табл. 4 колони II, VI и
VII. Получената права е дадена на Фиг. 1.
За получаване на оценка на броя на продадените телевизионни приемници в
България за 2004 г., в уравнението на изглаждащата права заместваме ti с 5
(номера на следващия период). Получаваме, че този брой ще е приблизително 21
597 бр.
За пресмятането на стандартната грешка на оценката попълваме последните две
колони от Табл. 4. Параметърът p = 2, тъй като имаме два неизвестни коефициента
в уравнението на
Фиг. 1

регресия а именно a0 и a1. Получаваме:

Използвайки тази грешка можем да построим доверителен интервал на прогнозата.

Задачи за упражнение
Задача 1: Като използвате данните от Табл. 1 моделирайте тенденцията на
развитие
a ) по метода на тричленните плъзгащи се средни;
б ) по метода на четиричленните плъзгащи се средни;
в ) по метода на аналитичното изглаждане с уравнение на права. Направете
прогноза за следващата година.
ГЛАВА 12. АНАЛИЗ НА ДИНАМИЧНИ РЕДОВЕ
12.3. СТАТИСТИЧЕСКИ АНАЛИЗ НА СЕЗОННИ КОЛЕБАНИЯ

Проблема за измерването на сравнително постоянните отклонения на членовете на


временния ред от основната тенденция на развитие в рамките на една година се
решава от методите за статистически анализ на сезонни колебания. Задачата е да
се елиминират тренда, цикличните и случайни колебания и да се измерят
отклоненията на получените стойности от тяхното средно. Тези отклонения се
наричат сезонни колебания. Обикновено се работи с месечни данни, но по
аналогичен начин може да се обработват седмични или тримесечни данни. Ще
разгледаме основните три метода – Метода на простите средни, Метода на
коригираните средни и Метода на фактическите към изгладените стойности.
Първият метод се използва при стационарни временни редове, т.е. когато не се
наблюдава тенденция на развитие в реда от годишни данни. Пресмятат се 12
средни хронологични по едноименните месеци:

...

(6)
където е члена съответстващ на s-тия месец от i-тата година, а g е броя на
наблюдаваните години. Ако искаме да изготвим по този метод прогноза по месеци
за следващата година, използваме така определените средни величини. За да
определим абсолютния размер на сезонните колебания е необходимо да
пресметнем и средната хронологична на всичките данни, за целия изследван
период. Това може да бъде направено, като използваме формулата за претеглена
средна аритметична. След съкращаване получаваме

(7)
Да отбележим, че в тази средна са елиминирани влиянията на случайните и
сезонни фактори. Тя показва само най-типичното за съвкупността.
Характеристиките на сезонните колебания се определят по месеци.
Абсолютният размер на сезонните колебания представлява разликата между
средните месечни и общата средна, т.е.

...
(8)
Изразява в абсолютни числа отклонението на средната на изследваното явление за
съответния месец от средното равнище за разглеждания период. В това
отклонение са елиминирани случайните колебания. Ако в членовете на реда не се
съдържа тенденция на развитие, тези колебания са резултат само от сезонността.
Индексите на сезонните колебания измерват в относителни числа дела на
месечните средни от общата средна. Пресмятат се по формулите

(9)
Относителният размер на сезонните колебания характеризира в относителни числа
ГЛАВА 13. ИНДЕКСИ И ИНДЕКСЕН ФАКТОРЕН АНАЛИЗ

След усвояването на информацията от тази глава Вие ще можете:

• Да характеризирате изменението на сложни съставни явления във времето.


• Да измервате количествено, в абсолютни и в относителни числа, влиянието
на отделните фактори върху резултативната величина в динамика.
• Да определяте до каква степен структурните промени в съвкупността
рефлектират върху наблюдаваното явление.

Въведение: В глава 3 се запознахме с понятието индекс. В Глава 12 анализирахме


временни редове и се запознахме с част от динамичните индекси. Обектите и
явленията, които изследвахме там бяха прости, еднородни. Т.е. за целия изследван
период ние наблюдавахме изменението само на една величина. Такива индекси се
наричат индивидуални. Сега ще се научим да характеризираме в динамика сложни
явления, състоящи се от подсъвкупности. Индексите, които ги характеризират се
наричат множествени.

13.1. СЪЩНОСТ НА МНОЖЕСТВЕНИТЕ ИНДЕКСИ


Множествените индекси измерват относителните изменения във времето на
сложни явления или влиянието на отделните фактори предизвикали тези различия.
Те характеризират съвкупности, които включват в себе си подсъвкупности.
Според функцията си множествените индекси биват синтетични и аналитични.
Първите обобщават единичните относителни различия за да се измери средното
относително различие, характерно за цялата съвкупност. Вторите разчленяват
изменението на явлението – резултат на отделни негови факторни компоненти.
Това разчленяване се нарича Индексен факторен анализ.
В зависимост от вида на индексираните величини индексите биват индекси на
равнище (когато характеризират качествените изменения на съвкупността: цени,
себестойност, работна заплата и др), индекси на обем (когато се отнасят до
изменения в количеството: продажби, произведена продукция, брой работници и
др) или индекси на маса (описващи изменението на сложното явление: разходите
за производство, стокооборота, разходите за работна заплата и др).
Произведението от величина характеризираща равнището и такава
характеризираща обема е величина характеризираща масата на изучаваното
явление. Може да се случи един и същ признак да е обем за едно явление и маса за
друго. Например стокооборота е маса, когато разполагаме с цени и продадени
количества, а е обем, ако разполагаме с разходи за реализирането на единица
стокооборот и общи разходи за обръщение.
Да припомним, че периодът, за който се установява различието се нарича
индексиран период и ще означаваме съответните му величини с долен индекс 1.
Периода, спрямо който се отчита изменението, се нарича базисен и величините,
които го описват ще означаваме с долен индекс 0. По аналогичен начин
различаваме базисен и индексиран район.
Да се спрем по-подробно на динамичните индекси на равнища. Има различни
формули за такива индекси. С течение на времето в практиката са се утвърдили
тези, които вземат предвид обемите. Това са индексите на немските икономисти
Етиен Ласпер 1871 г.
(1)
и Херман Пааше 1874 г.

(2)
Тези индекси се появяват за първи път като индекси на цените. В тях обемите (в
случая продадените количества) са означени с q (от латинската дума quantitas), а
равнищата с p (от латинската дума pretium). Те измерват средното относително
изменение на цените (равнищата), на две различни съвкупности. Ако
индивидуалните индекси на равнищата ip са равни, индивидуалните индекси на
обемите iq са равни или няма линейна корелация между двете групи единични
индекси, то индексите на Ласпер и Пааше са равни. При правопропорционална
зависимост между индивидуалните индекси, индекса на Ласпер е по-малък от
индекса на Пааше. При обратнопропорционална зависимост между
индивидуалните индекси, обратно.
Всички множествени индекси се означават обикновено с I. Долният индекс
показва величината която се изменя, т.е. която се индексира, а величината в
скобите е тази, която е постоянна. Според това дали обемите се изменят или не
през индексирания спрямо базисния период, индексите на равнище биват с
променлив или с постоянен състав. Например индексите на Ласпер и Пааше са с
постоянен състав. Когато разделим индекс с променлив състав на съответния
индекс с постоянен състав получаваме индекс на структурата.
Динамичните индекси на средни равнища или, което е все едно индекси с
променлив състав, характеризират изменението на средното равнище на
съвкупността. Получават се като отношение на двете средни равнища

(3)
Да отбележим, че това не е същото като индекси на средното изменение на
равнищата. Защо? Как ще се определи средното изменение на равнищата?
Ако двете равнища в последния индекс съвпадат получаваме индекс на влиянието
на структурните изменения т.е. индекс на структурата.

Динамичните индекси на обеми се образуват в зависимост от факта дали


отделните подсъвкупности са съизмерими или са несъизмерими по обем. Ако
можем да сумираме обемите без съизмерител индексът има вида

(4)
Ако се нуждаем от съизмерител за да сумираме количествата, този индекс е
(5)
където с pc cме означили равнището съизмерител. При множествения индекс на
обем на Ласпер, съизмерител е равнището през базисния период, а при индекса на
обем на Пааше, съизмерител е равнището през индексирания период.
Динамичните индекси на маси характеризират едновременното изменение на
равнищата и обемите. Техният вид е

(6)
Ако изследваме изменението на явлението в повече от два периода от време, по
аналогия с горните индекси могат да се определят индекси с постоянна и верижна
база. Динамиката се изразява в индексираната величина, а ако има величина
съизмерител, тя се подбира според целта на изследването, обикновено от базисния
или индексирания период.
Подробно е описано приложението на тези индекси в Икономическата статистика
в Йорданов, В., Тодоров, Т. Основи на статистиката. Велико Търново, 2000, Глава
VIII. Различни връзки между индексите на равнище обем и маса, както и други
осредняващи методи за намирането им могат да бъдат намерени в Йорданов, В.,
Тодоров, Т. Основи на статистиката. Велико Търново, 2000.

ЗА САМОПОДГОТОВКА
Въпроси към темата
За какво се използват индексите на Ласпер и Пааше и в кои случаи техните
стойности са равни?
Как се анализира индекса с променлив състав? А как се разлага?

Литература
1. Йорданов, В., Тодоров, Т. Основи на статистиката. Велико Търново, 2000.
2. Гатев, К. Въведение в общата теория на статистиката. София, 1980.

Примеpни ситуации и решения


Пример 1: Данните в Табл. 1 се отнасят до годишното производство в 5 цеха за
еднородна продукция на фирма Х, през периода 2003, 2004 година.
Табл. 1
ПТ в ср. бр. ОПП в брой Отработени Междинни
Изд. на час от изделия човекочасове в изчисления
1 лице хиляди
Цех
p0 p1 p0 q0 p1 q1 Q0 q1
p0 q1 p1 q0
2003 2004 2003 2004 2003 2004
А 5,3 6,1 1802 1830 340 300 1590 2074
Б 4,5 5,2 1800 2184 400 420 1890 2080
В 5,7 5,5 2394 2035 420 370 2109 2310
Г 4,9 4,5 1372 990 280 220 1078 1260
Д 4,0 4,9 1240 1617 310 330 1320 1519
Общо: 24,4 26,2 8608 8656 1750 1640 7987 9243
Изчислете и анализирайте
a) индивидуалните индекси на изменение на производителността на труда (ПТ);
б) индивидуалните индекси на изменението на разходите на жив труд за
производството на продукцията;
в) индивидуалните индекси на изменението на обема на произведената продукция
(ОПП);
г) средното относително изменение на обемът на произве-дената продукция общо
за разглежданите цехове;
д) средното относително изменение на производителността на труда общо за
разглежданите цехове, т.е. индексът с постоянен състав;
е) средното относително изменение на разходите на жив труд общо за
разглежданите цехове;
ж) индекса на средното равнище на производителността на труда, т.е. индекса с
променлив състав;
з) индекса отчитащ влиянието на структурните изменения.
Решение:
а) Индивидуалнят индекс на изменение на производител-ността на труда за цех А
показва, че през 2004 г. тя е 1,15 пъти от производителността на труда за същия
цех през 2003 г., т.е. увеличила се е с 15%. Този индекс се получава от
отношението

По аналогичен начин се пресмятат и анализират и останалите индивидуални


индекси от тази и следващите две подточки. Резултатите са дадени в Табл. 2.
Табл. 2
Цех ip iq ipq
А 1.15 0.88 1.02
Б 1.16 1.05 1.21
В 0.96 0.88 0.85
Г 0.92 0.79 0.72
Д 1.23 1.06 1.30
г) средното относително изменение на обема на произведената продукция общо за
разглежданите цехове може да се пресметне чрез формулата за претеглена средна
аритметична от индивидуалните индекси в последната колонка на Табл. 2, с тегла -
масите през базисния период, а може и по формула (6). Получаваме

Това показва, че обемът на произведената продукция през 2004 г. се е увеличил с


1% в сравнение с 2003 г.
д) индексът с постоянен състав също може да се пресметне чрез формулата за
претеглена средна аритметична от индивидуалните индекси във втората колонка
на Табл. 2, с тегла -масите през базисния период, а може и по формула (1).
Това значи, че под влияние на изменението на производителността на труда, при
неотчетено влияние на разходите на жив труд, според индекса на Ласпер, обема на
произведената продукция се е увеличил със 7%.
Тук е необходимо да уточним, кой от двата индекса използваме, защото името на
индекса ни показва за кой период сме фиксирали разходите на жив труд. Индексът
на Пааше е

е) Относителното изменение на разходите на жив труд допуска сумиране без


съизмерител, следователно търсеният индекс се определя по формула (4). Т.к.

то можем да кажем, че отработените човекочасове през 2004 г. са намалели с 6% в


сравнение с 2003 г.
ж) За да пресметнем този индекс, първо определяме средните равнища на
производителността на труда за двата периода

Индексът с променлив състав е

Този резултат показва, че средната производителност на труда в разглежданите


цехове се е увеличила със 7% през 2004 г. в сравнение с 2003 г.
з) индексът отчитащ влиянието на структурните изменения ще пресметнем като
отношение на индекса с променлив състав и индекса с постоянен състав. Тук също
трябва да се каже кой индекс с постоянен състав се използва. Като използваме
индекса на Ласпер получаваме, че индекса на структурата е

т.е. структурните промени в съвкупността не са предизвикали изменения в обема


на произведената продукция.

Задачи за упражнение
Задача 1: Данните в Табл. 3 се отнасят до годишната посещаемост в 3 басейна на
фирма Х, през периода 2003, 2004 година.
Табл. 3
Цена на 1 билет в Продадени билети Реализиран
Басейн лв. в х.бр. стокооборот в х. лв.
2003 2004 2003 2004 2003 2004
А 1.5 2.0 12.2 8.3 18.30 16.60
Б 2.0 2.5 8.5 10.5 17.00 26.25
В 2.5 2.5 6.5 9.5 16.25 23.75
Изчислете и анализирайте
а) индивидуалните индекси на изменение на цените;
б) индивидуалните индекси на изменението на количеството на продажбите;
в) индивидуалните индекси на изменението на реализирания стокооборот;
г) средното относително изменение на обема на реализирания стокооборот;
д) средното относително изменение на цените общо за разглежданите басейни;
е) средното относително изменение на количеството на продажбите;
ж) индекса на изменение на средното равнище на цените;
з) индекса отчитащ влиянието на структурните промени.

ГЛАВА 13. ИНДЕКСИ И ИНДЕКСЕН ФАКТОРЕН АНАЛИЗ


13.2. ИНДЕКСЕН ФАКТОРЕН АНАЛИЗ

Индексният факторен анализ служи за количествено описание в абсолютни и


относителни числа на измененията във времето на едно сложно съставно явление и
установяване влиянието на факторите, които са предизвикали тези изменения.
Основава се на принципа на елиминирането на един от факторите, за да се отчете
влиянието на другите фактори.
Да означим факторите с p,q и r, а резултативната величина с S. Индексният
факторен анализ се прилага по различен начин в зависимост от връзката между
тези величини. Връзката може да бъде

• S = s1 + s2 + … + sn , където si e i – тия фактор, действащ на резултативната


величина S.
• S = pq,
• S = pqr,
• S = S pq и еднородна съвкупност, т.е. обемите могат да бъдат сумирани без
съизмерител,
• S = S pq и разнородна съвкупност, т.е. за сумирането на обемите е нужен
съизмерител и това са съответните равнища,
• или подобен на горните видове, но с повече факторни величини.

Индексният факторен анализ може да се извърши в два аспекта: адитивен и


мултипликативен. В адитивен аспект се работи в абсолютни числа и прираста на
сложното съставно явление се разлага на сума от факториални прирасти. В
мултиликативен аспект индекса на изменение на сложното съставно явление се
разлага на произведение от факториални субиндекси. Няма да разглеждаме
максималните разлагания (те могат да бъдат намерени например в Гатев, К.
Въведение в общата теория на статистиката. София, 1980.), а ще дадем само
кратки сведения за този метод.

• Първият вид връзка S = s1 + s2 + … + sn се използва, когато резултативния


признак е сума от няколко (в случая n) факторпризнака. Индексът,
показващ в относителни числа изменението на сложното съставно явление
се пресмята по формулата

Общият абсолютен прираст в проценти се определя по формулата PS = (IS –


1)100%.
За да се изследва влиянието на всяка от компонентите се намира отношението на
размера на всяка от тях през индексирания период и резултативния признак през
базисния период. Т.е. пресмятаме

където с долен индекс 1 в числителя сме означили, че величината на i – тия


факторпризнак е за индексирания период.
Прирастите дължащи се на отделните компоненти в относителни числа са

Тяхната сума дава общия прираст в относителни числа. (Виж пример 1 след тази
тема.)

• Сега да разгледаме формата на връзка S = pq. Първо в мултипликативен


аспект. Индексът на сложното съставно явление е

Той се разлага на субиндекс измерващ влиянието на интензивния фактор

и субиндекс

измерващ влиянието на екстензивния фактор, т.е. IS = IpIq.


Недостатъкът на този анализ е, че не отчита съвместното влияние на двата
фактора.
Сега да извършим анализ в адитивен аспект. Абсолютният прираст в изследваното
явление е D S = S1 - S0 = p1q1 - p0q0. За да измерим влиянието на факторите под
въздействието, на които е формиран той, трябва да го разложим на сума от
факториални прирасти. Ако означим с D p = p1 - p0 прираста на интензивния
фактор и с Dq = q1 - q0 прираста на екстензивния фактор получаваме
D S = S1 - S0 = p1q1 - p0q0 = (p0 + D p)( q0 + D q) - p0q0 = p0D q + q0D p+ D pD q.
Първото събираемо означаваме с

То представлява факториалния прираст дължащ се на влиянието на екстензивния


фактор при неотчетено влияние на интензивния. По аналогичен начин означаваме
с

факториалния прираст дължащ се на влиянието на интензивния фактор при


неотчетено влияние на екстензивния. Съвместното влияние на двата фактора се
измерва от

Съществуват следните връзки между индексите и прирастите

(7)

Общият относителен прираст се разлага по следния начин

Смисълът на тези връзки може да бъде намерен в пример 2 след тази тема.
По аналогичен начин се прави индексен факторен анализ при три и повече
фактори.

• Ако формата на връзка е S = S pq и съвкупността е еднородна индекса на


сложното съставно явление се определя от

(8)
Той показва каква част от явлението през базисния период представлява явлението
през индексирания период и се разлага по следния начин

Тук сме означили с

и
средните равнища на интензивния фактор, съответно през базисния и
индексирания период, с

индекса с променлив състав показващ относителното изменение на средните


равнища на интензивния фактор и с

индекса показващ относителното изменение на екстензивния фактор през отчетния


спрямо базисния период. Както в § 13.1, можем да разложим индекса с променлив
състав на произведение от субиндекс с постоянен състав и субиндекс на
структурата. Като използваме индекса на Ласпер получаваме

където
Като използваме индекса на Пааше получаваме

където

Отново виждаме, че при анализ в мултипликативен аспект не се отчита


съвместното влияние на двата фактора.
В адитивен аспект същият анализ изглежда по следния начин. Пресмятаме
абсолютния прираст на сложното съставно явление D S = S1 - S0 = S p1q1 - S p0q0.
Разлагаме го на сума от факториални прирасти

В тази верига от равенства сме означили с

прираста в средните равнища на интензивния фактор и с

прираста в екстензивния фактор.


Първото събираемо в разлагането означава факториалния прираст дължащ се на
съвместното влияние на двата фактора, второто събираемо е прираста дължащ се
на изменението на екстензивния фактор при неотчетено влияние на интензивния.
По аналогичен начин третото събираемо е прираста в обема на изследваното
явление, дължащ се на изменение на средните равнища на интензивния фактор,
при неотчетено влияние на екстензивния. Последният прираст може да се разложи
на сума от прираст дължащ се на изменението на индивидуалните равнища на
интензивния фактор при неотчетено влияние на екстензивния, т.е.

и прираст дължащ се на структурни промени

(9)
В крайна сметка получаваме разлагането

По аналогичен начин ако като постоянни използваме обемите през индексирания


период.
При тази форма на връзка между индексите и прирастите съществуват следните
зависимости

(10)
• Ако формата на връзка е S = S pq и съвкупността не е еднородна индексът
на сложното съставно явление се определя отново по формула (8) и има
същия смисъл както в предния случай. Тъй като съвкупността е разнородна,
обемите не могат да се сумират без съизмерител и общия индекс се разлага
по следния начин

Тук сме означили с

индекса измерващ относителното изменение на изследваното явление


предизвикано от структурни промени. Останалите два индекса вече са ни познати.
Отново при анализ в мултипликативен аспект не се отчита съвместното влияние на
двата фактора.
Ако целим да разложим прираста на сложното съставно явление на сума от
факториални прирасти, трябва да извършим анализ в адитивен аспект.
Абсолютният прираст на сложното съставно явление D S = S1 - S0 = S p1q1 - S
p0q0 се разлага по следния начин

В това разлагане първите два факториални прираста са ни вече познати.


Последното събираемо може да се разложи още на прираст дължащ се на
структурни промени
(11)
и прираст дължащ се на съвместното влияние на двата фактора
(12)
Получаваме разлагането
(13)
Примери относно тази форма на връзка могат да бъдат намерени в Гатев, К.
Въведение в общата теория на статистиката. София, 1980.

ЗА САМОПОДГОТОВКА
Въпроси към темата
За какво ни служи индексния факторен анализ?
Каква е основната разлика между индексния факторен анализ в адитивен и в
мултипликативен аспект?
Напишете разлаганията на индекса на сложното съставно явление при различните
форми на връзка.
Напишете разлаганията на прираста на сложното съставно явление при различните
форми на връзка.
Проверете верността на равенства (11), (12) и ( 13 ).
Литература
1. Гатев, К. Въведение в общата теория на статистиката. София, 1980.

Примерни ситуации и решения


Пример 1: При изучаване на динамиката на Брутния вътрешен продукт (БВП) по
разпределителния метод, той се представя като сума от възнаграждения на заетите
(работни заплати, премии, стойност на работно и униформено облекло), ренти и
наеми, печалба, чисти лихви (получените минус изплатените от домакинствата
лихви), амортизации. Ако за 2003 и 2004 г. резултатите са дадени в първите три
колонки на Табл. 4, определете как влияе изменението на всяка негова част върху
динамиката му.
Решение: Резултатите от пресмятанията са дадени в Табл. 4.
От общия индекс на БВП виждаме, че през 2004 г. БВП представлява 95,91% от
обема си през 2003 г., т.е. намалял е с 4,09%, което пък виждаме от коефициента
на прираста му.
Табл. 4
Отн. дялове Отн.
Комп. на БВП
на комп. на Абс. дял в
в млрд. лв.
БВП в % пр. на % на
Компоненти комп пр. по Isi в Psi в
2003 г. 2004 2003 г. 2004 г.
на БВП в комп % %
г.
млрд. от
лв. общия
пр.
Възн. на з. 14400 13200 65.45 62.56 -1200 133.33 60.00 -5.45
Ренти и н. 300 300 1.36 1.42 0 0.00 1.36 0.00
Печалба 1800 1600 8.18 7.58 -200 22.22 7.27 -0.91
Чисти л. 1200 1100 5.45 5.21 -100 11.11 5.00 -0.45
Амортиз. 4300 4900 19.55 23.22 600 -66.67 22.27 2.73
Общо: 22 000 21 100.00 100.00 -900 100.00 95.91 -4.09
100
Да анализираме сега на какво се дължи това намаляване. Ще обясним влиянието
на възнагражденията на заетите, т.е. величините от първия ред на Табл. 4.
Останалите се анализират по аналогичен начин.
От четвърта и пета колонка на Табл. 4 виждаме, че относителния дял на
възнагражденията на заетите, от БВП е намалял от 65.45% от общия му обем за
съответната година на 62.56%. От абсолютните прирасти можем да кажем, че БВП
е намалял с 1200 млрд. лв. в резултат от намаляване на възнагражденията на
заетите. От седма колонка виждаме, че това намаляване е 133.33% от общото
намаляване на БВП през 2004 спрямо 2003 г., а от последната колонка виждаме, че
то е 5.45% от обема на БВП през 2003 г. От колонка 8, възнагражденията на
заетите през 2004 г. представляват 60% от БВП през 2003 г.
Пример 2: Да се изследва влиянието на намаляването на продажбите и
увеличаването на цената на тон на пшеницата върху изменението но обема на
стокооборота (СО) по данните от Табл. 5.
Табл. 5
Показатели 2003 г. 2004 г.
Продажби в т. 220 200
Цена в лв. за т. 310 360
СО в лв. 68 200 72 000

Решение: Общият абсолютен прираст в обема на стокооборота през 2004 в


сравнение с 2003 г. е
D S = S1 - S0 = p1q1 - p0q0 = 720 – 682 = 3 800 лв.
За да определим в абсолютни числа на какво се дължи тази промяна в
стокооборота, определяме факториалните прирасти

Т.е. в резултат от намаляването на продажбите при неотчетено влияние на


изменението на цената стокооборота намалява с 6 200 лв.

Т.е. в резултат от увеличаването на цените при неотчетено влияние на


намаляването на продажбите стокооборота се увеличава с 11 000 лв.

Тогава под съвместното влияние на двата фактора стокооборота намалява с 1000


лв.
Както може да се види, сумата от последните три прирасти е равна на общия
абсолютен прираст на стокооборота.
Сега да извършим този анализ в относителни числа.Индекса на изменение на
стокооборота е

Това означава, че стокооборота през 2004 г. е нараснал с 5,5% в сравнение с 2003


г., т.е. ако намерим 5,5% от 68 200 получаваме 3 751 лв. Разликата от D S се дължи
на това, че сме закръглили при пресмятането на горния индекс. Същият извод
следва и от първото равенство на формули (7).

Този индекс показва, че в резултат от изменението само на цените, при неотчетено


влияние на изменението на продадените количества през 2004 г. стокооборота е
нараснал приблизително с 16% в сравнение с 2003 г. Т.е. за да получим съответния
прираст трябва да намерим 16% от 68 200. Разликите отново се дължат на
закръгляне.
По аналогичен начин анализираме и

Т.е. в резултат от изменението само на продадените количества, при неотчетено


влияние на изменението на цените стокооборотът е намалял приблизително с 9%.
Както вече отбелязахме, недостатъка на мултипликативния аспект при тази форма
на връзка е, че не се отчита съвместното влияние на двата фактора.
Пример 3: Въз основа на данните поместени в Табл. 6 да се изследва влиянието на
факторите, които са предизвикали изменение в размера на извършените разходи за
обръщение през 2003 и 2004 г. общо за магазини А, Б, В и Г, които са еднотипни.
Табл. 6
Разходи за
Сума от
Магазин Стокооборот обръщението p0 q1 p1 q0
разходите за
в х. лв. на х.лв. СО в
обръщение в лв.
лв.
q0 Q1 p0 p1 p0 q0 p1 q1
2003 2004 г. 2003 2004 г. 2003 г. 2004 г.
г. г.
А 360 370 50 45 18000 16650 18500 16200
Б 620 520 70 72 43400 37440 36400 44640
В 700 670 32 44 22400 29480 21440 30800
Г 420 310 66 68 27720 21080 20460 28560
Общо: 2100 1870 х х 111520 104650 96800 120200
Решение: Първо да пресметнем абсолютния прираст в сумата от разходите за
обръщение през 2004 в сравнение с 2003 г.
DS = S1 - S0 = S p1q1 - S p0q0 = 104 650 –111 520 = -6 870 лв.
Т.е. сумата от разходите за обръщение е намаляла с 6 870 лв. през 2004 г. в
сравнение с 2003 г.
Сега да разложим този отрицателен прираст на сума от факториални прирасти.

Този резултат означава, че общите разходи за обръщение са се увеличили с 8 680


лв. в резултат от увеличението само на разходите за обръщение на единица
стокооборот при неотчетено влияние на измененията на стокооборота.
Прирастът в общите разходи за обръщение дължащ се на структурни промени,
пресметнат по формула (9) е

За да продължим трябва да пресметнем средните разходи за обръщението на 1000


лв. стокооборот. За 2003 и 2004 г. те са съответно

Тогава

Полученият резултат показва, че под влияние на съвместното действие на двата


фактора общите разходи за обръщение са намалели с 657,8 лв.

Т.е. общите разходи за обръщение са намалели с 12 213 лв. в резултат от


намаляването на стокооборота при неотчетено влияние на изменението на
разходите за обръщение на единица стокооборот.
Вече можем да проверим, че

Разликата от около 9 лв. се дължи на закръглянето на средните.


В мултипликативен аспект същият анализ изглежда по следния начин. Индексът
на изменение на общите разходи за обръщение е

Той показва, че сумата от разходите за обръщение през 2004 г. е намаляла с 6,16%


в сравнение с 2003 г., което е точно 6 870 лв.
Да разложим този индекс на произведение от субиндекси. Индексът с променлив
състав е

Той показва, че средното равнище на разходите за обръщение през 2004 г. се е


увеличило с 5,39% в сравнение с 2003 г., което е точно 2,86 лв. Относителното
изменение на стокооборота през 2004 спрямо 2003 г. се определя от отношението

т.е. той е намалял с 10,95%. Разлагаме индекса с променлив състав на


произведение от субиндекс с постоянен състав и субиндекс на структурата. Ще
използваме индекса на Ласпер

Този резултат означава, че общите разходи за обръщение са се увеличили с 7,78%,


т.е. 8 680 лв. в резултат от увеличението само на разходите за обръщение на
единица стокооборот при неотчетено влияние на измененията на самия
стокооборот.
Относителното изменение в общите разходи за обръщение в резултат от
структурни промени се измерва от

Т.е. в резултат от структурни промени общите разходи за обръщение са намалели


с 2,22%.
Проверяваме

Различията се дължат на закръглянията.

Задачи за упражнение
Задача 1: За изучаване на динамиката на себестойността на единица изделие е
направено изследване и са получени данните от Табл. 7.
Табл. 7
Разходи за единица продукция в лв.
Вид на разходите за
разглежданата пр-я
2003 г. 2004 г.
Материални р-ди 90 95

Р-ди за жив труд 30 22

Себестойност на 120 117


единица продукция
Определете как се влияе тя от изменението на материалните разходи и как се
влияе от изменението на заплащането на живия труд.
Задача 2: Да се изследва влиянието на намаляването на средните добиви от декар и
увеличаването на засетите площи с пшеницата върху изменението на количеството
на произведената пшеница от фирма Х по данните от Табл. 8.
Табл. 8
Показатели 2003 г. 2004 г.
Ср. добиви от дка в кг 420 350
Засети площи в дка 270 360
Произведена пшеница в кг 113 400 126 000
Задача 3: Въз основа на данните поместени в Табл. 9 да се изследва влиянието на
изменението на продадените количества и цените върху изменението на
стокооборота от продажби на стока Х в складове А, Б и В общо.
Табл. 9
Прод. количества в
Цена на 1 кг в лв. Стокооборот в х. лв.
тонове
Магазин
q0 q1 p0 p1 p0 q0 p1 q1
2003 г. 2004 г. 2003 г. 2004 г. 2003 г. 2004 г.
А 21 19 0,31 0,33 6510 6270
Б 13 15 0,40 0,35 5200 5250
В 17 18 0,35 0,34 5950 6120
Общо: 51 52 х х 17 660 17 640
Определете индивидуалните индекси на изменение на разглежданите признаци и
ги анализирайте.
ПРИЛОЖЕНИЕ
Табл.1. Площи под стандартната нормална крива при x > 0, т.е. P(h ³ x), където h ~
N(0, 1).
х 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7703 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389

1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767

2.0 0.9772 0.9726 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9980
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986

ПРИЛОЖЕНИЕ
Табл. 2. Ординати на стандартната нормална крива
х 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.3989 0.3989 0.3989 0.3988 0.3986 0.3984 0.3982 0.3980 0.3977 0.3973
0.1 0.3970 0.3965 0.3961 0.3956 0.3951 0.3945 0.3939 0.3932 0.3925 0.3918
0.2 0.3910 0.3902 0.38949 0.3885 0.3876 0.3867 0.3857 0.3847 0.3836 0.3825
0.3 0.3914 0.3802 0.3790 0.3778 0.3765 0.3752 0.3739 0.3725 0.3712 0.3697
0.4 0.3683 0.3668 0.3653 0.3637 0.3621 0.3605 0.3589 0.3572 0.3555 0.3538
0.5 0.3521 0.3503 0.3485 0.3467 0.3448 0.3429 0.3410 0.3391 0.3372 0.3352
0.6 0.3332 0.3312 0.3292 0.3271 0.3251 0.3230 0.3209 0.3187 0.3166 0.3144
0.7 0.3123 0.3101 0.3079 0.3056 0.3034 0.3011 0.2989 0.2966 0.2943 0.2920
0.8 0.2897 0.2874 0.2850 0.2827 0.2803 0.2780 0.2756 0.2732 0.2709 0.2685
0.9 0.2661 0.2637 0.2613 0.2589 0.2565 0.2541 0.2516 0.2492 0.2468 0.2444

1.0 0.2420 0.2396 0.2371 0.2347 0.2323 0.2299 0.2275 0.2251 0.2227 0.2203
1.1 0.2179 0.2155 0.2131 0.2107 0.2083 0.2059 0.2036 0.2012 0.1989 0.1965
1.2 0.1942 0.1919 0.1895 0.1872 0.1849 0.1826 0.1804 0.1781 0.1758 0.1736
1.3 0.1714 0.1691 0.1669 0.1647 0.1626 0.1604 0.1582 0.1561 0.1539 0.1518
1.4 0.1497 0.1476 0.1456 0.1435 0.1415 0.1394 0.1374 0.1354 0.1334 0.1315
1.5 0.1295 0.1276 0.1257 0.1238 0.1219 0.1200 0.1182 0.1163 0.1145 0.1127
1.6 0.1109 0.1092 0.1074 0.1057 0.1040 0.1023 0.1006 0.0989 0.0973 0.0957
1.7 0.0940 0.0925 0.0909 0.0893 0.0878 0.0863 0.0848 0.0833 0.0818 0.0804
1.8 0.0790 0.0775 0.0761 0.0748 0.0734 0.0721 0.0707 0.0694 0.0681 0.0669
1.9 0.0656 0.0644 0.0632 0.0620 0.0608 0.0596 0.0584 0.0573 0.0562 0.0551

2.0 0.0540 0.0529 0.0519 0.0508 0.0498 0.0488 0.0478 0.0468 0.0459 0.0449
2.1 0.0440 0.0431 0.0422 0.0413 0.0404 0.0396 0.0387 0.0379 0.0371 0.0363
2.2 0.0855 0.0347 0.3390 0.0332 0.0325 0.0317 0.0310 0.0303 0.0297 0.0290
2.3 0.0283 0.0277 0.0270 0.0264 0.0258 0.0252 0.0246 0.0241 0.0235 0.0229
2.4 0.0224 0.0219 0.0213 0.0203 0.0203 0.0198 0.0194 0.0189 0.0184 0.0180
2.5 0.0175 0.0171 0.0167 0.0163 0.0158 0.0154 0.0151 0.0147 0.0143 0.0139
2.6 0.0136 0.0132 0.0129 0.0126 0.1220 0.0119 0.0116 0.0113 0.0110 0.0107
2.7 0.0104 0.0101 0.0099 0.0096 0.0093 0.0091 0.0088 0.0086 0.0084 0.0081
2.8 0.0079 0.0077 0.0075 0.0073 0.0071 0.0069 0.0067 0.0065 0.0063 0.0061
2.9 0.0060 0.0058 0.0056 0.0055 0.0053 0.0051 0.0050 0.0048 0.0047 0.0046

3.0 0.0044 0.0043 0.0042 0.0040 0.0039 0.0038 0.0037 0.0036 0.0035 0.0034

4.0 0.0001 0.0001 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000

ПРИЛОЖЕНИЕ
Табл.3. Разпределение на Стюдент (t - разпределение)
При двустранна критична област
0.1 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005
х
При едностранна критична област
0.2 0.1 0.05 0.02 0.01 0.005 0.002 0.001
1 3.078 6.314 12.706 31.821 63.657 127.320 318.300 636.619
2 1.886 2.920 4.303 6.965 9.925 14.090 22.330 31.598
3 1.638 2.353 3.182 4.541 5.841 7.450 10.210 12.941
4 1.563 2.132 2.776 3.747 4.604 5.600 7.170 8.610
5 1.476 2.015 2.571 3.365 4.043 4.770 5.890 6.859
6 1.440 1.943 2.447 3.143 3.707 4.320 5.210 5.959
7 1.415 1.895 2.365 2.998 3.499 4.030 4.790 5.405
8 1.397 1.860 2.306 2.896 3.355 3.830 4.500 5.041
9 1.383 1.833 2.262 2.821 3.250 3.690 4.300 4.781
10 1.372 1.812 2.228 2.764 3.169 3.580 4.140 4.583

11 1.363 1.796 2.201 2.718 3.106 3.500 4.020 4.437


12 1.356 1.782 2.179 2.681 3.055 3.430 3.930 4.318
13 1.350 1.771 2.160 2.650 3.012 3.370 3.850 4.221
14 1.345 1.761 2.145 2.624 2.977 3.330 3.790 4.140
15 1.341 1.753 2.131 2.602 2.947 3.290 3.730 4.073
16 1.337 1.746 2.120 2.583 2.921 3.250 3.690 4.015
17 1.333 1.740 2.110 2.567 2.898 3.220 3.650 3.965
18 1.330 1.734 2.101 2.552 2.878 3.200 3.610 3.922
19 1.325 1.789 2.093 2.539 2.981 3.170 3.580 3.833
20 1.325 1.725 2.066 2.528 2.845 3.150 3.550 3.850

21 1.323 1.721 2.080 2.518 2.831 3.140 3.530 3.819


22 1.321 1.717 2.074 2.508 2.819 3.120 3.510 3.792
23 1.319 1.714 2.069 2.500 2.807 3.100 3.480 3.767
24 1.318 1.711 2.064 2.402 2.797 3.090 3.470 3.745
25 1.316 1.708 2.060 2.485 2.787 3.080 3.450 3.725
26 1.315 1.706 2.056 2.479 2.779 3.070 3.440 3.707
27 1.314 1.703 2.052 2.473 2.771 3.060 3.420 3.690
28 1.313 1.701 2.048 2.467 2.763 3.050 3.410 3.674
29 1.311 1.699 2.045 2.642 2.756 3.040 3.400 3.659
30 1.310 1.697 2.042 2.457 2.750 3.030 3.390 3.646

40 1.303 1.684 2.021 2.423 2.704 2.970 3.310 3.551


60 1.296 1.671 2.000 2.390 2.660 2.910 3.230 3.460
120 1.289 1.658 1.980 2.358 2.617 2.860 3.160 3.373
∞ 1.282 1.645 1.960 2.326 2.576 2.810 3.090 3.291

ПРИЛОЖЕНИЕ

Табл. 4. Разпределение на Пирсън (χ 2 разпределение) Стойности на х за P(χ 2 ³ x)


при n степени на свобода
≥ ≥ ≥
n P(χ 2 x) = 0.05 P(χ 2 x) = 0.01 P(χ 2 x) = 0.001
1 3.84 6.63 11.00
2 5.99 9.21 13.82
3 7.81 11.34 16.27
4 9.49 13.28 18.47
5 11.07 15.08 20.52
6 12.59 16.81 22.46
7 14.06 18.48 24.32
8 15.51 20.09 26.13
9 16.92 21.67 27.88
10 18.31 23.21 29.59

11 19.67 24.73 31.26


12 21.03 26.22 32.91
13 22.36 27.69 34.53
14 23.68 29.14 36.12
15 24.99 30.58 37.70
16 26.30 32.00 39.25
17 27.59 33.41 40.79
18 28.87 34.81 42.31
19 30.14 38.19 43.82
20 31.41 37.57 45.32

21 32.67 38.93 46.80


22 33.92 40.29 48.27
23 35.17 41.64 49.73
24 36.42 42.98 51.17
25 37.65 44.31 52.62
26 38.89 45.64 54.05
27 40.11 46.96 55.48
28 41.34 48.28 56.89
29 42.56 49.59 58.30
30 43.77 50.89 59.70
ПРИЛОЖЕНИЕ
Табл.5. Разпределение на Фишер (F разпределение) при a = 0.05
Ст.на Степени на свобода на знаменателя

св.на 1 2 3 4 5 6 8 12 24 ∞
числ.
1 161.40 199.50 215.70 224.60 230.20 234.00 238.90 243.90 249.00 254.30
2 18.51 19.00 19.16 19.25 19.30 19.33 19.37 19.41 19.45 19.53
3 10.13 9.55 9.28 9.12 9.01 8.94 8.84 8.74 8.64 8.53
4 7.71 6.94 6.59 6.39 6.26 6.16 6.04 5.91 5.77 5.66
5 6.61 5.79 5.41 5.19 5.05 4.95 4.82 4.68 4.53 4.37
6 5.99 5.14 4.76 4.53 4.39 4.28 4.15 4.00 3.84 3.60
7 5.59 4.74 4.35 4.12 3.97 3.87 3.73 3.57 3.41 3.23
8 5.32 4.46 4.07 3.84 3.69 3.58 3.44 3.28 3.12 2.93
9 5.12 4.26 3.86 3.63 3.48 3.37 3.23 3.07 2.90 2.71
10 4.96 4.10 3.71 3.48 3.33 3.22 3.07 2.91 2.74 2.54
11 4.84 3.98 3.59 3.36 3.20 3.09 2.95 2.79 2.61 2.40
12 4.75 3.88 3.49 3.26 3.11 3.00 2.85 2.69 2.50 2.30
13 4.67 3.80 3.41 3.18 3.02 2.92 2.77 2.60 2.42 2.21
14 4.60 3.74 3.34 3.11 2.96 2.85 2.70 2.53 2.35 2.13
15 4.54 3.68 3.29 3.06 2.90 2.79 2.64 2.48 2.29 2.07
16 4.49 3.63 3.24 3.01 2.85 2.74 2.59 2.42 2.24 2.01
17 4.45 3.59 3.20 2.96 2.81 2.70 2.55 2.38 2.19 1.96
18 4.41 3.55 3.16 2.93 2.77 2.66 2.51 2.34 2.15 1.92
19 4.38 3.52 3.13 2.90 2.74 2.63 2.48 2.31 2.11 1.88
20 4.35 3.49 3.10 2.87 2.71 2.60 2.45 2.28 2.08 1.84
21 4.32 3.47 3.07 2.84 2.68 2.57 2.42 2.25 2.05 1.81
22 4.30 3.44 3.05 2.82 2.66 2.55 2.40 2.23 2.03 1.78
23 4.28 3.42 3.03 2.80 2.64 2.53 2.38 2.20 2.00 1.76
24 4.26 3.40 3.01 2.78 2.62 2.51 2.36 2.18 1.98 1.73
25 4.42 3.38 2.99 2.76 2.60 2.49 2.34 2.16 1.96 1.71
26 4.22 3.37 2.98 2.74 2.59 2.47 2.32 2.15 1.95 1.69
27 4.21 3.35 2.96 2.73 2.5 2.46 2.30 2.13 1.93 1.67
28 4.20 3.34 2.95 2.71 2.56 2.44 2.29 2.12 1.93 1.65
29 4.18 3.33 2.93 2.70 2.54 2.43 2.28 2(10 1.90 1.64
30 4.17 3.32 2.92 2.69 2.53 2.42 2.27 2.09 1.89 1.62
40 4.08 3.23 2.84 2.61 2.45 2.34 2.18 2.00 1.79 1.52
60 4.00 3.15 2.76 2.52 2.73 2.25 2.10 1.92 1.70 1.39
120 3.92 3.0 2.68 2.45 2.29 2.17 2.02 1.83 1.61 1.25
∞ 3.84 2.99 2.60 2.37 2.21 2.09 1.94 1.75 1.52 1.00
Табл.5. (Продължение) Разпределение на Фишер (F разпределение) при a = 0.01
Ст.на Степени на свобода на знаменателя

св.на 1 2 3 4 5 6 8 12 24 ∞
числ.
1 4052 4999 5403 5625 5764 5859 5981 6106 6234 6366
2 98.49 99.01 99.17 99.25 99.30 99.33 99.36 99.42 99.46 99.50
3 34.12 30.81 29.46 28.71 28.24 27.91 27.49 27.05 26.60 26.12
4 21.20 18.00 16.69 15.98 15.52 15.21 14.18 14.37 13.93 13.46
5 16.26 13.27 12.06 11.39 10.97 10.67 10.29 9.89 9.47 9.02
6 13.47 10.92 9.78 9.15 8.75 8.47 8.10 7.72 7.31 6.88
7 12.25 9.55 8.45 7.85 7.46 7.19 6.84 6.47 6.07 5.65
8 11.26 8.65 7.59 7.01 6.63 6.37 6.03 5.67 5.28 4.86
9 10.56 8.02 6.99 6.42 6.06 5.80 5.47 5.11 4.78 4.31
10 10.04 7.56 6.55 5.99 5.64 5.39 5.06 4.71 4.33 3.91
11 9.65 7.20 6.22 5.67 5.32 5.07 4.74 4.40 4.02 3.06
12 9.33 6.93 5.95 5.41 5.06 4.82 4.50 4.16 3.78 3.36
13 9.07 6.70 5.74 5.20 4.86 4.62 4.30 3.96 3.59 3.16
14 8.86 6.51 5.56 5.03 4.69 4.46 4.14 3.80 3.43 3.00
15 8.68 6.36 5.42 4.89 4.56 4.32 4.00 3.67 3.29 2.87
16 8.53 6.23 5.29 4.77 4.44 4.20 3.89 3.55 3.18 2.75
17 8.40 6.11 5.18 4.67 4.34 4.10 3.79 3.45 3.08 2.65
18 8.28 6.01 5.09 4.58 4.25 4.01 3.71 3.37 3.00 2.57
19 8.18 5.93 5.01 4.50 4.17 3.94 3.63 3.30 2.92 2.49
20 8.10 5.85 4.94 4.43 4.10 3.87 3.56 3.23 2.86 2.42
21 8.02 5.78 4.87 4.37 4.04 3.81 3.51 3.17 2.80 2.36
22 7.94 5.72 4.82 4.31 3.99 3.76 3.45 3.12 2.75 2.31
23 7.88 5.66 4.76 4.26 3.94 3.71 3.41 3.07 2.70 2.26
24 7.82 5.61 4.52 4.22 3.90 3.67 3.36 3.03 2.66 2.21
25 7.77 5.57 4.68 4.18 3.86 3.63 3.32 2.99 2.62 2.17
26 7.72 5.53 4.64 4.14 3.82 3.59 3.29 2.96 2.58 2.13
27 7.68 5.49 4.60 4.11 3.78 3.56 3.26 2.93 2.55 2.10
28 7.64 5.45 4.57 4.07 3.75 3.53 3.23 2.90 2.52 2.06
29 7.60 5.42 4.54 4.04 3.73 3.50 3.20 2.87 2.49 2.03
30 7.56 5.39 4.51 4.02 3.70 3.47 3.17 2.84 2.47 2.01
40 7.31 5.18 4.31 3.83 3.58 3.29 2.99 2.66 2.29 1.80
60 7.08 4.98 4.13 3.65 3.34 3.12 2.82 2.50 2.12 1.60
120 6.85 4.79 3.95 3.48 3.17 2.96 2.66 2.34 1.95 1.38
∞ 6.64 4.60 3.78 3.32 3.02 2.80 2.51 2.18 1.79 1.00

Вам также может понравиться