Вы находитесь на странице: 1из 15

Занятие № 2

ВЫЧИСЛЕНИЕ СТАТИСТИЧЕСКИХ ОЦЕНОК


Цели зянятия:
1. Изучить применение встроенных функций MS Excel для
получения оценок числовых характеристик случайных
величин.
2. Ознакомиться с инструментом Пакета анализа MS Excel
«Описательная статистика».
Основные положения
1) Точечной статистической оценкой параметра a рас-
пределения случайной величины называется приближённое зна-
чение a* этого параметра, вычисленное по статиcтическим
данным.
Наиболее часто вычисляются следующие оценки:
 среднее арифметическое выборки (выборочное среднее - ̅ ),
 выборочная медиана - Me,
 выборочная дисперсия - Dв ,
 исправленная выборочная дисперсия – s2,
 выборочные асимметрия (As) и эксцесс (Ex).
2) При оценивании неизвестных параметров наряду с то-
чечными оценками используются также интервальные оценки.
 
Интервальная оценка a    a  a   представляет собой
* *


интервал со случайными границами a   ; a   , который с
* *

заданной вероятностью γ накрывает неизвестное истинное зна-
чение параметра a . При этом должно выполняться равенство:

P a*    a  a*     . 
 
Интервал a    a  a   называют доверительным
* *

интервалом (интервальной оценкой) для параметра a с дове-


рительной вероятностью γ, а a*   и a*   соответственно
нижней и верхней границами интервальной оценки, а число ε –
точностью оценки.

1
I. Вычисление точечных оценок
1. Среднее арифметическое
Среднее арифметическое значение является статистиче-
ской оценкой математического ожидания µ.
 Для несгруппированной выборки объёма n:
x1 , x2 , , xn среднее арифметическое равно
1 n
x  xi
n i 1
В MS Excel для вычисления выборочного среднего несгруппиро-
ванной выборки используется функция (категория Статисти-
ческие): СРЗНАЧ(число1;число2; …), где: число1; число2; …
─ от 1 до 30 аргументов, для которых вычисляется среднее.

 Для сгруппированной выборки xi , mi , где xi ─ вари-


анты, mi ─ частоты, i  1, k , k ─ число вариант (для интерваль-
ного статистического ряда xi ─ середины интервалов, а k ─ чис-
ло интервалов), выборочное среднее определяется по формуле:
1 k
x  xi mi
n i 1
Для сгруппированной выборки сначала вычисляют сумму про-
изведений вариант и соответствующих частот с помощью функ-
ции: СУММПРОИЗВ(массив1;массив2;…) (категория Мате-
матические), а затем делят на объём выборки.

Пример 1. Найти выборочное среднее для выборки из 10


значений: 3; 0; 0; 2; 1; 4; 0; 4; 3; 2.
Последовательность выполнения
1. Ввести исходную выборку в ячейки А2:А11.
2. В ячейку А12 ввести формулу =СРЗНАЧ(А2:А11). В
ячейке А12 появится результат: 1,9.

2
Пример 2. Найти выборочное среднее для выборки,
представленной статистическим рядом:
xi -2 -1 0 1 2 3 4 5 6 7
mi 1 2 3 4 4 5 5 6 7 5
Последовательность выполнения
1. Ввести значения вариант xi в ячейки С2:С11, а значения
соответствующих частот mi в ячейки D2:D11.
2. В ячейку C12 ввести формулу
=СУММПРОИЗВ(С2:С11;D2:D11)/СУММ(D2:D11).
Функция СУММ() находится в категории Математиче-
ские. В ячейке С12 появится результат: 3,571429.

2 Медианой Me называется такое значение признака, кото-


рое делит ранжированный ряд на две равные части.
Для дискретного вариационного ряда значение медианы
определяется по формуле:
 xi  xi 1 n
 , i при чётном n
Me   2 2
 x i , i  n  1 2 при нечётном n

3
Для интервального статистического ряда сначала определяют
1
номер медианы как полусумму частот iMe   mi . Затем от-
2 i
считывают накопленные частоты и находят первый интервал
xk 1 , xk  , для которого накопленные частоты mkнак. не меньше
номера медианы i Me . Медиана определяется с помощью интер-
поляционной формулы:
1
 mi  mkнак1.
Me  xk 1   xk  xk 1 
2 i
mk
В MS Excel для вычисления медианы дискретного ряда при-
меняется функция (категория Статистические):

МЕДИАНА(число1;число2; …),

где: число1;число2; … ─ от 1 до 30 аргументов, для которых вы-


числяется медиана.

Пример 3.

Найти медиану дискретного ряда:


1; 0; 6; 2; 4; 4; 1; 3; 4; 5; 6; 7; 2; 5; 4; 1; 2; 0; 0; 6.
Последовательность выполнения
1. Ввести исходную выборку в ячейки А1:А20.
2. В ячейку С1 ввести формулу =МЕДИАНА(А1:А20). В
ячейке С1 появится результат: 3,5.
3. Осуществить проверку. Для этого выделить диапазон
А1:А20. Выбрать во вкладке Главная на панели Редак-
тирование команды Сортировка и фильтр → Сорти-
ровка от минимального к максимальному. Так как число
членов ряда чётное, то медиана вычисляется как полу-
сумма десятого и одиннадцатого значений: (3+4)/2 = 3,5.

4
Пример 4.
Найти медиану для интервального статистического ряда, ко-
торый показывает распределение предприятий региона по чис-
ленности работников.
№ интервала Число работников Число предприятий
1 1─10 23
2 11─30 52
3 31─60 60
4 61─100 34
5 101─150 27
6 151─250 11
7 251─500 8
Последовательность выполнения
1. Ввести данные в диапазоне А1:D9.
2. В ячейку D10 ввести формулу =СУММ(D3:D9)/2.
3. В ячейку E3 ввести формулу =D3, а в ячейку E4 ─ фор-
мулу =E3+D4.
4. Протянуть ячейку Е4 маркером заполнения до Е9. Меди-
анным интервалом является интервал № 3.
5. В ячейку D11 ввести формулу =B5+(C5-B5)*(D10-E4)/D5.
Появится результат ─ значение медианы: 46,25.

5
3 Выборочная и исправленная выборочная дисперсии
Оценками характеристик рассеивания являются выбо-
рочная дисперсия и выборочное среднеквадратическое от-
клонение.
 Для несгруппированной выборки:
Выборочная дисперсия определяется по формуле:
Dв 
1 n

n i 1
  1 n
xi  x   xi2  x ,
2

n i 1
2

а исправленная выборочная дисперсия s 2 ─ по формуле:

s2 
1 n

n  1 i1
 2
xi  x 
1 n 2

n  1 i1
xi 
n 2
n 1
x .

В MS Excel для вычисления выборочной дисперсии предна-


значена функция ДИСПР(число1; число2;…), где: число1; чис-
ло2;… ─ от 1 до 30 числовых аргументов, соответствующих вы-
борке (числа или диапазоны ячеек).
Для вычисления исправленной дисперсии используется
функция ДИСП(число1; число2;…).

 Для сгруппированной выборки:


Выборочная дисперсия Dв для сгруппированной в статисти-
ческий ряд выборки определяется по формуле:
1 k

Dв 
n i 1
xi  x 
2
mi  
1 k 2

n i 1
xi mi  x
2

Исправленная выборочная дисперсия s 2 вычисляется по


формуле:
s2 
n
n 1
Dв 
1 k

n  1 i 1
 2

xi  x m j 
1 k 2

n  1 i 1
xi mi 
n 2
n 1
x

Исправленная дисперсия является несмещённой оценкой


генеральной дисперсии, т. е. математическое ожидание ис-
правленной дисперсии равно генеральной дисперсии.

6
Среднеквадратическое (стандартное) отклонение вычисляет-
ся по формулам:
 в  Dв , s  s 2 .
В MS Excel среднеквадратическое отклонение вычисляется с
помощью функций СТАНДОТКЛОНП (  в ) и СТАНДОТ-
КЛОН (отвечает значению s).

Пример 5.
Для условий примеров 1 и 2 вычислить дисперсии.

4 Асимметрия и эксцесс
В качестве оценки отклонения экспериментального рас-
пределения от нормального используются выборочные коэф-
фициенты асимметрии и эксцесса, которые вычисляются по
формулам:
 выборочный коэффициент асимметрии
3
n 
n x x
As    i 
n  1n  2 i 1  s 
 выборочный коэффициент эксцесса
nn  1 3n  1
4
n 
xi  x 
2

n  1n  2n  3 
Ex   
 s   n  2n  3
i 1  
Для симметричных распределений коэффициент асим-
метрии равен нулю. Знак асимметрии показывает скос распре-
деления относительно среднего: «+» указывает на то, что справа
от среднего сосредоточено больше элементов выборки, чем сле-
ва от среднего значения. «-» указывает на отклонение распреде-
ления в сторону отрицательных значений.
В MS Excel для вычисления асимметрии предназначена функ-
ция СКОС(Массив), где Массив ─ диапазон ячеек с выбороч-
ными данными, для которых вычисляется асимметрия.
Эксцесс характеризует относительную остроконечность или
сглаженность распределения по сравнению с нормальным. По-

7
ложительный эксцесс обозначает относительно остроконечное
распределение. Отрицательный эксцесс обозначает относитель-
но сглаженное распределение. Для нормального распределения
эксцесс равен нулю.
В MS Excel эксцесс вычисляет функция ЭКСЦЕСС(Массив),
где Массив ─ диапазон ячеек, содержащий ряд.
Функции СКОС и ЭКСЦЕСС применимы ТОЛЬКО
к несгруппированной выборке.

Пример 6. Для условий примера 1 вычислить оценки асим-


метрии и эксцесса.

II. Вычисление интервальных оценок

Построение доверительных интервалов для параметров


нормального распределения

1) Интервальной оценкой математического ожидания μ


нормального распределения при известной дисперсии 2
называется интервал
x   ; x   ,   z  ,

n
удовлетворяющий равенству: P x      x      , где:
γ─
заданная доверительная вероятность, μ ─ истинное математиче-
ское ожидание, x ─ точечная оценка математического ожида-
ния, n ─ объём выборки; число z  находится из уравнения
 z     2 , где x  ─ функция Лапласа.
Интервальная оценка математического ожидания находится
по формуле:
 
x z      x z .
n n

8

В MS Excel для вычисления величины z  предназначена
n
функция (категория Статистические):

ДОВЕРИТ(Альфа;Станд_откл;Размер),

где: Альфа ─ уровень значимости  , используемый для вычис-


ления уровня надёжности    1    . Уровень надёжности
равняется 100  1    процентам; Станд_откл ─ стандартное
отклонение  генеральной совокупности, предполагается из-
вестным; Размер ─ объём выборки n.

Пример 7 .
По выборке объёма n=50 найдено значение выборочного
среднего x =3,5. Стандартное отклонение равно  =2,5. Постро-
ить доверительный интервал для генерального среднего с уров-
нем надёжности 95%.
Последовательность выполнения
1. Вычислить уровень значимости:
  1    1  0,95  0,05  5% .
2. Ввести в ячейку А1 формулу =ДОВЕРИТ(0,05;2,5;50). В
А1 появится результат: 0,693.
3. Вычислить границы доверительного интервала:

x  z n  3,5  0,693  2,807 ;


x  z n  3,5  0,693  4,193 .
С вероятностью 0,95 математическое ожидание (генеральное
среднее) принадлежит интервалу (2,807; 4,193). Математически
этот вывод выражается формулой P2,807    4,193  0,95 .

9
2) Интервальной оценкой математического ожидания μ
нормального распределения при неизвестной дисперсии 2
называется интервал:

x   ; x    ,   t 
s
,
n

удовлетворяющий равенству: P x      x     , 
где γ ─ заданная доверительная вероятность, μ ─ истинное ма-
тематическое ожидание, x ─ точечная оценка математического
ожидания, s 2 ─ исправленная выборочная дисперсия; n ─ объём

t

выборки; число t  находится из уравнения  S t ; ndt  2 , где


0

S t ; n ─ функция распределения Стъюдента.


Интервальная оценка математического ожидания находится
по формуле:
s s
x t      x t   .
n n
В MS Excel для вычисления величины t  предназначена
функция (категория Статистические):
СТЪЮДРАСПОБР(вероятность;степени_свободы),
где: вероятность ─ уровень значимости   1   ; степе-
ни_свободы ─ число степеней свободы k  n  1 .

Пример 8. По выборке объёма n = 20 найдено выборочное


среднее x =3,5 и исправленное среднеквадратическое отклоне-
ние s  2,5 . Построить доверительный интервал для генераль-
ного среднего с уровнем надёжности 95%.
1. Ввести в ячейку А1 формулу
=СТЪЮДРАСПОБР(0,05;19). В А1 появится результат:
2,093.

10
2. Вычислить границы доверительного интервала:
s 2 ,5
 t   2 ,093   1,17 ;
n 20
x    3,5  1,17  2 ,33 ;
x    3,5  1,17  4 ,67 .
Доверительный интервал для генерального среднего имеет
вид:
2,33    4,67 .

3) Доверительный интервал для генеральной дисперсии


 нормально распределённого признака Х определяется на ос-
2

нове соотношения
 n  1s 2 n  1s 2    ,
P   2

 2
2
12 
где: γ ─ заданная доверительная вероятность, s 2 ─ исправлен-
ная выборочная дисперсия; n ─ объём выборки;  2 и 1 опре-
2 2

деляются из условий
1  1 
 
P 2  12 
2

, P   2 
2 2

2

Для вычисления 1 и  2 используется функция
2 2

ХИ2ОБР(вероятность; степени свободы),


Вероятность ─ значение правой части условий; степе-
ни_свободы ─ число степеней свободы k  n  1 .

Пример 9. Количественный признак Х генеральной совокуп-


ности распределён нормально. По выборке объёма n = 25 найде-
но исправленное среднеквадратическое отклонение s  0,8 .
Найти доверительный интервал, покрывающий генеральное
среднеквадратическое отклонение  с надёжностью   0,95 .
Решение в MS Excel.
1. Вычислить

11
1   1  0,95 1   1  0,95
  0,975 ,   0,025 ,
2 2 2 2
k  25  1  24 .
2. Ввести в ячейки А1 и А2 соответственно формулы
=ХИ2ОБР(0,975;24), = ХИ2ОБР(0,025;24).
В ячейках появятся результаты: 12,40 и 39,36,
Т.е. 1  12 ,40 и  2  39 ,36 .
2 2

3. Найти границы интервала


n  1s 2 
24  0 ,82
 0 ,39 ;
n  1s 2 
24  0,82
 1,24 .
 22 39 ,36 12 12 ,40
Доверительный интервал с уровнем надёжности 0,95 для ге-
неральной дисперсии 2 имеет вид 0,39< 2 <1,24. Доверитель-
ный интервал для генерального среднеквадратического отклоне-
ния находится извлечением квадратного корня 0,62<  <1,11.

III. Получение выборочных характеристик

Инструмент «Описательная статистика» используется для


получения оценок числовых характеристик распределения гене-
ральной совокупности по случайной выборке из неё. С помощью
инструмента «Описательная статистика» можно вычислить сле-
дующие параметры:
‒ среднее (статистическую оценку математического ожи-
дания)
1 n
x
n i 1
xi 
‒ стандартную ошибку (среднего)
S

n
‒ медиану (Me) – значение признака, приходящееся на се-
редину ранжированной (упорядоченной) совокупности;
‒ моду (Mo) – значение изучаемого признака, повторяю-
щегося с наибольшей частотой;

12
‒ Исправленное среднее квадратическое отклонение
1 n
S
n  1 i 1xi  x 2
‒ исправленную выборочную дисперсию
1 n
S2 
n  1 i 1xi  x 2

‒ Эксцесс
 nn  1  xi  x   3n  1
4 2
n
k     
 n  1n  2n  3 i 1     n  2n  3
‒ Асимметрию
3
 xi  x 
n


n
As   
n  1n  2 i 1   
‒ размах выборки
R  xmax  xmin
‒ минимальное значение выборки
‒ максимальное значение выборки
‒ сумму всех значений выборки
‒ объём выборки
‒ наибольшее значение признака, имеющее разность с по-
рядком единиц
‒ наименьшее значение признака, имеющее разность с по-
рядком единиц
‒ уровень надёжности (предельную ошибку выборки)
Уровень надёжности. Флажок устанавливается в том случай,
когда необходимо вычислить доверительный интервал для ма-
тематического ожидания, соответствующий заданной довери-
тельной вероятности (указывается в поле справа в процентах). В
таблице результатов появится число, равное половине длины
доверительного интервала.
 x  t  x

13
К-наименьший и К-наибольший. Если флажки установлены,
то появляются элементы упорядоченной выборки, расположен-
ные на K-ом месте от её начала и от конца.

Пример 10. По полученной на занятии 1 выборке (пример 5)


найти оценки числовых характеристик выборки.
Решение
Вызовем инструмент «Описательная статистика» и введём
в окне диалога следующие параметры: Входной интервал:
$F$1:$F$30; Группирование: по столбцам; Выходной интервал:
$B$33. Установим флажки на пунктах Итоговая статистика;
Уровень надёжности: 95%; К-наименьший: 2; К-наибольший: 2.
Нажмём кнопку ОК и округлим результаты до двух знаков после
запятой. Результаты показаны на рис.

Доверительный интервал для математического ожидания


нормальной случайной величины при неизвестном среднем
квадратическом отклонении имеет вид:

14
S S
x  t     x  t  ,
n n
где: число t определяется с помощью распределения Стъюдента
с k = n  1 степенями свободы;   доверительная вероят-
ность(уровень надёжности).
Для вычисления значения t используем функцию
СТЪЮДРАСПОБР(вероятность; Степени_свободы).
Рассчитаем вероятность  уровень значимости α = 1  . Для
надёжности 95% α = 1  0,95 = 0,05. Вызовем функцию с аргу-
ментами:
=СТЪЮДРАСПОБР(0,05; 29). Получим результат: 2,045.
Найдём границы доверительного интервала:
S 0,61
t   2,045   0,23
n 30
(Такое же значение получается в инструменте «Описательная
статистика» при вычислении параметра Уровень надёжности).
S S
x  t   3,17  0,23  2,94 ; x  t   3,17  0,23  3,40
n n
Таким образом, доверительный интервал имеет вид:
2,94    3,40 .

15