Вы находитесь на странице: 1из 9

1

Глава 11. Несмещенность, состоятельность и эффективность точечных


оценок

11.1. Основные понятия математической статистики


Слово «статистика» происходит от латинского status - состояние дел. В науку термин «статистика» ввел
в 1746 году немецкий ученый Готфрид Ахенваль , знаменитый статистик (1719-1772), профессор Геттин-
генского университета, предложив заменить название курса «Государствоведение», преподававшегося в
университетах Германии, на «Статистику», положив тем самым начало развитию статистики как науки и
учебной дисциплины. Статистический учёт вёлся уже в древнем мире. Проводились переписи населения в
Древнем Китае, велся учёт имущества граждан в Древнем Риме и т. д.
Следует разделить предмет статистики и математической статистики.
Статистика – отрасль знаний, которая занимается сбором сведений, их сортировкой , группировкой,
проводит изучение массива полученных данных (статистическое исследование), находит полезную
информацию для создания количественных и качественных выводов о случайной величине на основе данных
массового наблюдения. Решая эти задачи, статистика в большинстве использует готовые привнесенные извне
идеи, методы, формулы. Термин «статистика» употребляют также для простого обозначения набора
количественных данных.
Про статистику Марк Твен в своем произведении «Главы моей автобиографии» написал: «Существуют
три вида обмана: ложь, наглая ложь и статистика». Видимо, он имел ввиду тенденциозную подборку данных,
подгонку под известный результат, создание общих выводов на основе нескольких примеров и т.д. Чтобы
изъять статистику из этой триады, существует математическая статистика.
Математическая статистика - наука, разрабатывающая математические методы систематизации и
использования статистических данных для научных и практических выводов. Она научно обосновывает
методы и формулы, разрабатывает приёмы статистического наблюдения и анализа статистических данных,
которыми следует руководствоваться, ведя наблюдения и их обработку. Математическая статистика опирается
на теорию вероятностей, дающую возможность оценить надёжность и точность выводов, делаемых на
основании ограниченного статистического материала, а также на математический анализ и линейную алгебру,
как инструменты исследования.
Среди задач, решаемых наукой математической статистикой, перечислим несколько:
1. Задачи определения закона распределения случайной величины по статистическим данным.
2. Оценка по выборочным характеристикам исследуемых параметров и функций от них.
3. Задачи проверки статистических гипотез.
Познакомимся с основными понятиями, которыми оперирует математическая статистика.
Генеральной совокупностью называется выделенное множество объектов произвольной природы,
обладающих признаками, доступными для наблюдения и количественного измерения. Объекты, входящие в
генеральную совокупность, называются ее элементами, а их общее число – ее объемом 𝑁.
Например, генеральной совокупностью может быть население определенного города, а изучаемой
случайной величиной – доход отдельного жителя. Для построения функции распределения дохода, нахождения
среднего дохода и других характеристик желательно опросить каждого жителя города. Но для многотысячного
или миллионного города это невозможно сделать. И тогда опрашивается некоторое количество жителей, т.е.
делаются наблюдения: говоря языком математической статистики, из генеральной совокупности извлекаются
случайным образом элементы 𝑥1 , 𝑥2 , … , 𝑥𝑛 .
Выборкой называется набор некоторого числа наблюдений из генеральной совокупности. Число
сделанных наблюдений называется объемом выборки. Проводится статистический анализ выборки, по
результатам которого определяется нужная нам числовая характеристика случайной величины. По выборке мы
находим выборочную или эмпирическую характеристику, которая отличается от генеральной или
теоретической характеристики, вычисляемой по всей генеральной совокупности. Задача статистики –
построить наблюдения и провести анализ таким образом, чтобы вычисленная по ним выборочная
характеристика была максимально близка генеральной характеристике.
Для этого должны быть выполнены некоторые условия.
1. Выборка должна быть репрезентативной, т.е. должно выполняться соответствие характеристик
выборки характеристикам всей генеральной совокупности. Репрезентативность определяет, насколько
возможно по выборке обобщить результаты исследования на всю генеральную совокупность.
2. Выборка должна быть случайной, т.е. все элементы генеральной совокупности имеют одинаковую
вероятность попасть в выборку.
2

3. Выборка должна быть массовой. Имея в наблюдениях один-два элемента, невозможно сделать
объективные выводы.
После того, как выборка сделана, проводится первичная обработка наблюдений. Ряд наблюдений
упорядочивается по возрастанию. Это вариационный ряд. Некоторые наблюдения могут оказаться имеющими
одинаковое значение. Вводится понятие варианты. Вариантами называют различные численные значения
наблюдений.
Вариационный ряд представляется графически в виде полигона, гистограммы или графика накопленных
частот.
Полигоном частот называется ломаная линия, отрезки которой соединяют точки
(𝑥1 , 𝑛1 ), (𝑥2 , 𝑛2 ), … , (𝑥𝑘 , 𝑛𝑘 ), где 𝑥𝑖 , 𝑖 = 1,2, … , 𝑘 -варианты (члены вариационного ряда), 𝑛𝑖 – количества
появлений наблюдения 𝑥𝑖 в выборке. Полигон используется для изображения выборки в случае дискретных
случайных величин.
Гистограмма представляет собой ступенчатую фигуру, состоящую из прямоугольников с основаниями
𝑛
определенной длины 𝛥𝑥, высоты которых равны относительным частотам 𝑛𝛥𝑥, где 𝑛𝛥𝑥 – число наблюдений,
попавших в промежуток 𝛥𝑥.
При 𝑛 → ∞ и 𝛥𝑥 → 0 гистограмма сходится по вероятности в каждой точке 𝑥 к кривой плотности
распределения 𝑝𝜉 (𝑥) случайной величины 𝜉, т.е. для любого 𝜀 > 0 и любого 𝑥
𝑛𝛥𝑥
lim 𝑃 {|
𝑛→∞
− 𝑝𝜉 (𝑥)| ≥ 𝜀} = 0,
𝑛
𝛥𝑥→0
поэтому используется для изображения эмпирической плотности распределения в случае непрерывных
случайных величин.
График накопленных частот – это фигура, строящаяся аналогично гистограмме с той лишь разницей, что
𝑛
для расчета высот прямоугольников берутся накопленные относительные частоты 𝑛𝑥, где 𝑛𝑥 - число
наблюдений, меньших 𝑥.
При 𝑛 → ∞ график накопленных частот сходится по вероятности к кривой функции распределения 𝐹𝜉 (𝑥)
случайной величины 𝜉, т.е. для любого 𝜀 > 0 и любого 𝑥
𝑛𝑥
lim 𝑃 {| − 𝐹𝜉 (𝑥)| ≥ 𝜀} = 0.
𝑛→∞ 𝑛
Вследствие этого график накопленных частот используется для изображения эмпирической функции
распределения.

11.2. Выборочные характеристики независимых наблюдений


Выборочными характеристиками называются функции от наблюдений (точечные оценки),
приближенно оценивающие соответствующие числовые характеристики случайной величины. В случае
равноточных измерений в качестве оценок математического ожидания, дисперсии, функции распределения,
начальных и центральных моментов и т.д. используются выборочное среднее, выборочные дисперсии,
эмпирическая функция распределения, выборочные начальные и центральные моменты k-го порядка,
выборочная мода, выборочная медиана и другие.

Пусть N – объем генеральной совокупности, n – объем выборки.


теоретические (генеральные) характеристики
Числовые характеристики выборочные характеристики
𝜉-непрерывная случайная
случайной величины 𝜉-дискретная случайная величина (точечные оценки)
величина
𝑛
𝑁 ∞ 1
𝑥̅ = ∑ 𝑥𝑖
Математическое ожидание 𝑀𝜉 = ∑ 𝑥𝑖 𝑝𝑖 𝑀𝜉 = ∫ 𝑥𝑝𝜉 (𝑥)𝑑𝑥 𝑛
−∞ 𝑖=1
𝑖=1 выборочное среднее
𝑁 ∞ 𝑛
Начальные моменты k-го 𝛼𝑘 = ∫ 𝑥 𝑘 𝑝𝜉 (𝑥)𝑑𝑥 1
𝛼𝑘 = ∑ 𝑥𝑖𝑘 𝑝𝑖 −∞ 𝛼̂𝑘 = ∑ 𝑥𝑖𝑘
порядка. 𝑛
𝑖=1 𝑖=1
1
𝑁 𝜎̂𝑛2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 -смещенная оценка;
∞ 𝑛
1
Дисперсия 𝐷𝜉 = ∑(𝑥𝑖 − 𝑀𝜉)2 𝑝𝑖 𝐷𝜉 = ∫ (𝑥 − 𝑀𝜉)2 𝑝𝜉 (𝑥)𝑑𝑥 2
𝜎̂𝑛,𝑎 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑀𝜉)2 -несмещенная оценка;
𝑛
−∞ 1
𝑖=1 𝑠̂𝑛2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2- исправленная оценка.
𝑛−1
𝑥 𝑛
Функция распределения 𝐹(𝑥) = 𝑃(𝜉 < 𝑥) 𝐹(𝑥) = ∫ 𝑝𝜉 (𝑡)𝑑𝑡 𝐹̂ (𝑥) = 𝑥, где 𝑛𝑥 - число наблюдений, меньших
𝑛
−∞ произвольного числа 𝑥.
𝑁 ∞ 1
Центральные моменты k-го 𝜇̂ 𝑘 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝑘 - смещенные оценки при
𝜇𝑘 = ∑(𝑥𝑖 − 𝑀𝜉)𝑘 𝑝𝑖 𝜇𝑘 = ∫ (𝑥 − 𝑀𝜉)𝑘 𝑝𝜉 (𝑥)𝑑𝑥 𝑛
порядка −∞ 𝑘 ≥ 2.
𝑖=1
√𝐷𝜉 𝑆̂𝑛
Коэффициент вариации 𝑉=
𝑀𝜉 𝑉̂ =
𝑥̅
3
1
𝑐𝑜̂𝑣(𝜉, 𝜂)несм = ∑𝑛 (𝑥 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) –
𝑛−1 𝑖=1 𝑖
Коэффициент ковариации 𝑐𝑜𝑣(𝜉, 𝜂) = 𝑀((𝜉 − 𝑀𝜉)(𝜂 − 𝑀𝜂)) несмещенная оценка парной выборочной
ковариации.
𝜇3 𝜇
̂
Асимметрия 𝛽= 3 𝛽̂ = 3 несм
(√𝐷𝜉) ̂3
𝑆𝑛
𝜇4 𝜇̂ 4
Эксцесс 𝛾=
(𝐷𝜉)2
−3 𝛾̂ = несм −3
𝑠̂𝑛4
𝑝𝜉 (𝑥𝑚𝑜𝑑 ) = 𝑚𝑎𝑥
выборочная мода 𝑥𝑚𝑜𝑑 – значение варианты с
𝑃(𝜉 = 𝑥𝑚𝑜𝑑 ) = 𝑚𝑎𝑥 (точка 𝑥𝑚𝑜𝑑 локального
Мода наибольшим числом наблюдений (с
(наиболее вероятное значение) максимума функции плотности
наибольшей частотой).
распределения вероятностей)
Число 𝑥𝑚𝑒𝑑 такое, что
𝑥𝑚𝑒𝑑 ∞
Число 𝑥𝑚𝑒𝑑 такое, что число 𝑥𝑚𝑒𝑑 , стоящее в середине вариационного
∫ 𝑝𝜉 (𝑥)𝑑𝑥 = ∫ 𝑝𝜉 (𝑥)𝑑𝑥
Медиана 1 −∞ 𝑥𝑚𝑒𝑑
ряда. Оно может не совпадать ни с одним
𝑃(𝜉 < 𝑥𝑚𝑒𝑑 ) = 𝑃(𝜉 > 𝑥𝑚𝑒𝑑 ) =
2 1 значением наблюдений.
=
2

Для краткости в дальнейшем будем считать, что 𝑀𝜉 = 𝛼1 ≡ 𝑎, 𝐷𝜉 = 𝜇2 ≡ 𝜎 2 .


Замечание. Все выборочные характеристики являются случайными величинами. Все теоретические
характеристики есть точные величины. Поэтому выборочные характеристики в общем случае не совпадают с
теоретическими, а являются всего лишь их оценками. Итак, еще раз: точечными оценками параметров
называются функции от наблюдений, предназначенные для приближенного оценивания этих параметров.

11.3. Несмещенность и состоятельность точечных оценок основных параметров законов


распределения
Чтобы статистические точечные оценки были близки по числовым значениям к своим теоретическим
(генеральным) оцениваемым характеристикам, они должны удовлетворять определенным требованиям, а
именно: быть
несмещенными,
состоятельными,
эффективными.
Точечная статистическая оценка 𝜃̂𝑛 называется несмещенной, если ее математическое ожидание при
любом n равно оцениваемому параметру 𝜃
𝑀𝜃̂𝑛 = 𝜃.
Другими словами, при получении множества выборок 𝜃̂𝑛,1 , 𝜃̂𝑛,2 , … для определения оценки параметра 𝜃
одни выборочные оценки будут больше параметра, другие меньше, но их математическое ожидание будет равно
оцениваемому параметру.
Точечная статистическая оценка 𝜃̂𝑛 называется состоятельной, если при неограниченном увеличении
выборки она сходится по вероятности к оцениваемому параметру 𝜃, т.е.
𝑝
𝑃{| 𝜃̂𝑛 − 𝜃| ≥ 𝜀} → 0
𝑝
для любого 𝜀 > 0, что можно записать в краткой форме 𝜃̂𝑛 → 𝜃.
Сходимость по вероятности последовательности 𝜃̂𝑛 к параметру 𝜃 с ростом 𝑛 в математической статистике
иногда записывается как
𝑝𝑙𝑖𝑚 𝜃̂𝑛 = 𝜃.
𝑛→∞
Подобная запись позволяет понять, почему дисперсия оценки 𝜃̂𝑛 уменьшается до нуля с увеличением объема
выборки до бесконечности.
Точечная несмещенная статистическая оценка 𝜃̂𝑛 называется эффективной, если она имеет минимальную
дисперсию в классе всех несмещенных оценок рассматриваемого параметра, т.е. оценка не смещена и получена
методом, который при своем использовании дает минимальный разброс оценок. Эффективность оценки
означает, что вследствие наименьшей дисперсии оценка будет максимально приближена к оцениваемому
параметру.
Напоминание. Обратим внимание на простой прием математического анализа, который
математическая статистика использует в своих расчетах. Пусть дана функция 𝐹(𝑥) = 2𝑥 3 . Найти 𝐹 ′ (1)𝐹′(−1).
Введем обозначения: (𝑥1 ; 𝑥2 ) = (1; −1). Рассмотрим 𝑥1 , 𝑥2 , как переменные и продифференцируем по ним.
Получим 𝐹 ′ (𝑥1 )𝐹 ′ (𝑥2 ) = 6𝑥12 ∙ 6𝑥22 = 6(1)2 ∙ 6(−1)2 = 36.
4

Используем этот прием в математической статистике. Случайная величина 𝜉~𝑁(𝑎, 𝜎 2 ) приняла


значение 2. Найти 𝑀2. Мы разыскиваем математическое ожидание от случайной величины, которая приняла в
одном из наблюдений значение 2. Обозначим наше наблюдение через 𝑥𝑖 . Рассмотрим теперь 𝑥𝑖 , как
переменную, и проведем с ней все необходимые преобразования
2
(𝑥 −𝑎)
1 ∞ − 𝑖 2
𝑀2 = 𝑀𝑥𝑖 = ∫ 𝑥 𝑒 2𝜎 𝑑𝑥𝑖 = 𝑎.
√2𝜋𝜎 −∞ 𝑖
Следовательно, математическое ожидание одного наблюдения есть 𝑀2 = 𝑀𝑥𝑖 = 𝑎 = 𝑀𝜉, т.е. в тех
случаях, где при суммировании или интегрировании 𝑥𝑖 исчезает, будем иметь теоретическую характеристику.
Например,
𝐷𝑥𝑖 = 𝑀(𝑥𝑖 − 𝑎)2 = 𝐷𝜉 = 𝑀𝜉 2 − (𝑀𝜉)2 = 𝛼2 − 𝛼12 = 𝜎 2 ,
𝑀𝑥𝑖𝑘 = 𝑀𝜉 𝑘 = 𝛼𝑘 ,
2 2
𝐷𝑥𝑖𝑘 = 𝐷𝜉 𝑘 = 𝑀(𝜉 𝑘 ) − (𝑀𝜉 𝑘 ) = 𝛼2𝑘 − 𝛼𝑘2 .
Перейдем к исследованию вопросов несмещенности и состоятельности выборочных характеристик, а
затем, сформулировав и доказав теорему Рао, изучим вопросы эффективности. Несмещенность будем
доказывать, беря математическое ожидание от выборочной характеристики. Для доказательства
состоятельности используем неравенство Чебышева.
Выборочное среднее
Выборочное среднее значение 𝑥̅ является несмещенной оценкой математического ожидания 𝑎.
1 1 𝑛𝑀𝑥𝑖
◄𝑀𝑥̅ = 𝑀 ( ∑𝑛𝑖=1 𝑥𝑖 ) = ∑𝑛𝑖=1 𝑀𝑥𝑖 = = 𝑀𝑥𝑖 = 𝑎. ►
𝑛 𝑛 𝑛
Среднее 𝑥̅ является состоятельной оценкой.
◄Чтобы воспользоваться неравенством Чебышева, предварительно найдем дисперсию. Учтем
независимость наблюдений
𝑛
1 ∑𝑛𝑖=1 𝐷𝑥𝑖 𝑛𝐷𝑥𝑖 𝜎 2
𝐷𝑥̅ = 𝐷 ( ∑ 𝑥𝑖 ) = = 2 = .
𝑛 𝑛2 𝑛 𝑛
𝑖=1
Полученный результат: дисперсия выборочного среднего в n раз меньше дисперсии одиночного
наблюдения - будет неоднократно использован в дальнейшем.
В соответствии с неравенством Чебышева
𝐷𝑥̅ 𝜎2
𝑃{|𝑥̅ − 𝑎| ≥ 𝜀} ≤ 𝜀2
= 𝑛𝜀2 → 0 при 𝑛 → ∞.
т.е. 𝑥̅ является состоятельной оценкой 𝑎.►
Выборочные начальные моменты k-го порядка 𝛼̂𝑘
Точечная оценка 𝛼̂𝑘 является несмещенной оценкой теоретического момента 𝛼𝑘
1 1 𝑛𝛼
◄𝑀𝛼̂𝑘 = 𝑀 ( ∑𝑛𝑖=1 𝑥𝑖𝑘 ) = ∑𝑛𝑖=1 𝑀𝑥𝑖𝑘 = 𝑘 = 𝛼𝑘 . ►
𝑛 𝑛 𝑛
Точечная оценка 𝛼̂𝑘 является состоятельной оценкой.
◄Найдем дисперсию выборочного начального момента 𝛼̂𝑘 , используем при этом независимость
наблюдений 𝑥𝑖 .
1 1 𝛼2𝑘 −(𝛼𝑘 )2
𝐷𝛼̂𝑘 = 𝐷 (𝑛 ∑𝑛𝑖=1 𝑥𝑖𝑘 ) = 𝑛2 ∑𝑛𝑖=1 𝐷𝑥𝑖𝑘 = 𝑛
.
В силу неравенства Чебышева
̂
𝐷𝛼 𝛼 −(𝛼 )2
𝑃{|𝛼̂𝑘 − 𝛼𝑘 | ≥ 𝜀} ≤ 2𝑘 = 2𝑘 2 𝑘 → 0 при 𝑛 → ∞,
𝜀 𝑛𝜀
т.е. выборочный начальный момент 𝛼̂𝑘 является состоятельной оценкой 𝛼𝑘 .►
Выборочная дисперсия 𝜎̂𝑛2
Точечная оценка 𝜎̂𝑛2 , построенная по 𝑛 наблюдениям, является смещенной оценкой теоретической
дисперсии 𝜎 2 .
◄Преобразуем 𝜎̂𝑛2 .
1 1 2 1
𝜎̂𝑛2 = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅)2 = 𝑛 ∑𝑛𝑖=1((𝑥𝑖 − 𝑎) − (𝑥̅ − 𝑎)) = 𝑛 ∑𝑛𝑖=1((𝑥𝑖 − 𝑎)2 − 2(𝑥𝑖 − 𝑎)(𝑥̅ − 𝑎) +
1 2 1
(𝑥̅ − 𝑎)2 ) = ∑𝑛𝑖=1(𝑥𝑖 − 𝑎)2 + (𝑥̅ − 𝑎)2 − ∑𝑛𝑖=1(𝑥𝑖 𝑥̅ − 𝑥𝑖 𝑎 − 𝑎𝑥̅ + 𝑎2 ) = ∑𝑛𝑖=1(𝑥𝑖 − 𝑎)2 + (𝑥̅ − 𝑎)2 −
𝑛 𝑛 𝑛
1
2(𝑥̅ 2 − 𝑥̅ 𝑎 − 𝑎𝑥̅ + 𝑎2 ) = ∑𝑛𝑖=1(𝑥𝑖 − 𝑎)2 − (𝑥̅ − 𝑎)2 .
𝑛

Найдем математическое ожидание от выборочной дисперсии, используя формулу 𝑀(𝜉 − 𝑀𝜉)2 = 𝐷𝜉


5
𝑛 𝑛
1 1
𝑀𝜎̂𝑛2 = 𝑀 ( ∑(𝑥𝑖 − 𝑎)2 − (𝑥̅ − 𝑎)2 ) = 𝑀 ( ∑(𝑥𝑖 − 𝑎)2 ) − 𝑀(𝑥̅ − 𝑎)2 =
𝑛 𝑛
𝑖=1 𝑖=1

𝜎2 𝑛 − 1 2
= 𝑀(𝑥𝑖 − 𝑎)2 − 𝑀(𝑥̅ − 𝑎)2 = 𝐷𝑥𝑖 − 𝐷𝑥̅ = 𝜎 2 − = 𝜎
𝑛 𝑛
𝜎2
Полученный результат 𝑀𝜎 ̂ 2𝑛 = 𝜎 2 − указывает на смещенность (заниженность) выборочной
𝑛
дисперсии. С ростом n смещение убывает, но при малых значениях n не учет этого обстоятельства приводит к
ошибкам.
𝑛−1 2
Найдем несмещенную оценку дисперсии. Из равенства 𝑀𝜎 ̂ 2𝑛 = 𝜎 выделим 𝜎 2
𝑛
𝑛 2 𝑛
𝜎 2 = 𝑛−1 𝑀𝜎
̂ 𝑛 = 𝑀 (⏟ 𝜎̂𝑛2 ).
𝑛−1
2
𝑠̂𝑛
Откуда несмещенная или исправленная дисперсия 𝑆̂𝑛 будет равна
2
𝑛 𝑛 1 1
̂ 2𝑛 =
𝑠̂𝑛2 = 𝑛−1 𝜎 ∙ ∑𝑛 (𝑥 − 𝑥̅ )2 = 𝑛−1 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 . ►
𝑛−1 𝑛 𝑖=1 𝑖

Если математическое ожидание генеральной совокупности 𝑀𝜉 = 𝑎 известно до проведения наблюдений,


то
2 2 1
𝑀 (𝜎 ̂ 𝑛; 𝑎 ) = 𝑀 ( ∑𝑛𝑖=1(𝑥𝑖 − 𝑎)2 ) = 𝑀(𝑥𝑖 − 𝑎)2 = 𝐷𝑥𝑖 = 𝜎 2 .
̂ 𝑛 |𝑥̅ =𝑎 ) ≡ 𝑀 (𝜎
𝑛
В этом случае выборочная дисперсия не будет смещена. Причина смещения выборочной дисперсии 𝜎̂𝑛2
состоит в том, что она вычисляется как отклонение от выборочного среднего 𝑥̅ , а не от теоретического значения
(математического ожидания 𝑎). Так как 𝑥̅ находится в центре выборки в отличие от 𝑎, то отклонения от 𝑥̅ в
среднем меньше отклонений от 𝑎.
Смещенность присуща не только выборочной дисперсии (центральному моменту 2-го порядка). Например,
несмещенный выборочный коэффициент ковариации рассчитывается по формуле
∑𝑛 (𝑥 −𝑥̅ )(𝑦 −𝑦̅)
𝑐𝑜̂𝑣(𝜉, 𝜂)несм = 𝑖=1 𝑖 𝑖
.
𝑛−1
Для выборочного несмещенного центрального момента 3-го порядка справедлива формула
𝑛
𝜇̂ 3 несм = (𝑛−1)(𝑛−2) ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )3 .

Доказательство состоятельности дисперсии с помощью неравенства Чебышева потребует нахождения


дисперсии от выборочной дисперсии 𝐷𝜎 ̂ 2𝑛 , что является достаточно сложным. Поэтому при доказательстве
состоятельности выборочной дисперсии, а также других выборочных характеристик воспользуемся следующей
теоремой о сходимости по вероятности непрерывных функций.
Теорема Слуцкого. Пусть функция 𝑓(𝑥, 𝑦) непрерывна в точке (𝑎, 𝑏) и ее некоторой окрестности, а
𝑝 𝑝 𝑝
случайные последовательности 𝑥𝑛 → 𝑎, 𝑦𝑛 → 𝑏. Тогда 𝑓(𝑥𝑛 , 𝑦𝑛 ) → 𝑓(𝑎, 𝑏).
◄По определению непрерывности функции для любого 𝜀 > 0 существует 𝛿 > 0 такое, что при всех 𝑥𝑛 ,
𝑦𝑛 из интервалов |𝑥𝑛 − 𝑎| < 𝛿 и |𝑦𝑛 − 𝑏| < 𝛿 выполняется неравенство |𝑓(𝑥𝑛 , 𝑦𝑛 ) − 𝑓(𝑎, 𝑏)| < 𝜀 .
Если же |𝑓(𝑥𝑛 , 𝑦𝑛 ) − 𝑓(𝑎, 𝑏)| ≥ 𝜀, то по крайней мере верно либо |𝑥𝑛 − 𝑎| ≥ 𝛿, либо |𝑦𝑛 − 𝑏| ≥ 𝛿.
Тогда, используя теорему сложения для событий 𝐴 и 𝐵: 𝑃(𝐴 + 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴𝐵), получим
𝑃{|𝑥𝑛 − 𝑎|, |𝑦𝑛 − 𝑏| ≥ 𝛿} ≤
𝑃{|𝑓(𝑥𝑛 , 𝑦𝑛 ) − 𝑓(𝑎, 𝑏)| ≥ 𝜀} = 𝑃{|𝑥𝑛 − 𝑎| ≥ 𝛿} + 𝑃{|𝑦𝑛 − 𝑎| ≥ 𝛿} − ⏟
→0

≤⏟ 𝑃{|𝑦𝑛 − 𝑏| ≥ 𝛿} → 0 при 𝑛 → ∞.
𝑃{|𝑥𝑛 − 𝑎| ≥ 𝛿} + ⏟
→0 →0
𝑝
Следовательно, 𝑓(𝑥𝑛 , 𝑦𝑛 ) → 𝑓(𝑎, 𝑏).►
Замечание. Теорема справедлива и при большем числе сходящихся по вероятности
последовательностей, причем среди них могут находиться последовательности вида 𝑥𝑛 = 𝑐𝑜𝑛𝑠𝑡.
Точечная оценка 𝜎̂𝑛2 является состоятельной оценкой 𝜎 2 .
◄В формуле для выборочной дисперсии раскроем скобки
1 1 1 1
𝜎̂𝑛2 = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 2 − 2𝑥𝑖 𝑥̅ + 𝑥̅ 2 ) = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 2 − 2𝑥̅2 + 𝑥̅ 2 = 𝑛⏟∑𝑛𝑖=1 𝑥𝑖 2 − 𝑥̅⏟2 .
2
̂2
𝛼 ̂1
𝛼
6

1
Выражение 𝑛 ∑𝑛𝑖=1 𝑥𝑖 2 есть выборочный начальный момент 𝛼̂2 , который, как мы уже знаем, сходится по
1 𝑛 𝑝 𝑝
вероятности к теоретическому начальному моменту 𝛼2 : ∑ 𝑥2 = 𝛼̂2 → 𝛼2 . Точно так же: 𝑥̅ ≡ 𝛼̂1 → 𝛼1 .
𝑛 𝑖=1 𝑖
Поэтому
𝑝
𝜎̂𝑛2 = 𝛼̂ 2 − 𝛼̂ 21 = 𝑓(𝛼̂ 2 , 𝛼̂ 1 ) → 𝑓(𝛼2 , 𝛼1 ) = 𝛼2 − 𝛼21 = 𝜎2 .
Таким образом, выборочная дисперсия 𝜎̂𝑛2 сходится по вероятности к теоретической 𝜎 2 , т.е. является
состоятельной оценкой 𝜎 2 . ►
Замечание 1. Аналогично доказывается, что несмещенная выборочная дисперсия сходится по вероят-
ности к теоретической 𝜎 2 .
Замечание 2. Все другие выборочные характеристики состоятельны, если их можно представить, как
функции от начальных моментов и дисперсии. Центральные моменты любого порядка выражаются через
начальные моменты. Асимметрия и эксцесс выражаются через центральные моменты. Поэтому их точечная
оценка состоятельна.
Замечание 3. Другой способ доказательства состоятельности состоит в нахождении предела от
выборочной характеристики. Вспомним, что если последовательность сходится, то она также сходится по
вероятности. В большинстве случаев такой подход наталкивается на непреодолимые трудности, например
1
̂ 2𝑛 = lim ( ∑𝑛𝑖=1(𝑥𝑖 − 𝑎)2 ) −? Ниже приведен пример 2, в котором этот подход привел к успеху.
lim 𝜎
𝑛→∞ 𝑛→∞ 𝑛

Эмпирическая функция распределения 𝐹̂ (𝑥).


Теорема Гливенко-Кантелли. Точечная оценка 𝐹̂ (𝑥) функции распределения 𝐹(𝑥) в каждой точке 𝑥
является несмещенной и состоятельной оценкой функции распределения 𝐹(𝑥).
◄Пусть непрерывная случайная величина 𝜉 имеет теоретическую функцию распределения 𝐹(𝑥) =
𝑛
𝑃(𝜉 < 𝑥) и эмпирическую функцию распределения 𝐹̂ (𝑥) = 𝑛𝑥 , где 𝑛𝑥 - число наблюдений 𝑥𝑖 , меньших 𝑥, 𝑛 –
объем выборки. Заметим, что 𝐹̂ (𝑥) случайная величина. Все элементы выборки разделим на две группы. В
первую включим те из них, которые меньше 𝑥, во вторую включим элементы, большие или равные числу 𝑥.
Вероятность попадания элемента 𝑥𝑖 в первую группу 𝑝 = 𝑃(𝑥𝑖 < 𝑥) назовем успехом, во вторую 𝑃(𝑥𝑖 ≥ 𝑥) =
1 − 𝑝 = 𝑞 – неудачей. Попадание элемента в одну из двух групп следует распределению Бернулли с дискретной
1, 𝑥𝑖 < 𝑥,
случайной величиной 𝜂𝑖 = { с математическим ожиданием и дисперсией 𝑀𝜂𝑖 = 𝑝, 𝐷𝜂𝑖 = 𝑝𝑞.
0, 𝑥𝑖 ≥ 𝑥
В этом случае 𝑛𝑥 , являясь числом успехов в n независимых испытаниях Бернулли (биномиальное
распределение), имеет математическое ожидание и дисперсию 𝑀𝑛𝑥 = 𝑛𝑝, 𝐷𝑛𝑥 = 𝑛𝑝𝑞.
Отсюда следует
𝑛 𝑛𝑝
1. 𝑀𝐹̂ (𝑥) = 𝑀 ( 𝑛𝑥 ) = 𝑛 = 𝑝 = 𝑃(𝑥𝑖 < 𝑥) = 𝑃(𝜉 < 𝑥) = 𝐹(𝑥). Оценка не смещена.
𝑛 𝑛𝐹(𝑥)(1−𝐹(𝑥)) 𝐹(𝑥)(1−𝐹(𝑥))
2. 𝐷𝐹̂ (𝑥) = 𝐷 ( 𝑛𝑥 ) = 𝑛2
= 𝑛
.
В силу неравенства Чебышева для случайной величины 𝐹̂ (𝑥) и любого 𝜀 > 0
𝐷𝐹 (𝑥) ̂
𝐹(𝑥)(1−𝐹(𝑥))
𝑃(|𝐹̂ (𝑥) − 𝐹(𝑥)| ≥ 𝜀) ≤ 𝜀2 = 𝑛𝜀 2
→ 0 при 𝑛 → ∞.
Оценка состоятельна. ►
Пример 1. Пусть выборка 𝑥1 , 𝑥2 , … , 𝑥𝑛 произведена из генеральной совокупности с равномерным
распределением на промежутке [0, 𝜃]. По выборке найти несмещенную оценку 𝜃.
1
, 𝑥 ∈ [0, 𝜃],
Решение. Плотность распределения случайной величины 𝜉 имеет вид 𝑝𝜉 (𝑥) = { 𝜃 , функция
0, иначе
0, 𝑥 < 0
𝑥
распределения равна 𝐹𝜉 (𝑥) = {𝜃 , 𝑥 ∈ [0, 𝜃].
1, 𝑥 > 𝜃
Имея ряд наблюдений, 𝑥1 , 𝑥2 , … , 𝑥𝑛 , мы должны оценить правую границу равномерного распределения.
Естественно предположить, что максимальное наблюдение 𝑥𝑚𝑎𝑥 и будет оценкой правой границы 𝜃̂𝑛 = 𝑥𝑚𝑎𝑥 .
Возможно, оценка окажется смещенной. Проверим это и, в случае необходимости, исправим оценку.
Пусть каждое из наблюдений 𝑥𝑖 будет меньше некоторого числа 𝑥. Вероятность такого осуществления
совместного события
𝑥 𝑛
𝑃 = 𝑃(𝜉1 < 𝑥) ∙ 𝑃(𝜉2 < 𝑥) ∙∙∙ 𝑃(𝜉𝑛 < 𝑥) = (𝜃) .
7

Этой вероятности можно поставить в соответствие некоторую новую функцию распределения 𝐹𝜂 (𝑥) новой
𝑥 𝑛
случайной величины 𝜂 с переменным аргументом 𝑥: 𝑃(𝜂 < 𝑥) = 𝐹𝜂 (𝑥) = ( ) . Ее производная есть плотность
𝜃
распределения вероятностей
𝑛
𝐹𝜂 (𝑥)′ = 𝑛 𝑥 𝑛−1 .
𝜃
Одно из значений величины 𝑥 ∈ [0, 𝜃] есть число 𝑥𝑚𝑎𝑥 . Найдем его математическое ожидание
𝜃
𝑛 𝑛−1 𝑛
𝑀𝑥𝑚𝑎𝑥 = ∫ 𝑥𝑚𝑎𝑥 ∙ 𝑛
𝑥𝑚𝑎𝑥 𝑑𝑥𝑚𝑎𝑥 = 𝜃.
0 𝜃 𝑛+1
𝑛
Здесь удобно переписать равенство через 𝜃̂𝑛 ≡ 𝑥𝑚𝑎𝑥 : 𝑀𝜃̂𝑛 = 𝑛+1 𝜃.
Оценка для границы распределения 𝜃 оказалась смещенной. Исправим ее, для чего умножим обе части
𝑛+1
равенства на
𝑛

𝑛+1 𝑛+1 𝑛+1 𝑛


𝑀𝜃̂𝑛 = 𝑀 ( 𝜃̂𝑛 ) = 𝜃=𝜃
𝑛 ⏟𝑛 𝑛 𝑛+1
̂испр
𝜃
Таким образом, исправленная оценка параметра 𝜃 имеет вид
𝑛+1 𝑥
𝜃̂испр = 𝑛 𝜃̂𝑛 = 𝑥𝑚𝑎𝑥 + 𝑚𝑎𝑥
𝑛
,
т.е. к максимальному значению наблюдения 𝑥𝑚𝑎𝑥 необходимо прибавить его n-ую часть. В противном
случае будет возникать ошибка, причем тем больше, чем меньше объем выборки.
При изучении поведения параметра 𝜃 при небольших значениях 𝑛 фактор несмещенности оценки 𝜃̂𝑛
является важным, при больших значениях 𝑛 интересуются состоятельностью оценки. Следует указать, что
оценка может быть несмещенной и одновременно несостоятельной, а также смещенной и несостоятельной.

Вопросы для повторения


1. Что изучает наука математическая статистика?
2. Какие характеристики называются выборочными?
3. Что называется статистической точечной оценкой?
4. Каким требованиям должны удовлетворять точечные оценки?
5. Привести и обосновать примеры несмещенных и смещенных оценок.
6. Привести и обосновать примеры состоятельных и несостоятельных оценок.
7. Сформулировать теорему Слуцкого.
8. Сформулировать теорему Гливенко-Кантелли.

Примеры решения задач.


Задача 1. Случайная величина 𝜉~𝑈[0; 𝜃]. Для оценивания параметра 𝜃 выбрано одно из наблюдений,
например, 𝑥𝑖 . Оценка параметра 𝜃 принята 𝜃̂1 = 2𝑥𝑖 . Показать, что предложенная оценка является несмещенной
и несостоятельной.
𝜃
Решение. Несмещенность: 𝑀𝜃̂1 = 𝑀(2𝑥𝑖 ) = 2𝑀𝑥𝑖 = 2 2 = 𝜃. Оценка не смещена.
Несостоятельность: lim 𝜃̂1 = lim 2𝑥𝑖 = 2𝑥𝑖 . В силу произвольности значения 𝑥𝑖 и непрерывности
𝑛→∞ 𝑛→∞
равномерного распределения величина 2𝑥𝑖 может принять любое значение на промежутке [0; 2𝜃]. Вероятность
величине 2𝑥𝑖 принять точечное значение 2𝜃 равна нулю. Значит с вероятностью «один» величина 2𝑥𝑖 не
примет это значение, т.е. 𝑥𝑖 не сходится по вероятности к числу 𝜃.

Задачи для самостоятельного решения

Несмещенность
1. Доказать несмещенность выборочного среднего.
2. Доказать несмещенность выборочного начального момента 𝑘-го порядка.
3. Доказать смещенность выборочной дисперсии. Найти несмещенную оценку выборочной дисперсии.
8

Доказать смещенность выборочной ковариации


1 𝑛−1
4. 𝑐𝑜̂𝑣(𝜉, 𝜂)𝑛 = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) (𝑦𝑖 − 𝑦̅), 𝑀(𝑐𝑜̂𝑣(𝜉, 𝜂)𝑛 ) =
𝑛
𝑐𝑜𝑣(𝜉, 𝜂),
𝑛
𝑐𝑜
̂𝑣(𝜉, 𝜂)𝑛, = ̂𝑣(𝜉, 𝜂)𝑛 .
𝑐𝑜
считая наблюдения 𝑥𝑖 и 𝑦𝑗 некоррелированными при 𝑖 ≠ 𝑗. Найти ее несме- несм 𝑛−1

щенную оценку.
𝑛
5. Доказать несмещенность эмпирической функции распределения 𝐹̂ (𝑥) = 𝑛𝑥 , где 𝑛𝑥 - число наблюдений,
меньших 𝑥.
Пусть для случайных величин 𝜉 и 𝜂 получены случайные выборки
𝑥1 , 𝑥2 , … , 𝑥𝑛 и 𝑦1 , 𝑦2 , … , 𝑦𝑛 — объемов 𝑛 соответственно с выборочными дисперсиями 𝑐𝑜̂𝑣(𝜉,𝜂)𝑛
6. 𝑟̂ 𝜉,𝜂 = .
𝜎̂𝑥2 и 𝜎̂𝑦2 и выборочной ковариацией 𝑐𝑜̂𝑣(𝜉, 𝜂). Найти выборочный коэффициент ̂𝑥2 ∙𝜎
√𝜎 ̂𝑦2
корреляции 𝑟̂ 𝜉,𝜂 на основе несмещенных оценок коэффициентов.
Пусть 𝑥1 , 𝑥2 , … , 𝑥𝑛 и 𝑦1 , 𝑦2 , … , 𝑦𝑚 — случайные выборки объема 𝑛 и 𝑚 из одной генеральной совокуп-
ности с исправленными выборочными дисперсиями 𝑠̂𝑥2 и 𝑠̂𝑦2 . Доказать, что исправленная дисперсия
7. 1
2
𝑠̂𝑥,𝑦 , построенная по элементам обеих выборок, определяемая формулой [(𝑛 − 1)𝑠̂𝑥2 + (𝑚 − 1)𝑠̂𝑦2 ],
𝑛+𝑚−2
2
является несмещенной оценкой дисперсии 𝜎 генеральной совокупности.
Для оценивания параметра 𝜎 нормального распределения 𝑁(0, 𝜎 2 ) используется
1 𝜋
8. выборочное линейное отклонение 𝜎̂𝑛 = ∑𝑛𝑖=1|𝑥𝑖 |. Построить исправленную оценку 𝑠̂испр = √ 𝜎̂𝑛
2
𝑛
𝑆̂испр параметра 𝜎.

По выборке 𝑥1 , 𝑥2 , … , 𝑥𝑛 из генеральной совокупности построить несмещенную


9. оценку 𝜃̂испр , если случайная величина 𝜉 имеет функцию распределения 𝐹𝜉 (𝑥) = 𝜃̂испр = 𝑥𝑚𝑎𝑥 +
1
𝑒 𝑥−𝜃 , 𝑥≤ 𝜃. 𝑛
{
1, 𝑥 > 𝜃

По выборке 𝑥1 , 𝑥2 , … , 𝑥𝑛 из генеральной совокупности построить несмещенную


10. оценку 𝜃̂испр , если случайная величина 𝜉 имеет функцию распределения 𝐹𝜉 (𝑥) = 𝜃̂испр = 𝑥𝑚𝑖𝑛 −
1
0, 𝑥 < 𝜃 𝑛
{ .
1 − 𝑒 𝜃−𝑥 , 𝑥 ≥ 𝜃

По наблюдениям за случайной величиной 𝜉 получена выборка 𝑥1 , 𝑥2 , … , 𝑥𝑛 .


Построить несмещенную оценку 𝜃̂испр , если случайная величина 𝜉 имеет функцию 1
11. 0, 𝑥 < 𝜃 𝜃̂испр = (1 + )𝑥
𝛼
𝛼𝑛 𝑚𝑎𝑥
распределения 𝐹𝜉 (𝑥) = {(𝜃𝑥) , 𝑥 ∈ [0; 𝜃] , 𝛼 > 0.
1, 𝑥 > 𝜃

Состоятельность

12. Доказать состоятельность выборочного среднего.


13. Доказать состоятельность выборочного начального момента 𝑘-го порядка.
14. Доказать состоятельность выборочной дисперсии.
15. Доказать состоятельность исправленной выборочной дисперсии.
𝑛
Для третьего центрального момента сделана несмещенная оценка 𝜇̂ 3 несм. = (𝑛−1)(𝑛−2) ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )3 .
16.
Доказать ее состоятельность.
17. √𝐷𝜉 𝑆̂𝑛
Для коэффициента вариации 𝜈 = 𝑀𝜉
, 𝑀𝜉 ≠ 0 сделана оценка 𝜈̂ =
𝑥̅
. Доказать ее состоятельность.
𝜇3 𝜇
̂
Коэффициент асимметрии 𝛽 = 3 рассчитан по формуле 𝛽̂ = 𝑆̂ 33 при условии, что 𝑛 велико и
18. (√𝐷𝜉) 𝑛

случайная величина 𝜉 не является константой. Доказать состоятельность такой оценки.


𝜇 ̂4
𝜇
4
Для оценки коэффициента эксцесса 𝛾 = (𝐷𝜉) 2 − 3 использована формула 𝛾
̂= 4 − 3 при условии,
𝑠̂ 𝑛
19. Да.
что 𝑛 велико и случайная величина 𝜉 не является константой. Будет ли такая оценка эксцесса
состоятельной?
9

20. Доказать, что если 𝜃̂𝑛 – несмещенная оценка параметра 𝜃 и 𝐷𝜃̂𝑛 → 0 при 𝑛 → ∞, то оценка 𝜃̂𝑛
состоятельна.
𝑛
21. Доказать состоятельность эмпирической функции распределения 𝐹̂ (𝑥) = 𝑛𝑥 , где 𝑛𝑥 - число наблюдений,
меньших 𝑥.