Вы находитесь на странице: 1из 2

Доверительные интервалы для среднего

Наша статистическая задача, для которой потребуется знание центральной предельной теоремы, будет
связана с построением доверительных интервалов для среднего значения. Мы начали с того, что целью
статистики является возможность сделать выводы относительно генеральной совокупности, основываясь
только на выборочных данных. Очень часто исследователей интересует. Чему равняется среднее значение
исследуемого признака во всей генеральной совокупности. Грубо говоря, взяв пример из предыдущего
урока, мы хотим, проведя тест нашей системы на периоде 3 года, знать, какую среднюю прибыль на сделку
система давала в предыдущие 20 лет.

Я взял кусок сделок из моей системы, построенной в экселе, который включает в себя 434 сделки и
охватывает примерно половину года. Средняя прибыль по сделке составляет для этой выборки 0,248 $ со
стандартным отклонением, равным 2,58. При этом очень интересно было бы узнать, чему равна средняя
сделка во всей генеральной совокупности, то есть на остальных 17 годах. Тут стоит оговориться, что у нас
имеются данные только по этим самым трем годам теста и получить больше данных невозможно. У нас в
связи с этим есть две новости – хорошая и плохая. Плохая заключается в том, что абсолютно точные данные
получить мы не сможем, то есть не сможем сказать, какому конкретно значению равняется средняя
прибыль по сделке из генеральной совокупности. Хорошая новость заключается в том, что мы сможем
рассчитать такой интервал, относительно которого мы абсолютно точно можем быть уверены, что он
включает в себя нужный нам параметр. Иными словами, мы можем узнать диапазон значений, в который
точно входит средняя прибыльность сделки на генеральной совокупности.

Как же это сделать? Для этого нужно вспомнить свойства нормального распределения и центральную
предельную теорему, о которой мы говорили с вами на прошлом уроке. Мы знаем, что если бы мы
многократно повторяли наш эксперимент, то все выборочные средние распределились бы нормальным
образом вокруг среднего генеральной совокупности со стандартной ошибкой среднего, которая равняется
se = sd/sqrt(n). Также мы знаем, что 95% всех выборочных средних по свойству нормального
распределения лежали бы в диапазоне нашей средней генеральной совокупности +- 1,96G или +- 1,96se.

Но как нам это может помочь? Ведь мы как раз не знаем, чему равняется среднее генеральной
совокупности, а наша выборочная средняя может оказаться где угодно. Наша выборочная средняя может
быть близко к реальной средней генеральной совокупности, а может очень сильно отклониться от
показателя, никто не застрахован и от такого варианта.

Но мы можем взглянуть на эту картинку немного по-другому. Допустим, мы рассчитаем такой показатель
для каждой из выборочных средних. Зеленым столбиком отмечены выборочные средние, которые
равняются X1. Если бы мы для такого выборочного среднего рассчитали интервал X1 +- 1,96se, то этот
интервал включил бы в себя среднюю генеральной совокупности. Если бы мы рассчитали такой интервал
для средней, которая равняется X2 (красный столбик), то такой интервал тоже включал бы среднюю
генеральной совокупности. И то же самое для средней X3. Таким образом, 95% всех выборочных средних
включили бы в себя среднее генеральной совокупности, если бы мы рассчитывали вот такой интервал. И
только бы те выборочные средние, которые очень далеко отклонились от средней генеральной
совокупности, не включили бы в свой 95-ти процентный доверительный интервал среднее значение
генеральной совокупности.

Таким образом, если бы мы многократно извлекали выборки одинакового размера из генеральной


совокупности, в каждой выборке рассчитывали бы среднее значение и для него свой 95% доверительный
интервал, то есть среднее +_1,96se, то в 95% всех случаев такой интервал включал бы в себя среднюю
генеральной совокупности. То есть мы на 95% можем быть уверены в том, что наш интервал будет
включать в себя среднюю генеральной совокупности.

Давайте теперь рассчитаем этот интервал для наших выборочных данных. Мы помним, что среднее
значение по нашей выборке равно 0,25, стандартное отклонение равно 2,58 и в нашем исследовании
приняло участие 434 сделки. Первое, что нам в любом случае необходимо выяснить, это стандартную
ошибку среднего: se = 2,58/sqrt(434) = 0,14. Теперь давайте рассчитаем 95% доверительный интервал. Для
этого нам нужно определить правую и левую границы интервала, а центром будет выступать наша средняя
(0,25). Правая граница 0,25 + 1,98*0,14 = 0,53. Левая граница 0,25 – 1,98*0,14 = -0,03

Рассчитав этот интервал, мы можем быть на 95% уверены в том, что он содержит в себе среднее
генеральной совокупности. В этом и заключается основная идея этого подхода – мы не можем точно
оценить интересующий нас параметр, но можем рассчитать вот такой вот интервал для оценки параметра
генеральной совокупности. Кроме того, мы можем увеличить нашу уверенность в том, что смогли поймать
среднее генеральной совокупности – рассчитать более широкий доверительный интервал. 95% всех
наблюдений при условии нормального распределения находятся в диапазоне m+-1,96G. При этом 99% всех
наблюдений находятся в диапазоне +-2,58G. Этот интервал будет более широким, но мы уже с 99%
вероятностью можем поймать среднее генеральной совокупности в наш интервал.

То есть в нашем случае мы с 95% вероятностью можем сказать, что средний результат сделки по нашей
системе находится в интервале от -0,03 до 0,53 доллара. Он может быть и -0,03, и тогда наша система
сливная, а может быть и 0,5, и тогда все нормально – наверняка сказать мы не можем. Но то, что этот
параметр находится где-то между этими значениями, можем сказать с уверенностью 95%. А с
уверенностью 99% мы можем сказать, что средний результат сделки нашей системы будет не меньше 0,25-
2,58*0,14 = -0,11 доллара и не больше 0,25+2,58*0,14 = 0,61 доллара.

Доверительные интервалы очень широко применяются в статистике для решения подобных задач – когда
по параметрам выборки нужно оценить параметры генеральной совокупности.

Вам также может понравиться