Академический Документы
Профессиональный Документы
Культура Документы
Начало
На протяжении многих лет я всё думал, когда же доберусь до этой темы, и вот,
наконец-то свершилось! …как и во многих делах, самое трудное – первый шаг,
но я таки открыл вёрдовский файл (решался и обдумывал 2 недели) и с
радостью и даже какой-то торжественностью написал первый абзац.
И сразу второй. Что нужно для изучения математической
статистики? Ничего особенного. Нужно уметь складывать, умножать, делить,
извлекать корни и ещё много чего выполнять другие бесхитростные действия.
Да, вот так просто. Настоящий курс предназначен для начинающих
статистиков, и на предстоящих уроках научимся решать типовые задачи,
которые реально встречаются в ваших студенческих работах.
Из инструментальных средств потребуется Эксель (не умеете – научим!),
проверьте, есть ли он у вас, и калькулятор, лучше оффлайн калькулятор с
кнопочками, ибо на зачёте или экзамене гаджетами, как правило, пользоваться
нельзя.
Из литературы рекомендую те же две книги: задачник и учебное пособие В.Е.
Гмурмана под названием Теория вероятностей и математическая
статистика.
Математическая статистика следует «вторым эшелоном» за теорией
вероятностей, и это не случайность, а логическое продолжение. Отличие
состоит в том, что тервер даёт теоретическую оценку случайным событиям, а
статистика работает с практическими, или как
говорят, эмпирическими данными, которые берутся непосредственно «из
жизни». Поэтому для изучения темы желательно (но не критично обязательно)
знать азы теории вероятности, в частности, случайные величины – многие
понятия и формулы будут очень и очень схожи.
Что такое математическая статистика? Её часто называют то наукой, то
разделом математики. И это правда :) Математическая статистика, буду краток,
изучает методы сбора и обработки статистической информации для
получения научных и практических выводов. Статистическая – это та, которую
можно выразить числами. Эта информация появляется в результате
исследования массовых (обычно) явлений, которые носят случайный характер.
Причём, информация может носить как количественный характер (например,
размеры чего-либо), так и качественную природу – «оцифровать» можно, да
хоть пятьдесят оттенков серого.
Немедленный пример. Что главное орудие физика? Секундомер:
Пример 1
Студент Константин выполняет лабораторную работу по определению
коэффициента вязкости жидкости методом Стокса.
…тихо-тихо, тут будет всего несколько чисел :)
Экспериментальная часть этой работы состоит в том, что в высокий
цилиндрический сосуд с жидкостью сбрасывается достаточно маленький и
тяжёлый шарик, после чего замеряется время его погружения.
Время погружения шарика зависит от множества случайных факторов: прямоты
рук экспериментатора, погрешности измерения времени, хаотичного движения
молекул жидкости и т.д., вплоть до влияния Луны. Поэтому эксперимент
целесообразно провести 5-10 раз (как оно обычно и требуется).
Предположим, что в результате 5 опытов получены следующие результаты (в
секундах):
секунды.
Это значение называют простой средней или, как многие знают, средним
арифметическим. Его стандартно обозначают с чёрточкой наверху.
ц/га в
среднем по трём областям. Такой вид средней иногда называют средней
гармонической.
И здесь часто задают вопрос по размерности, комментирую: за
размерностью можно проследить в бравом физико-математическом стиле.
В числителе у нас расположены сотни тонн (миллионы кг). В знаменателе
миллионы кг делим на центнеры с га, избавляемся от трёхэтажности и
сокращаем дробь на 100 кг:
(общая посевная
площадь)
И, наконец, размерность всей дроби:
, где – объем выборки,
при этом, сумма всех относительных частот: .
Аналогично для совокупности генеральной:
, где – её объем, и,
очевидно:
И тут вспоминается Пример 2 об оценках по матанализу в группе из
студентов:
После того, как все числа будут вычеркнуты, подсчитываем количество засечек
в каждой строке:
– если , то ;
– если , то ;
– и, наконец, если ,
то – и в самом деле,
для ЛЮБОГО «икс» из интервала ВСЕ частоты расположены СТРОГО
левее этого «икс».
Накопленные относительные частоты удобно записывать в отдельный столбец
таблицы, при этом алгоритм вычислений очень прост: сначала сносим слева 1-
е значение (красная стрелка), а каждое следующее получаем как сумму
предыдущего и относительной частоты из текущего левого столбца (зелёные
обозначения):
Выполним чертёж:
После этого находим самое маленькое число в левой колонке и самое большое
значение – в правой. Тут даже ничего искать не пришлось, честное слово, не
нарочно получилось:)
ден. ед. – хорошим тоном считается указывать
размерность.
Вычислим размах вариации:
ден. ед. – длина общего интервала, в пределах
которого варьируется цена.
Теперь его нужно разбить на частичные интервалы. Сколько интервалов
рассмотреть? По умолчанию на этот счёт существует формула Стерджеса:
, где – десятичный логарифм* от объёма выборки и –
оптимальное количество интервалов, при этом результат округляют до
ближайшего левого целого значения.
* есть на любом более или менее приличном калькуляторе
В нашем случае получаем:
интервалов.
Следует отметить, что правило Стерджеса носит рекомендательный, но не
обязательный характер. Нередко в условии задачи прямо сказано, на какое
количество интервалов нужно проводить разбиение (на 4, 5, 6, 10 и т.д.), и
тогда следует придерживаться именно этого указания.
Длины частичных интервалов могут быть различны, но в большинстве
случаев использует равноинтервальную группировку:
– среднестатистический
квалификационный разряд рабочих цеха.
Но во многих задачах требуется составить вариационный ряд (см. Пример 4):
– или же этот ряд предложен изначально (что бывает чаще). И тогда, мы,
конечно, используем «цивилизованную» формулу:
Далее. Мода и медиана. Эти понятия тоже вводятся как для генеральной, так и
для выборочной совокупности, и определения я сформулирую в общем виде.
Запишем красивый ответ:
Полученные значения близки друг к другу, и это говорит о симметрии
вариационного ряда относительно центра, что хорошо видно по полигону
частот (см. чертёж выше). И с высокой вероятностью можно утверждать, что
примерно так же распределена и вся генеральная совокупность (все рабочие
цеха).
И тут возникает следующий закономерный вопрос: а зачем вообще
нужна мода с медианой? – ведь есть средняя.
А дело в том, что в ряде случаев среднее значение неудовлетворительно
характеризует центральную тенденцию статистической совокупности:
Пример 9
Известны результаты продаж пиджаков в универмаге города:
ден. ед.
Эти подсчёты, кстати, займут не так много времени и при использовании
оффлайн калькулятора. Но если есть Эксель, то, конечно, забиваем в любую
свободную ячейку =СУММ(, выделяем мышкой все числа, закрываем скобку ),
ставим знак деления /, вводим число 30 и жмём Enter. Готово.
Что касается моды, то её оценка по исходным данным, становится непригодна.
Хоть мы и видим среди чисел одинаковые, но среди них запросто может
найтись пять так шесть-семь вариант с одинаковой максимальной частотой,
например, частотой 2. Кроме того, цены могут быть округлёнными. Поэтому
модальное значение рассчитывается по сформированному интервальному
ряду (о чём чуть позже).
Чего не скажешь о медиане: забиваем в Эксель =МЕДИАНА(, выделяем
мышью все числа, закрываем скобку ) и жмём Enter: . Причём, здесь
даже ничего не нужно сортировать.
Но в Примере 6 была проведена сортировка по возрастанию (вспоминаем и
сортируем – ссылка выше), и это хорошая возможность повторить
формальный алгоритм отыскания медианы. Делим объём выборки пополам:
ден. ед.
Ситуация вторая. Когда дан готовый интервальный ряд (типичная учебная
задача).
Продолжаем анализировать тот же пример с ботинками, где по исходным
данным был составлен ИВР. Для вычисления средней потребуются
середины интервалов:
, где:
, где:
– объём статистической совокупности;
– нижняя граница медианного интервала;
– длина медианного интервала;
– частота медианного интервала;
– накопленная частота предыдущего интервала.
Таким образом:
Вычислим среднюю:
мин.
мин.
Анализируя накопленные частоты, приходим к выводу, что медианным
является интервал (именно он содержит 50-ю и 51-ю варианты,
которые делят ряд пополам).
мин.
Ответ: среднее время изготовления детали характеризуется следующими
центральными характеристиками:
Размах вариации
Среднее линейное (абсолютное) отклонение
Генеральная и выборочная дисперсия, тут же исправленная выборочная
дисперсия
…
и так далее до:
Вычисления удобно проводить на калькуляторе или в Экселе, а результаты
заносить в таблицу:
и среднее линейное
отклонение:
заполняем табличку:
и порядок:
Ответ:
Разобранная задача де-факто встречается в лабораторных работах по физике
(да и не только) – когда некоторая величина замеряется раз 10 и затем
рассчитывается среднее значение.
А теперь представьте, что вся ваша группа выполняет лабу по физике, и
каждый провёл по 10 испытаний в схожих условиях. Очевидно, что у всех
получились несколько разные выборочные значения , но все они без какой-
либо закономерности (в общем случае) будут варьироваться вокруг истинного
значения показателя (роль генеральной средней может играть некий
теоретический эталон). Это свойство (отсутствие закономерности)
называется несмещённостью оценки генеральной средней, и справедливо
оно, как мы увидим ниже, не для всех показателей.
Теперь пару ласковых об отклонениях. В чём их смысл? Всё просто: у кого эти
показатели ниже, тот качественнее проводит опыты (плавнее выполняет
действия, точнее снимает показания с приборов, засекает время и т.п.). В
идеале эти отклонения равны нулю, но это только в идеале – сам эмпиризм
ситуации порождает генеральное линейное отклонение и генеральную
дисперсию , которые обусловлены человеческим фактором, погрешностью
приборов и так далее – вплоть до магнитных бурь.
Следует отметить, что для большой выборки (от 100 и даже от 30 вариант) этой
мин.
Выборочная дисперсия:
мин. в квадрате.
Несмещённой оценкой генеральной дисперсии является исправленная
выборочная дисперсия:
мин. в квадрате.
Несмещённость означает, что если в схожих условиях проводить
аналогичные выборки, то полученные значения будут безо всякой
закономерности варьироваться вокруг генерального значения .
Ответ:
– для дискретного либо интервального вариационного
ряда.
Если известно, генеральная ли нам дана совокупность или выборочная, то
хорошим тоном считается поставить подстрочные индексы: либо .
Расчёт дисперсии по определению прост и реально используется на практике,
но существует ещё более простой и удобный способ вычисления – по
формуле, которую несложно вывести из определения:
Это данные из Примера 13, и на этот раз нам требуется вычислить дисперсию
с помощью формулы. Напоминаю, что там мы её рассчитали по определению и
получили результат , таким образом, ответ известен заранее, и
это всегда круто. Всегда, когда он правильный.
действие: ,
вычислить квадраты всех вариант:
и их сумму:
Результаты вычислений удобно заносить в таблицу:
Ответ:
Теперь случай сформированного вариационного ряда. В Примере 14 мы
потренировались на дискретном ряде, и сейчас очередь интервального:
Пример 16
С целью изучения вкладов в Сбербанке города проведено выборочное
исследование, в результате которого получены следующие данные:
например: .
Кроме того, варианты целесообразно уменьшить в 1000 раз, поскольку в ходе
дальнейших вычислений будут получаться гигантские числа. С современными
вычислительными мощностями, это, конечно, не проблема, но смотреться
будет некрасиво.
Сначала вычислим выборочную среднюю. Этот алгоритм уже обкатан:
находим произведения , их сумму:
и по соответствующей формуле:
Найдём среднюю:
тонны – среднемесячный объем производства за
полугодие.
Дисперсию вычислим по формуле:
( – выборочная средняя),
а для сформированного вариационного ряда – так:
через интеграл: .
Теперь об эксцессе замолвим слово. Он характеризует высоту и очень
коварный. В том смысле, что глаза будут часто обманывать. Так, например,
посмотрим на чертёж Примера 7 из статьи об интервальном вариационном
ряде:
где – для дискретной, и –
для непрерывной случайной величины.
Ответ:
Вот такой вот у нас получился эксекас :)
Помимо геометрических форм, эти коэффициенты позволяют «прикинуть»,
насколько близка к нормальному распределению не только выборочная, но
и вся генеральная совокупность. Это одна из важнейших задач статистики,
которую мы разберём в разделе Статистические гипотезы.
Ну а сейчас я предлагаю вам небольшое экзаменационное задание по первым
семи урокам. Оно типично для студенческой практики – дана статистическая
совокупность, и требуется выполнить много-много чего. Внимательно
проверьте, всё ли вы усвоили, всё ли умеете:
Пример 20
В результате эксперимента получены данные, записанные в виде
статистического ряда:
ед.
Разметим интервалы и подсчитаем частоты по каждому интервалу,
после чего убедимся, что объём выборки . Вычислим
ед.
ед.
4) Найдём середины интервалов, произведения и вычислим
Выборочная дисперсия:
,
выборочное среднее квадратическое отклонение:
ед.,
коэффициент вариации:
коэффициент асимметрии:
и коэффициент эксцесса:
Таким образом, выборочная совокупность практически симметрична, но
несколько ниже, чем нормальное распределение с
параметрами .
8. Статистические оценки параметров генеральной совокупности.
Доверительный интервал и доверительная вероятность
и сформулирую суть:
Ответ: .
И тут возникает светлая мысль уменьшить этот интервал – чтобы получить
более точную оценку. Что для этого можно сделать? Давайте посмотрим на
формулу .
Очевидно, что чем меньше стандартное отклонение (мера разброса
значений), тем короче доверительный интервал. Но это в отдельно взятой
задаче ни на что не влияет – ведь нам известно конкретное значение ,и
изменить его нельзя.
Поэтому для уменьшения «дельты» можно уменьшить коэффициент доверия,
Ответ:
Для самостоятельного решения:
Пример 24
, где ,
или эту:
для ,
Данный интервал с вероятностью (надёжностью) накрывает истинное
значение . И если из всех частей неравенства извлечь корни, то получим
соответствующий интервал для оценки генерального стандартного отклонения:
Значения известны, и осталось разобраться с нижним этажом.
Во-первых, вычислим:
Пример 22. Решение:
– данный интервал с вероятностью 99% накрывает
истинное значение .
сек.
Таким образом, искомый доверительный интервал:
Ответ:
Пример 26. Решение: вычислим исправленное среднеквадратическое
отклонение:
1) Определим доверительный интервал , где .
Для уровня доверительной вероятности и объёма выборки
по соответствующей таблице найдём .
Вычислим точность оценки:
Таким образом:
Вычислим и с
помощью соответствующей функции Экселя (Пункт 11б) найдём:
Таким образом:
– искомый интервал.
Ответ:
1) ,
2) с помощью распределения и приближённо.
Ответ:
Оценка получилась неплохая, но её неплохо бы улучшить, т.е. уменьшить
– ну, и, конечно,
такое кислое значение никуда не годится – тут уж проще монетку подбросить,
чем всё это считать :)
, следовательно:
– вероятность
.
По таблице значений функции Лапласа:
– левосторонняя доверительная вероятность.
Аналогично для правой стороны:
Из соотношения найдём:
– центнеров с гектара.
Выборочную дисперсию вычислим по формуле:
– мелочь, а приятно.
ц/га, таким
образом, предельная ошибка составляет ц/га, и искомый
доверительный интервал:
, откуда следует:
и порядок:
Доверительной вероятности соответствует коэффициент (из
соотношения ).
Таким образом:
Ответ:
Как видите, объём заметно возрос, и если вам хочется совсем крутой точности,
скажем, с той же вероятностью , то придётся выбрать уже:
Ответ:
Кстати, тут можно оценить и абсолютное количество таковых машин:
Таким образом, предельная ошибка:
и искомый доверительный интервал:
(округлять
лучше до бОльшего значения)
составляет :
1)
2)
3)
4) , где – конкретное альтернативное значение генеральной
средней.
При этом возможны две принципиально разные ситуации:
величину .
Найдём критическую область. Для этого нужно найти критическое значение. Так
как конкурирующее значение меньше чем , то
критическая область будет левосторонней. Критическое значение определим
из соотношения:
.
для уровня значимости :
В данном случае .
Вычислим наблюдаемое значение критерия:
случайную величину .
известны их дисперсии .
Тогда для проверки нулевой гипотезы используют статистический
критерий .
Таким образом:
, где отыскивается из
соотношения .
Сейчас для интереса проверил – погрешность составила всего одну сотую!
Гипотеза о равенстве генеральных дисперсий двух нормальных
распределений
Две средние мы уже сравнивали, очередь за дисперсиями. Из двух
нормальных ген. совокупностей извлечены независимые выборки объёмом
и и найдены их исправленные дисперсии: и соответственно.
Совершенно понятно, что эти значения случайны и отличны друг от друга. Но
возникает вопрос: значимо или незначимо это отличие? Для ответа на этот
вопрос на уровне значимости проверяется гипотеза о равенстве
генеральных дисперсий . Если она будет принята, то различие
между выборочными значениями объяснимо случайными факторами.
Однако для решения нашей задачи достаточно найти лишь правое критическое
значение .
Дело в том, что , и поэтому случайное
– полученное
значение попало в область принятия гипотезы , таким образом,
Выборочные дисперсии:
Исправленные дисперсии:
, по таблице значений
функции Лапласа определяем . При нулевую гипотезу
принимаем, а при – отвергаем.
Вычислим наблюдаемое значение критерия:
, следовательно, на уровне
значимости 0,1 нет оснований отвергать гипотезу .
Ответ: на уровне значимости 0,1 нет оснований считать, что 1-й стрелок
более меткий.
Пирсона .
Эмпирические частоты известны из предложенного интервального ряда, и
осталось найти теоретические. Для этого нужно вычислить выборочную
среднюю и выборочное стандартное отклонение .
литра
Выборочную дисперсию вычислим по формуле:
(литры)
Желающие могут рассчитать моду и медиану самостоятельно. Впрочем,
желающими часто становятся поневоле, поскольку задача, которую мы
рассматриваем, нередко идёт в комплексе со всеми этими заданиями.
2) Выполнение правила «трёх» сигм. Практически все значения нормальной
случайной величины находятся в интервале . Найдём этот
интервал для нашей выборки. Матожидание «а» оценивается выборочной
средней , а стандартное отклонение «сигма» – выборочным
стандартным отклонением .Таким образом, наш эмпирический
интервал:
Построим интервал :
, где , ,
в данной задаче :
формуле , где .
Вычисления сведём в таблицу: