Академический Документы
Профессиональный Документы
Культура Документы
Тестирование гипотез в
статистике.
Критерии Стьюдента
Три основные концепции в анализе данных:
H0: μ = 90 г;
H1 : μ ≠ 90 г
Двусторонняя Односторонняя
альтернатива альтернатива
(two-tailed hypothesis) (one-tailed hypothesis)
H0: μ = 90 г; H0: μ ≤ 90 г;
H1 : μ ≠ 90 г H1 : μ > 90 г
Ошибки при тестировании гипотез
Мощность (Power):
Вероятность НАЙТИ различия, когда они ЕСТЬ,
что сродни мощности микроскопа.
Итак, позволяют ли наши
данные отвергнуть Н0?
Это мы решаем на основе
СТАТИСТИКИ КРИТЕРИЯ
(test statistic).
Статистика критерия
рассчитывается на основе
параметров ВЫБОРКИ, и её
распределение известно (и
соотношение площадей под ним).
Общий принцип формирования статистики критерия:
Z-оценка
разность выборочного
среднего и
популяционного
X
z
Стандартная ошибка X
выборочных средних
α = 0.05
H 0 : 90
H1 : 90
параметр выборки – параметр популяции
Статистика =
стандартная ошибка параметра выборки
разность выборочного
среднего и
популяционного
X
ошибка среднего t
sX
s
s X SE df = n-1
n
Мы не отвергаем Н0! (Критическое значение t превышает критическое
значение z).
df = n - 1
Число степеней свободы (Degrees of
freedom)
В математической статистике - это
количество значений, используемых при
расчете статистической характеристики,
которые могут свободно изменяться.
Целое неотрицательное число.
На основе критического значения t (или другой статистики
критерия) можно определить 95% доверительный интервал
для популяционного параметра (в данном случае, для
среднего значения μ).
Его середина – выборочное среднее.
X z X
с вероятностью 95%
X t s X
Двухвыборочные критерии.
Сравнение между собой средних
значений 2-х выборок
( X 1 X 2 ) ( 1 2 ) X 1 X 2
t ошибка
s X1 X 2 s X1 X 2
Ошибка считается из средних
df n1 n2 2 квадратов стандартных
отклонений в выборках
s X1 X 2 Взвешенная по размерам
выборок средняя дисперсия
2 2
s s
s X1 X 2
pooled pooled
n1 n2
Идея в том, что стандартная ошибка разности средних
определяется дисперсиями в обеих выборках и размерами
этих выборок
Группы классифицированы по одному признаку В «Пасте»
– действующий фактор один
В «Статистике»
t-test for independent samples
Значение Р (p-value)
делаем вывод о статистической значимости
отличий
При Р≤0,05 велика вероятность
альтернативной гипотезы НА
При Р>0,10 велика вероятность
нулевой гипотезы Н0
Когда 0,05 < P ≤ 0,10 можно обсуждать тенденцию
к наличию обсуждаемого эффекта
Сначала нам нужно выбрать, какой вариант t-критерия использовать:
обычный для равных дисперсий
или подход Уэлча для неравных дисперсий
D D D
Статистика: t t df n 1
sD sD
H0: μ ≤ 90 г;
H1 : μ > 90 г
Мощность предполагаемого статистического теста -
ключевой элемент планирования исследования
Размер
выборки n =
25 зверей
Если мы поймаем 25 землероек в наших
исследованиях, у нас есть вероятность лишь 24%, что
мы найдём различия! Т.к. лишь в 24% случаев среднее из
нашей будущей выборки попадёт в критическую область.
Как увеличить мощность?
X obs X1 X 2
d d
s s pooled
df1s12 df 2 s22
s 2
df1 df 2
pooled
По современным требованиям, в статьях
рекомендуется приводить не только результаты
тестирования гипотезы, но и мощность, и размер
эффекта (особенно в сомнительных случаях).
выборка
2. Независимость измерений (independence)
Между измерениями не должно быть корреляций в
пространстве и времени, автокорреляций (когда
последующее измерение зависит от предыдущего).
3. Необходимо минимизировать постороннюю
дисперсию
Выровнять выборку так, чтобы действие посторонних факторов было
сведено на нет, либо в дальнейшем учитывать действие этих факторов.
Например, анализировать изменчивость размеров тела в разных
популяциях лучше на особях одного пола и возраста.
4. Соответствие нормальному распределению
Все выборки должны быть взяты из популяций с
нормальным распределением
Тест Колмогорова-Смирнова
(Kolmogorov-Smirnov test) D-статистика.
Маломощный, не рекомендуется (Zar, 2010).
Аутлаеры – измерения,
настолько сильно
отличающиеся от остальных,
что скорее всего, они не
принадлежат к данной выборке.
Они сильно сдвигают среднее
значение.
В случае t-критериев Стьюдента:
выборки случайные из популяций с нормальным распределением,
равными дисперсиями, N≥10, лучше всего – от 30. НО:
1. небольшие отклонения от нормального распределения
допустимы, если:
распределение симметрично;
тест двусторонний (односторонний НЕ рекомендуется)
размеры выборок одинаковы
2. Для двухвыборочных тестов несоблюдение требования
равенства дисперсий (приводит к увеличению ошибки 1-го рода)
допустимо, если:
распределения соответствуют нормальному;
выборки отличаются по размеру не больше, чем на
10%
3. Двухвыборочные тесты Стьюдента и пр. не просто так
названы двухвыборочными – они не подходят для 3-х и
более выборок!!.
Спасибо за внимание!