Вы находитесь на странице: 1из 18

Московский государственный университет имени М. В.

Ломоносова
Кафедра “Математических методов прогнозирования”

Мягков Артем Александрович (aem.istranet@gmail.com)

Исследование двухвыборочного критерия Уилконсона для связных


выборок.
Равномерное распределение. Зависимые выборки

Задание №1 “Исследование статистических критериев на модельных данных” по


курсу “Статистический анализ данных”

Преподаватель:
Воронцов Константин Вячеславович

Москва
2009
– 2 –

Содержание
1 Задание 2

2 Двухвыборочный критерий Уилконсона для связных выборок 2

3 Результаты моделирования 4
3.1 Зависимость достигаемого уровня значимости от значений параметров
при однократном проведении эксперимента . . . . . . . . . . . . . . . . 5
3.2 Зависимость достигаемого уровня значимости от значений параметров,
усреднённого по 100 экспериментам . . . . . . . . . . . . . . . . . . . . . 6
3.3 Эмпирические оценки мощности критерия для разных значений пара-
метров . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.4 Использование критерия для проверки гипотезы о мультипликативном
сдвиге распределения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

4 Выводы 11

A Графики зависимостей при использовании приближения распреде-


ления статистики критерия 12

B Код MATLAB проведенных экспериментов 14

1 Задание
Исследовать поведение критерия Уилконсона для связных выборок для провер-
ки гипотезы сдвига. Параметры модели:

𝜇1 = {0}, 𝜇2 = {0 : 0.05 : 3}, 𝑛 = {5 : 1 : 50} .

𝑥𝑛 = {𝑥1 , 𝑥2 , . . . , 𝑥𝑛 } ∼ 𝒰[0, 𝜇1 + 1], 𝑦 𝑛 = {𝑦1 , 𝑦2 , . . . , 𝑦𝑛 } ∼ 𝒰[0, 𝜇2 + 1]


𝐻0 : 𝜇1 = 𝜇2
𝐻1 : 𝜇1 ̸= 𝜇2

2 Двухвыборочный критерий Уилконсона для связных


выборок
1
Двухвыборочный критерий Уилконсона для связных выборок , названный так
в честь Франка Уилконсона, который предложил данный критерий, также как и
критерий для независимых выборок, в своей работе в 1945 году[2]. Критерий является
непараметрическим статистическим критерием для проверки гипотезы сдвига для
2
связных выборок .

1 Wilcoxon signed-rank test

2 Условные обозначения 𝑀 2𝑉 𝑁 𝑛ℒ
– 3 –

Пусть 𝑥𝑛 = {𝑥1 , 𝑥2 , . . . , 𝑥𝑛 }, 𝑦 𝑛 = {𝑦1 , 𝑦2 , . . . , 𝑦𝑛 } — связные выборки. Будем счи-


тать, что выборки не содержат совпадающих элементов (∀(𝑥𝑖 , 𝑦𝑖 ) : 𝑥𝑖 ̸= 𝑦𝑖 ). Обозна-
чим разности соответствующих наблюдений через 𝑧𝑖 .

𝑧𝑖 = 𝑦𝑖 − 𝑥𝑖 , 1 6 . . . 6 𝑛

Критерий Уилконсона для связных выборок выведен при следующих предполо-


жениях:

1. 𝑧𝑖 = 𝜃 + 𝑒𝑖 , 1 6 . . . 6 𝑛, где 𝜃 — неизвестный параметр сдвига, а 𝑒𝑖 — ненаблю-


даемые случайные величины;

2. 𝑒𝑖 взаимно независимы;

3. 𝑒𝑖 одинаково распределены, причем распределение симметрично относительно


нуля.

Критерий предназначен для проверки гипотезы об отсутствии сдвига.

𝐻0 : 𝜃 = 0

Альтернативные гипотезы, как обычно, могут быть различны.



⎨𝜃 > 0,
⎪ сдвиг вправо;

𝐻1 : 𝜃 < 0, сдвиг влево;



𝜃 ̸= 0, двухсторонний критерий.

Далее, в качестве альтернативной гипотезы используется гипотеза 𝐻1 : 𝜃 ̸= 0.


+
Статистика критерия 𝒯 равна сумме рангов положительных величин из 𝑧𝑛 в
(𝑛)
вариационном ряду их модулей |𝑧 |.
𝑛
∑︁
𝒯+= 𝑟(|𝑧𝑖 |)[𝑧𝑖 > 0] .
𝑖=1

Гипотеза 𝐻0 принимается (при альтернативе 𝐻1 : 𝜃 ̸= 0), если

𝑛(𝑛 + 1) (︁ 𝛼 )︁ (︁ 𝛼 )︁
−𝑡 ,𝑛 < 𝒯 + < 𝑡 1 − ,𝑛 ,
2 2 2
где 𝛼 - уровень значимости, а 𝑡(𝛼, 𝑛) — 𝛼-квантиль распределения, вычисление кото-
рого является комбинаторной задачей [2]. Но, для относительно небольших объемов
выборки (≈ больше 15), существует хорошее приближение данного распределения
нормальным [1]:

𝑛(𝑛+1)
* 𝒯+− 4
𝒯 = [︁ (︁ )︁]︁ 12
1 1
∑︀𝑔
24
𝑛(𝑛 + 1)(2𝑛 + 1) − 2 𝑗=1 𝑡𝑗 (𝑡𝑗 − 1)(𝑡𝑗 + 1)

𝒯 * ∼ 𝒩 (0, 1) ,

где 𝑔 — число связок в вариационном ряду модулей разностей |𝑧 (𝑛) |, а 𝑡𝑗 — число


элементов в 𝑗 -й связке.
– 4 –

Кроме того, эту нормальную аппроксимацию можно заменить более точной:

(︃ √︂ )︃
** 𝒯* 𝑛−1
𝒯 = 1+
2 𝑛 − 𝒯 *2
𝑡𝑛−1,𝛼 + 𝑧𝛼
𝑡** (𝛼, 𝑛) = ,
2
где 𝑡𝑛−1,𝛼 и 𝑧𝛼 — 𝛼-квантили распределения Стьюдента с 𝑛−1 степенью свободы и
стандартного нормального распределения соответственно.

3 Результаты моделирования
Возможность применения двухвыборочного критерия Уилконсона для связных
выборок в данной задаче обусловлена тем, что медиана (сдвиг которой позволяет
обнаружить критерий) равномерного распределения 𝒰[0, 𝜇 + 1] зависит от параметра
𝜇 и равна 𝜇+1
2
.
Не трудно проверить, что выполнены все три предположения двухвыборочного
критерия Уилконсона. Разность случайных величин 𝜉1 ∼ 𝒰[0, 𝜇1 +1], 𝜉2 ∼ 𝒰[0, 𝜇2 +1],
имеющих равномерные распределения с заданными параметрами имеет трапециевид-
ную плотность:



⎪ 0 , при 𝑡 6 −(𝜇1 + 1)
(𝜇1 +1+𝑡)2

, при −(𝜇1 + 1) < 𝑡 6 0


2

⎨ 2
𝑝𝜉2 −𝜉1 (𝑡) = (𝜇1 + 1)𝑡 + (𝜇1 +1)
2
, при 0 < 𝑡 6 𝜇2 − 𝜇1
(𝜇2 +1−𝑡)2

(𝜇1 + 1)(𝜇2 + 1) − , при 𝜇2 − 𝜇1 < 𝑡 6 𝜇2 + 1




⎪ 2
1 , при 𝑡 > 𝜇2 + 1 .

Это распределение является симметричным относительно своей медианы, которая


равна нулю в случае отсутствия сдвига. Условия независимости и одинаковой рас-
пределенности выполняются, очевидно, в следствие условий определения модели.
При проведении экспериментов использовалось распределение статистики кри-
терия, предложенное Уилконсоном. Такие же графики, полученные с использова-
нием приближенного распределения, приведены в приложении (A). Приближенный
критерий позволяет сделать практически такие же выводы, но, что удивительно, ра-
ботает немного точнее, чем критерий, предложенный Уилконсоном. Причиной этому
может являться то, что приближенное распределение является непрерывным, в от-
личие от предложенного Уилконсоном (дискретного), однако, это не является целью
исследования данной работы.
Далее описаны результаты сделанных экспериментов. Код MatLab для повторе-
ния экспериментов приведен в приложении (B).
– 5 –

3.1 Зависимость достигаемого уровня значимости от значений


параметров при однократном проведении эксперимента

Рисунок (1) позволяет оценить зависимость достигаемого уровня значимости от


значений параметров на случайном тесте при однократном проведении эксперимента.

Рис. 1: Зависимость достигаемого уровня значимости от значений параметров. Аддитивный сдвиг

Видно, что при относительно больших объемах выборки и больших значениях


параметра сдвига 𝜇2 достигаемый уровень значимости близок к нулю, т. е. в этой
области критерий не допускает ошибок. На малых выборках и на больших выборках,
при малых значениях сдвига, критерий допускает много ошибок, причем как первого
так и второго рода.

Можно предположить, что такое поведение обусловлено случайностью порож-


денных тестов. Усредненные оценки достигаемого уровня значимости и мощности
критерия приведены далее в разделах (3.2) и (3.3). Они подтверждают правильность
сделанного предположения.
– 6 –

3.2 Зависимость достигаемого уровня значимости от значений


параметров, усреднённого по 100 экспериментам
На рисунке (2) изображены значения достигаемых уровней значимости, усред-
ненные по 100 экспериментам.

Рис. 2: Зависимость среднего достигаемого уровня значимости от значений параметров. Аддитив-


ный сдвиг

Как и в случае однократного проведения эксперимента при больших объемах


выборки и больших значениях параметра 𝜇2 критерий работает точно. Проблемы
возникают при малых различиях 𝜇1 и 𝜇2 и при малых значениях выборки. Но при
этом, при фиксированном 𝜇2 достигаемый уровень значимости убывает с увеличени-
ем объема выборки, причем чем больше 𝜇2 , тем быстрее. То же верно и для фикси-
рованного объема выборки с ростом значения параметра 𝜇2 , однако скорость умень-
шения достигаемого уровня значимости меньше.

Также стоит отметить, что при разумных уровнях значимости, критерий прак-
тически не допускает ошибок первого рода. При заданных распределениях данных
можно утверждать, что критерий “ведет себя хорошо”, когда длина интервалов, но-
сителей равномерного распределения, отличается больше, чем в 1.5 раза, а длина
выборки больше 10.
– 7 –

3.3 Эмпирические оценки мощности критерия для разных значе-


ний параметров
Рисунок (3) содержит график эмпирических оценок мощности критерия, усред-
ненных по 100 экспериментам. Оценка мощности производилась при уровне значи-
мости 𝛼 = 0.05 .

Рис. 3: Эмпирические оценки мощности критерия для разных значений параметров. Аддитивный
сдвиг

Из рисунка видно, что при длине выборки 5 и при заданном уровне значимости
альтернативная гипотеза вообще не принималась. Это можно отнести к недостаткам
критерия, но с другой стороны при такой длине выборки сложно ожидать каких-то
обоснованных выводов. Кроме того, любое “нарушение” знака статистики критерия
уже выводит нас из критической области. А приняв во внимание рисунок (2), можно
предположить, что очень большие отклонения параметра 𝜇2 критерий все же начнет
выявлять.
При 𝜇2 = 0, т. е. там, где верна гипотеза 𝐻0 , альтернативная гипотеза принима-
ется крайне редко, что вполне допустимо при заданном уровне значимости 𝛼.
В остальных случаях — с ростом объема выборки и с увеличением относительной
разности между параметрами модельных распределений — эмпирическая мощность
критерия равномерно возрастает. Причем, в области 𝜇2 > 1.5, 𝑛 > 20 эмпирическая
– 8 –

оценка мощности уже достигает 1, что свидетельствует о том, что критерий Уилкон-
сона для связных выборок является состоятельным. Если исключить из рассмотре-
ния крайние случаи, то можно предполагать, что критерий является несмещенным.
В отличие от предыдущих графиков, на этом наблюдается следующая законо-
мерность. При фиксированном объеме выборки мощность с ростом 𝜇2 возрастает
быстрее, чем при фиксированном 𝜇2 с ростом длины выборки.
Для обнаружения сдвига в используемых модельных данных критерий можно с
уверенность применять при длине выборки больше 25 и величине сдвига 0.5 (𝜇2 = 1).

3.4 Использование критерия для проверки гипотезы о мультипли-


кативном сдвиге распределения
При заданных условиях порождения модельных данных сдвиг распределения не
является сдвигом в общепринятом смысле. (Сдвигается не весь интервал — носитель
равномерного распределения,— а только его правая граница.) Была предпринята по-
пытка учесть это обстоятельство, и вместо статистики, предложенной Уилконсоном,
использовать следующую:

𝑦𝑖 + 𝜀
𝑧𝑖 = − 1, 1 6 . . . 6 𝑛,
𝑥𝑖 + 𝜀
где 𝜀 — сколь угодно малая положительная константа. Она введена для того, чтобы
исключить проблемы, связанные с делением на ноль и “улучшить” характеристики
(а именно — симметрию) распределения статистики:



⎪ 0 , при 𝑡 6 − 𝜇1𝜇+1+𝜀
1 +1

⎨ (𝜇1 +1+𝜀)2 − 𝜀2

𝜇2 −𝜇1
, при − 𝜇1𝜇+1+𝜀
1 +1

2 2(𝑡+1)2
<𝑡6 𝜇1 +1+𝜀
𝑝 𝜉2 +𝜀 −1 (𝑡) = (𝜇2 +1+𝜀) 2
𝜇2 −𝜇1 𝜇2 +1
𝜉1 +𝜀 ⎪

⎪ 2(𝑡+1)2
− 𝜀2 , при 𝜇1 +1+𝜀
<𝑡 6 𝜀
𝜇2 +1

⎩1 , при 𝑡 > 𝜀 .
𝜇2 +1+𝜀
Это распределение не является симметричным, но его медиана равна
𝜇1 +1+𝜀
− 1,
т. е. равна нулю при равенстве 𝜇1 и 𝜇2 .
Графики на рисунках (4), (5), (6) позволяют сделать вывод о том, что использо-
вание критерия Уилконсона для связных выборок с предложенной статистикой при
заданных параметрах модели, позволяет получить лучшие результаты.
При меньших отклонениях параметров и при меньших объемах выборки крите-
рий становится мощнее. Достигаемый уровень значимости быстрее убывает с ростом
длины выборки и увеличения параметра 𝜇2 .
Стоит также отметить (хотя это и не отражено на графиках), что при выборе
слишком малого 𝜀 результаты не сильно улучшаются. При проведении экспериментов
𝜀 полагалось равным 1.
– 9 –

Рис. 4: Зависимость достигаемого уровня значимости от значений параметров. Мультипликативный


сдвиг

Рис. 5: Зависимость среднего достигаемого уровня значимости от значений параметров. Мульти-


пликативный сдвиг
– 10 –

Рис. 6: Эмпирические оценки мощности критерия для разных значений параметров. Мультиплика-
тивный сдвиг
– 11 –

4 Выводы
Критерий Уилконсона для связных выборок показал достаточно хорошие ре-
зультаты при применении на модельных данных. При использовании критерия для
обнаружения сдвига распределения стоит учитывать соотношение длины выборки и
ожидаемой величины сдвига.
Не смотря на то, что модельные данные были независимы и сдвиг происходил
только “частично”, эксперименты показали, что при длине выборки больше 25 и от-
носительной величине ожидаемого сдвига не меньше 0.5 критерий работает точно (в
рамках определения статистического критерия).
Можно ожидать, что на реальных данных, где между выборками существует
непосредственная взаимосвязь результаты окажутся даже лучше.
Кроме указанных преимуществ наиболее существенным является то, что данный
критерий непараметрический. Это позволяет применять его, не делая практически
никаких предположений о характере распределений реальных данных.

Список литературы
[1] Холлендер М., Вульф Д. Непараметрические методы статистики. — Финансы и
статистика, 1983. — Pp. 46–58.

[2] Wilcoxon F. Individual comparisons by ranking methods // Biometrics Bulletin. —


International Biometric Society, 1945. — Vol. 1. — Pp. 80–83.
– 12 –

A Графики зависимостей при использовании прибли-


жения распределения статистики критерия

Рис. 7: Зависимость достигаемого уровня значимости от значений параметров. Аддитивный сдвиг.


Приближенная оценка
– 13 –

Рис. 8: Зависимость среднего достигаемого уровня значимости от значений параметров. Аддитив-


ный сдвиг. Приближенная оценка

Рис. 9: Эмпирические оценки мощности критерия для разных значений параметров. Аддитивный
сдвиг. Приближенная оценка
– 14 –

B Код MATLAB проведенных экспериментов


Contents
∙ Experiment parameters initialization
∙ P-values for Wilcoxon signed rank test calculation
∙ P-values for Wilcoxon signed rank test visualization
∙ Average P-values for Wilcoxon signed rank test calculation
∙ Average P-values for Wilcoxon signed rank test visualization
∙ Emperical Power for Wilcoxon signed rank test visualization

%WILCOXON_SIGNED_RANK_MYAGKOV_TASK1 helps to investigate properties


% of a paired Wilcoxon signed-rank test on artificial data
% generated from the continuous uniform distributions
% with different upper endpoints.
%
% Parameters of the model are defined and described in section
% "Experiment parameters initialization".
%
% This script generates 3 pseudocolor plots, which are:
% P-values for Wilcoxon signed rank test depending on N and MU2;
% Average P-values for Wilcoxon signed rank test over Number_of_Exprs
% experiments depending on N and MU2;
% Emperical Power for Wilcoxon signed rank test over Number_of_Exprs
% experiments depending on N and MU2.
%
% Example
% -------
% Wilcoxon_signed_rank_Myagkov_task1;
%
% References
% -------
% [1] Hollander, M., and D. A. Wolfe. Nonparametric Statistical Methods
% // Hoboken, NJ: John Wiley & Sons, Inc., 1999.
% [2] Wilcoxon F. Individual comparisons by ranking methods
% // Biometrics Bulletin.— International Biometric Society,
% 1945.— Vol. 1.— Pp. 80–83.
%
% See also UNIFRND, SIGNRANK.

Experiment parameters initialization


% sample length
n = 5:50;
% distribution parameter for x-sample
mu1 = 0;
% distribution parameter for y-sample
mu2 = 0:0.05:3;
– 15 –

% number of experiments
Number_of_Exprs = 10;
% a method to calculate distribution of criteria statistic
% ’exact’ - for exact
% [] - for exact if n < 15 and approximate otherwise
method = [];
% significance level
alpha = 0.05;
% shift statics definition
% ’additive’ or ’multiplicative’
% the last one is an heuristics
shiftmode = ’additive’;
% a constant, used whis multiplicative shift
% to avoid devision by zero and to enhance distribution characteristics
epsilon = realmin;

P-values for Wilcoxon signed rank test calculation


Pval = zeros(size(n, 2), size(mu2 ,2));

for mu_ind = 1 : size(mu2, 2),


x = unifrnd(0, mu1 + 1, 1, n(end));
y = unifrnd(0, mu2(mu_ind) + 1, 1, n(end));
for n_ind = 1 : size(n ,2),
if (strcmp(shiftmode, ’additive’))
z = y(1 : n(n_ind)) - x(1 : n(n_ind));
else
z = (y(1 : n(n_ind)) + epsilon) ./...
(x(1 : n(n_ind)) + epsilon) - 1;
end
Pval(n_ind, mu_ind) =...
signrank(z, 0, ’alpha’, alpha, ’method’, method);
end
end

P-values for Wilcoxon signed rank test visualization


figure;
pcolor(repmat(mu2, size(n, 2), 1), repmat(n’, 1, size(mu2, 1)), Pval);
colormap(gray); cmap = colormap; colormap(1-cmap);
colorbar
shading faceted
title(’P-values for Wilcoxon signed rank test’)
xlabel(’\mu_2’)
ylabel(’Sample size’)
– 16 –

Average P-values for Wilcoxon signed rank test calculation


PvalAvg = zeros(size(n, 2), size(mu2 ,2));
EmpericalPower = zeros(size(n, 2), size(mu2 ,2));

for expr_ind = 1 : Number_of_Exprs,


Pval = zeros(size(n, 2), size(mu2 ,2));
AcceptedH = zeros(size(n, 2), size(mu2 ,2));

for mu_ind = 1 : size(mu2, 2),


x = unifrnd(0, mu1 + 1, 1, n(end));
y = unifrnd(0, mu2(mu_ind) + 1, 1, n(end));
for n_ind = 1 : size(n ,2),
if (strcmp(shiftmode, ’additive’))
z = y(1 : n(n_ind)) - x(1 : n(n_ind));
else
z = (y(1 : n(n_ind)) + epsilon) ./...
(x(1 : n(n_ind)) + epsilon) - 1;
end
[Pval(n_ind, mu_ind), AcceptedH(n_ind, mu_ind)] =...
signrank(z, 0, ’alpha’, alpha, ’method’, method);
end
end

PvalAvg = PvalAvg + Pval;


EmpericalPower = EmpericalPower + AcceptedH;

% Amount of remaining time estimation.


% If you do not want to use it, just comment
stopBar= progressbar(expr_ind / Number_of_Exprs, 0);
if (stopBar)
– 17 –

break;
end
end

PvalAvg = PvalAvg / Number_of_Exprs;


EmpericalPower = EmpericalPower / Number_of_Exprs;

Average P-values for Wilcoxon signed rank test visualization


figure;
pcolor(repmat(mu2, size(n, 2), 1), repmat(n’, 1, size(mu2, 1)), PvalAvg);
colormap(gray); cmap = colormap; colormap(1-cmap);
colorbar
shading faceted
title([’Average P-values for Wilcoxon signed rank test over ’,...
num2str(Number_of_Exprs),’ experiments’])
xlabel(’\mu_2’)
ylabel(’Sample size’)

Emperical Power for Wilcoxon signed rank test visualization


figure;
pcolor(repmat(mu2, size(n, 2), 1), repmat(n’, 1, size(mu2, 1)),...
EmpericalPower);
colormap(gray); cmap = colormap; colormap(1-cmap);
colorbar
shading faceted
title([’Power of Wilcoxon signed rank test over ’,...
num2str(Number_of_Exprs),’ experiments’])
– 18 –

xlabel(’\mu_2’)
ylabel(’Sample size’)