Вы находитесь на странице: 1из 11

Практикум проблемы морской медицины

Современные Экология человека 2008.06

УДК 519.22

АНАЛИЗ НОМИНАЛЬНЫХ ДАННЫХ


(НЕЗАВИСИМЫЕ НАБЛЮДЕНИЯ)
© 2008 г. А. М. Гржибовский

Национальный институт общественного здоровья, г. Осло, Норвегия

В предыдущем выпуске журнала были рассмотрены способы расчета


доверительных интервалов для частот и долей [4]. В данной статье будут
представлены статистические критерии для проверки гипотез о значимости
различий между частотами, а также способы оценки силы взаимосвязи
между качественными переменными, измеряемыми на номинальной и
порядковой шкалах.
Интересно отметить, что отечественные исследователи наиболее
часто сравнивают частоты и доли с помощью критерия Стьюдента, в
то время как за рубежом для таких сравнений чаще всего использу-
ется критерий хи-квадрат (χ2) Пирсона. Причина, вероятно, кроется в
простоте применения критерия Стьюдента, слабой информированности
исследователей об ограничениях применения данного критерия, а также
в том, что именно с него начинается описание сравнения частот и долей
в некоторых, например [8], отечественных пособиях по биостатистике
В статье рассматривается сравнение для исследователей-медиков. Следует отметить, что большинство ав-
номинальных данных с помощью кри- торов учебников и пособий указывают, что нормальная аппроксимация
терия хи-квадрат Пирсона, критерия биномиального распределения актуальна лишь при наличии больших
хи-квадрат с поправкой на правдопо- выборок и при частотах, близких к 0,5 [6], однако исследователями это
добие, критерия хи-квадрат в большинстве случаев игнорируется. Игнорирование ограничений дает
с поправкой Йейтса на непрерывность, излишне приближенные результаты и может приводить к обнаружению
а также точного критерия Фишера. различий там, где их нет, так как оценка ошибки частоты по формуле
Для оценки силы взаимосвязи между m = √(pq/n) дает слишком «оптимистичные» результаты для ситуаций,
номинальными переменными рассмат- когда частота события меньше 0,25 или больше 0,75 [7, 10, 11]. Не-
риваются критерий j и критерий V смотря на то, что в некоторых пособиях сообщается, что свободным от
Крамера, коэффициент сопряженности подобного рода ограничений, а значит и более универсальным, является
Пирсона, γ-критерий Гудмана – Крас- способ проверки равенства частот, основанный на угловом преобразо-
кела, коэффициент неопределенности вании Фишера [7], он используется отечественными исследователями
Тейла, а также относительный риск редко. Кстати говоря, во многих зарубежных пособиях по биостатистике
и отношение шансов. Изложенный для медиков применение аппроксимации нормального распределения, а
материал дает общие сведения о ста- также критерия Стьюдента для анализа качественных признаков вообще
тистических критериях, применяемых не упоминается, вероятно, чтобы не запутывать начинающих исследова-
для проверки гипотез о равенстве час- телей [12, 13, 15].
тот в сравниваемых группах, а также Кроме того, сравнение частот с помощью критерия Стьюдента воз-
силе взаимосвязи между номинальны- можно только для четырехпольных таблиц, то есть только в ситуациях,
ми переменными и призван вызвать когда для каждой из изучаемых переменных может быть только два
интерес читателей журнала к прочте- возможных значения (например, есть фактор риска/нет фактора риска,
нию специализированной литературы выжил/умер). В биомедицинских исследованиях нередки ситуации,
перед началом работы над будущими когда объемы выборок и/или частоты событий очень малы, а также
публикациями. когда качественные переменные могут принимать более двух значений.
Ключевые слова: номинальные дан- Более универсальными способами сравнения частот и долей являются
ные, анализ, сила взаимосвязи, SPSS. способы, основанные на идее сравнения фактических частот, полученных

58
Экология человека 2008.06 Практикум
Современные проблемы морской медицины

в результате исследования, с ожидаемыми частотами. ячейки рассчитывается путем перемножения сумм ря-
К таким способам анализа качественных переменных дов и столбцов (маргинальных итогов) с последующим
относится критерий согласия χ2 Пирсона, который делением полученного произведения на общее число
свободен от вышеперечисленных ограничений. наблюдений. Так, для ячейки А (находится в первом
Критерий χ2 для таблиц сопряженности был пред- ряду и в первом столбце) ожидаемое число будет равно
ложен Карлом Пирсоном (1857–1936) еще в 1900 23 (итог ряда)·14 (итог столбца)/48 (объем выборки)
году (цит. по [1]). С помощью данного критерия = 23·14/48 = 6,7. Для ячейки С ожидаемое число
оценивается значимость различий между фактическим будет равно 14·25/48 = 7,3. Для оставшихся ячеек
(выявленным в результате исследования) количеством эти значения будут равны 16,3 (В) и 17,7 (D). Как
исходов или качественных характеристик выборки, видно из расчетов, ожидаемые значения необязательно
попадающих в каждую категорию, и теоретическим целые числа.
количеством, которое можно ожидать в изучаемых Затем рассчитывается значение критерия χ2 по
группах при справедливости нулевой гипотезы. Для формуле:
применения критерия χ2 Пирсона необходимо соб-
людение следующих условий:
1. Номинальные или порядковые данные (возможно
создание категорий из непрерывных данных).
2. Независимость наблюдений (отбор участников где i – номер ряда (строки, от 1 до r), j – номер столбца
исследования из генеральной совокупности произво- (от 1 до с – фактическое количество наблюдений в
дится независимо друг от друга). ячейке ij, Eij – ожидаемое число наблюдений в ячейке
3. Независимость групп (метод нельзя применять ij. После подставления чисел в формулу получим:
для исследований типа «до – после»).
4. Ожидаемое (не фактическое) число наблюдений
в любой из ячеек должно быть не менее 5 (или 10)
для четырехпольных таблиц.
5. Доля ячеек с ожидаемым числом наблюдений
менее 5 не должна превышать 20 % для многопольных Затем значение критерия χ2 сравнивается с кри-
таблиц. тическими значениями для (r – 1)·(c – 1) числа
6. Для расчета критерия χ2 используются только степеней свободы по таблицам, которые имеются
абсолютные фактические и ожидаемые числа (про- в большинстве пособий по статистике. Для данного
центы и доли для расчетов не используются). примера число степеней свободы равно (2 – 1)·
Рассмотрим принцип метода с помощью простого (2 – 1), то есть 1. Для 1 степени свободы (а значит,
примера. Предположим, что проводится проспек- для всех четырехпольных таблиц) критическое зна-
тивное наблюдение за участниками исследования чение критерия равно 3,841 при уровне значимости
(когорта из 48 человек), причем у 23 из них имеется 0,05. Наше значение (4,378) превышает критическое,
изучаемый фактор риска, а у остальных 25 этого значит, на основании применения критерия χ2 Пир-
фактора риска нет. После определенного времени сона нулевая гипотеза об отсутствии статистической
изучаемый исход наблюдали у 10 человек (43,5 %) взаимосвязи между изучаемым фактором риска и
из тех, у кого имелся фактор риска, и у 4 человек исходом может быть отвергнута при критическом
(16,0 %) из тех, у кого изучаемого фактора риска не уровне значимости 5 %. В целом, чем больше раз-
было. Результаты исследования можно отобразить в личия между фактическими и ожидаемыми числами в
виде четырехпольной таблицы (табл. 1). каждой из ячеек таблицы, тем больше будет значение
Для ответа на вопрос о наличии статистической критерия и тем меньше будет значение достигнутого
взаимосвязи между фактором риска и исходом с уровня значимости (р). При равенстве ожидаемых и
помощью критерия χ2 следует сначала рассчитать фактических чисел значение критерия будет равно
ожидаемое количество наблюдений в каждой из ячеек 0, а р = 1.
при условии справедливости нулевой гипотезы об Хотелось бы подчеркнуть, что речь идет только
отсутствии взаимосвязи. о статистической взаимосвязи, поэтому выводы о
Ожидаемое количество наблюдений для каждой наличии либо причинно-следственных, либо столь
любимых многими авторами «достоверных» связей
Таблица 1 только на основании статистически значимых резуль-
Пример таблицы сопряженности
татов были бы некорректны.
Исход есть Исхода нет Всего Вычисленное значение критерия χ2 изменяется
(1) (0)
скачкообразно, так как основывается на частотах,
Фактор риска 10 (А) 13 (В) 23 (А+В)
которые являются целыми числами. В то же время
есть (1)
табличные значения для распределения χ2 состав-
Фактора риска 4 (С) 21 (D) 25 (С+D)
лены для непрерывной шкалы, поэтому в 1934 году
нет (0)
английский статистик Фрэнк Йейтс (Frank Yates,
Всего 14 34 48
1902–1994) предложил поправку на непрерывность

59
Современные
Практикум проблемы морской медицины Экология человека 2008.06

[19], которая сейчас известна под названием поправки критерия χ2, получаемых с использованием поправки
Йейтса (Yates’s correction). Поправка заключается Йейтса и без нее, незначительны, однако при малых
в вычитании 0,5 из абсолютного значения разности выборках различия могут быть существенными. Следует
между фактическим и ожидаемым количеством на- помнить, что поправка Йейтса применяется только
блюдений в каждой ячейке, что ведет к уменьшению для четырехпольных таблиц, то есть при анализе двух
величины критерия: дихотомических переменных. Для нашего примера
значение критерия χ2 с поправкой Йейтса составляет
3,149, что меньше критического значения (3,841), а
. значит, мы не можем отвергнуть нулевую гипотезу
об отсутствии статистической связи между фактором
риска и исходом.
Использование поправки привело к получению
Практически во всех отечественных пособиях по противоположного результата! Данная ситуация весь-
биостатистике отмечается, что применение поправки ма показательна, так как имеет прямое отношение к
Йейтса целесообразно. В других оговаривается, что гипертрофированной вере многих исследователей в
ее применение необходимо при небольших объемах величину р, а точнее, в дихотомичность ее значений
выборки и/или при количестве ожидаемых наблюдений в (либо p > 0,05, либо p < 0,05), что может привести
любой из ячеек < 10 или < 5. В третьих считается, что на основании одних и тех же данных к противопо-
поправку на непрерывность следует применять всегда. ложным выводам всего исследования в зависимости
В нашем примере в двух из четырех ячеек ожидаемое от учебника, который читали (или какому больше
число наблюдений < 10, значит, применение поправ- верят) исследователи. В такой ситуации хотелось бы
ки согласно большинству учебников целесообразно. порекомендовать исследователям не зацикливаться
Однако не все статистики согласны с необходимостью на значении 0,05 и уж тем более не докладывать
применять эту поправку, так как было показано, что она результаты применения только того критерия, кото-
может приводить к получению заниженных значений рый помогает «найти то, что очень хотелось». Далее
критерия, а значит, увеличивать вероятность ошибки в статье будут рассмотрены методы, позволяющие
второго типа, то есть вероятность не найти различия смотреть более широко на результаты сравнения
там, где они есть. Уже через несколько лет после опуб- качественных переменных. Но прежде рассмотрим
ликования Йейтсом работы о применении поправки на альтернативы критерию χ2.
непрерывность целесообразность ее применения была Одной из таких альтернатив является расчет
оспорена другим известным английским статистиком отношения правдоподобия ( ), или критерия χ2 с
Эгоном Пирсоном (Egon Pearson, 1895–1980, сын поправкой на правдоподобие. Расчет основан на
Карла Пирсона) и другими исследователями [11, 16, методе максимального правдоподобия, при котором
17]. В 1970–1980 годах число критических публикаций, оценка неизвестного параметра производится путем
основанных на результатах компьютерных симуляций, максимизации функции правдоподобия. Расчет про-
достигло нескольких десятков [9, 14]. В некоторых зару- изводится по формуле:
бежных учебниках прямо сообщается, что применение
поправки Йейтса нецелесообразно ввиду излишней ее
консервативности [13], однако в большинстве других
пособий она по-прежнему рекомендуется, несмотря
на то, что авторы обсуждают ее консервативность.
С одной стороны, такая консервативность хороша, так
как уменьшается вероятность ошибки 1 типа, то есть после чего полученные значения критерия χ2 сравнива-
обнаружения различий там, где их нет. Такая консер- ются с табличными значениями, как описано выше. При
вативность могла бы предотвратить применение более больших выборках значения Lχ2 и χ2 приблизительно
дорогого, но не более эффективного метода лечения. равны. При малых выборках значение Lχ2 обычно
Ведь логично предположить, что если более дорогой несколько меньше, а потому считается некоторыми ав-
метод оказался бы более эффективным, многие сочли торами предпочтительнее [13]. Для нашего примера
бы внедрение этого метода в практику целесообразным.
С другой стороны, консервативная оценка уменьшает ,
статистическую мощность (чувствительность), а значит,
вероятность обнаружить различия там, где они на самом что также превышает критическое значение χ2 для
деле есть, тоже уменьшается, что может остановить 1 степени свободы (3,841), а значит, позволяет отвер-
разработку потенциально более эффективного лечения, гнуть нулевую гипотезу.
особенно на ранних этапах его разработки, если строго Все вышеперечисленные методы дают приблизитель-
следовать дихотомическому подходу к принятию или ную (асимптотическую, asymptotic) оценку вероятности
отвержению нулевой гипотезы. распределения чисел по ячейкам таблицы так, как было
При наличии больших выборок различия в значениях получено в результате исследования, если бы была вер-

60
Экология человека 2008.06 Практикум
Современные проблемы морской медицины

на нулевая гипотеза об отсутствии взаимосвязи между на основании достигнутого уровня значимости, а


фактором риска и исходом. Точную (exact) вероятность также сравнивать по значениям р силу взаимосвязи
для всевозможных четырехпольных таблиц с совпа- между признаками в совокупностях с разным числом
дающими маргинальными итогами можно рассчитать наблюдений.
с помощью точного критерия Фишера (Fisher’s exact Большинство редакций зарубежных журналов ре-
test) по формуле комендует авторам не только представлять в научных
работах достигнутые уровни значимости при проверке
статистических гипотез, но и оценивать величину
эффекта (effect size), то есть силу связи между при-
знаками [18].
где ! – факториал, который равен произведению чис- Критерии, оценивающие силу связи между номи-
ла на последовательность чисел, каждое из которых нальными переменными, могут принимать значения от
меньше предыдущего на 1. Например, факториал числа 0 до 1. Они не могут иметь отрицательных значений,
5 рассчитывается как 5! = 5·4·3·2·1 = 120. Для так как данные, измеряемые на номинальной шкале,
нашего примера не имеют порядкового отношения, что не позволяет
изучать направление зависимости. Учитывая, что данная
публикация ориентирована в основном на пользовате-
лей программного пакета SPSS, рассматриваться будут
только те опции, которые предлагает этот пакет, что,
разумеется, не означает, что других способов оценки
величины эффекта не существует.
что на уровне доверительной вероятности 95 % (кри- Критерий j (фи, phi) предназначен оценивать силу
тический уровень значимости 5 %) не позволяет отвер- взаимосвязи только для четырехпольных таблиц. Для
гнуть нулевую гипотезу об отсутствии статистической многопольных таблиц целесообразнее применять крите-
взаимосвязи между фактором риска и исходом. рий V Крамера (Cramer’s V). Значения обоих критериев
Этот метод вызывает меньше споров, чем поправка варьируют от 0 до 1 (за исключением критерия j для
Йейтса, хотя некоторыми исследователями также вы- многопольных таблиц, поэтому для них его применение и
сказываются сомнения в целесообразности его приме- не рекомендуется). Оба критерия основаны на критерии
нения для малых выборок ввиду его консервативности χ2 и могут быть рассчитаны вручную по формулам:
[16]. Большинство статистиков, однако, по-прежнему
придерживается мнения, что точный критерий Фи-
шера следует применять при количестве ожидаемых .
и
наблюдений <5 (некоторые говорят о числе <10) в
любой из ячеек четырехпольной таблицы. Более того,
некоторые исследователи рекомендуют применять этот
критерий даже в ситуациях, когда объем выборки равен
Для четырехпольных таблиц значения обоих кри-
нескольким сотням [15]. Использование компьютеров
териев будут совпадать (0,302 для нашего примера).
позволяет рассчитывать точную вероятность и при
Если интерпретировать полученные значения критериев
больших выборках, однако по мере увеличения числа
j и V Крамера согласно рекомендациям Rea & Parker
наблюдений значение р, полученное с помощью точного
(табл. 2), то можно сказать, что имеется средней силы
критерия Фишера, будет приближаться к таковому,
связь между фактором риска и исходом.
полученному с помощью критерия χ2. Необходимые Таблица 2
условия для применения точного критерия Фишера Интерпретация значений критериев j и V Крамера
соответствуют условиям для применения критерия χ2 согласно рекомендациям Rea & Parker
за исключением пунктов 4 и 5, подразумевается также Значение критериев Сила взаимосвязи
гипергеометрическое распределение значения в левой j или V Крамера
верхней ячейке четырехпольной таблицы, чего мы <0,1 Несущественная
проверить не можем. 0,1 – <0,2 Слабая
Итак, два из четырех статистических критериев го- 0,2 – <0,4 Средняя
ворят о том, что нулевую гипотезу можно отвергнуть,
0,4 – <0,6 Относительно сильная
а два других – наоборот. Читатели, вероятно, помнят,
что значение уровня значимости (р) во многом зависит 0,6 – <0,8 Сильная
от объема выборки. Даже сильную статистическую 0,8 –1,0 Очень сильная
связь сложно выявить при малом числе наблюдений,
в то время как при больших выборках даже слабая и Коэффициент сопряженности представляет собой
клинически маловажная связь становится статисти- меру оценки силы взаимосвязи, основанной на крите-
чески значимой. Поэтому ошибочно было бы делать рии χ2. Зарубежные исследователи чаще применяют
вывод о силе взаимосвязи между переменными только коэффициент сопряженности Пирсона (С), в то время
как в отечественных пособиях [5] сообщается, что для

61
Практикум
Современные проблемы морской медицины Экология человека 2008.06

малых таблиц (не более 5 х 5) более точную оценку зависимой переменной является исход, так как мы
дает критерий Чупрова (К), который в зарубежной хотим прогнозировать его на основании наличия или
литературе фигурирует как Tshuprow’s T. Расчет ко- отсутствия фактора риска. Значит,
эффициентов сопряженности может быть выполнен
вручную по формулам

это означает, что знания о наличии фактора риска не


и уменьшают ошибки предсказания исхода. В отличие
от всех рассматриваемых выше, λ-критерий асиммет-
где n – объем выборки, r – количество рядов ричен, то есть его значение зависит от того, какая
(строк), c – количество столбцов, а χ2 – значение переменная является зависимой, а какая независимой.
критерия хи-квадрат. Коэффициенты сопряженнос- Если бы мы хотели прогнозировать наличие фактора
ти принимают значения от 0 (нет взаимосвязи) до риска, зная исход, то значение критерия было бы рав-
значений, приближающихся к 1, но не достигающих но 0,261, то есть знание исхода снизило бы количество
ее (сильная взаимосвязь). Максимально возможное неверно предсказанных значений для фактора риска на
значение С зависит от размера таблицы, поэтому 26,1 %. Данный критерий очень чувствителен к
для симметричных таблиц можно вручную рассчитать значениям маргинальных итогов для независимой
нормированное или скорректированное значение С’ переменной.
по формуле Sakoda: Попробуем взглянуть на прогнозирование исхода с
другой стороны. Наиболее вероятным будет предпо-
ложение о том, что переменная «исход» будет равна
«0» (нет исхода), так как она принимает значение
«0» в 34 случаях из 48, или в 70,8 % случаев.
Таким образом, если мы ничего не знаем о факторе
риска, наиболее вероятным будет предположение об
отсутствии исхода, однако в 14 случаях из 48 (29,2 %)
где r – количество рядов (или столбцов, так как фор-
это предположение будет неверным. Для повышения
мула предназначена только для симметричных таблиц).
вероятности правильного прогноза попробуем учесть
В знаменателе рассчитывается максимально возможное
значения переменной «фактор риска». Из 23 чело-
значение С. Для таблицы 2 х 2, как в нашем примере,
век, у кого имелся фактор риска, 13 имели значение
максимально возможное значение С равно 0,707, факти-
исхода «0», а 10 – «1» (есть исход). Значит, можно
ческое значение С = 0,289, а нормированное значение
предположить, что значение переменной «исход»
С’ = 0,409 (или 0,41). Нормированное значение С и
будет 0 и при этом ошибиться в 10 случаях. Для
критерий Чупрова в SPSS не рассчитываются.
тех, у кого фактора риска не было, также вероятнее
Следующие два критерия отнести к мерам силы
предположить, что исхода не будет (21 из 25), но
взаимосвязи признаков можно лишь условно, но они
при этом ошибиться в 4 случаях. Таким образом,
рассматриваются здесь потому, что SPSS предостав-
для выборки в 48 человек получим 10 + 4 = 14
ляет возможность рассчитывать их при анализе номи-
ошибочно классифицированных случаев, или 29,2 %.
нальных переменных. Критерий λ Гудмана – Краскела
Несложно увидеть, что первоначальная доля неверно
основан на принципе относительного уменьшения
классифицированных исходов (29,2 %) не уменьшилась,
ошибки при прогнозировании значений зависимой
так как доля неверно классифицированных исходов
переменной с помощью независимой переменной.
при наличии информации о факторе риска также
Критерий λ принимает значения от 0 до 1, где 0
составляет 29,2 %. Учитывая суть критерия, можно
означает, что наличие информации о независимой
записать λ как
переменной никак не улучшает возможности прогно-
зирования значений зависимой переменной. Вручную
λ-критерий Гудмана – Краскела рассчитывается по
формуле

где ошибка 1 – доля неверно предсказанных значений


зависимой переменной без учета значений незави-
симой переменной; ошибка 2 – доля неверно пред-
сказанных значений зависимой переменной с учетом
где fi – наибольшие числа в ячейках в каждом из значений независимой переменной. Таким образом,
классов независимой переменной; fd – наибольший наглядно видно, что λ показывает процент снижения
из маргинальных итогов (сумм) зависимой перемен- ошибок прогнозирования при наличии информации
ной, а n – объем выборки. Для нашего примера о независимой переменной.

62
Экология человека 2008.06 Современные проблемы морской медицины
Практикум

Последним критерием, который предлагает SPSS чивать вероятность возникновения исхода в 2,7 раза
для оценки силы взаимосвязи, является коэффициент или что риск исхода у тех, у кого есть фактор риска,
неопределенности (uncertainty coefficient), в литерату- в 2,7 раза выше, чем у тех, у кого фактора риска нет.
ре он также встречается как коэффициент энтропии Такой результат гораздо более информативен. Однако
(enthropy coefficient) или энтропийный коэффициент различия в 2,7 раза справедливы только для нашей
Тейла (Theils U-coefficient). Коэффициент неопреде- выборочной совокупности. Даже если допустить, что
ленности имеет несколько отличные от λ-критерия наша выборка репрезентативна, систематические
Гудмена – Краскела теоретические обоснования, ошибки отсутствуют, а влияние вмешивающихся
но также относится к коэффициентам, показываю- факторов (конфаундеров) минимально, относительный
щим значение относительного уменьшения ошибки. риск для генеральной совокупности может отличаться,
Обычно считают, что коэффициент неопределенности поэтому всегда рекомендуется представлять интер-
предпочтительнее λ-критерия Гудмена – Краскела. вальную оценку относительного риска с помощью
Значение коэффициента неопределенности может ва- 95 % доверительного интервала. Этот интервал
рьировать от 0 до 1 и интерпретируется так же, как и представляет собой область, в которую попадает
λ-критерий Гудмена – Краскела. Учитывая название истинное значение доли в 95 % случаев. Другими
коэффициента, говорят, что его значение отражает словами, можно с 95 % надежностью сказать, что
степень неточности прогноза. Значение 0 говорит о истинное значение частоты встречаемости призна-
том, что зависимую переменную невозможно предска- ка в генеральной совокупности будет находиться в
зать по значениям независимой переменной, а 1 – о пределах 95 % доверительного интервала. Методы
том, что значения первой полностью предсказываются расчета доверительного интервала для частот и до-
значениями второй. Расчет коэффициента Тейла более лей рассматривались в предыдущем номере журнала
сложен, поэтому формула не приводится. [4]. Для относительного риска 95 % доверительный
Итак, мы рассмотрели способы проверки гипо- интервал можно рассчитать по формуле:
тез о наличии статистической связи между номи-
нальными переменными, а также способы оценки Верхняя граница: ex, где
силы взаимосвязи между этими переменными. Тем
не менее сообщение о том, что была обнаружена
статистически значимая связь средней силы между
фактором риска и исходом, для исследователей в
области биомедицинских наук, заинтересованных Нижняя граница: ех, где
в практическом применении результатов иссле-
дования, недостаточно информативно. Гораздо
продуктивнее было бы говорить о количественной
оценке вероятности исхода, связанной с наличием
фактора риска. Однако не все исследования поз-
воляют говорить о риске и оценивать вероятность а е – основание натурального логарифма (число Эйлера
возникновения исхода в зависимости от наличия или ~2,7). Для данного примера можно с 95 % уверенностью
отсутствия фактора риска. Подробнее об этом можно сказать, что относительный риск будет находиться в
прочитать в литературе по эпидемиологии (напри- промежутке от 1,0 до 7,5. Значительная ширина довери-
мер, [3]). Мы же остановимся только на некоторых тельного интервала вызвана малым объемом выборки.
расчетах, применимых к нашему примеру. Учитывая, Хотелось бы предостеречь читателей от переоценки
что наше гипотетическое исследование было проспек- важности относительного риска. Например, относитель-
тивным, мы можем рассчитать относительный риск ный риск может быть равен 2,0 как в ситуации, когда
(Relative Risk, RR). Поскольку в примере ничего не абсолютные риски развития заболевания равны 1 на
сообщается о времени наблюдения, но подразумева- 1 000 000 и 2 на 1 000 000, а также 1 на 10 и 2 на 10.
ется, что оно было одинаковым для обеих групп (с В первом случае абсолютная разница рисков будет не
наличием фактора риска и без него), относительный очень важна, так как составит 0,000 001. Во втором
риск будет равен отношению рисков. Отношение же разница рисков составит 0,1. Если взять обрат-
рисков отражает, во сколько раз риск исхода при ные величины из полученных разностей рисков, то
наличии фактора риска выше риска исхода при от- можно будет увидеть, у скольких человек необходимо
сутствии фактора риска и рассчитывается применимо устранить фактор риска, чтобы предотвратить 1 исход.
к табл. 1 следующим образом: В первом случае надо устранить фактор риска у мил-
лиона, а во втором – всего у 10 человек. Особенно
актуальными такие расчеты становятся при оценке
эффективности лечебного вмешательства. Рассчи-
танная величина будет называться числом пациентов,
подвергаемых лечению, на один предотвращенный
неблагоприятный исход (в англоязычной литературе
что говорит о том, что фактор риска может увели- NNT – Number Needed to Treat).

63
Современные проблемы морской медицины
Практикум Экология человека 2008.06

Для нашего примера тоже можно рассчитать согласно рекомендациям H. Motulsky [15] или поп-
разность рисков: А(А+В)/С(С+D), которая будет равку Йейтса, как рекомендуется многими другими
равна 0,275, или 27,5 %, а для того, чтобы предо- авторами. Если бы мы ограничились проверкой
твратить один исход, необходимо устранить фактор статистической гипотезы при критическом уровне
риска всего у 4 человек (NNT ~3,6), что говорит о значимости 5 % и дихотомическом подходе к трак-
том, что потенциальный эффект от профилактичес- товке результатов, то пришлось бы принять нулевую
ких мер, направленных на устранение изучаемого гипотезу об отсутствии связи между фактором риска
фактора риска, очень велик (при условии, что и исходом и сделать вывод о безвредности изучаемого
распространенность фактора риска в генеральной фактора. Еще интереснее, если бы исследование
совокупности такая же, как и в выборке). было повторено другими на выборке хотя бы в 70 че-
Если бы наше исследование было типа «случай ловек. Тогда (при прочих равных условиях) по при-
– контроль», было бы неверным рассчитывать чине большей статистической мощности достигнутый
относительный риск. В таких исследованиях в ка- уровень значимости был бы <0,05, а значит, при
честве меры эффекта выступает отношение шансов аналогичном подходе к величине р вывод был бы
(Odds Ratio, OR). Представим на минуту, что наше противоположным, хоть величина эффекта была бы
исследование было исследованием типа «случай та же самая!
– контроль». Тогда Рассуждения о том, что проверка статистичес-
ких гипотез сообщает только часть информации,
были опубликованы Пирсоном еще в 1901 году,
продолжены Фишером и, наконец, нашли свое
выражение в современных рекомендациях, сначала
то есть шансы на изучаемый исход были в 4 раза выше американской психологической ассоциации [18],
у тех участников исследования, у кого имелся фактор а затем и других, где четко говорится о том, что
риска, чем у тех, у кого фактора риска не было. При помимо результатов статистических тестов необхо-
проецировании результатов на генеральную совокуп- димо представлять меры силы взаимосвязи между
ность также необходимо рассчитать 95 % доверительный изучаемыми факторами.
интервал, в который попадут значения Еще более грамотной стратегией является принятие
решения еще на этапе планирования исследования,
то есть задолго до начала сбора данных, о том, ка-
кие значения относительного риска или отношения
шансов будут считаться клинически важными, после
от
чего рассчитывается необходимый объем выборки.
Уже на этом этапе может стать очевидным, что не-
которые исследования проводить нецелесообразно
до по причине невозможности набрать достаточное
количество участников исследования (проб, лабо-
где е – основание натурального логарифма. Для раторных животных и т. д.) для того, чтобы выявить
нашего примера 95 % значений отношения шан- статистически значимые различия на желаемом
сов (ОШ) будут попадать в интервал от 1,0 до уровне. Личный опыт показывает, что в большинс-
15,6. Следует помнить, что вышеприведенные тве случаев рассчитанное необходимое количество
формулы для расчета доверительных интервалов наблюдений значительно превышает то количество,
предназначены только для независимых данных и которое изначально задумывалось исследователями
неприменимы в исследованиях типа «до – после», или имеется в наличии.
а также в исследованиях типа «случай – контроль» Расчет всех вышеописанных критериев и коэффи-
по методу подобранных пар (Matched case-control циентов с помощью пакета прикладных статистичес-
study). Не стоит представлять в одном исследова- ких программ SPSS довольно прост, и мы рассмотрим
нии и относительный риск, и отношение шансов в его с помощью данных вышеприведенного примера,
одном и том же исследовании. Для исследований сохраненных в файле Human_Ecology_2008_6.sav,
типа «случай – контроль» описанные выше расче- которые можно «скачать» с сайта журнала. Для ана-
ты относительного риска, разницы рисков и NNT лиза номинальных данных следует в меню «Analyze»
провести невозможно. выбрать «Descriptive Statistics», затем «Crosstabs».
Итак, рассчитанные значения критериев j, V В открывшемся диалоговом окне «Crosstabs» неза-
Крамера, коэффициентов сопряженности и особенно висимую переменную (в данном случае фактор риска,
относительного риска позволяют заподозрить, что FR, перенести в поле «Row» (ряд), а зависимую (ис-
изучаемый фактор риска может оказать значительное ход, Ishod) в поле «Column» (столбец) как показано
влияние на вероятность возникновения исхода даже на рис. 1. Оставшаяся переменная id показывает
при значении пресловутого р > 0,05, который мы идентификационный номер участника исследования.
получим, если применим точный критерий Фишера Затем, нажав на «Statistics», можно открыть окно
«Crosstabs: Statistics», в левой половине которого

64
Экология человека 2008.06 Современные проблемы морской медицины
Практикум

поставить флажки напротив критерия χ 2 (Chi- поставить флажки напротив слов «Observed»
square), коэффициента сопряженности (contingency и «Expected». Первое позволит увидеть фак-
coefficient), j и V Крамера (Phi and Cramer’s V), тическое количество наблюдений в каждой
λ Гудмана – Краскела (Lambda) и коэффициента из ячеек четырехпольной таблицы, а второе
неопределенности (Uncertainty coefficient). В правой – ожидаемое количество. Также можно отме-
нижней области окна «Crosstabs: Statistics» можно тить флажками «Row», «Column» и «Total» для
поставить флажок напротив оценки риска (Risk), что получения долей, после чего следует вернуть-
позволит расcчитать и относительный риск, и отно- ся к окну «Crosstabs» путем нажатия кнопки
шение шансов (рис. 2). Критерии, которые остались «Continue». Запуск расчетов осуществляется
неотмеченными, будут рассмотрены в последующих кнопкой «ОК».
выпусках журнала.


Рис. 1. Диалоговое окно «Crosstabs»


Рис. 3. Диалоговое окно «Crosstabs: Cell Display»

Результаты запрашиваемых расчетов SPSS выдаст


в виде шести таблиц. Первая (рис. 4) представляет
собой описание количества наблюдений с имеющими-
ся (столбец Valid) и пропущенными (столбец Missing)
значениями (последние в анализ не включаются).

Рис. 4. Данные об общем количестве наблюдений и количестве


Рис. 2. Диалоговое окно «Crosstabs: Statistics» пропущенных значений

Для того чтобы компьютер рассчитал отно- Вторая – четырехпольная таблица сопряженности
сительный риск и отношение шансов правиль- с маргинальными итогами (Total). Она содержит
но, необходимо удостовериться, что наличие всю информацию (рис. 5), которая использовалась
признака (фактора риска, исхода) кодируется для расчета всех критериев, рассмотренных в данной
меньшим числом, чем отсутствие признака (фак- статье. Count обозначает фактическое количество
тора риска, исхода). Именно поэтому в файле наблюдений в каждой из ячеек, а Expected Count
Human_Ecology_2008_6.sav наличие признака – ожидаемое, причем результаты совпадают с расче-
кодируется как 1, а отсутствие как 2, хотя во тами вручную, которые представлены в начале статьи.
всех остальных случаях рекомендуется отсутс- Например, из 23 человек с имеющимся фактором
твие признака кодировать как 0. Вернуться к риска у 10 (43,5 %) наблюдался изучаемый исход,
диалоговому окну «Crosstabs» можно, нажав а у 13 (56,5 %) – нет. Ожидаемые же значения в
на кнопку «Continue». Далее следует открыть ячейках А и В составили 6,7 и 16,3 (наименование
окно «Сrosstabs: Cell Display» (рис. 3) путем ячеек как в табл. 1).
нажатия на кнопку «Cells», после чего можно

65
Современные
Практикум проблемы морской медицины Экология человека 2008.06

дет <5, то рекомендуется применять точный критерий


Фишера. Если для многопольной таблицы доля ячеек
с ожидаемыми значениями <5 будет превышать 20 %,
то критерий χ2 применять не рекомендуется.

Рис. 6. Таблица результатов применения критерия χ2 Пирсона


в различных модификациях и точного критерия Фишера

Рис. 5. Таблица сопряженности


В четвертой таблице результатов представлены значе-
ния λ-критерия Гудмена – Краскела, а также не упоми-
Результаты проверки статистических гипотез о наличии навшийся ранее критерий τ (тау) Гудмена – Краскела и
взаимосвязи между переменными представлены в третьей коэффициент неопределенности (рис. 7). Напомню, что эти
таблице (рис. 6). В первой строке можно увидеть значение критерии асимметричны (имеют направленный характер),
(Value) критерия χ2 (Pearson Chi-Square) c указанием числа то есть их значения будут отличаться в зависимости от того,
степеней свободы (df, degrees of freedom) и уровнем зна- какая из переменных является зависимой. SPSS не знает,
чимости р для двустороннего теста (Asymp. Sig. (2-sided)), какая из переменных зависимая, и рассчитывает значения
который равен 0,036. При представлении результатов критериев для обоих случаев. В нашем примере зависимой
применения критерия χ2 рекомендуется указывать значение переменной является исход, поэтому смотрим результаты
критерия, количество степеней свободы и достигнутый в стpoках «Ishod Dependent». Обращать внимания на ряд
уровень значимости. Для данного примера результаты «Symmetric», а также на ряд «FR Dependent», в котором
могут выглядеть так: χ2(1) = 4,38, p = 0,036. Результаты за зависимую принимается наша независимая перемен-
односторонних тестов использовать не рекомендуется за ная, не стоит. Результаты говорят о том, что наличие
исключением редких случаев, когда именно односторонний информации о факторе риска по данным коэффициента λ
тест был запланирован еще до начала сбора данных и (Lambda) нисколько не улучшает прогнозирование исхода
зафиксирован в протоколе исследования. (λ = 0). Чуть большее значение принимает коэффициент
Во второй строке можно увидеть значение критерия неопределенности (Uncertainty Coefficient, U = 0,077),
χ2 с поправкой Йейтса на непрерывность (Continuity согласно которому ошибка прогнозирования исхода при
Correction) с указанием числа степеней свободы и наличии данных о факторе риска может сократиться на
уровнем значимости (0,076). В третьей представлены 7,7 % (U = 0,077, p = 0,034).
результаты применения критерия χ2 с поправкой на
правдоподобие (Likelihood Ratio). В четвертой видим
результаты для точного критерия Фишера (Fisher’s
Exact Test). Для него нет значения критерия и числа
степеней свободы, так как суть точного критерия
Фишера заключается в прямом расчете вероятности
распределения признаков по ячейкам таблицы так,
как было получено в результате исследования, если
бы была верна нулевая гипотеза об отсутствии взаи-
мосвязи между фактором риска и исходом. Результаты,
представленные в пятой строке, будут рассматриваться
в следующем выпуске журнала. Для того чтобы помочь Рис. 7. Результаты оценки силы взаимосвязи (асимметричные
исследователю ориентироваться в результатах и выбрать критерии)
подходящий критерий для проверки гипотез, в самой В пятой таблице приведены симметричные критерии,
нижней строке под таблицей говорится, сколько ячеек то есть критерии, показывающие силу взаимосвязи
(cells, и их доля в скобках) имеет ожидаемые значения между переменными независимо от того, какая из
(expected count) <5. Кроме того, сообщается значение них является зависимой (рис. 8). Значения критериев
минимального ожидаемого числа наблюдений (minimum (Value) соответствуют взаимосвязи средней силы (см.
expected count). Напомню, что если в четырехпольной табл. 2). Кроме того, представлены приблизительные
таблице хоть в одной ячейке ожидаемое значение бу- уровни значимости (р) для всех критериев (Approx.

66
Экология человека 2008.06 Современные проблемы морской медицины
Практикум

Sig). Результаты можно представить как j = 0,30, Можно ли использовать отношение шансов для
р = 0,036, хотя уровень значимости здесь не так важен. когортных исследований? В принципе можно, так
Для многопольных таблиц использование критерия V как отношение шансов будет достаточно точно
Крамера предпочтительнее. Также следует помнить, что отражать относительный риск при редких исходах
приведенный в таблице коэффициент сопряженности (скажем, до 10 %), однако если исход не является
Пирсона (Contingency Coefficient) не достигает мак- редким, значение отношения шансов будет сущес-
симума, поэтому лучше производить коррекцию этого твенно превышать значение относительного риска,
коэффициента, как было рассмотрено выше. что может привести к неверному толкованию про-
блемы. Например, для обеих ситуаций, представ-
ленных в табл. 3, относительный риск составляет
2,0, а отношение шансов – 2,1 в первом случае и
11,0 во втором (проверьте, используя вышеприве-
денные формулы). Поэтому если для второй ситу-
ации в когортном исследовании рассчитать только
отношение шансов, можно сделать неверный вывод
о чрезвычайной вредности изучаемого фактора,
если в качестве зависимой переменной использу-
ется заболевание или летальный исход (более чем
Рис. 8. Результаты оценки силы взаимосвязи (симметричные
критерии) пятикратное завышение!). Поэтому для когортных
исследований рекомендуется представлять только
Последняя таблица наиболее информативна (рис. 9). относительный риск, а для исследований типа
Поскольку компьютер не знает, какого типа было «случай–контроль» – только отношение шансов,
наше исследование, он рассчитывает и отношение причем не следует интерпретировать последнее с
шансов (строка «Odds Ratio»), и относительный риск точки зрения рисков. Например, при классическом
(строки «For cohort»), а также нижнюю (Lower) и исследовании «случай – контроль» с соотношением
верхнюю (Upper) границы доверительного интервала количества случаев к количеству контролей 1:1
(Confidence Interval). Если бы наше исследование отношение шансов 4,0 не означает, что изучаемый
было типа «случай – контроль», мы не могли бы фактор риска увеличивает вероятность исхода
использовать относительный риск и должны были бы именно в 4 раза, но говорит о наличии сильной
ограничиться отношением шансов. Но поскольку наш взаимосвязи.
пример представляет собой проспективное (когортное) Таблица 3
исследование, следует использовать относительный Различия между относительным риском и отношением
риск. Поскольку нас интересуют различия в исходах шансов (объяснения в тексте)
(вспомним, что наличие исхода закодировано в виде «1») Вероятность Вероятность
относительно фактора риска, а не наоборот, результат Относи-
Ситуация

исхода для тех, исхода для тех, Отношение


тельный
следует искать в строке «For cohort Ishod=1». При у кого есть фактор у кого есть шансов
риск
описании результатов необходимо указывать не только риска фактор риска
относительный риск, но и доверительный интервал: RR
= 2,72, 95 % CI: 0,99–7,48 или по-русски: ОР = 2,72, 1 0,05, или 5 % 0,1, или 10 % 2,0 2,1
95 % ДИ: 0,99–7,48. Видно, что интервал включает
в себя 1, а значит, результат не является статистичес- 2 0,45, или 45 % 0,90, или 90 % 2,0 11,0
ки значимым (на уровне доверительной вероятности
95 %). Несмотря на это, ширина интервала дает четкое Несмотря на то, что мы рассмотрели пример только
представление о том, какие значения RR (ОР) может прини- для дихотомических переменных и четырехпольных
мать в 95 % случаев, и это не позволяет отнести результаты таблиц, читатели могут применять все описанное
к маловажным, что наглядно демонстрирует большую выше и для ситуаций, когда номинальные переменные
информативность интервальной оценки силы взаимосвязи принимают более чем два значения (для многопольных
по сравнению с проверкой статистических гипотез. таблиц), за исключением точного критерия Фишера,
поправки Йейтса и критерия j. Более подробно о ме-
тодах сравнения номиниальных данных можно прочитать
в специализированной литературе (например, [2, 6]).

Список литературы
1. Банержи А. Медицинская статистика понятным языком:
вводный курс / А. Банержи. – М. : Практическая медицина,
2007. – 287 с.
2. Браунли К. А. Статистическая теория и методология
Рис. 9. Отношение шансов и относительный риск с 95 % в науке и технике / А. К. Браунли. – М. : Наука, 1980. –
доверительными интервалами С. 376–417.

67
Современные
Практикум проблемы морской медицины Экология человека 2008.06

3. Власов В. В. Эпидемиология : учебное пособие для вузов J. E. Overall // Psychological Bulletin. – 1980. – Vol. 87.
/ В. В. Власов. – М. : ГЭОТАР-МЕД, 2004. – 464 с. – Р. 132–135.
4. Гржибовский А. М. Доверительные интервалы для 17. Pearson E. S. The choice of statistical tests illustrated on
частот и долей / А. М. Гржибовский // Экология человека. the interpretation of data classed in a 2x2 table. / E. S. Pearson
– 2008. – № 5. – С. 57–60. // Biometrika. – 1947. – Vol. 34. – Р. 139–167.
5. Зайцев В. М. Прикладная медицинская статистика / 18. Wilkinson L. Statistical methods in psychology journals:
В. М. Зайцев, В. Г. Лифляндский, В. И. Маринкин. – guidelines and explanations // L. Wilkinson // American
СПб. : Фолиант, 2003. – 428 с. Psychologist. – 1999. – Vol. 54. – Р. 594–604.
6. Медик В. А. Математическая статистика в медицине 19. Yates F. Contingency tables involving small numbers and
/ В. А. Медик, М. С. Токмачев. – М. : Финансы и ста- the chi-square test / F. Yates // Supplement to the Journal of
тистика, 2007. – 798 с. the Royal Statistical Society. – 1934. – Vol. 1. – Р. 222.
7. Сергиенко В. И. Математическая статистика в клини-
ческих исследованиях / В. И. Сергиенко, И. Б. Бондарева. ANALYSIS OF NOMINAL DATA (INDEPENDENT
– М. : ГЭОТАР-МЕД, 2001. – 256 с. OBSERVATIONS)
8. Юнкеров В. И. Медико-статистическая обработка
данных медицинских исследований / В. И. Юнкеров, A. M. Grjibovski
С. Г. Григорьев. – СПб. : ВмедА, 2002. – 266 с. National Institute of Public Health, Oslo, Norway
9. Adler F. Yates’s correction and the statisticians / F. Adler
// Journal of the American Statistical Association. – 1951. The article describes analysis of nominal data by
– Vol. 12. – Р. 490–501. Pearson’s chi-squared test, likelihood ratio test, chi-squared
10. Brown L. D. Interval estimation for a binomial test with Yates’s continuity correction and Fisher’s exact
proportion / L. D. Brown, T. T. Cai, A. Dasgupta // Statistical test. Methods for estimation of the effect size or strength
Science. – 2001. – N 2. – P. 101–133. of the association, such as j, Kramer’s V, Pearson’s
11. Conover W. J. Some reasons for not using the Yates contingency coefficient, Goodman-Kruskall λ, uncertainty
continuity correction on 2x2 contingency tables / W. J. Conover coefficient, relative risk and odds ratio are presented. The
// Jornal of the American Statistical Association. – 1974. – paper provides only general introduction to the methods
Vol. 69. – Р. 374–376. of analysis of nominal data. The readers are encouraged
12. Dawson B. Basic and clinical biostatistics / B. Dawson, to consult statistical literature prior to analysing own data
R. G. Trapp. – Lange Medical Books : McGraw-Hill, 2001. and preparing manuscripts.
– 399 p. Key words: nominal data, ordinal data, analysis, SPSS.
13. Field A. Discovering statistics using SPSS / A. Field.
– SAGE Publications, 2005. – 779 р. Контактная информация:
14. Haviland M. G. Yates’s correction for continuity Гржибовский Андрей Мечиславович – старший советник
and the analysis of 2x2 contingency tables / Национального института общественного здоровья, г. Осло,
M. G. Haviland // Statistics in Medicine. – 1990. – Норвегия
Vol. 9. – Р. 363–367. Адрес: Nasjonalt folkehelseinstitutt, Pb 4404 Nydalen,
15. Motulsky H. Intuitive biostatistics // H. Motulsky. 0403 Oslo, Norway
– Oxford : Oxford University Press, 1995. – 386 p. Тел.: +47 21076392, +47 45268913; е-mail: angr@fhi.no
16. Overall J. E. Power of chi-square tests for 2x2
contingency tables with small expected frequencies / Статья поступила 16.05.2008 г.

68