Вы находитесь на странице: 1из 277

Статистический анализ данных

в медицинских исследованиях
Рецензенты:
М.С.Абрамович, канд. физ-мат. наук, доцент, зав. НИЛ статистического анализа
и моделирования НИИ прикладных проблем информатики Белгосуниверситета.
Н.Н. Савва, кандидат медицинских наук, доцент, доцент 1-ой кафедры детских
болезней Минского государственного медицинского университета главный
внештатный специалист по паллиативной помощи детям Минздрава РБ.
Содержание
Статистический анализ данных ................................................................................................................ 1
Содержание ......................................................................................................................................................... 2
Часть 1 ...................................................................................................................................................................... 6
Введение................................................................................................................................................................ 6
1. Общий подход к построению исследования в доказательной медицине .................. 8
2. Основные типы дизайна исследований........................................................................................ 9
2.1. Когортное исследование ........................................................................................................... 10
2.2. Исследование случай-контроль ............................................................................................. 12
2.3. Одномоментное исследование ............................................................................................... 13
2.4. Экспериментальные или рандомизированные клинические исследования 15
2.5. Общие замечания по дизайну исследований .................................................................. 16
2.6. Понятие исхода и риска.............................................................................................................. 19
2.7. Подход к анализу рисков при бинарных исходах ......................................................... 19
2.7.1. Относительный риск в естественной выборке ..................................................... 19
2.7.2. Отношение шансов для целевых выборок .............................................................. 20
2.7.3. Взаимосвязь между относительным риском и отношением шансов ........ 21
2.8. Подходы к анализу рисков при множественных исходах и нескольких
уровнях фактора ......................................................................................................................................... 21
Основные аспекты .......................................................................................................................................... 22
3. Переменные исследования и типы данных............................................................................. 23
3.1. Переменные исследования....................................................................................................... 23
3.2. Типы данных в исследованиях ............................................................................................... 23
Основные аспекты .......................................................................................................................................... 26
4. Гипотеза исследования ...................................................................................................................... 27
4.1. Ошибки I и II рода при проверке гипотез ......................................................................... 27
4.2. Понятие уровня значимости ................................................................................................... 27
4.3. Этапы проверки статистических гипотез ........................................................................ 28
4.4. Мощность исследования и расчет объемов выборок ................................................. 29
4.5. Понятие надежности и валидности исследования ...................................................... 34
Основные аспекты .......................................................................................................................................... 37
5. Сбор данных ............................................................................................................................................. 38
Основные аспекты .......................................................................................................................................... 40
6. Основные виды распределений ..................................................................................................... 41
6.1. Непрерывные распределения ................................................................................................. 41
6.2. Дискретные распределения ..................................................................................................... 44
Основные аспекты .......................................................................................................................................... 46
7. Предварительный анализ данных ............................................................................................... 47
7.1. Основные характеристики данных в предварительном анализе ........................ 47
7.1.1. Количественные переменные ........................................................................................ 47
7.1.2. Номинальные и категориальные переменные ..................................................... 49
7.1.3. Характеристика времен наблюдения ........................................................................ 49
7.1.4. Точечные оценки и доверительные интервалы .................................................. 50
7.1.5. Представление данных в исследованиях ................................................................. 55
7.2. Графическое представление данных .................................................................................. 56
7.2.1. Количественные данные .................................................................................................. 56
7.2.2. Качественные данные ........................................................................................................ 60
7.3. Описание переменной исследования.................................................................................. 60
7.4. Выбор переменной, связанной с исходом......................................................................... 63
Основные аспекты .......................................................................................................................................... 63

2
8. Унивариантный анализ: сравнение с пороговым значением,
доверительные интервалы........................................................................................................................ 64
Основные аспекты .......................................................................................................................................... 70
9. Унивариантный анализ пар ............................................................................................................. 72
9.1. Биноминальная переменная ................................................................................................... 72
9.2. Мультиноминальная переменная ........................................................................................ 75
9.3. Количественная переменная .................................................................................................. 78
9.4. Схемы унивариантного анализа пар ................................................................................... 80
Основные аспекты .......................................................................................................................................... 81
10. Бивариантный анализ: взаимосвязь двух переменных ................................................ 82
10.1. Диаграмма рассеяния.............................................................................................................. 82
10.2. Меры ассоциации ...................................................................................................................... 83
10.2.1. Коэффициент корреляции Пирсона ....................................................................... 83
10.2.2. Коэффициент ранговой корреляции Спирмена ............................................... 85
10.2.3. Коэффициент ранговой корреляции τ (Тау) Кендалла ............................... 85
10.2.4. Коэффициенты сопряженности................................................................................ 86
10.2.5. Коэффициент τ Гудмана-Краскела ........................................................................ 87
10.2.6. Тест Фишера-Фримана-Халтона ............................................................................... 88
10.2.7. Коэффициент детерминации ..................................................................................... 88
10.2.8. Непараметрическая однофакторная ANOVA...................................................... 88
10.2.9. Точечно-бисериальная корреляция и сравнение двух групп ................... 88
10.2.10. Точный тест Фишера ...................................................................................................... 89
10.3. Таблица мер ассоциации и взаимосвязи ....................................................................... 89
Основные аспекты .......................................................................................................................................... 91
11. Бивариантый анализ: биноминальная и биноминальная переменные ............... 92
11.1.1. Чувствительность и специфичность тестов,
прогностическая ценность ............................................................................................................... 92
11.1.2. Оценка мер риска при изучении фактора риска и исхода .......................... 94
11.1.3. Оценка эффективности лечения .............................................................................. 98
11.1.4. Обнаружение различий в пропорциях двух групп на основе
доверительных интервалов ............................................................................................................. 99
11.1.5. Тесты таблиц 2 2 ......................................................................................................... 102
Основные аспекты ........................................................................................................................................ 104
12. Бивариантый анализ: биноминальная и количественная переменные............. 105
Тест Стьюдента для независимых выборок ................................................................................... 108
12.1. Анализ двух групп: Характеристическая кривая
(receiver operating characteristic(ROC) curve) ............................................................................. 109
12.2. Анализ двух групп: расстояние между группами ................................................... 113
Основные аспекты ........................................................................................................................................ 113
13. Бивариантный анализ: биноминальная и мультиноминальная
переменные (таблицы 2  c ) ................................................................................................................... 115
Основные аспекты ........................................................................................................................................ 118
14. Бивариантый анализ: мультиноминальная и мультиноминальная
переменные (таблицы r  c ) .................................................................................................................... 119
Основные аспекты ........................................................................................................................................ 125
15. Бивариантый анализ: мультиноминальная и количественная
переменные – анализ нескольких групп .......................................................................................... 127
15.1. Однофакторная ANOVA (Однофакторный дисперсионный анализ) ............ 127
15.2. Непараметрическая ANOVA ............................................................................................... 129
15.3. Общие замечания .................................................................................................................... 129
Основные аспекты ........................................................................................................................................ 130

3
Часть 2 ................................................................................................................................................................. 131
16. Линейная регрессия ....................................................................................................................... 131
16.1. Простая линейная регрессионная модель ................................................................. 131
16.1.1. Корреляция vs регрессия............................................................................................ 136
16.2. Линейная регрессия с бинарным предиктором ...................................................... 136
16.3. Линейная регрессия с мультиноминальным предиктором ............................. 137
16.4. Линейная регрессионная модель с несколькими предикторами.................. 138
16.5. Понятие конфаундера, ковариационный анализ ................................................... 139
16.6. Взаимодействие предикторов в линейной модели .............................................. 141
16.7. F-критерий в линейной регрессии ................................................................................. 145
16.8. Анализ остатков ....................................................................................................................... 146
16.8.1. Предположение линейности модели ................................................................... 146
16.8.2. Предположение независимости остатков ......................................................... 147
16.8.3. Предположение о гомоскедастичности .............................................................. 147
16.8.4. Предположение о нормальности распределения ошибки ....................... 148
16.8.5. Диагностика выбросов и аномальных наблюдений в регрессии ......... 149
16.9. Преобразование переменных ........................................................................................... 152
16.10. Примеры построения линейной регрессии............................................................... 155
Основные аспекты ........................................................................................................................................ 173
17. Логистическая регрессия............................................................................................................. 174
17.1. Логистическая регрессия с бинарным предиктором ........................................... 175
17.2. Логистическая регрессия с мультиноминальным предиктором .................. 176
17.3. Пример построения логистической регрессии ....................................................... 176
17.4. Логистическая регрессия с количественным предиктором ............................ 178
17.5. Интерпретация параметра β 0 в логистической регрессии .............................. 178
17.6. Взаимодействие предикторов в логистической регрессии .............................. 179
17.7. Стратифицированный анализ серии таблиц 2 х 2 ................................................. 180
17.8. Пример анализа взаимодействия с помощью таблиц 2 x 2............................... 182
17.9. Проверка предположений модели логистической регрессии ......................... 186
17.9.1. Тестирование гипотез логистической регрессии ......................................... 186
17.9.2. Диагностика логистической регрессии .............................................................. 188
17.9.3. Предположения о линейности количественных переменных
в логистической регрессии ............................................................................................................ 189
17.9.4. Пример анализа линейности количественной переменной ................... 189
17.10. Вычислительные проблемы .............................................................................................. 191
17.11. Замечания по использованию логистической регрессии .................................. 192
Основные аспекты ........................................................................................................................................ 193
18. Анализ выживаемости .................................................................................................................. 194
18.1. Понятие цензурированных данных, событий и времен наблюдения ......... 194
18.2. Функция выживаемости ...................................................................................................... 196
18.3. Сравнение групп по выживаемости .............................................................................. 199
18.4. Понятие функции риска ...................................................................................................... 200
18.5. Регрессионная модель пропорциональных рисков Кокса ................................ 202
18.6. Регрессия Кокса с бинарным предиктором............................................................... 203
18.7. Регрессия Кокса с количественным предиктором ................................................ 203
18.8. Взаимодействие предикторов в модели Кокса ....................................................... 204
18.9. Проверка предположений модели регрессии Кокса ............................................ 204
18.10. Оценка значимости и согласованности модели
пропорциональных рисков Кокса ................................................................................................... 206
18.11. Замечания по использованию регрессии Кокса...................................................... 207

4
18.12. Основные типы выживаемости при исследовании онкологических
заболеваний ................................................................................................................................................ 208
Основные аспекты ........................................................................................................................................ 209
19. Выбор предикторов для модели и рекомендации по построению
регрессионных моделей ............................................................................................................................ 210
20. Использование результатов моделирования для прогноза ..................................... 212
Основные аспекты ........................................................................................................................................ 213
21. ANOVA с повторяющимися измерениями ........................................................................... 214
21.1. Контроль ошибки первого рода при множественных сравнениях............... 220
Основные аспекты ........................................................................................................................................ 221
22. Лабораторные эксперименты ................................................................................................... 223
22.1. Базовые схемы дизайна ....................................................................................................... 223
22.2. Описание данных .................................................................................................................... 224
22.3. Статистические критерии .................................................................................................. 225
22.4. Расчет размера выборки...................................................................................................... 226
Основные аспекты ........................................................................................................................................ 227
23. Уровень значимости и доверительные интервалы: практический подход ..... 228
Основные аспекты ........................................................................................................................................ 236
Заключение .................................................................................................................................................... 237
Рекомендуемая литература ................................................................................................................. 238
Приложение R. Почему R? ..................................................................................................................... 243
Приложение R-1........................................................................................................................................... 245
Приложение R-2........................................................................................................................................... 246
Приложение R-3........................................................................................................................................... 248
Приложение R-4........................................................................................................................................... 249
Приложение R-5........................................................................................................................................... 250
Приложение R-6........................................................................................................................................... 251
Приложение R-7........................................................................................................................................... 252
Приложение R-8........................................................................................................................................... 253
Приложение R-9........................................................................................................................................... 254
Приложение R-10 ........................................................................................................................................ 256
Приложение R-11 ........................................................................................................................................ 265
Приложение R-12 ........................................................................................................................................ 268
Приложение R-13 ........................................................................................................................................ 270
Приложение. Уровни доказательности в исследованиях ................................................ 276

5
Часть 1

Введение
Книг по статистическому анализу данных много, не просто много, а очень
много. И, тем не менее, каждый раз с каждым исследователем мы начинали все
заново. Почему так можно и так нельзя анализировать, какой критерий лучше
выбрать, какие характеристики данных указать в статье, какие выводы допустимы,
а какие нет. Данное пособие – не книга по теории статистики. Скорее, она о том, как
пройти статистический анализ в исследовании от начала до конца, зачем считать ту
или иную статистику, зачем выполнять те или иные действия над данными, что
означает та или иная характеристика ваших данных именно в привязке к медико-
биологическим исследованиям. Современные компьютерные статистические
пакеты очень мощны и разнообразны. Посчитать можно многое. Вопрос – зачем?
95% ваших исследований укладывается в те понятия и характеристики, которые
приведены в этой книге. За более сложными моделями данных и расчетами –
обратитесь к статистикам-специалистам.
Мы же с вами пройдем схематично весь путь вашего исследования. Некоторые
расчеты характеристик ваших данных будут приведены, некоторые достаточно
сложны, чтобы приводить их в этом пособии, большинство вам знакомы, и
рассчитываются во многих статистических пакетах, которыми вы пользуетесь.
Остается вопрос – как интерпретировать полученные расчеты, как выстроить
систему доказательств, что означает та или иная характеристика в системе ваших
доказательств.
Я надеюсь, что это пособие поможет понять, что и как надо делать, чтобы
доказать правомерность ваших выводов на основе данных вашего исследования.
Правильное проведенное и снабженное статистическими доказательствами
исследование даст цельный взгляд на поднятую в исследовании проблему.
Ремарка: Мы считаем, не для того, чтобы посчитать, мы считаем, для того, чтобы понять.
В пособии все термины, имеющие отношение к статистическому анализу
данных приводятся на русском и английском языках. Это может помочь при чтении
статей в международных журналах, чтобы понять, как проводился статистический
анализ медико-биологических данных. Более того, существует много англоязычных
книг, посвященных прикладным аспектам анализа клинических и
эпидемиологических данных в доказательной медицине. Правильно понятая
терминология позволит вам сосредоточиться на сути медицинской проблемы,
системе доказательств, а не на поиске и переводе статистических терминов.
В разделе 1 кратко изложен системный подход к построению исследования,
связанного с доказательной медициной.
В разделе 2 дана краткая характеристика типовых дизайнов исследований.
Раздел 3 знакомит с типами данных в исследовании.
Раздел 4 знакомит с основами проверки статистических гипотез.
В разделе 5 представлены общие рекомендации по сбору данных в
исследовании.
Раздел 6 кратко знакомит с хорошо изученными в статистическом анализе и
часто встречающимися в медицинских исследованиях видами распределений
случайных величин.

6
Раздел 7 знакомит с основными характеристиками выборочных
распределений и их визуализацией.
Раздел 8 объясняет принципы построения доверительных интервалов и их
интерпретацию.
В разделе 9 представлены основы анализа парных измерений.
Раздел 10 посвящен мерам ассоциации и взаимосвязи двух переменных
исследования.
В разделе 11 представлен анализ и интерпретация таблиц 2 2 .
В разделе 12 описан анализ двух групп с использованием количественных
данных.
В разделах 13 и 14 даны подходы к анализу таблиц сопряженности 2  c и
r c .
В разделе 15 кратко даны основы дисперсионного анализа.
Раздел 16 описывает линейные регрессионные модели, подходы к их
построению, анализу и интерпретации в случае количественной зависимой
переменной.
Раздел 17 описывает линейные регрессионные модели (логистическая
регрессия), подходы к их построению, анализу и интерпретации в случае бинарной
зависимой переменной.
В разделе 18 даны основы анализа выживаемости, линейная регрессионная
модель пропорциональных рисков Кокса, ее построение, анализ и интерпретация.
Раздел 19 посвящен общим принципам построения регрессионных моделей в
исследованиях.
Раздел 20 знакомит с изучением построенных моделей для прогноза.
В разделе 21 даны основы анализа повторяющихся измерений
применительно к медицинским данным.
В разделе 22 представлены методы, часто используемые в радомизированных
контролируемых лабораторных экспериментах.
Раздел 23 содержит заключительные аспекты по интерпретации результатов
исследования и краткий взгляд на клиническую важность полученных
статистических результатов.

7
1. Общий подход к построению исследования в доказательной
медицине
Как и в любой другой науке, исследования в медицине опираются на общую
методологию, общий подход. В настоящее время существует несколько основных
прикладных типов исследований в медицине. Это когортные исследования,
исследования случай-контроль, одномоментные исследования и
рандомизированные клинические испытания.
Для любых этих исследований есть несколько стадий:
1. Разработка дизайна исследования.
2. Сбор данных, предварительный обзор данных, оценка факторов и
исхода.
3. Анализ данных.
4. Интерпретация результатов анализа.
5. Экстраполяция на популяцию.
На стадии дизайна (первый шаг) исследователю необходимо сформулировать,
какой параметр пациента будет исходом, характеризовать результат; как и какие
данные о пациенте и факторах воздействия на организм пациента будут собраны;
понять и сформулировать гипотезу исследования; определить популяцию, критерии
включения и исключения пациентов в исследование; выбрать тип исследования,
метод распределения пациентов в группы; определить размер выборки, указать
ошибки I и II рода.
Второй шаг – сбор данных, измерение степени выраженности факторов и
классификация исходов наблюдений (наступление заболевания, некоторого
состояния или результатов лечения). Тут же проводится предварительный анализ,
могут быть выявлены выбросы или ошибки в данных.
Анализ данных – третий шаг, оценка параметров распределения
эмпирических данных исследования, проверка предположений, лежащих в основе
выбранных методов статистического анализа, непосредственно проведение
статистического анализа, определение статистической значимости результатов
исследования.
Выводы и заключения, касающиеся исследуемой выборки (выборка может
состоять из нескольких групп) – это четвертый шаг. На этом шаге выявляются
причинно-следственные связи, эффекты воздействий факторов и пр.
Экстраполяция – заключительный шаг исследований. Выводы, сделанные на
предыдущем шаге могут распространяться на группы и популяции, которые похожи
на исследуемые. Также могут делаться выводы о популяциях, которые отличаются
от тех, которые включены в исследования, определятся группы повышенного риска
и т.п.
Доказательная медицина – это раздел науки, который собирает факты для
доказательств или опровержений некоторых медико-биологических суждений.
Только правильное соблюдение всех шагов в исследовании может привести к
нужному результату. Неправильный дизайн порождает неправильный сбор
информации. Неправильный сбор порождает неправильную обработку и т.д. Важны
все шаги. Тогда доказательства выстроятся в четкую линию и будут убедительны.

8
2. Основные типы дизайна исследований
Прежде, чем перейти к рассмотрению особенностей различных дизайнов
исследований, рассмотрим базовые понятия эпидемиологии и доказательной
медицины, которые позже будут определять дизайн исследования, возможные
методы анализа данных, интерпретацию результатов и возможную экстраполяцию.
Исследования в медицине проводятся ради конечной цели либо снижения
риска заболевания, либо снижения риска (вероятности) неблагоприятного исхода
при заболевании. Также есть исследования, связанные со снижением стоимости
лечения, в этом случае речь идет о не увеличении рисков и неблагоприятных
исходов при снижении стоимости лечения. Согласно (Флетчер (1998)):
Фактор риска – это особенность организма или внешнее воздействие,
приводящее к увеличению риска возникновения заболевания или иному
неблагоприятному исходу.
Под исходом понимается состояние пациента (параметра пациента),
зафиксированное в процессе исследований. Основные исходы – это смерть,
заболевание, дискомфорт, инвалидизация, неудовлетворенность. Исходом также
может быть такое событие как выздоровление, когда речь идет о сравнении методов
лечения.
Прогностический фактор (предиктор) – идентифицирует группы пациентов с
одинаковым заболеванием, но различным прогнозом исхода. Такие факторы могут
быть благоприятными и неблагоприятными.
Таким образом, понятие риска включает в себя такое событие как
заболевание, в то время как прогностический фактор, как понятие, используется для
пациентов с определенным заболеванием (состоянием). Факторы риска и
прогностические факторы могут не совпадать, некоторые влияют как на риск
заболевания, так и на его прогноз, причем влиять могут по-разному.
Установление связи между фактором и исходом – важнейший аспект
медицинских исследований.
При построении дизайна исследований в эпидемиологии единицей
наблюдения является, исследуемый (пациент). В зависимости от того, будут ли
наблюдения над исследуемыми пассивны, когда испытатель не вмешивается в
распределение исследуемых на определенные группы, или принимает участие в их
распределении на группы, наблюдения делятся на пассивные (обсервационные) и
активные (рандомизированные). Обсервационные наблюдения разделяются на три
базовых типа неэкспериментального (обсервационного) исследования: когортное
(проспективное) исследование, исследование случай-контроль и одномоментное
исследование (Рис. 2–1).
Для всех типов дизайнов основной целью в исследовании является
установление связи между предполагаемыми факторами риска (прогностическими
факторами) и событиями (заболевание, смерть и т.п.). Вопрос о причинно-
следственной связи является более сложным, и в таком дизайне как одномоментное
исследование он очень спорен, поскольку фиксация определенного состояния и
уровня некоторого фактора не позволяет судить о том, явился ли фактор причиной
некоторого состояния исследуемого, или состояние вызвало определенный уровень
фактора у исследуемых, а восстановление воздействия фактора по памяти
исследуемых склонно к ошибкам. После краткого описания основных
обсервационных дизайнов исследования в медицине приведена таблица
сравнительных характеристик этих исследований (Табл. 2–1).

9
Наблюдения
Пассивные Активные

Обсервационные наблюдения Рандомизированные исследования

Исследования случай- Когортные


контроль исследования Одномоментные исследования

Проспективные Исследования базы


когортные данных
исследования

Рис. 2–1. Основные типы дизайна исследований

2.1. Когортное исследование


В когортном исследовании (cohort study) когорта – это группа лиц,
объединенных общим признаком и наблюдаемых в течение определенного периода
времени, чтобы проследить, что с ними произойдет в дальнейшем.
Это исследование также называют продольным (longitudinal) или
исследованием возникновения заболеваний (событий). Имеется в виду, что группа
сформирована в настоящее время и будет прослежена в будущем для оценки
возникновения некоторого исхода. Также исследование когорты может проводиться
по архивным документам. В этом случае это историческое когортное исследование
(database study/historical cohort study/nonconcurrent cohort study), однако оно не
перестает быть проспективным по сути: выбирается когорта и прослеживается, что
произошло с исследуемыми в дальнейшем по архивным документам.
Основной целью когортного исследования является изучение возникновения
исхода (состояния, заболевания). Когорта может набираться не в один момент
времени, например, изучение развития сопутствующего заболевания при сахарном
диабете – когорта может формироваться из тех, кому диагностирован сахарный
диабет в течение 2005–2008 гг. и далее вестись наблюдения, что с ними произойдет
в дальнейшем (наступит сопутствующее заболевание или нет) например, в течение
10 лет. Календарно точки наблюдения будут разнесены, но относительно когорты
исследуемых – время будет одно и то же: год спустя начала основного заболевания,
два года и т.д.
Выборки в таких исследованиях носят также название естественных
(Naturalictic sample).
На рисунке 2–2 приведена простейшая схема когортного исследования для
такого события (исхода) как заболевание.

10
Популяция
(больные и небольные)
Промежуточные Промежуточн Окончательные
наблюдения ые наблюдения
наблюдения

Выборка
Заболело, фактор есть
Заболело, фактора нет
… Заболело, фактор есть
Заболело, фактора нет
(из небольных) Не заболело, фактор есть Не заболело, фактор есть
Не заболело, фактора нет Не заболело, фактора нет
Выбыло Выбыло

Начало исследования,
фиксирование
исследуемого фактора
(есть или нет, или
измерение)

начало Наблюдения во времени, окончание


исследований промежуточный анализ исследований
Анализ данных

Рис. 2–2. Схема когортного исследования

Существуют два подтипа когортных исследований: отрытые и завершенные


(Open Cohort Study и Closed Cohort Study).
В открытых когортных исследованиях время наблюдения считается
различным для каждого наблюдения и заканчивается либо событием, либо
наблюдение цензурируется (событие не наступило, фиксируется только срок
наблюдения).
В завершенных когортных исследованиях время наблюдения считается
одинаковым для всех случаев ( T ). Событие фиксируется, если оно наступило в
промежуток времени наблюдения T . Наблюдения без наступления события должны
иметь продолжительность наблюдения не менее T .
Ремарка: Когортное исследование – это “зеркало” популяции, то, что будет происходить в масштабах
популяции, в такой же мере будет происходить в когорте, если правильно составить дизайн
когортного исследования.
Основные моменты, на которые обращают внимание при когортном
исследовании (Флетчер (1998)):
Четкая формулировка включения и исключения пациентов в исследование.
– Имеют ли исследуемые риск развития исхода, поскольку бессмысленно
наблюдать пациентов, у которых исход уже имеет место, или не наступит никогда.
– Находятся ли пациенты в одинаковой точке отсчета (по времени) в течении
заболевания, поскольку прогноз и выводы могут зависеть от того, с какого момента
в процессе заболевания начинается отсчет.
– Все ли члены когорты завершили исследование, поскольку выбывание в
процессе исследования может приводить к систематическим ошибкам.
– Одинаково ли проводилось выявление исходов, поскольку также могут
возникать систематические ошибки при измерениях.

11
При выявлении фактора, влияющего на исход в различных группах, влияние
других факторов должно быть представлено в равной мере во всех изучаемых
группах.

2.2. Исследование случай-контроль


В исследованиях случай-контроль (case-control study) сравнивается
распространенность предполагаемого фактора риска в экспериментальной и
контрольной группах. Если заболевание является редким, исследование случай-
контроль может помочь в определении различий в группах, связанных с
исследуемыми факторами. Однако, в исследовании случай-контроль невозможно
определить частоту возникновения исхода (заболевания), поскольку группы
подбираются искусственно для выявления факторов, связанных с исходом. Этот тип
исследования более склонен к смещениям (систематическим ошибкам, bias), и более
подходит к исследованию редких заболеваний.
Целью исследований случай-контроль является выявление уровня факторов,
включенных в исследование, которые ассоциируются с исходом. Основной вопрос
исследований – это установление степени ассоциации между риском исхода и
факторами, включенными в исследование, степени, с которой данные факторы
могут быть рассмотрены как причины исхода.
В отличие от когортных исследований, в которых исследуется соотношение
подверженных и неподверженных предполагаемому фактору риска по отношению к
исходу (например, заболеванию), исследование случай-контроль обычно сравнивает
пациентов с исходами (группа “случай”) и без исходов (группа “контроль”) по
отношению к уровню воздействия предполагаемого фактора риска.
Ремарка: Исследование случай-контроль – это исследование разницы в проявлении факторов между
двумя (или более) группами, одна из которых является контрольной (базовой, группой не имеющих
интересующего исследователя заболевания). Не может отражать соотношение страдающих/не
страдающих от изучаемого заболевания в популяции, однако может отобразить разницу в уровнях
изучаемого фактора для пациентов страдающих/не страдающих от изучаемого заболевания при
правильном проектировании дизайна этого исследования.
Выборки в таких исследованиях носят название целевых (Purposive sample).
Разновидностью дизайна исследования случай-контроль является парный
дизайн “matched pairs”, когда к каждому исследуемому с заболеванием ставится в
соответствие исследуемый без выявленного заболевания. Пары могут составляться
по полу, возрасту и другим факторам, не относящимся к исследованию, которые
максимально похожи у пары.
Основные моменты, на которые обращают внимание при исследовании
случай-контроль (Флетчер (1998)):
– Производилось ли включение в исследование пациентов в начале
заболевания, поскольку факторы риска могут быть связаны как с началом, так и с
длительностью заболевания.
– Одинаковы ли основная и контрольная группа по всем факторам, кроме
изучаемого; для обоснованной оценки относительного риска необходима
сопоставимость сравниваемых групп.
– Одинаковы ли методы воздействия в основной и контрольной группах, не
существует ли систематической ошибки.

12
Начало
исследований

Популяция
(больные и небольные)

Случай Контроль
(больные) (небольные)

Выборка

Исследование, фиксирование
исследуемого фактора
(есть или нет)
Возможно обращение к
архивным данным (в прошлое
для определения воздействия
исследуемого фактора)

Окончательные
наблюдения

Заболело, фактор есть (A)


Заболело, фактора нет (В)
Не заболело, фактор есть (С)
Не заболело, фактора нет (D)

Окончание
исследований,
Анализ данных

Рис. 2–3. Схема исследования случай-контроль

2.3. Одномоментное исследование


Одномоментное исследование (cross-sectional or prevalence study) – вариант
описательного исследования, проводимого в определенный момент времени с
целью оценки распространенности заболевания или исхода, изучения течения
заболевания и т.д. Как следует из сущности такого исследования, изучается
распространенность заболевания, а не случаи возникновения.
Одномоментное исследование также носит название исследования
распространенности, отвечая на вопрос – что происходит прямо сейчас (хотя
формально исследование может продолжаться некоторое время). Выборка в таком
исследовании будет естественная.

13
Популяция
(больные и небольные)

Начало
исследований

Выборка

Окончательные
наблюдения

Заболело, фактор есть (A)


Заболело, фактора нет (В)
Не заболело, фактор есть (С)
Не заболело, фактора нет (D)

Окончание
исследований,
Анализ данных

Рис. 2–4. Схема одномоментного исследования

Основные моменты, на которые обращают внимание при одномоментном


исследовании (Флетчер (1998)):
– Критерии выявления случая, поскольку распространенность зависит от
того, что исследователь понимает под случаем.
– Поскольку распространенность зависит от характеристик популяции,
необходимо указывать точные критерии включения исследуемых в популяцию.
– Репрезентативность исследуемой выборки, поскольку распространенность
для выборки будет экстраполироваться на всю популяцию.
Таблица 2–1. Сравнительная таблица обсервационных типов исследования (Флетчер (1998))
Когортное (проспективное) Исследование случай-контроль Одномоментное
исследование исследование
Начинается с определения популяции, Популяция, подвергающаяся Начинается с определения
подвергающейся воздействию фактора фактору риска, не обязательно популяции
риска определена
Случаи не отбираются, а Случаи отбираются Случаи не отбираются, а
устанавливаются в процессе исследователем из имеющейся устанавливаются при
непрерывного наблюдения совокупности пациентов, одномоментном
страдающих от изучаемого обследовании популяции
заболевания
Контрольная группа (без изучаемого Контрольная группа (без Контрольная группа
исхода) не отбирается, а формируется изучаемого исхода) отбирается включает в себя лиц, у
естественным образом таким образом, чтобы она которых не выявлено
была сходна с заболевание (исход) при
экспериментальной по одномоментном
остальным (не изучаемым) исследовании
параметрам
Воздействие фактора риска оценивается Группы формируются по Исход и уровень
до развития исхода (заболевания) у исходу до того, как воздействия фактора риска

14
всей когорты исследователь узнает об выявляются одновременно
данных по исследуемому
фактору риска
Риск или заболеваемость, а также Риск или заболеваемость Риск или заболеваемость
относительный риск измеряются нельзя оценить нельзя оценить
непосредственно непосредственно, непосредственно,
относительный риск относительный риск
воздействия можно оценить по воздействия можно
отношению шансов оценить по отношению
шансов
что случится что случилось что происходит в
настоящий момент

2.4. Экспериментальные или рандомизированные


клинические исследования
Цель этих исследований (experimantal studies or randomized clinical trials – RCT)
в клинической медицине – определить, какое лечение наилучшее среди нескольких
предлагаемых. Это исследование предполагает рандомизацию пациентов в
различные группы и минимизирует потенциальную ошибку выборки
(систематическую ошибку). Исследование является проспективным по природе –
пациенты наблюдаются в течение некоторого периода времени.
Слепое исследование – процедура, обеспечивающее отсутствие информации о
том, к какой группе – экспериментальной или контрольной – отнесен каждый
испытуемый. При простом слепом методе информация отсутствует только у
испытуемых, при двойном слепом – у испытуемых и исследователей, при тройном
слепом – у исследуемых, исследователях и лиц, проводящих статистическую
обработку. Данная процедура применяется для устранения систематической
ошибки в клинических исследованиях.
Выборка в таком исследовании будет целевая (Purposive sample).

Регистрация испытуемых по
критериям Результат положительный (A)
вхождения/исключения Результат отрицательный (C)
Выбыло (L)
Группа лечения

Рандомизация

Группа контроля Результат положительный (B)


Результат отрицательный (D)
Выбыло (M)

начало Возможны наблюдения во окончание


исследований времени, промежуточный анализ исследований
Анализ данных

Рис. 2–4. Схема рандомизированного клинического исследования

15
В рандомизированных клинических исследованиях групп может быть
несколько. Однако, как правило, их две: опытная и контрольная. Контрольная
группа может получать традиционное лечение, плацебо и т.п., экспериментальная
получает некоторое экспериментальное лечение.
Основные моменты, на которые обращают внимание при рандомизированных
клинических испытаниях (Флетчер (1998)):
– Соблюдение всех требований к когортным исследованиям, поскольку
клинические испытания – разновидность когортных исследований.
– Случайным ли образом разделены испытуемые на опытную и контрольную
группы, поскольку это единственный надежный способ избежать систематических
ошибок.
– Насколько “слепым” было исследование, то есть, знали ли испытуемые,
персонал и исследователь, к какой группе принадлежит каждый испытуемый.
Полностью слепое исследование позволяет избежать смещения оценок.
– Были ли равными все остальные условия, медицинские вмешательства,
кроме изучаемого.
– Анализ данных зависит от того, получали ли все испытуемые предписанное
лечение (воздействие) или данные оцениваются по факту полученного воздействия.
Во втором случае такое исследование превращается в когортное исследование.

2.5. Общие замечания по дизайну исследований


Когортное исследование подразумевает, что соотношение исходов (например,
доли страдающих от изучаемого заболевания и здоровых) в когорте отражает
действительное соотношение исходов в исследуемой популяции. Может быть
обоснована причинно-следственная связь при наличии биологических
доказательств.
Исследование “случай-контроль” может искажать действительное
соотношение исходов в популяции, и непригодно для оценки вероятности
наступления исхода (события). Однако оно может быть использовано для
установления уровней фактора риска, влияющих на исход. Может быть обоснована
причинно-следственная связь при наличии биологических доказательств.
Одномоментное исследование также подразумевает, что соотношение
исходов (например, доли страдающих от изучаемого заболевания и здоровых) в
выборке отражает действительное соотношение исходов в исследуемой популяции.
Невозможно установить причинно-следственную связь (фактор вызвал исход или
исход (заболевание) повлекло изменение уровня фактора). Одномоментное
исследование как срез состояния определенной популяции может быть использован
при проведении когортных исследований в промежуточных точках контроля.
Рандомизированные клинические испытания не отвечают на вопрос о
соотношении исходов в популяции, однако могут ответить на вопрос об
эффективности лечения для исследуемой популяции. Надо иметь в виду, что
критерии включения и исключения из исследования будут влиять на
экстраполяцию результатов клинических испытаний на всю популяцию со сходным
заболеванием.
Таким образом, распределение пациентов на группы в когортном
исследовании определяется по факту наступления/ненаступления исхода в процессе
исследования. Распределение пациентов в группы в исследовании “случай-
контроль” проходит в начале исследования. Распределение пациентов на группы в
одномоментном исследовании происходит одновременно с наблюдением пациента.
16
Процедуры распределения на группы в рандомизированных клинических
испытаниях происходят строго регламентировано (“слепое”, “двойное слепое” и др.
распределения).
Необходимо упомянуть, что любой тип дизайна сопровождается так
называемыми случайными и систематическими ошибками – смещениями (bias) от
истинных значений в силу некоторых особенностей исследования.
 Основными источниками такого рода смещений в медицинских
исследованиях являются:
 Ограниченность размеров выборки – исследователь не знает эффекта
от фактора (или вмешательства) во всей популяции.
 Назначение лечения в зависимости от степени тяжести и особенностей
пациента с учетом прогноза.
 Выявление определенного исхода (эффекта от лечения) в группе может
быть суъективным, если отсутсвуют строгие стандарты.
 Положительные результаты публикуются чаще, чем исследования,
которые не показали значимых результатов.
 Влияние ожидаемого исхода на особенности исследования.
 Особенности измерительных приборов и методик и др.
Обработка данных исследований может снизить некоторые виды ошибок, в
большей степени их минимизирует дизайн рандомизированных клинических
испытаний.
Примеры исследований:
1. В 2011 г. в одной из клиник начато исследование: изучается
воздействие препаратов, снижающих риск возникновения
осложнения после определенного оперативного вмешательства в
течение 30 дней. Лекарственные препараты, которые могут снизить
риск возникновения осложнения, назначались врачом, исходя из
состояния пациента. Прослежена группа пациентов, которая
проходила оперативное лечение в 2010 году. Исходами являются:
осложнение наступило/осложнение не наступило.
Данное исследование будет когортным историческим исследованием,
поскольку пациенты не были рандомизированы, состояние определялось по
записям в истории болезни пациентов.
2. Изучается фактор прогноза (уровень начального лейкоцитоза в
периферической крови при постановке диагноза) у пациентов,
взятых на лечение в 2010 году с диагнозом лимфобластный лейкоз.
Группа будет получать одинаковое лечение и прослеживаться на
протяжении 5 лет. Исходы (прогностические): пациент жив/пациент
умер.
Данное исследование будет когортным проспективным исследованием,
поскольку в начале исследования фактор прогноза известен, исход будет
устанавливаться в процессе исследования.
3. В 2011 году начато исследование по заболеванию раком молочной
железы среди женщин продуктивного возраста по уровню
некоторого гормона. Изучены истории болезней женщин, которые
находились на учете в женской консультации в 2010г. Выявлены все
случаи диагноза рака молочной железы, возникшие в 2010 (группа
случаев). Группа контроля формировалась из женщин
продуктивного возраста, которые обращались в женскую

17
консультацию в 2010 году и которым выполнялся анализ на
гормоны, однако рака молочной железы у них не выявлено. После
формирования групп по истории болезни находился анализ,
определяющий уровень исследуемого гормона для всех выбранных
случаев и контрольной группы.
Данное исследование будет исследованием случай-контроль, поскольку уже
установлен исход у исследуемой группы, значения фактора риска будет
устанавливаться для обеих групп после включения в исследование.
4. В ноябре 2010г. проводилось исследование среди студенток:
фиксировался уровень давления (систолического и
диастолического) и продолжительность кровотечений при
месячных.
Данное исследование будет одномоментным, установить, что давление
вызывает изменения в длительности или длительность вызывает изменения в
давлении, в данном исследовании не представляется возможным, однако возможна
взаимосвязь между давлением и длительностью кровотечений у молодых девушек.
Кроме обсервационных наблюдений и активных (экспериментальных)
исследований существует промежуточная группа так называемых квази-
экспериментальных исследований. Они имеют черты экспериментального
исследования, но отличаются по ключевому моменту рандомизации. Хотя может
показаться, что группы отличаются только уровнем некоторого фактора (например,
традиционное и экспериментальное лечение), но эти группы не образуются путем
рандомизации по этому фактору.
Один из классических примеров – изучение снижения смертности от аварий
после введения законов об обязательном использовании ремней безопасности. На
первый взгляд, оценить эффект от введения законов можно, сравнив уровни
смертности и инвалидизации в результате аварий на дорогах и после введения
законов. Однако, для полной оценки необходимо учесть и другие изменения,
которые произошли после введения законов. Например, были ли изменения в
скоростных режимах на дорогах?
Отсутствие рандомизации, а также неспособность контролировать уровень
воздействия изучаемого фактора и других связанных с исследованием факторов,
делают такой вид исследования менее желательным для установления причинно-
следственной связи между фактором риска и исхода. Но тем не менее, такие
исследования возникают во врачебной практике. Типичный пример – это
исследования, которые планируются не заранее, а исходя из опыта врача-
клинициста. Например, врач-психолог несколько лет ведет прием пациентов с
повышенной тревожностью. Лечение дается по стандартной методике. Исходом
является состояние пациента спустя год после начала лечения. Накопив
практический опыт, врач понимает, что методику можно улучшить. Следующие
несколько лет пациенты (новые) проходят лечение по измененной методике, также
фиксируется их состояние спустя год после начала лечения.
Фактический материал, накопленный по двум группам (стандартного и
экспериментального лечения) должен послужить доказательством, что измененная
методика дает лучшие результаты лечения.
Такой тип исследования хотелось бы назвать клиническими испытаниями
(нерандомизированными), однако, клинические испытания – это разновидность
когортных исследований, поэтому наиболее точное определение таких
исследований – это завершенные когортные исследования. Лечение по разным
методикам будет рассматриваться как фактор, влияющий на исход заболевания.

18
Исследование будет квазиэкспериментальным, и после учета всех вмешивающихся в
исследование факторов, можно будет оценить эффект от изучаемого фактора –
измененной методики лечения.

2.6. Понятие исхода и риска


Типичные вопросы, на которые отвечает исследование – как исход связан
факторами, какие уровни фактора благоприятны или неблагоприятны для исхода,
как соотносятся факторы между собой в исследовании, как предсказать исход,
основываясь на имеющихся данных. Фактором может выступать как некоторый
биологический параметр пациентов, так и внешнее воздействие (лечение,
природные условия проживания и пр.)
Под исходом понимается состояние пациента (параметра пациента),
зафиксированное в процессе исследований. На рисунках по типам исследования
представлен бинарный исход, однако исходы бывают и множественными, а также
выраженными одним или несколькими количественными параметрами.
Примеры бинарных исходов – заболевание наступило/заболевание не
наступило, выздоровление наступило/выздоровление не наступило, осложнение
наступило/осложнение не наступило.
Пример множественного исхода: реакция на воздействие (лечение):
угнетенное состояние/небольшой дискомфорт/удовлетворительное самочувствие.
Пример количественного исхода: уровень диастолического давления, уровень
глюкозы в крови и пр. Также оценку исхода можно получить, сравнивая некоторый
уровень показателя до и после лечения в процентном или относительном
повышении/понижении показателя.
Для понимания терминов относительного риска и отношения шансов, а также
подхода к их расчету проще начать с бинарных исходов.
Исследование наступления таких исходов связано с оценкой относительного
риска или отношения шансов и базируется на двухвходовых таблицах (Табл.2–2) .
Таблица 2–2. Представление отношения фактора риска и заболевания таблицей 2 х 2.
Фактор риска (прогноза)
Да Нет

Заболевание Есть A В A+В


(состояние) Нет С D С+D
A+С В+D N

2.7. Подход к анализу рисков при бинарных исходах


2.7.1. Относительный риск в естественной выборке

Естественная выборка в когортном исследовании отражает состояние всей


популяции, поэтому можно рассчитать относительный риск (relative risk) в выборке
и экстраполировать выводы на всю популяцию.
Абсолютный риск возникновения исхода (заболевания, смерти и др.) среди
носителей фактора риска (абсолютный риск группы, находящейся под воздействием
A
фактора) AR yes  .
AC

19
Абсолютный риск возникновения исхода (заболевания) среди неносителей
фактора риска (абсолютный риск группы, не находящейся под воздействием
B
фактора) ARno  .
BD
Относительный риск RR 
A A  C 
B B  D 
Пример
В Табл. 2–3 представлены условные данные когортного исследования.
Таблица 2–3. Данные исследования
Курение
Да Нет

Рак Есть 225 75 300


легких Нет 75 625 700

300 700 1000

Абсолютный риск возникновения рака легких среди


курящих = AR yes  225 / 300  0,75 .
Абсолютный риск возникновения рака легких среди некурящих
ARno  75 / 700  0,11 .

Относительный риск RR 
225 / 300   7 .
75 / 700 
Для курящих частота возникновения рака легких в семь раз выше, чем для
некурящих.

2.7.2. Отношение шансов для целевых выборок

Целевая выборка не отражает истинное состояние популяции страдающих от


изучаемого заболевания и здоровых. Поскольку в исследовании случай-контроль,
рандомизированных клинических испытаниях невозможно определить отношение
рисков и частоту возникновения событий, предлагается оценивать относительный
риск через отношение шансов (Odds Ratio).
Понятие шанса (odds) – это альтернативный путь выражения вероятности
наступления исхода в группе. Если вероятность исхода в некоторой группе равна π ,
π
то шансы Odds  , т.е. вся группа принимается за некоторое целое, тогда
1 π
наступление исхода (события) в данной группе равно π , ненаступление исхода
(события) равно 1  π . Шансы в группе = (вероятность наступления
исхода)/(вероятность ненаступления исхода).
Тогда шансы в группе под воздействием фактора равны
Odds есть фактор 
A A  C   A , шансы в группе без воздействия фактора
C A  C  C
Odds нет фактора 
B B  D   B .
D B  D  D
Шансы измеряются в шкале отношений 0,  . Значения меньше единицы
говорят о том, что вероятность наступления исхода менее 0,5 (исход маловероятен);
20
значения, равные 0,5 – говорят о том, что вероятность наступления исхода “50 на
50”; если значения больше единицы, то исход скорее наступит, чем не наступит.
A D
Отношение шансов (odds ratio) в двух группах OR  .
B C
Отношение шансов также измеряется в шкале отношений 0,  . Его
интерпретация: исход скорее произойдет в группе под воздействием фактора, чем в
группе без воздействия фактора (контрольной группе), если отношение шансов
больше единицы; например если OR  3 , то исход в 3 раза более вероятен в группе
под воздействием фактора, чем в группе без воздействия фактора.
Если отношение шансов меньше единицы, то исход менее вероятен в
исследуемой группе по сравнению с контрольной.
При OR  1 фактор не оказывает влияния на исход (не ассоциирован с
исходом).

2.7.3. Взаимосвязь между относительным риском и отношением шансов

Рассчитаем пропорции возникновения заболевания в группах с наличием


фактора и без наличия фактора, при условии, что группы (под воздействием
фактора и без воздействия фактора) приняты за единицу (Табл.2–4).

Таблица 2–4. Пропорции в группах


Фактор риска
(прогноза)
Да Нет
Есть π1 π2
Заболевание
(состояние) Нет 1 – π1 1 – π2
1 1

A B
π1  , π2  .
AC BD
π1 π 1 –π 2
Относительный риск RR  , отношение шансов OR  1  .
π2 π2 1 –π1
Как видно, если π 1 и π 2 достаточно малы, то отношение шансов является
хорошим приближением для оценки относительного риска (поскольку отношение
1 –π 2
очень близко к единице).
1 –π1
В исследованиях случай-контроль нельзя оценить относительный риск, но
всегда можно оценить отношение шансов, хотя иногда это может привести к
ложным заключениям, если заключение распространяется на всю популяцию.

2.8. Подходы к анализу рисков при множественных исходах и


нескольких уровнях фактора
Если у фактора есть 3 уровня, то возможно построение таблицы 2 3 , которую
можно проанализировать аналогично вышеприведенному и определить риски или
отношения шансов (Табл.2–5).
Таблица 2–5. Представление данных таблицей 2 3

21
Фактор риска (прогноза)
Нет Малый Большой
Есть A C E A+C+E
Заболевание
(состояние) Нет B D F B+D+F
A+B C+D E+F N
В этом случае определяется относительный риск от базового значения
фактора. Если за базовый принят столбец “Нет”, то
RR2 
C C  D  , RR3  E E  F  .
 A  A  B   A  A  B 
Далее может оценивается гомогенность (однородность) относительных
рисков, их тренды: возрастает ли относительный риск с увеличением уровня
воздействия фактора ( RR3  RR2 ), убывает ( RR3  RR2 ) или различий нет.
Для отношения шансов при нескольких уровнях фактора действия
аналогичны.
CB E B
OR2  , OR3  .
A D FA
Аналогичные рассуждения можно применить и к множественным исходам,
перейдя к таблицам, которые называются r  c таблицы, таблицы сопряженности
(contingency tables). Анализ таких таблиц относится к непараметрическому анализу
(анализ таблиц сопряженности, см. раздел 14).
При исходе, который связан с количественным параметром, применяются
иные подходы, например, анализ трендов, анализ ковариаций, регрессионный и
дисперсионный анализ (хотя, по сути, задача остается все той же – определение
возрастания или убывания некоторой исследуемой переменной, которая чаще всего
связана с риском наступления исхода, при увеличении/уменьшении уровня
некоторого фактора. Часто шкалу количественной переменной разбивают на
некоторые диапазоны (например, ниже нормы, норма, выше нормы) и анализируют
подобно таблицам сопряженности.
Приведенные выше расчеты относительных рисков и отношения шансов – это
только краткое введение в оценку рисков. Далее, с помощью статистических оценок
и процедур, мы сможем доказать, что фактор действительно ассоциируется с
исходом, доказать наличие или отсутствие возрастания неблагоприятного или
благоприятного исхода при изменении фактора. Подробнее о различных
статистических процедурах анализа будет рассказано в следующих разделах.
Ремарка. Статистическая связь фактора и исхода не подразумевает ни биологическую, ни
клиническую, ни иную связь или зависимость.

Основные аспекты
Различия между обсервационными и активными наблюдениями.
Базовые типы дизайнов.
Естественная и целевая выборки, которые связаны с понятиями
относительного риска и отношения шансов и возможностью экстраполяции
результатов на всю популяцию.
Недопустимость подбора групп в дизайне “случай-контроль” по различию в
исследуемой переменной, а только в схожести неисследуемых параметров, которые
могут служить критериями включения и исключения в исследование.
Исход, как понятие дизайна в эпидемиологических исследованиях.
Различие в понятиях “фактор риска” и “фактор прогноза”.
22
3. Переменные исследования и типы данных

3.1. Переменные исследования


Определив и сформулировав основную гипотезу исследований, необходимо
определиться, какие данные нужны для ее доказательства (или опровержения).
Прежде чем начать сбор и обработку данных, необходимо понять, как данные будут
соотноситься между собой в исследовании. Переменные исследования могут быть
следующими:
Независимые переменные (Independent Variables)
Переменные, воздействие которых исследуется для демонстрации их влияния
на результат, называются независимыми переменными, ковариатами, предикторами,
факторами (independent variable, covariates, predictor, factor) . Так например, курение
– независимая переменная в исследовании заболеваемостью раком легких. Тип
лечения также будет независимой переменной.
В обсервационных исследованиях независимой переменной не управляют. За
ними пассивно наблюдают. В рандомизированных клинических испытаниях
независимой переменной является препарат и дозы, которые контролируются на
стадии начала исследования (несмотря на то, что пациенты получают лечение
случайным образом – рандомизированно).
Зависимые переменные (Dependent Variables)
Переменные, которые изучаются в исследовании, однако они, как правило, не
управляются исследователем. Если воспользоваться предыдущим примером, то
наличие или отсутствие рака легких – это зависимая переменная. Их также
называют переменной отклика, исходом (response, outcome). Термин “отклик”
предполагает наличие причинно-следственной связи, что не всегда имеет место, или
не всегда биологические доказуемо.
Скрытые/вмешивающиеся переменные (Confounding Variables)
Переменные, которые влияют одновременно на зависимые и независимые
переменные в исследовании. Они не являются предметом изучения, но могут
вносить искажения во взаимосвязь между зависимыми и независимыми
переменными. Иногда они не включены в план исследования, однако проявляются в
искажении результатов. Очень часто скрытыми переменными могут выступать
возраст, пол. Их также называют вмешивающимися переменными. Для выявления
их влияния может использоваться стратифицированный анализ, ковариационный
анализ и др.

3.2. Типы данных в исследованиях


Данные, получаемые в результате наблюдений, бывают трех видов:
количественные, порядковые и качественные.
Количественные данные (interval, continuous, cardinal data) – это величины,
которым присущ естественный порядок расположения с равными интервалами
между последовательными значениями, независимо от их места на шкале.
Например: масса, длина, количество полных лет и т.п. О них мы можем сказать – “в
два раза больше”, “на 5 единиц больше”.
Порядковые/ординальные данные (ordinal data) – это величины, которые могут
быть расположены в естественном порядке или ранжированы, например, от малого
до большого, от хорошего до плохого, однако размер интервала между такими

23
соседними значениями не может быть выражен количественно. Например, малый –
средний – выше среднего – большой – огромный. О них мы можем сказать “больше”,
“меньше”, “лучше”, “хуже”, но не можем сказать, на сколько единиц больше или во
сколько раз лучше. Их можно расположить по выраженности некоторого свойства и
присвоить ранги (натуральные числа 1, 2,…). Эти ранги будут отражать порядок
нарастания (убывания) некоторого свойства. Типичный пример – это группы риска
при лечении некоторого заболевания (standard/intermediate/high risk).
Качественные/категориальные/номинальные данные (nominal data) – это
величины, которые нельзя расположить в естественном порядке. Например,
предпочтения в еде: рыба, пирожные, картофель, мясо. Или, например, способ
лечения: хирургический, радиотерапия, обсервационный. Такие данные называют
также категориальными, поскольку их можно отнести к той или иной категории.
Качественные данные, которые могут быть отнесены только к одной из двух
категорий (наличие-отсутствие, мужчина-женщина, да-нет), называются
дихотомическими/биноминальными (dichotomous data, binominal data).
Качественные данные, которые могут быть отнесены к одной из нескольких
категорий (больше двух) называются иногда мультиноминальными, чтобы
подчеркнуть их отличие от биноминальных. Как уже было сказано, сами
качественные данные нельзя расположить в естественном порядке, но, тем не
менее, можно задать искусственный порядок, связав категории с интервалами
некоторой шкалы (порядковой или количественной). В этом случае они называются
упорядоченными категориями (ordered multinomanal data) и совпадают с
порядковыми данными. Например, есть три группы лечения – плацебо,
традиционное и экспериментальное лечение. Лечение – это качественный фактор,
однако по некоторым соображениям мы можем говорить о том, что группы лечения
могут быть упорядочены определенным образом и проследить, есть ли тренд в
эффекте от лечения в группах плацебо (1), традиционного лечения (2) и
экспериментального лечения (3).
В любом случае, каждое из наблюдений в выборке может быть отнесено
только к одной из категорий.
Мы также можем сравнивать количество объектов, принадлежащих разным
категориям (например, количество наблюдений в группе). Для этого используется
шкала целых неотрицательных чисел, на которой далее мы можем выполнять такие
действия, как сложение, умножение. Однако надо понимать, что сравнивается не два
объекта на одной шкале измерения, а две или более группы объектов по их
количеству.
Ремарка: от типа данных зависит способ их обработки и анализа. Например, вы не можете складывать
предпочтения в еде, среднее для описания выборки в таком исследовании невозможно. Также и
методы обработки наблюдаемых данных зависят от их типа.
Несмотря на то, что эти три градации полностью описывают возможные типы
данных в исследовании, необходимо заметить, что в статистическом анализе таких
данных есть свои нюансы, и выбор статистической процедуры анализа зависит
именно от них.
Количественные данные, полученные в исследовании, могут подчиняться
закону нормального распределения. Если в процессе анализа выявляется, что это не
так, то к таким данным относятся как к порядковым данным (понижение шкалы).
Например, у нас есть несколько измерений: 0,5; 2,7; 13,4; 105,1, 578,3. По форме это
количественные данные, но размах всего пяти значений от 0,5 до 578,3 не позволит
нам анализировать их как данные из нормального распределения. В этом случае

24
более правильным будет выбор процедур анализа, которые интерпретируют эти
данные как ранги 1, 2, 3, 4, 5.
Качественные данные могут иметь несколько категорий, которые могут быть
упорядочены, например, тяжесть заболевания (I, II, III, IV). В этом случае их также
можно отнести к порядковым данным.
Мультиноминальная (в частности, биноминальная) переменная представляет
собой данные, в которых в основном, содержатся некоторые события, например:
жив-умер, заболел-здоров и пр. Если исследователя интересует количество
определенных событий, наступивших в исследовании, то оно подсчитывается на
основании биноминальных данных. Для выборки, содержащей более одного
наблюдения, мы можем оценить частоту появления некоторого события. Если мы
делим количество наблюдений, когда определенные события наблюдаются
выборке, на общее число наблюдений в выборке, мы оцениваем пропорцию.
Пропорция, рассчитанная на основе естественной выборки – это точечная оценка
пропорции в популяции. Интерпретация пропорции выборки – это оценка
вероятности событий в популяции (для когортных и одномоментных
исследований). И эта вероятность не имеет нормального распределения.
Предполагается, что события распределены по биномиальному или Пуассоновскому
закону.
Биномиальное распределение используется при расчете вероятностей, когда
наблюдения независимы друг от друга, то есть результат одного наблюдения не
зависит от другого, а исход измеряется биноминальной переменной (событие
наступило/событие не наступило).
Пуассоновское распределение – это частный случай биномиального
распределения, которое используется, когда события являются редкими по
отношению ко всей выборке, поэтому для расчета используются не пропорция, а
уровень риска, интенсивность, скорость (rate). Понятие "rate" будет подробно
рассмотрено в разделе 18.
В общем случае и пропорция и интенсивность состоят из числителя и
знаменателя. Числитель – это количество событий и для интенсивности и для
пропорции. Знаменатель для пропорции – это общее количество наблюдаемых в
выборке. Знаменатель для интенсивности – рассчитывается как число человеко-лет
(person-year) наблюдения до наступления события или окончания исследования. В
открытых когортных исследованиях чаще используется интенсивность (rate),
поскольку события редкие и развиваются во времени. В остальных типах дизайна
чаще используется пропорция.
В отечественной литературе (на русском языке) часто эти два понятия
смешивают, поскольку термин “rate” имеет несколько переводов и может
переводится как “доля”. В дальнейшем по тексту будет говориться или о пропорции
или о интенсивности/уровне риска, как об отношении, характеризующим частоту
событий в выборке, в зависимости от того, какие исследования нас интересуют.
Также в англоязычной литературе кроме термина пропорция “proportion”
используется термин “fraction” – пропорция, часть, доля. Фактически они выражают
одну и ту же величину, только пропорция обычно измеряется в процентах, часть
измеряется в долях от 1.1

1
В оригинале книги Ланга (2011) ( Lang and Secic, How to Report Statistics in Medicine: Annotated Guidelines
for Authors) используются термины “proportion” и “rate”, которые в руском переводе книги звучат как
“доля” и “частота” соответственно.

25
Таким образом, для медико-биологических исследований с последующим
статистическим анализом можно выделить:
Количественные данные
– количественные переменные, распределенные по закону нормального
распределения (измеряются для каждого участника исследований);
– количественные переменные, не подчиняющиеся закону нормального
распределения (измеряются для каждого участника исследований);
Категориальные данные1
– мультиноминальные переменные – упорядоченные категории
(рассчитывается количество случаев в каждой категории по выборке);
– мультиноминальные переменные – неупорядоченные категории
(рассчитывается количество случаев в каждой категории по выборке);
– биноминальные переменные (рассчитывается пропорция по выборке);
Время до события (time-to-event) и интенсивность событий (rate)
– интенсивный показатель (rate) рассчитывается как отношение количества
событий ко времени наблюдения;
– бинарные переменные (исходы), связанные со временем наблюдения.
Заметим, что есть и многомерные исходы (т.е. исследуется сразу несколько
вариантов исхода), связанные со временем наблюдения, но в данном пособии они не
рассматриваются.
Основные аспекты
Выбор переменной, описывающий исход, необходимо осуществить до начала
исследования.
Зависимая переменная в исследовании чаще всего одна и как правило,
интерпретируется как исход.
Независимых переменных может быть несколько, и они разные по своей
природе и могут быть связаны между собой.
Скрытые переменные могут исказить результаты ваших доказательств.
Задача статистического анализа в эпидемиологических исследованиях –
найти связь, ассоциацию, зависимость между исходом и факторами,
предположительно влияющими на исход, доказать, что они действительно связаны
в статистическом смысле, если возможно, оценить степень этой связи.
Задача статистического анализа в экспериментальных исследованиях –
доказать наличие различий между контрольной и экспериментальной группой
(групп в эксперименте может быть несколько) и оценить размер эффекта (т.е.
размер различий), если это возможно.

1
Чаще такие переменные в медико-биологических исследованиях выглядят как группы/подгруппы
исследования. Тем не менее, по сути группы – это категориальная переменная исследования.

26
4. Гипотеза исследования
Гипотеза формулируется в начале исследования, для того, чтобы понять,
какие доказательства нужно собрать для ее подтверждения или опровержения,
какой дизайн исследования предпочесть. Формулирование основной гипотезы
(primary hypothesis) исследования включает формулирование нулевой гипотезы
( H 0 ), которая является “основным состоянием”, которое, как предполагают, верно, в
отсутствии убедительных доказательств, и альтернативной гипотезы ( H A ), которая
будет принята после соответствующих доказательств. Иными словами, основное
состояние будет сохраняться, до тех пор, пока не будет доказательств обратного.

4.1. Ошибки I и II рода при проверке гипотез


В таблице 4–1 приведены возможные отношения гипотезы и истинного
состояния проблемы.
Таблица 4–1. Соотношение гипотезы исследования и истинного состояния проблемы
Истинное состояние
H 0 истинна H 0 ложна
Принятие H0 Корректно Ошибка II рода

Отклонение H0 Ошибка I рода Корректно

Ошибки первого рода (type I errors,  errors, false positives) и ошибки второго
рода (type II errors, β errors, false negatives) в математической статистике – это
ключевые понятия задач проверки статистических гипотез.
Ошибка I рода обозначается α (альфа-ошибка) и означает, что нулевая
гипотеза H 0 отвергается, что приводит к ложноположительному заключению о
наличии, как правило, некоторого эффекта между изучаемыми величинами, в то
время, когда на самом деле его не существует. Иными словами, отвергается нулевая
гипотеза H 0 , когда она истинна.
Ложноотрицательное заключение – это принятие нулевой гипотезы H 0 , в то
время как эффект существует. Иными словами, нулевая гипотеза H 0 остается в силе,
когда она ложна. Такая ошибка называется ошибкой II рода, обозначается β (бета-
ошибка).
Мощность теста (вероятность отклонения нулевой гипотезы, когда она
ложна) определяется как 1  β . Мощность 80–90% обычно является приемлемым
уровнем в исследованиях.
Заметьте, что мы говорим только о нулевой гипотезе, т.е. мы ее опровергаем,
что служит доказательством альтернативной гипотезы, или не опровергаем, что
констатирует текущее состояние исследуемого вопроса.
Ремарка: Нулевая гипотеза не доказывается, она остается неопровергнутой в отсутствии других
доказательств.

4.2. Понятие уровня значимости


В статистике результат называют статистически значимым, если мала
вероятность чисто случайного его возникновения при нулевой гипотезе H 0 . Степень
отклонения от нулевой гипотезы H 0 “статистически значима”, если имеются

27
данные, появление которых было бы маловероятно, если бы эта гипотеза была
верна.
Уровень значимости критерия (теста) – это традиционное понятие проверки
гипотез в статистике. Он определяется, как вероятность принять решение
отклонить нулевую гипотезу H 0 , если на самом деле она верна. Процесс решения
часто опирается на величину p : если p меньше уровня значимости, то нулевая
гипотеза H 0 отвергается. Чем меньше величина p , тем более значимой называется
тестовая статистика. Чем меньше величина p , тем сильнее основания отвергнуть
нулевую гипотезу H 0 .
Уровень значимости в исследованиях – это вероятность ( p ), ниже которой
нулевая гипотеза H 0 может быть отвергнута. Большинство прикладных
исследователей в медицине принимают p  0,05 для того, чтобы отклонить нулевую
гипотезу H 0 .
Хотя статистическая значимость может быть истинной, она может быть также
искусственной из-за скрытых/вмешивающихся факторов. Статистическая
значимость не доказывает ни причинно-следственную связь, ни клиническую
значимость.
Ремарка: Уровень значимости и есть ошибка I рода (ложноположительного результата) –
вероятность отклонения нулевой гипотезы, когда она истинна.

4.3. Этапы проверки статистических гипотез


Проверка гипотез исключительно важна в медико-биологических
исследованиях, она позволяет исследователям обобщить выводы, которые
базируются на исследовательской выборке, на всю популяцию.
Целью проверки гипотез является определение статистической значимости.
Проверка гипотезы может подтвердить или отклонить утверждение о том, что
наблюдаемые результаты не случайны, а отражают связь между переменными.
Общий подход таков: выдвигается нулевая гипотеза H 0 о том, что
зависимости между изучаемыми явлениями нет. Альтернативная гипотеза H A
заключается в том, что связь есть, и она не случайна.
Таким образом, выдвигаются две противоречащие друг другу гипотезы:
нулевая гипотеза H 0 о том, что связь (зависимость) случайна, альтернативная H A ей
противоречит. Доказав, что гипотеза H 0 несостоятельна, мы докажем, что
альтернативная гипотеза верна.
Для проверки гипотезы используют критерии (тесты), позволяющие принять
или опровергнуть гипотезу.
Ремарка: Проверяется всегда нулевая гипотеза. Доказывается - альтернативная гипотеза путем
опровержения нулевой гипотезы.
1. Формулируется основная гипотеза H 0 и альтернативная гипотеза H A .
3. Задается вероятность α , называемая уровнем значимости и отвечающая
ошибкам первого рода, на котором в дальнейшем и будет сделан вывод о
правдивости гипотезы.
2. Задается некоторый статистический критерий (функция от выборки –
статистика), для которой в условиях справедливости гипотезы H 0 существует
известный закон распределения.

28
Расчет значения статистики критерия, по ее значению можно делать выводы
об истинности гипотезы H 0 ;
4. Сравнение значений статистики критерия со значениями из известного
распределения вероятности (для данной статистики).
Ремарка: Когда исследуется наличие разницы в двух выборках, например по среднему значению, то
исследователь может предположить, что например, среднее контрольной группы больше, чем
среднее исследуемой группы (A>B). Тогда проверка гипотезы осуществляется по одностороннему
критерию. Если исследователь предполагает, что А отличается от В (A>B или A<B) , то это так
называемый двусторонний критерий.
5. Вывод об истинности гипотезы. Наблюдаемые значения выборки
подставляются в формулу статистики и по попаданию (или
непопаданию)статистики в критическую область выносится решение об
отклонении выдвинутой гипотезы H 0 .
6. Интерпретация результатов статистической проверки.
Особенность доказательной статистики такова, что вы можете доказать
альтернативную гипотезу, путем опровержения нулевой гипотезы, но вы не
доказываете нулевую гипотезу. Нулевая гипотеза либо опровергается в пользу
альтернативной, либо нет.
7. Расчет эффектов.
Под эффектом понимается некоторая числовая оценка различий, или связи,
или зависимости между изучаемыми переменными. Это одна из основных процедур
анализа данных, которая дает возможность рассчитать и оценить эффект, который
доказан статистически, т.е., например, исследователь доказал, что использование
некоторого нового метода послеоперационного ведения пациентов статистически
значимо уменьшает срок нахождения пациента в госпитале. Естественный вопрос -
на сколько дней в среднем сократится пребывание пациента в госпитале при
внедрении нового метода послеоперационного ведения пациентов? Оценка среднего
сокращения пребывания в днях (с расчетом доверительного интервала) и есть
размер эффекта применения нового метода.

4.4. Мощность исследования и расчет объемов выборок


Анализ мощности – это априорный расчет размера выборки, который
достаточен, чтобы ответить на основной вопрос исследования. Как правило, при
планировании дизайна исследования размер ресурсов (как правило, финансовых)
ограничен. Также ограничения могут быть связаны с редкостью исследуемого
заболевания. Чтобы избежать исследований, которые не смогут ответить на их
основной вопрос или исследований, которые тратят ресурсы, будучи больше, чем
они должны быть, необходимо проводить анализ мощности. Также этот анализ
заставит исследователя точнее сформулировать свой основной вопрос, определить
основную переменную (primary variable) исследования, а таже продумать, какой
размер эффекта будет клинически значим (см. раздел 23). В этом смысле анализ
мощности необходим в клинических испытаниях.
Расчет необходимого размера выборки производится при проектировании
дизайна исследования.
Для расчета необходимого размера выборки предполагается, что
исследователь знает следующие величины:
– мощность ( 1 – β ), которая определяется вероятностью ложного принятия
нулевой гипотезы H 0 . Обычно выбирают мощность, равную 80–90% , т.е.
β  0,1  0,2 ;

29
– уровень значимости α – граничный уровень, ниже которого отвергают
нулевую гипотезу H 0 . Обычно это 0,05 или 0,01;
– вариацию наблюдений, например стандартное отклонение, если с исходом
связана числовая переменная;
– наименьший интересующий эффект — величина минимального эффекта,
который важен в исследовании. Часто это некоторое различие (например, разность в
средних или пропорциях). Эффект, например, может быть выражен в том, что
снизилось содержание сахара в крови на 10 ммоль/л, или снижение
постоперационных осложнений на 20%.
Поскольку вопрос о расчете объема выборки для рандомизируемых
клинических испытаний (randomized clinical trials – RCT) часто вызывает трудности у
исследователей, ниже приведены некоторые формулы для расчета объемов выборок
при различных дизайнах.
Расчет напрямую зависит от гипотезы исследования, которая выдвигается
перед началом RCT.
Основными целями RCT бывают1: доказательство различий (статистические
различия), доказательство превосходства (Superiority trials), доказательство
эквивалентности2 (Equivalence trials), доказательство полноценности (Non-inferiority
trials).
Одновыборочный дизайн
В RCT это может быть различие между повторными измерениями одной
группы (или согласованных пар – matched pairs), например данные до и после
лечения.
Различие в истинных средних между ответами на изучаемый препарат и
исходным значением есть ε  μ  μ0 . Аналогично, для бинарной переменной
ε  π  π 0 , где π 0 - истинная вероятность ответов бинарной переменной, π -
истинная вероятность ответов после лечения (воздействия). Истинные значения мы
никогда не значем, но можем оценить по выборке.
Для количественной переменной s 2 - есть оценка дисперсии (выборочная
дисперсия) разности в изучаемом параметре до и после воздействия,
1 n 1 n
 xi  x  , где x  n 
2
s 
2
x i - оценка среднего (выборочное средние) разности в
n  1 i 1 i 1
изучаемом параметре;
Для бинарной переменной p  1  p есть выборочная дисперсия, p -
наблюдаемая доля/пропорция ответов на лечение. p есть число в промежутке 0;1 .
Стоит заметить, что максимальная оценка дисперсии достигается при p  0,5 .
Поэтому при отсутствии априорной информации можно использовать
p  1  p  0,25.
Также при клинических испытаниях задают δ – клинически допустимый
запас (величина клинически значимых различий) по полноценности/
эквивалентности/ превосходству.

1
Математические выкладки опущены, подробнее можно прочесть в Chow S.C., Wang H., Shao J. Sample Size
Calculations in Clinical Research, — Chapman & Hall/CRC Biostatistics Series, — 2008.
2
Есть понятие биоэквивалентности (фармакокинетической эквивалентности, bioequivalece). Для таких
исследований есть специальные дизайны, вычисления и определение размеров выборок.

30
Таблица 4–2. Цели RCT и гипотезы

Цель RCT Нулевая Альтернатив Пояснение


гипотеза H 0 ная гипотеза
HA
Доказательство H0 : ε  0 HA :ε  0 Препарат отказывает воздействие
различий
(статистическое
различие)
доказательство H0 : ε  δ ,δ  0 H A : ε  δ ,δ  0 Воздействие не изменяет предыдущее
полноценности состояние, если снижает, то не более чем на
δ ,δ  0
доказательство H0 : ε  δ HA : ε  δ Воздействие не лучше и не хуже
эквивалентности предыдущего состояния. Различия
клинически несущественны и не превышают
δ.
доказательство H0 : ε  δ ,δ  0 H A : ε  δ ,δ  0 Воздействие дает эффект. Различия
превосходства клинически существенны и превышают
δ ,δ  0
Таблица 4–3. Расчет размеров выборок в одновыборочном дизайне RTC
Цель RCT Оценка эффекта по Оценка эффекта по
пропорции/доле количественной переменной
Доказательство 2 2
 z1α  z1β   z1α  z1β 
n   p  1  p n   s2
различий 2 2
(статистическое  ε   ε 
различие)    
доказательство 2 2
 z  z 1 β   z  z 1 β 
полноценности n   1α   p  1  p  n   1α   s 2 ,δ  0
 ε δ   ε δ 
доказательство 2 2
 z1α  z1β   z1α  z1β 
эквивалентности    
n   p  1  p n   s
2 2 2

 δ ε  δ ε
   
доказательство 2 2
 z  z 1 β  z z 
превосходства n   1α   p  1  p  n   1α 1β   s 2 ,δ  0
 ε δ   ε δ 
z1α , z1α , z1β – значение стандартного нормального распределения соответствющего
2
уровня. Для α  0,05 z1α  1,64 , z1α  1,96 ; для β  0,2 (уровень мощности 80%) z1β  0,84 .
2
n – размер каждой группы, округляется до большего целого значения.
Следует заметить, что при доказательстве эквивалентности и полноценности
(как односторонней эквивалентности) разница ε может быть принята как ε  0 и
формулы упрощаются, в расчет принимается только δ – клинически допустимый
запас.
Насчет комбинации ε и δ в формулах всегда возникает много вопросов,
поэтому ориентироваться необходимо на смысл: если мы говорим о доказательстве
полноценности, то к разности ε  μ  μ0 ( ε  π  π 0 ) добавляется некоторая величина
клинически допустимого запаса δ , что увеличивает знаменатель (и уменьшает
размер выборки), чтобы продемострировать что новый препарат не дает
клинически значимого снижения по сравнению с референтным; если говорим о
31
превосходстве, т.е. ε достаточное большое, то отнимаем величину клинически
допустимого запаса, что увеличивает размер выборки, но дает нам уверенность
говорить о том, что препарат действительно превосходит референтный с учетом
клинически допустимого запаса (клинический эффект). При доказательстве
эквивалентности различие ε должно быть меньше величины клинически
допустимого запаса в большую и меньшую стороны, т.е. находится в приемлемом
интервале клинически допустимого запаса, и мы уменьшаем клинически
допустимый запас δ на абсолютную величину различий ε , и в этом случае также
увеличиваем размер выборки (по сравнению с доказательством полноценности), но
это дает нам уверенность говорить о том, что препарат попадает в интервал
клинически допустимомго запаса относительно референтного (см. раздел 11.1.4).
Двухвыборочный параллельный дизайн
Такой дизайн предполагает рандомизацию каждого испытуемого в одну из
групп – нового лечения или плацебо /активного контроля. Каждый испытуемый
имеет одно измерение результата.
Различия в истинных средних или пропорциях соответственно равно
ε  μ2  μ1 , ε  π 2 π 1 .
Выборочная дисперсия для количественной переменной рассчитывется как
объединенная по двум группам:
2 ni
1 1 ni
s2   xij  x i ,
n1  n2  2 i 1 j 1
где xi   xij -
ni i 1
оценка среднего в

соответствующей группе.
Таблица 4–4. Цели RCT и гипотезы

Цель RCT Нулевая Альтернатив Пояснение


гипотеза H 0 ная гипотеза
HA
Доказательство H0 : ε  0 HA :ε  0 Различия между новым лечением и
различий плацебо/активным контролем
(статистическое
различие)
доказательство H 0 : ε  δ ,δ  0 H A : ε  δ ,δ  0 Новое лечение не хуже активного
полноценности контроля, по меньшей мере, дает такой же
эффект
доказательство H0 : ε  δ HA : ε  δ Новое лечение не лучше и не хуже
эквивалентности активного контроля, они одинаково
эффективны. Различия клинически
несущественны.
доказательство H 0 : ε  δ ,δ  0 H A : ε  δ ,δ  0 Новое лечение более эффективно, чем
превосходства контрольное. Различия клинически
существенны

Таблица 4–5. Расчет размеров выборок а параллельном дизайне RTC 1

Цель RCT Оценка эффекта по пропорции/доле Оценка эффекта по


количественной
переменной

1
Формулы приведены для одинаковых размеров двух групп.

32
Доказательство 2 2
 z1α  z1β  z z 
различий
n 2   p  1  p   p  1  p  n  2   1α 2 1β   s2
(статистическое  ε  1 1 2 2
 ε 
различие)    

доказательство 2 2
z z  z z 
полноценности n   1α 1β   p1  1  p1   p2  1  p2  n  2   1α 1β   s 2 ,δ  0
 ε δ   ε δ 
доказательство 2 2
 z1α  z1β  z z 
эквивалентности
n   2   p  1  p   p  1  p  n  2  1α 1β 2   s2
 δ ε  1 1 2 2  δ  ε 
   

доказательство 2 2
 z  z1β  z z 
превосходства n   1α   p1  1  p1   p2  1  p2  n  2   1α 1β   s 2 ,δ  0
 ε δ   ε δ 

Двухвыборочный перекрестный дизайн


Этот дизайн широко распространен в RTC и носит название 2 2 crossover trial.
Каждый испытуемый получает сначала одно лечение, потом следует период
вымывания (wash-out period), затем другое лечение. Причем испытуемые
рандомизирутся на последовательность приема препарата. Например, есть два
препарата A и В. Соответственно, есть два варианта последовательностей AB и BA.
Расчет оценки дисперсии достаточно сложен, и находится за рамками данного
пособия. Формулы приведены в Таблице 4–6.
Таблица 4–6. Расчет размеров выборок в двухвыборочном перекрестном дизайне RTC1

Цель RCT Оценка эффекта по Оценка эффекта по


пропорции/доле количественной переменной
Доказательство 2 2
1  z1α 2  z1β  1  z1α 2  z1β 
n    s2 n    s2
различий
(статистическое 2  ε  2  ε 
различие)    
доказательство 2 2
1 z z  1  z  z 1 β 
полноценности n    1α 1β   s 2 n    1α   s 2 ,δ  0
(не худшей 2  ε δ  2  ε δ 
эффективности)
доказательство 2 2
 z1α  z1β   z1α  z1β 
1 1
n      s2 n      s2
эквивалентности 2 2
2  δ ε  2  δ ε 
   
доказательство 2 2
1  z  z 1 β  1  z  z1β 
превосходства n    1α   s 2 n    1α   s 2 ,δ  0
2  ε δ  2  ε δ 

Также не приводятся формулы для других типов дизайна.

Если рассматривать другие исследования помимо RTC, то чаще всего


возникает вопрос, достаточно ли набрано пациентов в группы для того, что

1
Формулы приведены для одинаковых размеров двух групп.

33
доказать некоторые различия. В данном случае мы можем рассчитать объем
выборки, который достаточен для доказательства статистического различия без δ –
клинически допустимого запаса. Если не интересует мощность, опустите параметр с
 
индексом β . Не знаете дисперсии s 2 для бинарной переменной – задайте
максимум 0,25.
Например, нам надо установить при опросе, будет ли статистически значимо
отличаться от случайного доля положительных ответов на некоторый вопрос.
Случайный ответ предполагает 50/50, т.е. p0  0,5 . Предполагаем, что p  0,7 , т.е. 70%
респондентов ответят положительно.
2
 z1α  z1 β 
Это одновыборочное исследование, формула n   2   p  1  p .
 ε 
 
ε  0,7  0,5  0,2 . Мощность исследования не интересует. Тогда
2
 1,96  0 
n   0,7  1  0,7  21,2 . Округляя до большего целого, получим n  22 . Если
 0,2 
установим мощность исследования на уровне 80% 1  β  0.8 , то нам понадобится
n  42 респондента.
Если исследователь не имеет информации о вариации и предполагаемой
разнице в эффектах, то рассчитать требуемый размер выборки затруднительно.
Часто информацию получают из пилотных исследований, из опубликованных
результатов, из предварительных собственных результатов.
В статистических пакетах существуют модули, которые могут моделировать
зависимости изменения требуемого размера выборки от наименьшего
интересующего эффекта, уровня значимости, мощности. Однако первичную
информацию задает исследователь.

4.5. Понятие надежности и валидности исследования


Расхождение между характеристиками выборки и популяции, из которой
была сделана выборка, в целом оцениваются через ошибки. Различают два вида
ошибок: случайную ошибку (random error) и систематическую ошибку (systematic
error), возникающую вследствие нарушения правил отбора (или из-за смещений при
отборе). При определении случайной ошибки предполагается, что ошибка
регистрации данных (человеческий фактор) равна нулю. Систематическую ошибку
часто называют ошибкой, вызванной смещением (bias). Общая ошибка складывается
из случайной ошибки (вследствие случайных различий между элементами
совокупности, включенными в выборку и не попавшими в нее) и из смещения
(систематической ошибки), если оно существует. Систематическую ошибку
исследователь должен устранять. Основные систематические ошибки свзяны с
ошибками измерительных приборов (measurements error), ошибками формирования
выборки (selection error), ошибками получения информации (information error).
Примеры:
- Весы постоянно завышают вес пациентов. Для этого такой инструмент
измерения можно калибровать, градиуировать и т.п.
- В процессе наблюдений пациенты должны повторно приходить для
обследования, однако некоторые из них не являются. В результате группа
формируется только по "прилежным" пациентам, явившимся на повторый прием.

34
Что произошло с остальными – исследователь не знает. А ведь у них возможны
осложнения лечения, неэфективность и пр.
- При опросе пациент вольно или невольно стремится ответить на вопрос о
предыдущих событиях (состояниях) так, как ему удобно или приемлемо1.

Ремарка: Проверка гипотез в статистике строится на основании того, что существует только
случайная ошибка.

Оценка наблюдаемого
среднего выборки

Распрделение
наблюдений в
выборке
Систематическая ошибка

Случайная
ошибка

Общая ошибка

Истинное значение Наблюдаемое значение

Рис.4–1. Соотношение наблюдаемого значения, ошибок и истинного значения

Рассмотрим рис. 4–2. Если истинное значение лежит в центре мишени, то на


рисунке слева измерения точные, случайная ошибка мала, но существует
систематическая ошибка, и наши измерения смещены относительно истинного
значения; на рисунке справа мы имеем ситуацию большой случайной ошибки без
смещения (измерения не точные). Средний рисунок – наблюдения соответствуют
истинным, случайная ошибка мала.

1
Everybody lies ( House MD ©).

35
Надежность Надежность
Валидность Валидность

Рис.4–2. Надежность и валидность результатов измерений


Результаты называются валидными, если отражают истииное состояние
предмета исследования, отсутствует систематическая ошибка. Результаты
называются надежными, если они устойчивы, точны и имеют минимальную
случайную ошибку.
Таким образом, для получения оценки истинного состояния проблемы,
результаты должны быть как валидными, так и надежными.
Степень надёжности зависит от многих причин. Поэтому в исследовании
важно выяснение негативных факторов, влияющих на точность измерений.
Основные факторы: нестабильность диагностируемого свойства; несовершенство
диагностических методик; меняющаяся ситуация обследования/наблюдения;
колебания в функциональном состоянии пациента и др.
Валидность – более сложное понятие, истинного состояния проблемы
исследователь может не знать. Как понять, что мы измеряем именно то, что хотим
исследовать, что наши измерения и наблюдения служат цели исследования?
Существует несколько подходов к валидации результатов исследований,
содержательная валидность характеризует методы и способы исследования по
степени соответствия предметной области; критериальная валидность
(эмпирическая валидность) предполагает наличие внешнего критерия (теста),
корреляция с которым определяет валидность новых результатов и др.
Сам по себе статистический анализ данных не отвечает за валидность и
надежность результатов исследования, однако может провести оценку случайной
ошибки, сравнить результаты известного исследования с вновь полученными и т.п.
При изучении взаимосвязи между переменными исследования и исходом, мы
заинтересованы в выявлении факторов, которые могут изменить эффект влияния
интересующих переменных на результат (эффект модификаторов). Мы также
должны быть осведомлены о потенциальном смещении или скрытом влиянии в
исследовании, так как они могут привести к искаженным результатам.
Существуют три основных понятия, которые нужно учитывать при
проектировании дизайна и проведении исследования.
Смещение (Bias): Систематическая ошибка в дизайне исследования, в сборе
данных и анализе, что приводит к ошибочной (смещенной) оценке истинного
эффекта воздействия и результата.
Вмешательство (Confounding): Ситуация, в которой эффект или связь между
воздействием и исходом искажен присутствием иной переменной. Положительное
вмешательство появляется, когда наблюдаемая ассоциация смещается в сторону от
нулевой, т.е. на самом деле эффекта от воздействия нет, а он определяется из-за

36
иной переменной. Отрицательное вмешательство – наблюдаемая ассоциация
смещается в сторону отстутствия, но на самом деле эффект существует.
Модификация эффекта (Effect modification): в исследовании есть некоторый
фактор (переменная), которая по-разному (положительно и отрицательно)
изменяет изучаемый эффект. Например, влияние фактора риска на состояние
болезни для одной группы может быть благоприятным, для другой группы
неблагоприятным. В этом случае признак, по которому разделены группы, является
модификатором эффекта.
Основные аспекты
Нулевая гипотеза чаще всего констатирует текущее состояние проблемы
(проблема не изучена, следовательно, различий, трендов, разницы нет), и,
опровергая ее, вы изучаете доказательства, которые говорят об обратном.
Мощность исследования (т.е. размер выборки) надо рассчитывать, опираясь
на известные вам факты из литературы или собственных исследований. Если по
всем переменным, которые включены в исследование, у вас нет материала,
используйте хотя бы сведения о значениях факторов/показателей, по которым есть
некоторые предварительные данные.
Систематическая ошибка может быть устранена соответствующим подбором
дизайна и выполнением требований по дизайну, статистический критерий сам по
себе такие ошибки “не видит”.
Исследование должно принимать во внимание вмешивающиеся переменные,
которые могут исказить результаты.

37
5. Сбор данных
При сборе данных лучше всего использовать заранее разработанную форму
(анкету) для записи данных. Это сэкономит время и снизит количество ошибок.
Современные возможности компьютеров позволяют заносить данные в таблицы
для их непосредственного анализа.
Несколько основных принципов формирования таблиц данных для
последующего анализа.
Одна строка – один случай. В каждой строке у вас будут содержаться данные,
относящиеся к одному наблюдению (исследуемому, пациенту). В колонках
(столбцах) будут находиться факторы (переменные) исследования. Колонки
должны быть именованы. Строки – иметь уникальный идентификатор. По-
возможности избегайте записи исследуемых пациентов по фамилии. Это неэтично,
как минимум.
Набор значений переменной (фактора) в вашей выборке – это столбец. Набор
значений факторов, характеризующих каждый случай в выборке – это строка.
Ячейка на пересечении столбца и строки – это точка данных.
При записи числовых данных, имеющих единицу измерения, все измерения
должны быть записаны в одних и тех же единицах измерения. Например, рост.
Недопустима запись 165 для одного исследуемого и 1,78 для другого. Поэтому
лучше, чтобы наименование колонки содержало не только наименование фактора,
но и единицу измерения (“Рост, см”).
Разделитель целой и дробной части числа в разных компьютерах может быть
разным. Поэтому, по возможности, используйте цифровую часть клавиатуры для
ввода числовых данных.
Для биноминальных переменных, а также некоторых категориальных в
практике используются не цифры, а слова и выражения. Не все компьютерные
программы анализа “понимают” текст в ячейке данных. Иногда используются коды,
т.е запись слов и выражений числовыми кодами. Для этого создайте отдельный
лист, где будут записаны выражения и их числовые коды. Числовые коды и числа –
разные понятия, числовые коды нельзя складывать, перемножать, однако иногда
они бывают упорядоченными, например, оценки состояния пациента. Если вы
решили использовать слова, то для одного и того же состояния они должны быть
одинаковы, например, если вы проставляете значение переменной пол:
“мужской/женский”, то используйте только эти два слова, сокращения “муж”, “м”,
“M” и прочие будут рассматриваться компьютером как различные состояния.
Примеры кодов:
Состояние Баллы
Хорошее 5
Удовлетворительное 3
Неудовлетворительное 1

Пол Код
Мужчина 1
Женщина 2

Курение Код
Да 1
Нет 0

38
Ремарка: При кодировании бинарной переменной обычно “1” кодируют интересующее исследователя
состояние. Отсутствие интересующего состояния кодируется как “0”.
Работа с датами. Если данные о датах вводятся в компьютер, то нужно
использовать тот формат даты, который установлен на Вашем компьютере. Если
необходимо рассчитать длительность периода между двумя датами, то правильнее
будет ввести дату начала и дату конца наблюдений. Большинство программ,
предназначенных для анализа данных, сами рассчитают длительность, в этом случае
не будет ошибки, связанной с ручным расчетом периода.
В случае дизайна “matched pairs” исследования случай-контроль случаем
является пара. Поэтому правильнее будет записывать в таблицу пары исследуемых.
Таблица 5–1. Пример записей парного исследования
Номер Номер Номер Рост в группе Рост в группе
пары карты, карты, случай, см контроль, см
группа группа
случай контроль
1 45/2001 56/2003 156 168
2 1923/2001 2299/2000 184 172
… … … … …

Есть данные, связанные с повторными визитами пациента к специалисту.


Часто спрашивают, как правильно представлять такие данные. Есть два формата
представления таких данных : “широкий” и “длинный”. Программы статистического
анализа имеют возможность преобразовывать один формат в другой. Основное
требование, на которое надо обратить внимание – это обязательная идентификация
данных конкретного пациента. Также часто повторные измерения могут быть
получиены при проведении лабораторных экспериментов. В этом случае важна
идентификация образца (животного, пробы и пр.). Обработка таких повторных
измерений имеет свои особенности (см. Разделы 21-22).
Таблица 5–2. Пример записей повторных измерений в “широком” формате
Номер Визит 1 Визит 2 Визит 3
паци- Дата СОЭ Гемо- Дата СОЭ Гемо- Дата СОЭ Гемо-
ента визита глобин визита глобин визита глобин

1 21.01.2015 9 142 15.03.2015 8 125 15.06.2015 12 137

2 22.01.2015 12 135

Таблица 5–3. Пример записей повторных измерений в “длинном” формате


Номер Дата СОЭ Гемоглобин
пациента визита

21.01.2015 9 142
1
2 22.01.2015 12 135

1 15.03.2015 8 125

1 15.06.2015 12 137

39
Округление данных. Данные каждого столбца, в котором фиксируется уровень
некоторого фактора, должны быть записаны с одинаковой точностью, т.е.
количество знаков после разделителя целой и дробной части числа должно быть
одинаковым по всем столбцу. Если некоторый фактор измеряется прибором, то
результат измерения округляется до того же десятичного разряда, которым
оканчивается округленное значение абсолютной погрешности прибора.
Прежде чем приступить к анализу данных, необходимо убедится, что данные
записаны верно. Самый простой способ – это проконтролировать минимальное и
максимальное значение в столбце, количество пустых ячеек в столбцах. Однако
ошибки ввода/записи могут быть менее заметны, поэтому нужно соблюдать
аккуратность при вводе значений.
Кроме проверки на минимальное и максимальное значение, можно и нужно
использовать и логические проверки. Например, если возраст исследуемого меньше,
чем длительность хронического заболевания, то есть основания предполагать, что в
данных ошибка. Если исследуемому пациенту 13 лет и у него есть дети, эти данные
нуждаются в проверке и т.п. Все эти проверки помогут сократить ошибки, связанные
с человеческим фактором при записи данных.
Ремарка: Тщательно проверяйте данные. Ошибка в результате неправильного ввода может привести
к неправильным результатам анализа. Исправления, которые вносятся позже, чем начат анализ,
могут внести путаницу. Поэтому, если исправления вносятся на этапе анализа, правильнее будет
повторить весь анализ на измененных данных заново.

Основные аспекты
При сборе данных желательны такие качества исследователя как
аккуратность и кропотливость, внимательность и легкая недоверчивость к самому
себе. Перепроверяйте себя. Это сэкономит время, когда данные перепроверит кто-то
другой и найдет ошибку, а вам придется переделывать весь анализ заново.
Аккуратная таблица с данными в любой момент может быть предъявлена, как
результат сбора данных. Не делайте расчеты прямо в ней. Сохраните оригинал,
работайте с копией.

40
6. Основные виды распределений
Цель статистического анализа – сделать некоторые выводы о совокупности
(популяции), используя выборку из нее. Большинство методов основано на
предположении, что используются случайные выборки. В основе выборочных
данных лежит некоторое распределение. Его идентификация по выборочным
значениям дает возможность более точного анализа, установления некоторых
характеристик выборочной совокупности и пр.
В теории статистических выводов используются величины, рассчитанные по
выборке, которые называются статистики. Это, например, выборочное (т.е.
рассчитанное по выборке) среднее, выборочная дисперсия и т.п. Часто оказывается
возможным найти распределение вероятностей данной статистики, если известно
распределение для совокупности, из которой была взята выборка. Распределение
вероятностей статистики называется выборочным распределением.
Ремарка: Прежде, чем начать анализ данных, необходимо определить вид распределения
переменных исследования.
Рассмотрим в общих чертах некоторые виды распределений.

6.1. Непрерывные распределения


Нормальное (Гауссовское) распределение и его основные свойства
Нормальное распределение играет исключительно важную роль в теории
вероятностей и математической статистике.
Считается, что случайная ошибка измерений распределена по закону
нормального распределения (“нормально”). В большинстве случаев значения
данных будут группироваться вокруг некоторого значения, такого как среднее или
медиана. Рассеяние данных (определяется как сумма квадратов расстояний от
данных до среднего) называют дисперсией или вариацией. Распределение с
большой вариацией будет более разбросано, чем с малой вариацией (Рис. 6–1).
Нормальное распределение является непрерывным распределением,
 
обозначается N μ ; σ 2 , где μ – среднее, σ 2 дисперсия. Стандартное нормальное
распределение имеет следующие характеристики: μ  0, σ  1 . Записывается как
NID0; 1 . Случайная величина x , распределенная нормально, может быть
преобразована к стандартизированной (нормированной) случайной величине
z
x  μ  . Т.е. если есть переменная x ~ N μ ; σ 2 , то z  x  μ  ~ NID0;1.
 
σ σ

41
Рис.6–1. Нормальное распределение с различной вариацией

Свойства нормального распределения:


Имеет колоколообразную форму.
Симметрично относительно среднего.
Среднее, медиана и мода равны.
Дисперсия или разброс значений относительно среднего выражается
стандартным отклонением.
68% значений попадают в интервал x  s .
95% значений попадают в интервал x  2s .
99,7% значений попадают в интервал x  3s .
99,7%

95%

68%

-3 -2 -1 0 1 2 3
Среднее
Медиана
Мода

Рис. 6–2. Свойства нормального распределения


Для многих методов статистики исходным является допущение, что
случайная переменная распределена по закону нормального распределения.
Обоснованием такого допущения часто служит центральная предельная теорема.
Утверждение этой теоремы состоит в том, что сумма n независимых случайных
переменных распределена приближенно по закону нормального распределения.
Фактически, это означает, что мы можем сравнивать средние выборочных
распределений, даже если сами распределения отклоняются от нормального.
Однако размер выборок может варьироваться в каждом конкретном случае. Иногда
хватает 10 наблюдений, иногда нужно более 100.
В медицинских исследованиях количественные данные нечасто
распределены нормально.

42
Симметричные распределения
В симметричном распределении среднее, медиана и мода равны между собой.
Нормальное распределение симметрично. Однако существуют и другие виды
симметричных распределений, отличных от нормального распределения. Даже если
распределение выглядит симметричным, необходимо провести оценку
соответствия данных определенному виду распределения.

Асимметричные распределения
Если в симметричном распределении среднее, медиана и мода равны между
собой, то в ассиметричном эти величины разновелики. Если среднее меньше
медианы, а медиана в свою очередь меньше моды, то распределение называют
скошенным влево или имеющим отрицательный уклон. Если медиана больше моды,
а среднее больше медианы, то распределение скошено вправо или имеет
положительный уклон(Рис.6–3).

Среднее Среднее
Медиана Медиана
Мода Мода

Рис. 6–3. Скошенные (ассиметричные) распределения

Ремарка: Если распределение случайной величины мультмодальное (т.е. мода не одна, а несколько,
это может быть признаком того, что или не учтен некоторый фактор в исследовании, или (что с
неопытным исследователем происходит чаще) исследование не продумано, например, произошло
слияние данных по двум подтипам заболевания, которые, возможно, различаются по этому фактору.

Логнормальное распределение
Это распределение часто встречается в медико-биологических исследованиях.
Оно имеет скошенную к одному хвосту форму (Рис. 6–4). Логнормальное
распределение ограничено нулем и имеет более длинный хвост, чем нормальное.
Это распределение связано с нормальным распределением соотношением: если x
распределено по закону логнормального распределения, то y  lnx  распределено
нормально.

43
Рис. 6–4. Логнормальное распределение

В дальнейшем, если используются некоторые модели и тесты, с данными, не


отвечающими нормальному распределению, может быть выполнено
преобразование, которое их нормализует. Если такого преобразования нельзя
найти, то данные “понижаются в шкале”, и к ним относятся как к порядковым
данным. Преобразовывать данные не всегда нужно (и не всегда можно). Есть ряд
непараметрических тестов (критериев), которые работают с порядковыми данными
без преобразования. Если преобразование выполнено, и преобразованные данные
нормальны, то все дальнейшие выводы, построенные на этих преобразованных
данных, касаются именно их, а не первоначальных.
Таким образом, после проверки на нормальность распределения
количественных данных, исследователю становится понятно, вправе ли он
использовать параметрические тесты (которые используют параметры
распределения при вычислении статистик), или непараметрические, для которых
вид распределения не установлен.
Критерии (тесты) проверки данных на нормальность распределения
присутствуют в статистических пакетах. Эти критерии также носят название
критериев согласия.

6.2. Дискретные распределения


Биномиальное распределение
Биномиальное распределение – это распределение количества “успехов” в
последовательности из n независимых случайных экспериментов, таких что
вероятность “успеха” в каждом из них равна π .
В медицинских исследованиях предполагается, что биноминальные данные
подчиняются закону биноминального распределения. Биномиальное распределение
описывают n – число испытуемых в выборке (или число повторений испытания), и
π – вероятность наступления события (успешного лечения, неблагоприятного
исхода и пр.) каждого испытуемого (или при каждом испытании). Свойства
биномиального распределения можно использовать, чтобы сделать выводы
относительно пропорций в выборке. Пропорция – предполагается распределенной
по закону биноминального распределения.
Биноминальное распределение аппроксимируется нормальным
распределением и некоторыми другими при достаточном объеме выборки, что
позволяет использовать соответствующие тесты.

44
Распределение Пуассона
Распределение Пуассона моделирует случайную величину, представляющую
собой число событий, произошедших за фиксированное время, при условии, что
данные события происходят с некоторой фиксированной средней интенсивностью
λ и независимо друг от друга. Например, число госпитализаций в день типичная
переменная, отвечающая распределению Пуассона.
В выборке такие данные могут быть представлены как количество событий за
время наблюдения, или время до момента свершения события.
И в одном, и в другом случае – это распределение Пуассона, однако в первом
случае, когда количество событий есть у каждого исследуемого, такие данные могут
быть аппроксимированы нормальным распределением, при условии, что время
наблюдения одинаково у всех случаев. Если время наблюдения одинаково для всей
выборки или не играет роли в исследовании, данные представляются как
количество событий – целые числа (например, количество детей у исследуемого,
число госпитализируемых за сутки и т.п.).
χ 2 распределение
К важным выборочным распределениям, которые могут быть определены
через нормальные случайные переменные, относится распределение χ 2 (хи-
квадрат) распределение. Если z1 , z2 , , z k – независимые случайные переменные,
распределенные нормально с нулевым средним и единичной дисперсией NID0; 1 ,
то случайная переменная χ k2  z12  z22    z k2 (сумма квадратов случайных величин)
подчиняется χ 2 -распределению с k степенями свободы.
Это распределение исключительно важно, поскольку через сумму квадратов
определяется выборочная дисперсия; методы анализа таблиц сопряженности
основываются на критериях типа χ 2 .
Распределение Стьюдента
Если z и χ k2 независимые случайные переменные со стандартизированным
z
нормальным и χ 2 -распределением, то случайная величина t k  подчиняется
χ k2 k
t -распределению (распределению Стьюдента) с k степенями свободы. При k  
распределение переходит в стандартизированное нормальное распределение.
 
Таким образом, если x1 , x2 , , x n случайная выборка из N μ ; σ 2 , то t 
x μ
s n
подчиняется t -распределению с n  1 степенями свободы.
На этом распределении построены критерии типа Стьюдента.
F-распределение
Если χ u2 и χ v2 – независимые случайные переменные χ 2 распределения со
χ u2 u
степенями свободы u и v соответственно, то отношение Fu ,v  починяется F-
χ v2 v
распределению с u степенями числителя и v степенями знаменателя.
Это распределение играет важную роль в анализе вариаций ANOVA и других
методах анализа данных планируемых экспериментов.
Безусловно, есть и другие распределения, которые лежат в основе случайных
величин. Но без знания основных свойств вышеприведенных распределений сложно
45
понимать, как “работают” основные статистические параметрические критерии.
Непараметрические критерии отличаются от параметрических тем, что не требуют
знания распределения случайной величины при их расчете.
Основные аспекты
Свойства распределений и возможности анализа, которые они предоставляют
очень активно используются в практическом анализе. Фактически, большая часть
рассуждений в статистических критериях и выводах базируется именно на
свойствах вышеописанных распределений.

46
7. Предварительный анализ данных
Предварительный анализ данных так иногда называют унивариантым
анализом данных. В медицинской литературе наиболее распространено следующие
виды унивариантного анализа:
1. Описательное исследование, в котором исследуется одна выборка. Как правило,
анализ носит описательный характер. Цель такого анализа – учесть влияние
случая в измерениях переменной. Например, описывается серия случаев одного
заболевания, рассматриваются демографические и патофизиологические
характеристики этих пациентов. Крайне редко используется сам по себе.
2. Второй распространенный вид: выборка описывается для включения в
исследование. Например, перед рандомизацией в клиническом исследовании,
исследователь может описать общие характеристики всей выборки
исследования: средний возраст, процент женщин и мужчин и пр.
В обоих видах унивариантного анализа интерес представляют описательные
характеристики, а не значимость статистических тестов. Также часто
унивариантный анализ может использоваться как вспомогательный инструмент
при анализе отдельной переменной, для того, чтобы понять, по какому закону она
распределена, как она себя ведет в исследовании, для последующего выбора
соответствующего теста.
Прежде чем начать анализ данных, необходимо определить, какие типы
данных у переменных исследования.
Для каждого столбца вашей таблицы (переменной исследования, фактора)
необходимо найти характеристики, которые помогут взглянуть на ваши данные в
целом. Значения переменной рассматриваются как некоторое эмпирическое
распределение. Очень желательно определить закон распределения этой величины,
описать это распределение некоторыми характеристиками.

7.1. Основные характеристики данных в предварительном


анализе
Предварительный анализ часто называют описательными, дескриптивными
статистиками данных (descriptive statistics).
Переменная в исследовании характеризуется набором своих значений для
каждого случая. Для того, чтобы работать с набором данных целиком – нужны
некоторые характеристики этого набора, которые в обобщенной форме отражали
все значения этого набора. Этими характеристиками и являются дескриптивные
статистики.

7.1.1. Количественные переменные

Для характеристики количественных переменных сначала нужно определить,


по какому закону они распределены. Критерии, которые используются для
определения закона распределения, носят общее название критериев согласия.
Количественные переменные в исследовании часто проверяются на "нормальность"
распределения.
Ремарка: Проверка предположения о характере распределения переменной очень часто нужна не
сама по себе, а как вспомогательная часть анализа при проверке гипотез. Некоторые критерии
основываются на предположениях о характере распределения и верны только тогда, когда
предположения выполняются.

47
Есть приблизительный быстрый способ оценки того, можно ли использовать
нормальное распределение для обработки количественных данных.
Рассчитываются основные статистики – выборочное среднее, выборочное
среднеквадратическое отклонение, медиана, мода. Если мода, медиана и среднее
расположены далеко друг от друга, то маловероятно, что данные распределены
нормально. Если мода не одна, то возможно, что дизайн исследования построен
неправильно, возможно наблюдения взяты из двух и более различных
распределений.
Рассчитывается коэффициент вариации по выборке: CV  s x , где s –
выборочное среднеквадратическое отклонение, x – выборочное среднее. Если
CV  1,0 , то данные нельзя обрабатывать, как нормально распределенные данные.
Однако, если CV  1,0 нужны дальнейшие исследования о нормальности данных.
Для проверки гипотезы о нормальности распределения наиболее часто
используются тест Шапиро-Уилка (если размер выборки менее 50, n  50 ; в
некоторых статистических пакетах тест рассчитывается при n  5000 ), тест
Лиллиефорса, тест Шапиро-Франсиа и др. Нулевая гипотеза, которая выдвигается
при проверке – данные согласуются с законом нормального распределения,
альтернативная – данные не согласуются с законом нормального распределения.
Если результат применения критерия имеет значимость p  α , то нулевая гипотеза
не отвергается, вероятно, что данные распределены нормально.
Проверка на нормальность нужна часто не сама по себе, а как предположение,
лежащее в основе статистических тестов. Однако, прежде чем окончательно выбрать
подходящий тест (критерий) для вашего исследования, необходима проверка на
наличие выбросов.
Выбросы – это аномальные значения в выборочных наблюдениях, которые
отличаются от основной части данных и несовместимы с остальными данными.
Чтобы приблизительно оценить выбросы, используются графические
представления данных: гистограмма, “ящик с усами”, Q-Q-график и др. Графические
представления – хороший инструмент для визуального анализа данных (см. раздел
7.2).
Один из самых простых способов обнаружить выброс в значениях одной
переменной – это рассчитать интеквартильный размах IR (см.6.1.4), умножить его
на 1,5. Далее определить границы, нижнюю как L  Q25  1,5 IR , верхнюю как
U  Q75  1,5 IR . Точки, лежащие вне этого диапазона, могут рассматриваться как
выбросы в данных.
Например: есть данные: 2, 8, 10, 11, 14.
Q25  8 , Q75 11 , IR  3 , L  8  1,5  3  3,5 , L  11  1,5  3  15,5 .
Сравнивая имеющиеся данные с границами, получаем, что значение 2
является выбросом.
Выбросом могут считаться данные, которые отклоняются более чем на два
стандартных отклонения от среднего выборки1; не согласуются с поведением
остальных данных в выборке.
Кроме того, для анализа выбросов существуют статистические тесты и
процедуры, которые подскажут вам, какие значения переменной являются

1
Существует эмпиричесское правило “трех сигм”. σ – стандартное отколенение. Величина, отстоящая от
среднего более чем на 3σ считается крайне маловероятной (см Раздел 6.1).

48
выбросами. Анализируются обычно крайние значения упорядоченного набора
значений переменной (крайне малые и крайне большие).
Ни один из тестов не подскажет вам, что делать с такими значениями.
Если значение данных является выбросом, то исследователь может:
– скорректировать точку данных: если возможно, перепроверить значение по
исходному оригиналу (журналу анализов, карточке пациента и др., убедиться, если
использовался некоторый прибор для измерений, что он исправен; иногда, если
сохранился материал, анализ повторяют);
– исключить из анализа эту точку, однако исключение выброса из данных
должно быть сделано с особой осторожностью, если выброс исключается из данных,
весь статистический анализ данных должен быть применен к полным и урезанным
данным так, чтобы оценить эффект от исключенных наблюдений. Такое исключение
должно быть задокументировано;
– использовать эту точку данных в анализе.
По отношению к количественной переменной вы должны убедиться, что она
подчиняется или не подчиняется закону нормального распределения, чтобы в
дальнейшем использовать соответствующие критерии. Для данных, которые могут
принимать только положительные значения и не подчиняются закону нормального
распределения – может быть сделана проверка на логнормальное распределение.
Данные преобразовываются по формуле y  lnx  , далее выполняется
предварительный анализ на нормальность.
При записи результатов предварительного анализа нормально
распределенные данные чаще всего характеризуют размером выборки,
выборочными средним и среднеквадратичным отклонением или дисперсией,
иногда среднеквадратичной ошибкой среднего; данные, которые не распределены
нормально – размером выборки, медианой, минимальным и максимальным
значением, 25% и 75% перцентилями (квартилями).

7.1.2. Номинальные и категориальные переменные

Характеристика номинальных и категориальных переменных в исследовании


отличается от характеристики количественных переменных.
Для расчета их характеристик нужно подсчитать количество появлений
каждой категории в столбце, которым представлена такая переменная. Обычно
вычисляется процент каждой категории представленных данных от общего
количества наблюдений (размера выборки). Выполняются также расчеты
доверительных интервалов, когда это необходимо для более углубленного описания
данных.

7.1.3. Характеристика времен наблюдения

Если речь идет об обработке наблюдений, которые связаны со временем


наблюдения до наступления события (или до окончания исследования), то время
наблюдений характеризуют медианой и размахом (сами по себе времена
наблюдения – количественная переменная, не распределена нормально). Например:
медиана наблюдений составила 35(2…68) дней, цифры в скобках означают
минимальное и максимальное время наблюдений в вашей выборке. Обычно такие
данные характерны в открытых когортных исследованиях. Для анализа времен
наблюдения и связанных с ними событий используются методы с общим названием
“анализ выживаемости” (см. раздел 18).

49
7.1.4. Точечные оценки и доверительные интервалы

Точечные оценки и доверительные интервалы – это распространенный прием


в статистических исследованиях, который позволяет оценить параметры
распределения случайной величины. Этими параметрами можно описать
переменную в исследовании. При работе с выборкой по некоторой переменной
исследования мы характеризуем выборку этими параметрами на основе точечных
оценок параметров распределения, которому подчиняется данная переменная
(случайная величина). Точечная оценка параметра распределения – это некоторое
число, которое интегрально характеризует весь набор значений переменной в
исследовании (выборочные среднее, медиана, дисперсия и др.). Доверительный
интервал – это интервальная оценка параметра распределения. 95% доверительный
интервал означает, что если исследование повторить много раз, то параметр будет
лежать в интервале в 95% случаев. Чаще всего в доказательной медицине
используется 95% двусторонний доверительный интервал.
Ширина доверительного интервала зависит от дисперсии (вариации,
изменчивости) выборки. Расчет доверительного интервала зависит от закона
распределения случайной величины.
Ремарка: Точечная оценка – это одна величина, значение которой вычисляется на основе данных
выборки. Интервальная оценка – это два значения (нижнее и верхнее значения интервала), которые
также вычисляются на основе выборочных данных. Для некоторых параметров распределений
существует много вариантов расчетов их доверительных интервалов. В данном пособии приводятся
наиболее простые формулы.

Среднее значение
Точечная оценка. Используется для количественных переменных,
распределенных по закону нормального распределения. Является мерой положения.
Выборочное среднее значение (т.е. оценка среднего по имеющейся выборке)
рассчитывается как:
1 n
x   xi
n i 1
где n – численность выборки,
x i , i  1,2, , n – значения переменной в выборке по каждому случаю.
Доверительный интервал для среднего
Интервальная оценка. Нижняя (индекс L – lower) и верхняя (индекс U – upper)
границы доверительного интервала определяются как:
s s
x L  x  t γ ;n1   ; xU  x  t γ ;n1   ,
n n
где x – выборочное среднее;
s – выборочное среднеквадратичное отклонение;
t γ ;n1  – значение  -квантиля распределения Стьюдента с n  1 степенями
свободы, γ  1  α для двустороннего интервала, т.е. для α  0,05 γ  0,975, для
2
одностороннего интервала γ  1  α ;
n – численность выборки.
Ремарка: Фактически, этот интервал покрывает 1  α % распределения исследуемого параметра
выборки. Для среднего – это распределение среднего, а не выборки, на основе которой рассчитано
среднее.

50
В литературе обычно приводятся данные о двустороннем доверительном
интервале. Говорят, что рассчитан 1  α % интервал для некоторого параметра
распределения. Например, 95% доверительный интервал для среднего. Указание в
тексте публикации значений нижней и верхней границы свидетельствует о том, что
интервал двусторонний. Как правило, в публикациях приводится в первую очередь
среднее, стандартное отклонение или стандартная ошибка среднего, доверительные
интервалы приводятся как дополнительная вспомогательная информация.
Медиана
Точечная оценка. Если значения переменной, полученной в исследовании,
упорядочить по возрастанию, то медиана – это значение переменной, которое делит
упорядоченную совокупность наблюдений пополам, так что одна половина
значений в этой совокупности лежит ниже медианы, а другая их половина – выше
медианы. Если совокупность образована нечетным числом значений наблюдаемой
переменной, то медиана равна значению переменной, являющемуся серединой
упорядоченной совокупности наблюдений. Если же совокупность образована
четным числом значений, то медиана определяется значением, лежащим
посередине между двумя значениями, находящимися в центре упорядоченной
совокупности наблюдений. Медиана – мера положения, используется, когда
переменная порядковая или количественная. Медиана нечувствительна к величине
крайних значений упорядоченной совокупности наблюдений.
Точечная оценка медианы рассчитывается следующим образом:
Пусть x1 , x2 , , x n представляют n значений переменной исследования.
Медиана – центр значений, которые упорядочены по возрастанию
x 1  , x 2 , , x n  x 1   x 2     x n   .
Если n – нечетное ~ x x
n1  2 
x x
Если n – четное ~
x  n 2  n 21  .
2
В публикациях приводится медиана, когда распределение переменной
исследования отлично от закона нормального распределения. Иногда приводится
среднее и медиана, чтобы дать понять читателям, что выборочная переменная не
подчиняется закону нормального распределения.
Доверительный интервал для медианы
Интервальная оценка. При расчете точечной оценки медианы выборка по
переменной исследования упорядочивается по возрастанию x 1  , x 2 , , x n 
x    x      x    , и каждый член ряда получает свой порядковый номер (номер
1 2 n

взят в скобки при каждом x ).


При n  50 доверительный интервал для медианы ~
x приблизительно
определяется порядковым номером k ,
x L  x k , xU  x nk 1 ,

k
1
2
 
n  zγ n  1 , с округлением k до меньшего целого числа,

где zγ – значение  -квантиля нормального распределения, γ  1  α для


2
двустороннего интервала, т.е. для α  0,05 γ  0,975, для одностороннего
интервала γ  1  α .

51
При n  50 можно воспользоваться специальными таблицами или
статистическими пакетами.
Доверительные интервалы для медианы редко встречаются в медико-
биологических публикациях.
Квартили и квантили
Точечные оценки. Перцентиль – значение данных, которые больше или равны
заданному проценту от значений данных выборки. В математических терминах
p -ый перцентиль – такое значение данных, которое больше или равно p % всех
данных и меньше или равно ( 1  p )% данных. Поэтому, если значение x – p -ый
перцентиль, то p % значений в наборе данных меньше или равны x , и ( 100 p )%
значений больше или равны x . Квантиль – это тот же перцентиль, выраженный не в
процентах, а в частях ( от 0 до 1).
Квартили (25% и 75% перцентили), а также медиана (50% перцентиль),
обеспечивают разбиение упорядоченной количественной выборки на 4
подмножества равной численности. Вычисление данных показателей производится
по правилам, принятым для вычисления медианы.
Верхний квартиль ( Q75 ) представляет собой 75% перцентиль выборки.
Нижний квартиль ( Q25) представляет собой 25% перцентиль выборки.
В публикациях иногда приводятся значения Q25 и Q75 наряду с Q50 –
медианой, когда распределение изучаемой величины отлично от закона
нормального распределения. Иногда также приводится Q95 или Q97 например, для
того, чтобы использовать потом такие данные, как референтные. Например, по
группе здоровых исследуемых даны Q50 и Q97 диастолического давления. Далее
эти данные могут использоваться для того, чтобы показать, что в исследуемой
группе (пациентов с некоторым заболеванием), существует значительное
количество случаев с диастолическим давлением выше, чем Q97 .
Интерквартильный размах
Точечная оценка. Интерквартильный размах – это разность между верхним и
нижним квартилями выборки.
IR  Q75  Q25.
Приводится в публикациях. Означает, что половина значений
показателя/фактора в исследуемой выборке лежит в пределах интерквартильного
размаха.
Мода
Точечная оценка. Мода – это наиболее часто встречающееся в определенной
совокупности наблюдений значение показателя/фактора. Также является мерой
положения; может использоваться в случае категориальных, порядковых и
количественных переменных.
Дисперсия
Точечная оценка. Дисперсия является мерой рассеяния. Точечная оценка по
выборке (выборочная дисперсия) рассчитывается как:
1 n
s2   x i  x 2 ,
n  1 i 1
где n – численность выборки,
x i , i  1,2, , n – значения переменной в выборке.

52
x – выборочное среднее.
Эта формула выборочной оценки дисперсии получена в предположении
нормального распределения количественной переменной. Вычисленную по данной
формуле оценку допустимо применять только для нормально распределенной
количественной переменной, но не для переменных в других шкалах измерения и с
другими функциями распределения. Выборочная дисперсия измеряет рассеяние
среднего в выборке. Большая дисперсия подразумевает, что множество данных не
сгруппировано около среднего. Маленькая дисперсия подразумевает, что
большинство данных находится около среднего. На выборочную дисперсию влияют
экстремальные значения и значения, которые находятся ниже порога
чувствительности метода измерения.
Стандартное отклонение
Точечная оценка. Стандартным отклонением (среднеквадратичным
отклонением, с.к.о.) называют корень квадратный из дисперсии. Вычисление
стандартного отклонения производится по формуле:
s  s2 ,
где s 2 – выборочная дисперсия.
В медико-биологических публикациях s часто обозначают как SD (standard
deviation).
Стандартная ошибка среднего
Точечная оценка. Стандартная ошибка среднего SE (standard error)
определяется по формуле:
s
SE  ,
n
где s – выборочное стандартное отклонение,
n – численность выборки.
Традиционно запись, характеризующая среднее значение и его стандартную
ошибку, представляется в виде x  SE .
Пропорция
Точечная оценка. Если в исследовании имеется биноминальная переменная,
которая кодируется как “1” – состояние (событие), которое интересует
исследователя, “0” – противоположное состояние, то точечная оценка пропорции по
выборке рассчитывается как:
k
πˆ  , где
n
k – количество интересующих исходов в выборке,
n – численность выборки.
Дисперсия пропорции
Точечная оценка. Рассчитывается как: s 2  πˆ 1 – πˆ  .
s
Соответственно s  s 2 , SE  .
n

53
Доверительный интервал для пропорции
Интервальная оценка. Доверительный интервал для пропорции
рассчитывается упрощенно (биноминальное распределение аппроксимируется
нормальным распределением), если k  4 и n  k  4 .
1 k
k  zγ2 – zγ n – k   1 zγ2
Нижняя граница: π L  2 n 4 .
n  zγ
2

1 k
k  zγ2  zγ n – k   1 zγ2
Верхняя граница: π U  2 n 4 .
n  zγ2
k – количество интересующих исходов в выборке;
n – численность выборки;
zγ – значение  -квантиля нормального распределения, γ  1  α для
2
двустороннего интервала, т.е. для α  0,05 γ  0,975, для одностороннего
интервала γ  1  α .
Большинство статистических пакетов рассчитывают доверительный
интервал для пропорции при любых условиях.
Ремарка: Вариант расчета с аппроксимацией биноминального распределения нормальным не
является единственным. Реализация расчета в статистическом пакете также может быть не
единственна.

Интенсивность
Точечная оценка. Если исследователь на протяжении времени t наблюдал
события в выборке, то точечная оценка интенсивности рассчитывается как:
k
λ̂  , где
t
k – количество интересующих исходов в выборке,
t – время наблюдения.
Пример: в когортном исследовании приняло участие 600 человек, из них 100
наблюдалось в течение года, 200 – в течении 2 лет, 300 – в течение трех лет. Тогда
количество человеко-лет наблюдения составит: t = 100 × 1 + 200 × 2 + 300 × 3 = 1400 .
Дисперсия интенсивности
Точечная оценка. Дисперсия интенсивности равна D  λ̂ .

Доверительный интервал для интенсивности


Интервальная оценка. Если произошло количество событий k за время t , то
0, k  0;
Нижняя граница: λL  
0,5 χ 1–α 2 ,2k , k  0;
2

Верхняя граница: λU  0,5 χ 2α ,2k 2 ,


2

54
где χ γ2,v есть значение  -квантиля  2 -распределения с v степенями свободы.
Для нижней границы γ  1  α (т.е. для   0,05   0,975 ), v  2k и для верхней
2
границы γ  α , v  2k  2 .
2

7.1.5. Представление данных в исследованиях

Очень часто исследователи задают вопрос о том, как правильно описать


данные для публикации, отчета, как представить дескриптивные (описательные)
статистики данных.
Очень многое зависит от …здравого смысла. Например, возраст пациентов –
интересен возрастной охват. Имеет смысл привести минимальный и максимальный
возраст. Однако если исследование предполагало, к примеру, детей в возрасте 11-14
лет, то минимум и максимум не нужны.
Количество наблюдений также может сыграть роль в представлении
данных. Например, если у вас 5 пациентов, то описывать их показатели медианой и
квартилями не имеет смысла. Понятно, что это будут три серединных значения.
Возможно, проще перечислить наблюдаемые значения показателя или дать
минимум, максимум и серединное значение (медиану).
Исходя из практики автора, можно рекомендовать следующее:
При описании когорты пациентов размером до 20-30 человек,
количественные показатели, не подчиняющиеся закону нормального распределения
можно представить медианой, минимумом и максимумом. При размере когорты
свыше 20-30 - количественные показатели, не подчиняющиеся закону нормального
распределения можно представить медианой и квартилями.
В случае нормального распределения количественные показатели можно
представить средним и стандартным отклонением независимо от размера выборки.
Но правило “здравого смысла” не отвергаем, например, длительность
наблюдения за пациентами традиционно представляется медианой, минимумом и
максимумом независимо от количества пациентов в исследовании, поскольку эти
данные дадут возможность оценить, как долго продолжалось исследование.
Аналогично можно поступить и с возрастным показателем в естественной выборке.
В целевой выборке те показатели, которые были условием включения в целевую
выборку, описывать не имеет смысла.
При описании данных лабораторного эксперимента (см. Раздел 22) мы
полагаем, что все наблюдения были сделаны в одинаковых условиях, измерения
проведены по одной и той же методике. Чаще всего количественные показатели в
этом случае имеют нормальное или логнормальное распределение и отклонения от
среднего вызваны случайными факторами. Стандартное отклонение в этом случае
чаще и в большей степени несет информацию об ошибке измерений, нежели о
биологической вариации параметра. Поэтому в лабораторных экспериментах
указывают среднее показателя, которое и хотели измерить в условиях
эксперимента, а также ошибку среднего или 95 % доверительный интервал
среднего.
Частотные характеристики, как правило, описываются процентами, однако
при малой частоте имеет смысл привести не только процент, но и абсолютное
значение, например, “из 1200 пациентов 2 (менее 0,2 %) получили осложнения”.
Часто возникает вопрос об округлении расчетных оценок. Правила таковы:
если мы расчитали стандартное отклонение (стандартную ошибку), то сначала
округляем это число. Если первая значащая цифра 1 или 2 – округляем до двух
55
значащих цифр стандартное отклонение (стандартную ошибку), затем до тех же
позиций округляем саму оценку. Если первая значащая цифра 3-9, то округляем до
первой значащей цифры стандартное отклонение (стандартную ошибку) и до той
же позиции знака округляем саму оценку.
Например: рост составил 181 ,375  12,79 см, округляется 181  12 см; рост
составил 181 ,375  34 ,58 см, округляется 180  30 см.
Если вы представляете эмпирические величины, например, медиана,
квартили, минимум, максимум, то представление идет с точностью шкалы, в
которой измеряли данную величину. Например, есть измерения 10; 8,7; 9,2; 11,4; 3,5;
6; 4,5. Медиана выборки составила 8,7.
Правила носят рекомендательный характер, есть стандарты СТ СЭВ 543-77
"Числа. Правила записи и округления", СТБ 1988-2009 (Государственный стандарт
Республики Беларусь). Также рекомендации можете найти в книге Ланг Т.А., Сесик
М., Как описывать статистику в медицине.

7.2. Графическое представление данных


Для “взгляда” на то, как ведет себя переменная в исследовании, удобно и
полезно использовать графические представления. Они очень разнообразны, однако
описаны ниже будут только основные.

7.2.1. Количественные данные

Графики частот/гистограмма
Два самых известных графических метода для общего взгляда на
распределение данных – это график частот и гистограмма. И график частот, и
гистограмма основаны на одних и тех же принципах представления данных: деление
диапазона данных на интервалы, расчет количества точек, попавших в интервал, и
отображение количества точек, как высоты на столбиковой диаграмме. Однако есть
небольшие различия между гистограммой и графиком частот. На графике частот
относительная высота полос представляет относительную плотность данных. В
гистограмме площадь полосы представляет относительную плотность данных.
Различие между двумя графиками становится более заметным, когда используются
неравные размеры интервалов.
Гистограмма и график частот помогают оценить симметрию и изменчивость
(вариабельность) данных. Если
данные симметричны, то
структура графика будет
симметрична относительно
центральной точки, такой как
среднее. Гистограмма и график
Количество наблюдений

частот показывают, скошены ли


данные и направление уклона
(асимметрии).
Визуальное изображение
на гистограмме или графике
частот может быть весьма
чувствительно к выбору ширины
интервала. Выбор числа Переменная
интервалов определяет,
Рис.7-1. Пример графика частот
показывает ли гистограмма

56
больше деталей для малых интервалов, или данные распределения будут выглядеть
более сглажено (Рис 7–1).

“Ящик с усами”
“Ящик с усами” (рис. 7–2) является схематичной
диаграммой, полезной для визуализации основных *
статистических характеристик (параметров) распределения
данных. Эта диаграмма полезна в ситуациях, где нет
необходимости или где невозможно изобразить все детали
распределения. “Ящик с усами” состоит центрального блока, +
разделенного вертикальной и горизонтальной линиями.
Традиционно шкала самих данных идет снизу вверх, от меньших
значений к большим. Высота центрального блока указывает
расположение большой части данных (центральные 50 %), в то
время как длина вертикальных “усов” показывает, насколько
вытянуты хвосты распределения. У ширины блока нет никакого
специфического значения; график может быть узким или
*
широким1. Выборочная медиана – горизонтальная линия,
разделяющая блок, и среднее выборки обозначается знаком ‘+’. Рис.7-2. Пример
Любые необычно малые или большие данные точки показаны '*' “ящика с усами”
на графике. “Ящик с усами” может использоваться для оценки
симметрии данных. Если распределение является
симметричным, то блок разделен на две равные половины медианой среднее будет
находиться на линии медианы, усы будут одинаковой длины и число экстремальных
точек данных будет представлено одинаково на каждом конце.
Таким образом, из графического представления может быть получена
информация о местоположении распределение (медиана, среднее), рассеяния
(центральный блок – это интерквартильный размах), интервал изменения (крайние
значения распределения), наличие выбросов, некоторая информация о форме
распределения (взаиморасположение медианы и среднего).
График квантиль-квантиль
График квантиль-квантиль (нормальный Q-Q график) используется для того,
чтобы примерно определить, насколько хорошо данные соответствует модели
нормального распределения. Присутствует практически во всех статистических
пакетах. На нем по горизонтальной оси откладываются квантили нормального
распределения(которое строится на основе расчетов среднего и стандартного
отклонения по наблюдаемым значениям), по вертикальной – квантили
наблюдаемых значений (эмпирические данные – как есть в исследовании). Если
полученный график – прямая линия, данные распределены нормально. Если график
не является прямой, уходы от прямой линии дают важную информацию о том, как
распределение данных отклоняется от нормального распределения. Если график
нормальной вероятности не линеен, график может использоваться для того, чтобы
определить степень симметрии (или асимметрии).
Если данные в верхнем хвосте ниже линии квартилей, а в нижнем хвосте –
выше линии квартилей, то на хвостах меньше данных, чем ожидалось при
нормальном распределении. Если данные в верхнем хвосте выше линии, а данные в

1
Если приводятся распределения нескольких групп на одном рисунке, то ширина “ящика с усами”может
характеризовать размер групп.

57
нижнем хвосте ниже линии квартилей, то данные на хвостах больше, чем ожидалось
бы при нормальном распределении. Q-Q график может использоваться для
идентификации потенциальных выбросов в данных. Значение данных (или
несколько значений данных) намного бóльшее или намного меньшее, чем остальные
значения данных влекут за собой эффект сжатия данных в середине графика
искажая линию (Рис.7–3).
0,01 0,05 0,25 0,50 0,75 0,90 0,99
100 0,01 0,05 0,25 0,50 0,75 0,90 0,99
70

80 60

60 50
Наблюдаемые

40

Наблюдаемые
40

30
20
20
0
10

-20
0

-40 -10
Т еоретические Теоретические

35
50

45
30

40

25
35
Количество наблюдений

Количество наблюдений

30
20

25
15
20

10 15

10
5
5

0 0
-5 0 5 10 15 20 25 30 35 40 45 50 55 60 65 -5 0 5 10 15 20 25 30 35 40 45 50 55 60 65

Рис.7–3. Примеры Q-Q графиков и соответствующих гистограмм


50
350

45
300
40

35 250
Количество наблюдений
Ко л и ч е ств о н а б л юд е н и й

30
200
25

150
20

15
100

10
50
5

0 0
0 1 2 3 4 5 6 7 8 9 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6
Пе р е ме н н н а я 1 П ерем енная 2

8 2 .6

2 .4
7 2 .2

2 .0
6
1 .8

1 .6
5
1 .4

4 1 .2

1 .0
3 0 .8

0 .6
2
0 .4

0 .2
1
0 .0

0 -0 .2

Пе р е ме н н а я 1
Норм альное распределение
Но р ма л ь н о е р а сп р е д е л е н и е Перем енная 2
1 .0 3.0

2.5
0 .8
2.0
Наблюдаем ые

1.5
На б л юд а е мо е

0 .6

1.0

0 .4 0.5

0.0
0 .2
-0.5

0 .0 -1.0
0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 -4 -3 -2 -1 0 1 2 3 4
Те о р е ти ч е ск о е Теоретическое

Рис.7–4. Примеры визуализации количественных данных

58
Ремарка. В некоторых статистических пакетах при построении графика нормальной вероятности по
оси Х отображается наблюдаемое распределение, по оси Y теоретическое (ожидаемое). Будьте
внимательны.
Можно построить Q-Q график не только для нормальной вероятности, но и
любого другого распределения, и посмотреть, как данные соотносятся с
теоретическим распределением. Можно также построить график по двум
переменным, приняв одну из них за основу для другой.
Примеры визуализации представлены на Рис.7–4: один и тот же набор данных
представлен в разных видах. Как видно, распределение переменной 2 скошено
вправо. Переменная 1 скорее всего распределена нормально.
Важность визуального представления данных сложно переоценить. Для
понимания этого момента можно привести следующий пример1 – квартет Анскомба
(Anscombe's quartet).
Таблица 7–1. Данные квартета Анскомба
набор 1 набор 2 набор 3 набор 4
x y x y x y x y
10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58
8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76
13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71
9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84
11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47
14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04
6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25
4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50
12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56
7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91
5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89
Это четыре набора данных (табл.7–1), которые практически не различаются в
средних, дисперсиях, корреляциях (в этом можно убедиться самостоятельно).
Однако, их визуализация дает четкое понимание, что наборы совершенно различны
(Рис.7–5).

Рис.7–5. Квартет Анскомба

1
F.J. Anscombe, "Graphs in Statistical Analysis," American Statistician, 27 (February 1973), 17-21.

59
7.2.2. Качественные данные

Качественные данные также можно представить графически с помощью


столбиковой или круговой диаграммы с указанием числа случаев в категории, или
процентного соотношения. Также существуют более сложные и интересные
представления качественных данных, которые можно найти в любом
статистическом пакете.

14
12
12 К1
К5
10 9 16%
24%
8 7
6
6 К2
К4
3 19%
4 8%
2 К3
0 33%
К1 К2 К3 К4 К5

Рис. 7–6. Примеры визуализации качественных данных

7.3. Описание переменной исследования


Схемы описания переменной исследования в унивариантном анализе
приведены на рис. 7–7.
количественная переменная порядковая
(нормальное распределение) переменная

Медиана,
Среднее, дисперсия, размах, квартили
интервальные оценки

номинальная переменная

Связана со Не связана
временем со временем
наблюдения наблюдения

Интенсивность, Пропорция,
доверительные доверительные
интервалы интервалы

Рис. 7–7. Схемы описания исследуемой характеристики данных

Статистические задачи – описание одной выборки, проверка соответствия


эмпирического и теоретического законов распределения, проверка предположения
о характере распределения. В таблице 7–2 приведена сводная информация по
описанию переменных исследования.

60
Таблица 7–2. Основные характеристики описания выборки одной переменной исследования
Описательные статистики (descriptive statistics)
Переменная исследования Расчет точечных и интервальных оценок
Биноминальная (два возможных Точечная и интервальная (доверительный интервал)
результата, обычно 0 – отсутствие оценки вероятности наступления события (исхода)
события и 1 – наличие события. Подсчитывается пропорция как отношение количества
событий к размеру группы
Мультиноминальная Точечная и интервальная оценки вероятности наступления
(неупорядоченные и определенного состояния (исхода). Подсчитывается
неупорядоченные категории) количество объектов в каждой категории и размер группы.
Указывается пропорция каждой категории в выборке
События в единицу времени Точечная и интервальная оценки интенсивности
(представлены переменной наступления событий (исходов). Рассчитывается время
количество событий за промежуток наблюдения по выборке и количество событий
времени – интенсивность событий),
распределение Пуассона
Измерения на количественных Точечная и интервальная оценки медианы, квартили,
шкалах, не подчиняющиеся закону минимальное и максимальное значения
нормального распределения
(порядковые переменные)
Измерения на количественных Точечная и интервальная оценки среднего, дисперсия
шкалах (нормальное распределение)

Как упоминалось ранее, анкета, в которой находятся данные, представляет


собой таблицу, в которой строка – это один случай, столбец – это одна переменная
исследования, на пересечении строки и столбца находится значение (точка данных),
которое характеризует некую переменную для некоторого случая.
Если столбец – это биноминальная переменная, то необходимо выполнить
подсчет количества нулей и количества единиц в столбце. Унивариантый анализ
такой переменной будет проходить относительно этих двух чисел или отношения
количества единиц к количеству наблюдений (исследуемых), размеру выборки
(сумма количества нулей и количества единиц).
Если столбец – категориальная переменная (упорядоченная или не
упорядоченная), то подсчитывается количество наблюдений, принадлежащих
каждой из категорий. Унивариантый анализ такой переменной будет проходить
относительно количества наблюдений, попавших в определенную категорию и
размера выборки.
Если время наблюдения выборки связано с биноминальной переменной
(наступило событие или нет), то подсчитывается суммарное время наблюдения и
количество событий за время наблюдения. Каждый из столбцов может быть
проанализирован отдельно (столбец событий – как биноминальная переменная,
столбец времен наблюдения – как количественная переменная, у которой закон
распределения отличается от нормального), иногда нужно описать соотношение
числа событий к общему времени наблюдения. Унивариантый анализ такой
переменной будет применен к отношению количества событий в выборке к
суммарному времени наблюдения выборки.
По окончанию предварительного анализа правильнее всего будет составить
таблицу вида Табл.7–3. Пример такой таблицы (Табл.7–4).
При необходимости, можно рассчитать доверительные интервалы. Однако
дескриптивные статистики чаще представляются средним и среднеквадратичным
отклонением (или ошибкой среднего), медианой и квартилями (размахом),
количеством и пропорцией этого количества.

61
Таблица 7–3. Шаблон описания переменных в исследовании
Всего в исследовании n случаев
Наименование переменной Тип Расчет оценок Примечание
Исход ( изучаемая, зависимая
переменная) ….
Переменные исследования

Переменная 1

Переменная 2

…..
Переменная k

Таблица 7–4. Пример описания переменных в исследовании


Всего в исследовании 143 случая
Наименование переменной Тип Расчет оценок Примечание
Исход – послеоперационное Упорядоченные
осложнение в течение 1 мес. категории
после операции 0 – без осложнений 82 (57,4%)
1- легкие 22 (15,4%)
осложнения
2 – средняя тяжесть 13 (9,1%)
осложнений
3 – тяжелые 26 (18,1%) 1 пациент –
осложнения летальный исход
Переменные исследования

Возрастная группа,1 1 от 20 до 29 27 (18,8%)


Кол-во в группе(процент) 2 от 30 до 39 38 (26,6%)
3 от 40 до 49 54 (37,8%)
4 50+ 24 (16,8%)
Пол Биноминальная
1 – мужской 68 (49,6%)
2 – женский 75 (52,4%)
Систолическое давление перед Количественная, 1 пациент – 190,
операцией; закон нормального возможна ошибка в
среднее, распределения 125,6 записи –
стандартное отклонение 22,7 перепроверить
данные

Лейкоциты перед операцией; Количественная, не 5,4 (4,7;12,3)


медиана, квартили подчиняется закону
нормального
распределения
Применение Неупорядоченные Препарат С
послеоперационных категории использовался в
препаратов 1 – препарат А 80 (55,9%) двух формах,
2 – препарат В 25 (17,5%) возможно нужны
3 – препарат С 38 (26,6%) две отдельные
группы – уточнить
….

1
Разбиение на возрастные группы зависит от целей исследования, например: трудовой/пенсионный
возраст; для детей: допубертатный период/пубертат/постпубертат и т.п.

62
7.4. Выбор переменной, связанной с исходом
Как видно из практики, одна из проблем исследования – это выбор
переменной, связанной с исходом, т.е. той переменной, которая будет
“сигнализировать” о том, насколько эффективно лечение, метод диагностики и пр.
или констатировать наступление некоторого события. Безусловно, правильно будет
определить эту переменную до начала исследования. Чаще всего используются
данные литературы для определения общепринятого исхода. Однако, бывает
необходимость перейти к другой шкале, отличной от исходной. Например,
результаты лечения оценивались по некоторому опроснику в балльной шкале от 0
до 100 баллов. Как в этом случае определить, что является благоприятным исходом,
а что нет? Во-первых, изучить внимательно эту балльную шкалу и определить
пороговое значение между состояниями “есть эффект” и “нет эффекта”. Во-вторых,
добавить “фиктивную” переменную, которая бы кодировала наличие и отсутствие
результата лечения для каждого пациента (или градации эффекта). Тем не менее,
убирать исходную количественную переменную из результатов исследования не
рекомендуется, поскольку, возможно, будут уточнятся пороговые значения
(градации), строится модель прогноза и пр.
Для переменных исхода, связанных с измерением некоторого параметра
пациента – можно найти справочники и другую литературу, в которых приведены
значения нормы у здоровых людей и на этом основании вводить фиктивную
переменную (“норма/отсутствие нормы”). Можно определить несколько градаций
такой переменной (Например: “нет улучшения/есть улучшение/выздоровел”).
Если переменная исхода является бинарной (например, “болен/здоров”), то
никаких преобразований проводить не надо.
В любом случае, если переменная связана с состоянием исследуемого
пациента, нужно четко определить процедуру выявления этого состояния. Она
должна быть обязательно описана в исследовании.
Основные аспекты
Иметь четкое представление о своих данных необходимо.
Не все дескриптивные характеристики данных включаются в публикацию
или отчет, но для понимания ваших данных лучше их иметь под рукой. Для
числовых данных иметь их графическое представление нужно, даже если оно не
будет использовано в публикации или отчете.
Умение “читать” графический материал – это первый шаг к пониманию
данных. Иногда графики красноречивее слов. 1
Выбросы в данных должны быть тщательно перепроверены,
задокументированы и принято решение, как с ними поступать в дальнейшем
анализе.

1
Доказательство известной теоремы Пифагора приводится в книге «Венец астрономического учения»
индийского математика XII в. Бхаскары. Собственно, все доказательство состоит из чертежа. В качестве
пояснения фигурирует лишь слово «Смотри!».

63
8. Унивариантный анализ: сравнение с пороговым значением,
доверительные интервалы
Для сравнения переменной исследования с пороговым значением
используются так называемые одновыборочные тесты. Они сравнивают параметр
(например, среднее, квантиль, медиану) с пороговым значением. В этом случае
пороговое значение определяется в начале исследования. Пороговое значение в
тесте с одной выборкой – неизменное фиксированное число. Например,
одновыборочный тест может определить содержат ли 95% всех измерений
давления величину ниже заданного порогового значения. Для этого примера,
переменная – процент (пропорция) и пороговое значение составляет 95% (0,95). Это
часто необходимо при изучении исхода, который может быть представлен
количественной переменной при сравнении с нормами, принятыми для здоровых,
или пациентов с определенным типом заболевания и т.п. Также может применяться
при описании фактора, когда речь идет о том, что часть пациентов в исследовании
имеет завышенные/заниженные показатели по сравнению с нормами для здоровых
и т.п. В таком анализе неважно, идет речь о зависимой или независимой переменной
– это переменная исследования.
Статистическая задача – сравнить выборочные измерения переменной
исследования с фиксированным пороговым значением.
Таблица 8–1. Критерии сравнения с пороговым значением
Сравнение с пороговым значением
Переменные исследования Критерии
Пропорция Одновыборочный тест пропорций
Точный биноминальный тест (Exact binominal
test)
Количественные измерения (не Тест знаков рангов Виолкоксона (Wilcoxon Signed
подчиняющиеся закону нормального Rank Test)
распределения)
Количественные измерения (нормальное Одновыборочный t-тест
распределение)

Мы не будем останавливаться подробно на каждом из тестов, их расчет есть


практически в любом статистическом пакете. Рассмотрим интервальное
оценивание.
В статистике случайные величины представляются выборкой. Параметры
(среднее, медиана, пропорция) – это характеристики(параметры) выборки, их мы
оцениваем по выборке точечной оценкой (т.е. одно число вместо совокупности
чисел) и доверительным интервалом (нижняя и верхняя граница этого числа с
доверительной вероятностью 1  α ). Предполагается, что если мы повторим наш
статистический эксперимент множество раз, то значение параметра в 1  α  %
случаев будет лежать в пределах этого интервала.
Выдвигая некоторую гипотезу о разнице между средним (медианой,
пропорцией и пр.) и некоторым фиксированным числом, тем самым мы проверяем,
находится ли фиксированное число в доверительном интервале параметра. При
построении доверительного интервала мы принимаем в расчет выбранный уровень
значимости α , поэтому при различных уровнях значимости может получаться
различный результат сравнения.
Если доверительный интервал, построенный для оцениваемого параметра
(среднего, медианы, пропорции) содержит пороговое значение, то тест не покажет
значимой разницы между оцениваемым параметром и пороговым значением. Для
64
того, чтобы говорить, что переменной исследования отличается от порогового
(заданного фиксированного значения), это значение не должно находится в
пределах доверительного интервала параметра (среднего, медианы, пропорции).

Ремарка: В статистике все рассчитывается и оценивается с некоторой вероятностью. Но чем грубее


 
уровень значимости α , тем меньше доверительная вероятность 1  α , и тем меньше доверия к
нашим выводам.

Для определенности рассмотрим 5 выборок (Табл. 8–2), рассчитаем средние,


доверительные интервалы для различных гипотез (Табл. 8–3). Пусть наш
фиксированный порог C  100 , выбранный уровень значимости α  0,05 .
Таблица 8–2. Данные выборок и выборочные характеристики

Выбороч- Выборочная Стан-


ное дисперсия дартная
среднее ошибка
s2 
1 n среднего
x  xi
n i 1
1 n
 xi  x 2 s
n  1 i 1 SE 
n

Выборка А 114;119;117;121;115;116 117,0 6,8 1,06


Выборка Б 99,4; 104,0; 102,0; 106,0; 100,0; 101,0 102,1 6,3 1,03
Выборка В 94,0; 100,4; 97,0; 102,0; 95,0; 96,0 97,4 6,9 1,29
Выборка Г 94; 99; 97; 101; 95; 96 97 6,8 1,06
Выборка Д 101,8; 104,0; 102,0; 107,0; 100,0; 101,0 102,6 6,3 1,03

Таблица 8–3. Доверительные интервалы выборок

Доверительные интервалы
s s
x L  x  tγ ;n1   ; xU  x  tγ ;n1  
n n
95% односторонние интервалы
95% двусторонний интервал

t 0 ,95;5  2,015 t 0 ,95;5  2,015 t 0,975;5  2,571


Выборка Нижняя граница Верхняя граница Нижняя граница Верхняя граница
одностороннего одностороннего
95% интервала 95% интервала
(Верхняя +Inf) (Нижняя –Inf)
Выборка А 114,9 119,1 114,3 119,7
Выборка Б 100 104,1 99,4 104,7
Выборка В 94,8 100,0 94,1 100,7
Выборка Г 94,9 99,1 94,3 94,7
Выборка Д 100,5 104,7 100,0 105,2

R-скрипты для расчета данного примера приведены в Приложении R-1.

65
Вариант 1 (Рис. 8–1)
Для среднего истинное среднее меньше или равно C , H0 : μ  C против
H A : μ  C . Иными словами, нулевая гипотеза утверждает, что истинное среднее
лежит левее или равно C . Варианты расположения доверительных интервалов
представлены на рис. 8–1. Вертикальная линия на рисунке – это заданное пороговое
значение, вертикальные штрихи на линиях интервалов – средние по выборке x .
Выборка А: Расчеты по выборочному среднему показали, что 117  100 .
Строим 1  α  односторонний доверительный интервал, вычисляем его нижнюю
границу (114,9). Нижняя граница доверительного интервала x L лежит правее
порогового значения C . Проверка одновыборочным t-тестом покажет, что p  α ,
нулевая гипотеза H0 : μ  100 отклоняется. Действительно, даже нижняя граница
доверительного интервала больше чем C ; иными словами – истинное среднее
лежит правее порогового значения с доверительной вероятностью 95% ; истинное
среднее больше C  100 на уровне значимости α  0,05 .
p <0,05

Выборка А

p =0,05
Выборка Б
+Inf

p >0,05
Выборка В

С=100

Истинное значение параметра

Рис. 8-1. Вариант 1 : для среднего H 0 : μ  C против HA :μ  C

Выборка Б: Расчеты по выборочному среднему показали, что 102  100 . Есть


основания выдвинуть нулевую и альтернативную гипотезу. Строим 1  α 
односторонний доверительный интервал, вычисляем его нижнюю границу. Нижняя
граница доверительного интервала x L  100 . Проверка одновыборочным t-тестом
покажет, что p  α ; действительно, значение нижней границы не противоречит
нулевой гипотезе H0 : μ  C . В этом случае нужны дополнительные исследования
(увеличение объема выборки для фиксирования разницы между средним и
пороговым значением);
Выборка В: Расчеты по выборочному среднему (выборочной пропорции)
показали, что x  97  100 . Оснований для выдвижения основной и альтернативной
гипотезы на самом деле очень мало, хотя в выборке есть значения, которые
превышают пороговое значение C  100 . Тем не менее, попробуем проверить нашу
гипотезу. Строим 1  α  односторонний доверительный интервал, вычисляем его
нижнюю границу. Нижняя граница доверительного интервала x L  94,8  100 .
Проверка одновыборочным t-тестом покажет, что p  α .

66
Вариант 2 (Рис.8–2)
Для среднего H 0 : μ  C против H A : μ  C . Нулевая гипотеза утверждает, что
истинное среднее лежит правее или равно C .
p <0,05
Выборка Г

p =0,05 Выборка В
–Inf
p >0,05 Выборка Б

С=100

Истинное значение параметра

Рис. 8-2. Вариант 2 : для среднего H 0 : μ  C против HA : μ  C

Вариант 3 (Рис. 8–3)


Для среднего H0 : μ  C против H A : μ  C . Если двусторонний доверительный
интервал не содержит C , то p  α (Выборки А и Г). Действительно доверительный
интервал расположен правее или левее порогового значения; если верхняя или
нижняя граница равны C , то p  α (Выборка Д); если доверительный интервал
содержит C , то p  α (Выборки Б и В).

Выборка Г Выборка А
p <0,05 p <0,05

Выборка Д
p =0,05
Выборка Б
p >0,05
Выборка B
p >0,05

С=100

Истинное значение параметра

Рис. 8-3. Вариант 3 : для среднего H 0 : μ  C против HA : μ  C


Этот пример дает возможность понять, как “работают” доверительные
интервалы в связке с уровнем значимости.

67
Одновременно мы коснемся ошибки второго рода β и мощности теста
(вероятность отклонения нулевой гипотезы, когда она ложна), которая
определяется как 1  β . На рисунке 8–3 для выборок Б и В нет оснований отвергнуть
нулевую гипотезу, однако, при наличии дополнительных исследований (увеличения
размера выборки), интервал уменьшится, что возможно повлечет за собой иной
вывод. С другой стороны, если мы хотим обнаружить разницу между граничным
значением C и нашим выборочным значением среднего по выборке Б не менее, чем
3 единицы, то можем рассчитать при α  0,05 и 1  β  0,8 (см. раздел 4.4):

2
 z1α  z1β 
  s2  1,96  0,84  6,32  5,49  6 .
2
n 2
 ε  32
 

Это означает, что достаточно нашей выборки, чтобы утверждать, что разница
в 3 единицы не обнаружена при мощности 1  β  0,8 .
Еще раз вспомним, что нулевую гипотезу мы не доказываем, она остается
верна, до тех пор, пока не появились новые доказательства.
Все рассуждения и выводы можно делать аналогично для пропорций. Пусть
существует пороговое значение пропорции P .
Рассматриваются гипотезы:
вариант 1: H0 :π  P против H A :π  P , где π – истинная пропорция в
популяции, P – некоторое пороговое значение ;
вариант 2: H0 :π  P против H A :π  P ;
вариант 3: H0 : π  P против H A : π  P .
Расчет доверительных интервалов для пропорции осуществляется по
формулам приблизительного расчета для пропорций, в односторонних интервалах
вместо +Inf (читается как "плюс бесконечность") используется 1, вместо –Inf
(читается как "минус бесконечность") используется 0, поскольку пропорция
определяется на интервале от 0 до 1.
Медиана является 50% перцентилем выборки, поэтому могут проверяться
гипотезы как для пропорции при P  0,5 .
Пример
Исследуются дети с определенным хроническим заболеванием. Известно, что
некоторый параметр у детей изменяется с возрастом (например, размер печени,
щитовидной железы и пр.)
Исследователь предполагает, что этот параметр при изучаемом заболевании
отличается от параметра здоровых детей. Исследователь собрал данные по детям с
изучаемым заболеваниям: возраст, пол, значение изучаемого параметра.
Как показать отличия детей, страдающих от данного заболевания и не
подверженных данному заболеванию, по изучаемому параметру и есть ли они?
Шаг 1. Если у исследователя нет контрольной группы, или затраты на ее
создания велики, или есть другие причины, то необходимо найти референтные
значения, наиболее близкие к изучаемой когорте, например по Европе. Выбор
референтной группы может диктоваться климатом и уровнем жизни, расой и
спецификой питания и т.п. Все зависит от конкретных целей исследования.
Некоторые исследования дают референтные значения по своей стране, различным

68
регионам и т.п. Есть публикации World Health Organization, содержащие
референтные значения различных параметров у здоровых детей различного
возраста.
Предположим, исследователь нашел необходимую референтную группу.
Референтные значения заданы медианой и 97 перцентилем. Это означает, что
переменная исследования у здоровых детей подчиняется некоторому закону
распределения, возможно, отличен от закона нормального распределения. 97
перцентиль означает, что 97% выборочных значений лежит ниже (меньше) и только
3% выше (больше) значения 97 перцентиля (Р97).
Шаг 2. Рассмотрим данные, полученные исследователем, и сравним их с
референтными. Референтными значениями являются значения P97 некоторой
популяции1: 6 лет –4,80; 7 лет – 5,41; 8 лет – 6,44; 9 лет – 7,13; 10 лет – 7,65; 11 лет –
8,56; 12 лет – 11,31.
Например, для возраста 8 лет провели измерения у пациентов (мальчиков) с
заболеванием и получили следующие значения: 2,63; 3,56; 5,18; 6,00; 6,13; 9,58;
20,12; 20,84. Референтное значение для здоровых мальчиков в возрасте 8 лет
Р97=6,4.
Три пациента из восьми имеют размер, превышающий Р97 здоровой
референтной группы мальчиков для возраста 8 лет.
Составим таблицу, в которой отметим количество пациентов мужского пола
определенного возраста и среди них количество пациентов, у которых размер
превышает референтное значение Р97 для своего же возраста. (Пример Табл. 8–4).
Рассчитаем доверительный интервал (см. раздел 7.1.4) Последняя колонка –
значимость точного биноминального теста. Его расчет необязателен, если мы
приводим числовые данные и доверительные интервалы; в данном примере он
приведен для демонстрации вышеизложенного материала о связи уровня
значимости тестов и доверительных интервалов.
Таблица 8–4. Пример анализа данных с помощью доверительных интервалов
Возраст N (кол-во кол-во пропорция 95% ДИ для Точный
исследуемых превышений превышений пропорции биноминальный
пациентов референтного тест
определенного P97 H0 : π  0,03
возраста)
Пол мужской H A : π  0,03
Нижняя Верхняя
граница граница
6 2 0 0,00 0,0 0,842 >0,1
7 2 1 0,50 0,013 0,987 0,059
8 8 3 0,38 0,137 0,694 0,002
9 8 5 0,63 0,306 0,863 <0,001
10 15 6 0,40 0,198 0,643 <0,001
11 16 3 0,19 0,066 0,430 0,012

1
Zbigniew Szybinski, Malgorzata Trofimiuk, Monika Buziak-Bereza, Agnieszka Kieltyka, Grzegorz Sokolowski, Alicja
Hubalewska-Dydejczyk. The thyroid volume reference values for Polish children // Endocrine Abstracts (2010) 22
P849.

69
12 23 4 0,17 0,070 0,371 0,005

Как видно из Табл. 8–4, для возраста 6–7 лет у нас не хватает данных для
более точных расчетов, доверительным интервалом является практически вся
область от 0 до 1. Для возрастов 8–12 лет пропорция превышения референтного Р97
далека от 3% (колонка 4). Ни один доверительный интервал не включает в себя
значение 0,03. Если бы размеры органа у заболевших и не заболевших мальчиков не
различались, то доверительный интервал содержал значение 0,03.
Вывод: размеры пораженного органа у мальчиков с хроническим
заболеванием в возрасте 8–12 лет значимо больше, чем у здоровых детей.
Комментарии к примеру.
Аналогично может быть составлена таблица для девочек. Мы не знали закона
распределения референтной группы, однако по тому, что в литературе были
представлены медиана и Р97, можно судить о том, что закон распределения
размеров здорового органа в популяции не является законом нормального
распределения1. Тем не менее, характеристик выборки референтной группы из
литературы нам было достаточно для изучения заболевших.
Доверительные интервалы можно отобразить на графике (Рис. 8–4).
Пропорция пациентов, превышающих референтные значения P97

1
Пропорции и
0,9 доверительные интервалы
0,03
0,8

0,7

0,6
Пропорция

0,5

0,4

0,3

0,2

0,1

0
7 8 9 10 11 12 13
Возраст

Рис.8–4. Пример визуализации результатов


Как видно из рисунка, есть некоторый возрастной тренд. Однако объяснение
этого тренда – за исследователем. Аналитик может лишь констатировать его
наличие. Тем не менее, визуализация помогла “увидеть” тренд.
В Приложении R-2 содержатся исходные данные примера и R-скрипты для
расчетов пропорций, доверительных интервалов и биноминальных тестов.
Основные аспекты
Доверительные интервалы в статистике – это такая же характеристика
данных, как и точечная оценка, но несет в себе значительно больше информации.
Доверительные интервалы – это иная интерпретация некоторых тестов и ими
иногда удобнее пользоваться.

1
Если выборочное распределение подчиняется закону нормального распределения, обычно
приводят среднее и стандартное отклонение SD. Отклонение на 2SD – есть 97 перцентиль нормального
распределения (см. рис.6-2).

70
Интервалы, как и критерии (тесты), бывают односторонними и
двусторонними.
По расположению интервалов можно судить о справедливости своих
предположений.
При сравнении двух средних случайных переменных мы говорим о том, что их
разность больше/меньше нуля. Наличие граничного значения 0 в доверительном
интервале для их разности сигнализирует о том, что мы не можем доказать
различия в средних на имеющихся данных.
В исследовании необходимо приводить характеристики распределения,
объем выборки. Для количественных переменных, подчиняющихся закону
нормального распределения – это среднее и стандартное отклонение (иногда
приводится ошибка среднего), для количественных переменных, не подчиняющихся
закону нормального распределения – медиана, размах, квантили, для
категориальных – размер группы, количество интересующих состояний в группе.
Указание характеристик может быть полезно не только вас, но и другим
исследователям для проведения сравнений или мета-анализа.

71
9. Унивариантный анализ пар
Существует еще один вид унивариантного анализа – это анализ парных
измерений. Разность в результатах парных измерений будет являться переменной.
Часто изменения в состоянии пациента – есть исход, который изучается в
исследовании.

9.1. Биноминальная переменная


Для биноминальных выборок выполняется анализ таблиц 2 2 . Заполняется
таблица следующим образом (Табл. 9–1).
Таблица 9–1. Представление данных парного анализа для биноминальной переменной
Случай (исследуемый Контроль (традиционный метод
метод диагностики/лечения, состояние после
диагностики/лечения, лечения)
состояние до лечения) Фактор/состояние Фактор/состояние
есть нет
Фактор/состояние есть A B
Фактор/состояние нет C D

Пары представлены двумя участниками – один из группы “случай”, другой из


группы “контроль”. Как варианты, это наличие фактора/состояния у одного и того
же испытуемого до некоторого события (лечения) и после, или диагностика одного
и того же заболевания разными методами у одного и того же пациента.
A – количество пар, у которых есть фактор.
D – количество пар, у которых фактора нет.
B – количество пар, у которых фактор есть для группы “случай” и отсутствует
для группы “контроль”.
C – количество пар, у которых нет фактора для группы “случай” и есть фактор
для группы “контроль”.
Для сравнения пропорций с наличием определенного фактора не принимают
во внимание те пары, которые согласованы в этих двух состояниях, и обращают
внимание на несогласованные пары, В и С.
A B
тогда π 1  – частота в группе “случай” (исследуемый метод
A B C  D
диагностики/лечения, состояние после некоторого события).
AC
π2  – частота в группе “контроль” (традиционный метод
A B C  D
диагностики/лечения, состояние до некоторого события).
B C
π 12  , π 21  .
A B C  D A B C  D

McNemar’s Test (Тест Мак-Нимара, Мак-Немара)


Тест Мак-Нимара предназначен для сравнения бинарных откликов двух
популяций, когда данные парные, зависимые. Типичное использование – для
повторяющихся измерений, например, наличие инфекционных заболеваний до
проведения профилактических мероприятий и после у одной и той же популяции.

72
Расчет статистики критерия: если B  C  30 , то T
 B  C  1
2

, иначе
B C

T
B  C 2 . Если T  χ 2 , где χ 12α ;1 – значение 1  α  -квантиля χ 2 распределения с
1α ;1
B C
одной степенью свободы, то нулевая гипотеза об отсутствии разницы отклоняется.

Пример
Предполагается, что после проведения профилактических мероприятий в
некоторой популяции снизится пропорция группы часто болеющих детей.
Необходимо оценить изменения заболеваемости до и после проведения
профилактических мероприятий.
Таблица 9–2. Данные примера
После проведения До проведения
мероприятий мероприятий
Часто Умеренный
болеющие риск
дети
Часто болеющие дети 28 7
Умеренный риск 13 27

Нулевая гипотеза – соотношение часто болеющих детей и детей группы


умеренного риска не изменилось после проведения профилактических
мероприятий.
H0 : π 1  π 2 , H A :π 1  π 2
Видно, что 20 пар наблюдений перешли из одной категории в другую
(discordant pairs). Причем из группы часто болеющих детей в группу умеренного
риска больше, чем наоборот. Расчет критерия Мак-Нимара:

T
7  13  1 2


25
 1,25
7  13 20
χ 02,95;1  3,84 . Наша рассчитанная статистика T  1,25 меньше табличной.
Гипотеза об отсутствии разницы не опровергается.
До проведения мероприятий пропорция часто болеющих детей в выборке
была π 1  28  13 75  0,55 , после проведения π 2  28  7 75  0,47 . Пропорция
несогласованных пар π 12  π 21  7  13/75  0,27 , разность в пропорциях до и после
проведения мероприятий π 1 π 2  0,08 . Разность в пропорциях и есть размер
эффекта, который получен после проведения профилактических мероприятий.
Доверительный интервал для разности в пропорциях в парном дизайне
Рассчитывается приблизительно по формуле:
B  C zγ
 B C 
B  C 2 ,
N N N
где N  A  B  C  D , zγ – значение  -квантиля стандартного нормального
распределения, для двустороннего интервала γ  1  α , α – уровень значимости.
2
Рассмотрим предыдущий пример.

73
Рассчитаем оценки разности в пропорциях для: π 1  0,47 (после мероприятий),
 2  0,55 (до мероприятий), разность в пропорциях равна π 1 π 2  0,08 . Уровень
значимости α  0,05 . Приблизительный расчет доверительного интервала для
разности в пропорциях:

πL 
7  13 1,96
 7  13 
7  13  0,08  0,12  0,04 ;
2

75 75 75

πU 
7  13 1,96
 7  13 
7  13  0,08  0,12  0,20.
2

75 75 75
Как видно, доверительный интервал включает в себя 0, что означает, что нет
различий на уровне значимости α  0,05 . Т.е. хотя в среднем различие в пропорциях
8% снижения, однако это среднее лежит в доверительном интервале, от –4% до 20%.
Иными словами – размер эффекта снижения, который после проведения
профилактических мероприятий составил 8% , 95% доверительный интервал
  4 20% , статистически незначим.
Точечная и интервальная оценки отношения шансов (Estimation of the Odds
Ratio)
Если исследователя интересует отношение шансов в парных откликах, то
используется точечная и интервальная оценки отношения шансов для зависимых
двухвходовых таблиц:
π C
OR  21 
π 12 B
πL C
ORL  ,π L  ;
1 π L C  B  1F1α ; 2B 2; 2C 
2

πU C  1F1α ;2C 2; 2B 


ORU  ,πU  2
,
1 π U B  C  1F1α ; 2C 2; 2B 
2

где Fγ ;v1 ; v2  – есть значение  -квантиля F -распределения с v 1 и v 2 степенями


свободы.
Это не единственная приближенная оценка интервалов, существуют и другие
приближенные оценки. Приведенные формулы наиболее просты для расчетов.
Рассмотрим предыдущий пример.
C 13
Точечная оценка отношения шансов равна OR  , OR   1,86
B 7
Интервальная оценка отношения шансов для зависимых двухвходовых таблиц:
Находим F0 ,975; 27 2; 213  F0 ,975; 16; 26   2,36 ;
F0 ,975; 2132; 27   F0 ,975; 28; 14   2,75 ;
13 13 πL 0,408
πL    0,408 , ORL    0,689;
13  7  1 2,36 31 ,88 1  π L 0,592

πU 
13  1 2,75  38 ,5  0,846 , OR  π U 
0,846
 5,493 .
7  13  1 2,75 45,5
U
1 π U 0,154
При уровне значимости α  0,05 доверительный интервал (0,69; 5,49).
Поскольку интервал содержит значение 1, можно сделать вывод, что нет строгих

74
оснований считать, что после профилактических мероприятий изменились шансы
попасть в группу часто болеющих детей.
Иными словами, после проведения профилактических мероприятий шансы
попасть в группу умеренного риска выросли в 1,86 раз (или на 86%), доверительный
интервал (0,69 –5,5) раз (или от –31% до 450%).
Как видим, размер эффекта для частотных характеристик может быть
выражен как в разах, так и в процентах, однако вывод по этим результатам
одинаков.
Вывод: шансы попасть в группу группу умеренного риска после проведения
профилактических мероприятий не изменились.
Ремарка: Как для отношения шансов, так и для отношения рисков: . если доверительный интервал
попадает в область меньшую единицы – то говорят, что “шансы (риск) уменьшаются”, если в область,
большую единицы, то говорят, что “ шансы (риск) увеличиваются”.Если доверительный интервал для
них содержит 1, то нет cтатически значимых доказательств для таких утверждений. В этом случае
полагаем, что шансы (риски) одинаковы (неразличимы), и эфекта нет.

Мы рассмотрели один и тот же пример, проанализировав его с различных


позиций: как изменения в пропорциях с помощью теста Мак-Нимара, с помощью
доверительных интервалов для разности в пропорциях, с помощью отношения
шансов до и после проведения профилактических мероприятий. Как аналогичную
ситуацию анализировать в вашем исследовании – зависит от вас, от контекста
исследования. Последнее время повсеместно используется отношение шансов, но
оно иногда неправильно интерпретируется. Также популярны интервальные
оценки – из-за их высокой интерпретируемости. Классическая школа требует
ссылки на тест (критерий).
В Приложении R-3 содержатся R-скрипты для выполнения примера: теста
Мак-Нимара, расчетов пропорций, отношения шансов, а также расчета их
доверительных интервалов различными методами.

9.2. Мультиноминальная переменная


Данные представляются таблицей c  c (Табл. 9–3), где c – количество
категорий (откликов) переменной. В каждой клетке такой таблицы стоит
количество пар nij , у которых наблюдается категория i для “случая” и категория j
для “контроля”.
Таблица 9–3. Представление данных таблицей c  c

1 2 … j … c

1 n11 n12 … n1 j … n1c


2 n21 n22 … n2 j … n2c
… … … … … … …
i ni 1 ni 2 … nij … nic
… … … … … … …
c nc 1 nc 2 … ncj … ncc

75
Тест маргинальной гомогенности (Marginal Homogeneity Test)
Критерий маргинальной гомогенности – обобщает тест Мак-Нимара на случай
мультиноминального отклика. Нулевая гипотеза: частоты распределения событий
равны для обеих выборок. То есть вероятность попадания в одну из категорий для
каждого участника пары (парных наблюдений) одинакова. H 0 : π icase  π icontrol для всех
категорий i  1, 2,  , c . Иначе говоря, вероятность классификации в некоторую
категорию одинакова для первого и второго членов “matched pairs”. Альтернативная
гипотеза утверждает, что вероятности различны H A : π icase  π icontrol .
Тест достаточно объемен в расчетах, присутствует в некоторых
статистических пакетах.
Тест маргинальной гомогенности для одной из категорий
Если мы убедились в том, что вероятность классификации в одну категорию
не одинакова для членов “matched pairs”, то далее можно уточнить, для какой
именно из категорий.
Для этого от таблицы c  c переходят к таблице 2 2 следующим образом:
Шаг 1. Для интересующей категории j рассчитывается таблица 2 2 (Табл. 9–
4).
Таблица 9–4. Расчет данных для одной из категории в парном анализе

 c 
A  n jj B    nij   n jj
 i 1 
 c  c c
C    n ji   n jj D   nij  A  B  C
 i 1  j 1 i 1

Шаг 2. Далее выполняется тест Мак-Нимара для рассчитанных B и C , однако


уровень значимости α уменьшается в c  1 раз (поправка Бонферрони (Bonferroni)
для множественных сравнений с учетом парных наблюдений). Например, при c  5
α  0,05/5  1  0,0125.
Тест уклона для упорядоченных категорий
Если категории мультиноминальной переменной упорядочены, то, рассчитав
сумму элементов под диагональю C  , и сумму элементов над диагональю B  ,
можно использовать тест Мак-Нимара для определения наличия уклона. Например,
во мнениях двух экспертов – оценки одного более высоки в целом по отношению к
оценкам другого эксперта, или есть ли тенденция к снижению показателя после
лечения.
Пример
Изучение изменения тяжести психологического состояния пациента после
некоторого поддерживающего лечения. После курса психотерапевтического
обучения оценивается состояние пациента. Через год – контрольная оценка
состояния. Данные приведены в Табл. 9–5.
Таблица 9–5. Данные примера
Состояние сразу после лечения
норма удовлетворительное плохое
Состояние через год после норма 11 12 1

76
лечения удовлетворительное 1 10 3

плохое 2 0 12

B  12  1  3  16 , C  120  3. Статистика T
13  12  7,58 ,
19
Tχ 2
 3,84 . Вывод: через год после проведения обучающего курса состояние
0,95;1

сместилось в сторону нормы. Курс обучения дает устойчивый результат.


Также существуют тесты для проверки непротиворечивости отношений
шансов для дизайна “matched pairs” в случае мультиноминального отклика. Они
присутствуют в некоторых статистических пакетах. Общий подход – один из
откликов (уровеней) принимается за базовый (референтный, reference level), оценки
отношения шансов остальных считаются относительно него. Проверяется общая
гипотеза о равенстве всех отношений шансов (по всем категориям) против гипотезы
о том, что хотя бы в одной категории отношение шансов значимо отличается.
Размер эффекта также рассчитавается относительно базового отклика.
Каппа Коэна (Cohen's kappa)
Оценка согласия двух классификаций может быть произведена с помощью так
называемой каппы Коэна.
1 c c

  nii   niie 
n i 1
Рассчитывается как κ   ,
i 1

1 c
1   niie
n i 1
где c – количество категорий,
n – общее количество пар (наблюдений),
nii – количество согласованных пар категории i ,
niie – ожидаемое количество согласованных пар категории i , рассчитывается
1 c c
как niie   nij   n ji .
n j 1 j 1

Выше приведена формула для прямого расчета каппы Коэна. Существуют


модификации, учитывающие соотношение количества измерений в различных
категориях количественной переменной.
Интерпретация значений каппы Коэна приведены в Табл. 9–6.
Таблица 9–6. Интерпретация значений каппы Коэна
Значение каппы Коэна Уровень согласия
0,00 нет (poor)
< 0,20 Почти нет согласия (slight)
0,21 – 0,40 Посредственное согласие (fair)
0,41 – 0,60 Среднее согласие (moderate)
0,61 – 0,80 Существенное согласие (substantial)
0,81 – 1,00 Почти отличное согласие (almost perfect)

Эта интерпретация и есть эффект согласованности, можно рассчитать как


точечную оценку, так и интервальную. Если интервал не содержит 0 (т.е. нет

77
согласия), то эффект существует и размер эффекта согласия определяется точечной
и интервальной оценками.
Пример
Два специалиста на основании анализов ставят диагноз пациентам с
подозрением на некоторое заболевание с тремя степенями тяжести. Данные
приведены в Табл. 9–7.
Таблица 9–7. Данные примера
Нет 1 степень 2 степень 3 степень
заболевания

Нет заболевания 23 2 1 0
1 степень 2 14 5 0
2 степень 0 2 36 0
3 степень 0 0 3 12

1 1
e
n11  26  25  6,50 ; n22
e
 18  21  3,78 ;
100 100
1 1
e
n33  45  38  17 ,10 ; n44
e
 15  12  1,80 .
100 100
1
23  14  36  12  6,50  3,78  17 ,10  1,80
κ  100 
1
1 6,50  3,78  17 ,10  1,8
100
1
85  29,18  0,56
 100   0,79.
1  0,29 0,71
Результат расчета не дает оснований заключить, что специалисты расходятся
в диагностике данного заболевания.
В Приложении R-4 содержатся исходные данные примера и R-скрипты для
расчета каппы Коэна и доверительных интервалов.

9.3. Количественная переменная


Для количественных переменных разность измерений в каждой паре будет
представлять собой случайную величину. Таким образом, можно перейти к тестам
предыдущего раздела: одновыборочный t-тест с пороговым значением 0, если
разность распределена нормально; знаковый ранговый тест Вилкоксона в случае
симметричного распределения разности в измерениях также с пороговым
значением 0.
В некоторых статистических пакетах существуют отдельно одновыборочный
t-тест и t-тест для парных выборок. Эти тесты дадут одинаковые результаты, если
мы применим одновыборочный t-тест к разности в измерениях или t-тест для
парных выборок для пар наблюдений.

78
Пример
Измеряется уровень гемоглобина до и после приема некоторого препарата у
группы пациентов согласно некоторому протоколу лечения. Мы хотим знать,
изменится ли уровень гемоглобина после приема препарата и как он изменится.
Данные приведены в Табл. 9–8.
Таблица 9–8. Данные примера
Номер Уровень до Уровень после Разность,
пациента приема, г/л приема, г/л г/л

1 100 130 30
2 95 110 15
3 73 120 47
4 98 115 17
5 110 105 –5
6 101 125 24

Выдвигается гипотеза: истинное среднее разности средних μ равно нулю


H 0 : μ  0 , альтернативная H A : μ  0 , α  0,05 . Убедившись, что разность
распределена нормально, выбросы отсутствуют, рассчитываем t-статистику
   
t  x  C  s n . C  0 , x  21 ,33 , s  17 ,28 . t  21 ,33 17 ,28 6  3,02 . Критическое
значение для двустороннего теста (поскольку мы проверяем гипотезу о том, что
разность отлична от нуля) t 0 ,975;5  2,57 . Гипотеза об нулевой разности в средних
отклоняется. На уровне значимости α  0,05 можно утверждать, что средний
уровень гемоглобина изменился после приема препарата.
Тот же пример, но мы хотим уточнить количественный минимальный эффект,
т.е. на сколько увеличился уровень гемоглобина в среднем.
Пусть нас интересует минимальный эффект в 10 г/л. Выдвигаем нулевую
гипотезу: H 0 : μ  10 против H A : μ  10 , α  0,05 ; рассчитываем статистику
 
t  21 ,33  10  17 ,28 6  1,61. Критическое значение для одностороннего теста
t 0,95;5  2,02 . Нулевая гипотеза не отклоняется.
Проведем анализ данных нашего примера с помощью доверительных
интервалов.
Построим доверительные интервалы для полученной оценки разности.
Двусторонний интервал:
s 17 ,28
x L  x  t γ ; n  1    21 ,33  2,57   3,20;
n 2,45
s 17 ,28
x U  x  t γ ; n  1    21 ,33  2,57   39 ,46.
n 2,45
Действительно, и нижняя и верхняя границы лежат правее нуля, и наша
гипотеза о том, что H 0 : μ  0 , отклоняется.
Построим нижнюю границу одностороннего интервала
s 17 ,28
x L  x  t γ ; n  1    21 ,33  2,02   7,08 .
n 2,45

79
Мы выдвигали гипотезу H 0 : μ  10 против H A : μ  10 . Нижняя граница лежит
левее интересующего нас эффекта, т.е. доверительный интервал включает в себя
значение интересующего нас эффекта.
Таким образом, некоторый эффект существует, размер эффекта равен 21,3,
95% доверительный интервал от 3,2 до 39,5 г/л. Однако интересущий нас эффект с
10 г/л не достигается.
В Приложении R-5 содержатся исходные данные примера и R-скрипты для
расчета сдвига в среднем до и после лечения, доверительных интервалов парного
(одновыборочного) t-теста.
Приводить все способы анализа в исследовании не надо, достаточно одного,
который отражает именно ваше направление исследования, вашу систему логики и
доказательств. В данном разделе рассмотрены и доверительные интервалы, и тесты,
для того, чтобы понять, как они взаимосвязаны, как унивариантный анализ пар
может осуществляться с помощью доверительных интервалов.

9.4. Схемы унивариантного анализа пар


A-P
количественная переменная B-P
(нормальное распределение) количественная переменная
(не подчиняется закону
нормального распределения)

Одновыборочный t-тест
Стьюдента
sign-тест,
(t-тест для зависимых
знаковый ранговый тест
переменных)
Вилкоксона

С-P
номинальная переменная

Биноминальная Мультиноминальная

Тест Мак-Нимара Тест маргинальной


Отношение шансов гомогенности,
Каппа Коэна

Статистическая задача – исследовать две группы парных измерений.


Нулевая гипотеза, обычно выдвигаемая в таких исследованиях, гласит о том, что
разница в результатах отсутствует.
Таблица 9–9. Критерии анализа парных измерений
Парные выборки (related samples)
Переменные исследования Критерии
Биноминальная (два возможных Тест Мак-Нимара (McNemar’s Test)
результата, обычно 0 (отсутствие
события) и 1(наличие события)) Одновыборочный тест пропорции

80
Оценка отношения шансов и доверительных
интервалов

Мультиноминальная (неупорядоченные Тест маргинальной гомогенности (Marginal


и неупорядоченные категории) Homogeneity Test)

Каппа Коэна
Количественные измерения (разность Тест знаков (Sign Test)
не подчиняется закону нормального
распределения) Знаковый ранговый тест Вилкоксона (Wilcoxon
Signed Rank Test

Тест медианы
Количественные измерения Т-тест для двух зависимых переменных ( T-test
(нормальное распределение разности) for related Samples)
Одновыборочный t-тест

Основные аспекты
Парные наблюдения обрабатываются в статистическом анализе по своим
схемам, дизайн исследования определяет обработку данных.
Интервальные оценки в анализе пар – это статистическая оценка такого
параметра, как разность в измерениях парных случаев.
Доверительные интервалы строятся для различных статистических оценок,
не только для среднего, пропорции.
Отношение двух случайных величин также может свидетельствовать о том,
какая из величин больше или меньше. Наличие граничного значения 1 в
доверительном интервале для их отношения сигнализирует о том, что мы не можем
доказать различия этих величин.
Размер эффекта между парными измерениями может быть рассчитан и
интерпретирован.

81
10. Бивариантный анализ: взаимосвязь двух переменных
В бивариантном анализе рассматривается две переменные и их взаимосвязь.
Иногда сложно определить, какая из них зависимая, какая независимая, поскольку
изучается ассоциация между ними, а не причинно-следственные отношения. Далее
будут рассматриваться комбинации двух переменных, какой анализ они позволяют
провести, какие гипотезы могут быть выдвинуты и протестированы.
В общем случае нас интересует поведение одной переменной по отношению к
другой. Если эти переменные количественные или упорядоченные
мультиноминальные, то можно оценить, как изменяется одна переменная
исследования (возрастает или убывает) при возрастании или убывании другой
переменной. Если такая зависимость присутствует, ее называют трендом. Тренд
может быть линейным и нелинейным. Линейные тренды изучаются с помощью
линейного регрессионного анализа. Нелинейные тренды являются более сложными
моделями взаимодействия данных, и не рассматриваются в данном пособии. Сила
ассоциации двух переменных изучается корреляционным анализом (классическим и
непараметрическим). Корреляционный анализ предполагает изучение ассоциации
между случайными величинами с одновременной количественной оценкой степени
их ассоциации (совместного изменения).
Расчеты различных мер ассоциации(взаимосвязи) есть практически во всех
статистических пакетах, поэтому внимание будет сосредоточено на интерпретации
результатов.

10.1. Диаграмма рассеяния


Для наборов данных, где две количественных переменных измерены для
каждого случая выборки, диаграмма рассеяния – один из самых наглядных
инструментов для анализа отношений между двумя переменными. Диаграмму
рассеяния легко построить для двух переменных.
Пусть x 1 , x 2 , , x n представляют n точек данных одной переменной и пусть
y1 , y2 , , yn представляют n точек данных второй переменной (Два столбца в
таблице данных исследования). Пары данных записываются, как x i , yi , i  1, , n .
Чтобы построить диаграмму рассеяния расположим первую переменную вдоль
горизонтальной оси, вторую – вдоль вертикальной. Не имеет значения, какая
переменная вдоль какой оси расположена.
Взгляд на диаграмму рассеяния поможет визуально установить наличие или
отсутствие некоторой связи между двумя переменными.
Линейная ассоциация между двумя переменными подразумевает, что как
только одна переменная увеличивается, вторая линейно (пропорционально)
увеличивается (или уменьшается).
На рис.10–1 представлены типичные диаграммы рассеяния для различных
ситуаций, в последних четырех случаях мера линейной ассоциации не сможет
отразить реальную ситуацию, однако имея перед глазами диаграмму рассеяния
можно предположить какая именно связь имеется между двумя количественными
переменными.

82
r=+1
-1<r<0
r=-1

Нелинейная
монотонновозрастающая
связь

0<r<+1
r=0

Нелинейная связь Несколько кластеров Выброс в данных


данных

Рис.10–1. Примеры взаимосвязи двух переменных

10.2. Меры ассоциации


Меры ассоциации (связи, сопряженности) двух переменных рассчитываются
всеми статистическими пакетами. Многие из них также рассчитывают
доверительные интервалы для мер взаимосвязи (сопряженности). Подход к
интерпретации доверительных интервалов такой, как и ранее: если 1  α 
доверительный интервал содержит 0, то на уровне значимости α , то нет строгих
доказательств того, что ассоциация (связь, сопряженность) существует. Также
может проверяться гипотеза о том, что связь существует.

10.2.1. Коэффициент корреляции Пирсона

Одна из самых известных мер ассоциации – коэффициент корреляции.


Коэффициент корреляции измеряет связь между двумя переменными, как
линейную связь между двумя переменными исследования. Линейная связь означает
пропорциональное изменение одной переменной от другой переменной. Однако
коэффициент корреляции не подразумевает причину и следствие. Исследователь
может сказать, что корреляция между двумя переменными высока, и соотношения
устойчивы, но, возможно, не скажет, что возрастание значений одной из
переменных является причиной для возрастания (убывания) значений другой

83
переменной. Надо также отметить, что выводы, сделанные в корреляционном
анализе по выборке, могут распространяться на популяцию только в случае
естественной выборки.
Коэффициент корреляции Пирсона ( r ) измеряет линейную связь между
двумя переменными. Значение коэффициента корреляции, близкое к +1
(положительная корреляция) означает, что как только увеличивается одна
переменная, увеличивается и вторая, и, наоборот, коэффициент корреляции близок
к –1, когда при возрастании одной переменной вторая уменьшается. Для значения
коэффициента корреляции +1 все пары данных лежат на прямой линии с
положительным наклоном, для значения –1, с отрицательным наклоном. Значения
коэффициента корреляции, близкие к 0 показывают небольшую корреляцию между
переменными. Коэффициент корреляции не обнаруживает нелинейные связи, таким
образом, он должен использоваться только вместе с диаграммой рассеяния.
Коэффициент корреляции может значительно меняться в зависимости от
экстремальных значений, диаграмма рассеяния используется, чтобы
идентифицировать такие значения.
Основные свойства:
• r изменяется в интервале от –1 до +1.
• Знак означает, увеличивается ли одна переменная по мере того, как
увеличивается другая (положительная корреляция), или уменьшается ли одна
переменная по мере того, как увеличивается другая (отрицательная корреляция)
• Величина r указывает, как близко расположены точки к прямой линии. Если
r  0 , то линейной корреляции нет (хотя может быть нелинейное соотношение). Чем
ближе r к крайним значеням (±1), тем больше степень линейной связи.
• Квадрат коэффициента корреляции интерпретируется как доля вариации
одной переменной, которая объясняется другой переменной. Если r  0,3 , то
r 2  0,09 , что значит, что только 9% вариации одной переменной может быть
объяснено изменениями второй переменной.
Важное свойство коэффициента корреляции состоит в том, что он не
подвержен влиянию в изменении расположения данных1, и также не подвержен
изменению масштаба данных2. Таким образом, линейные преобразования (сдвиг и
масштабирование) переменных не затрагивают значения коэффициента
корреляции. Корреляция отражает степень, с которой две переменные линейно
зависимы, и степень линейности не зависит от изменений местоположения или
масштаба. Например, если бы одна из переменных температура, измеренная в
градусах Цельсия, то корреляция не должна измениться, если градусы Цельсия были
преобразованы в градусы Фаренгейта.
Таким образом, по коэффициенту корреляции Пирсона можно оценить
линейную связь, по квадрату коэффициента – долю изменчивости одной
переменной, которая обусловлена другой переменной. Не забывайте проверить
гипотезу о том, что коэффициент корреляции r отличен от нуля. Также могут быть
построены доверительные интервалы. Если интервал содержит значение 0, то
коэффициент статистически незначим, его значение может быть как

1
Операция сдвига: добавление или вычитание константы от всех измерений по одной или двум
переменным. Эта операция не изменит значения коэффициента корреляции.
2
Операция масштабирования: умножение или деление на константу для всех измерений по одной или
двум переменным. Эта операция не изменит значения коэффициента корреляции.

84
положительным, так и отрицательным, а, следовательно, мы не можем сказать,
убывает или возрастает одна переменная при убывании или возрастании другой
переменной.

10.2.2. Коэффициент ранговой корреляции Спирмена

Альтернативой коэффициенту корреляции Пирсона для переменных, не


распределенных нормально, является коэффициент ранговой корреляции
Спирмена. Он рассчитывается заменой каждого значения переменной ее рангом (то
присваиваются ранги вместо измеренных величин: 1 для минимального значения, 2
для второго минимального и т.д.). Аналогично поступают для второй переменной.
Эти пары рангов рассматривают как данные x i , yi , i  1, , n и вычисляют
коэффициент ранговой корреляции Спирмена ( rs ).
Как линейные преобразования данных не изменят коэффициент корреляции,
так нелинейные монотонные преобразования (логарифмирование, возведение в
степень) не изменяют коэффициент ранговой корреляции. Ранговая корреляция
менее чувствительна к экстремальным значениям, чем коэффициент корреляции
Пирсона.
Свойства:
• rs дает измерение связи (не обязательно линейной) между x и y ;
• не вычисляют значение rs2 (оно не представляет собой долю общей
вариации одной переменной, которую можно объяснить изменением другой
переменной).
Таким образом, коэффициент ранговой корреляции Спирмена может
применяться для двух переменных, измеренных в количественных шкалах, даже
если распределение, лежащее в основе переменных, не является нормальным. Не
забывайте проверить гипотезу о том, что rs отличен от нуля. Как правило,
статистические пакеты приводят и расчет коэффициента, и одновременную
проверку гипотезы, о том, что коэффициент отличен от нуля. Также могут быть
построены доверительные интервалы. Если интервал содержит значение 0, то
коэффициент статистически незначим, его значение может быть как
положительным, так и отрицательным, а, следовательно, мы не можем сказать,
убывает или возрастает одна переменная при убывании или возрастании другой
переменной.
По коэффициенту ранговой корреляции Спирмена можно оценить связь
между двумя переменными. В случае, когда связь между двумя нормально
распределенными переменными не является линейной (что можно увидеть на
диаграмме рассеяния), то ранговая корреляция будет предпочтительней.

10.2.3. Коэффициент ранговой корреляции τ (Тау) Кендалла

Тау Кендалла τ (Kendall’s tau) используется, когда данные измерены в


некоторой качественной шкале, на которой может быть определен порядок. В
отличие от коэффициента ранговой корреляции Спирмена, τ Кендалла
интерпретируется как разница в вероятности, что данные имеют один и тот же
порядок по двум переменным против вероятности, что у двух переменных разный
порядок. Изменяется от –1 до 1. Интерпретация доверительных интервалов
аналогична интерпретации интервалов коэффициента корреляции Пирсона и
Спирмена.

85
10.2.4. Коэффициенты сопряженности

Коэффициенты сопряженности используются для определения тесноты связи


(меры сопряженности) двух номинальных переменных (качественных признаков),
представленных r  c таблицей (Табл. 10–1).
В каждой ячейке такой таблицы содержится количество случаев, попавших в
определенную ячейку (в конкретные категории по двум мультиноминальным
переменным).
Таблица 10–1. Представление таблиц r  c для анализа
1
2 … j … c
c
1 x11 x 12 x1 j x 1c m1   x1 j
j 1

2 x 21

c
i x i1 x ij x ic mi   x ij
j 1

r xr 1 x rj x rc
r r r c
n1   xi 1 … n j   x ij … N   mi   n j
i 1 i 1 i 1 j 1

Есть несколько вариантов расчета таких коэффициентов, все они опираются


на статистику χ 2 : коэффициент Пирсона, V коэффициент Крамера, коэффициент
Чупрова (Pearson’s coefficient, Cramer’s V coefficient, Tschuprov coefficient). Они
изменяются в диапазоне от 0 до 1. Значение коэффициента, близкое к 1 означает,
что сопряженность двух переменных высока, значение коэффициента, близкое к 0
означает, что сопряженность низкая.
χ2
Коэффициент сопряженности Пирсона CP  ;
χ2  N
χ2
коэффициент Крамера V  , где q  minr , c  ;
N q  1
χ2
коэффициент Чупрова CC  .
N r  1c  1
Статистика хи-квадрат Пирсона рассчитывается как:

χ 2  
r c x ij  xˆ ij 
2
mi  n j
, где xˆ ij  – оценки ожидаемых частот1.
i 1 j 1 xˆ ij N

1
80% оценок ожидаемых частот в таблице должны быть больше 5. Если это не так, то в таких таблицах
нужно сокращать размерность путем объединения строк или столбцов (не нарушая биологического или
медицинского смысла, стоящего за трактовкой объединенного столбца/строки).

86
Эта статистика асимптотически следует распределению χ 2 с r  1 c  1
степенями свободы. Если значение рассчитанной статистики χ 2 превышает
χ 21α ,r 1 c 1 , то коэффициенты значимы на уровне α .
Для коэффициентов сопряженности некоторые статистические пакеты
рассчитывают также и доверительные интервалы. Если нижняя граница
доверительного интервала равна 0, то нет оснований говорить о сопряженности
(взаимном изменении) двух переменных.

10.2.5. Коэффициент τ Гудмана-Краскела

Коэффициент τ Гудмана-Краскела (Goodman-Kruskal Tau) измеряет


пропорцию в вариации мультиноминальной переменной, представленной строками,
которая может быть объяснена мультиноминальной переменной, представленной
колонками.
Этот коэффициент изменяется от 0 до 1; 0 – никакого сокращения вариации
строковой переменной при известной категории переменной, представленной в
колонке, 1 – полное сокращение вариации переменной строк при знании категории
колонки. Т.е. этот коэффициент помогает определить, можно ли предсказывать по
категории одной переменной (представленной колонками) категорию другой
переменной (представленную строками).
c 
1 r 2  1 r 2
   x ij   N 

j  1  n j i 1
mi
τ  i 1
.
1 r 2
N   mi
N i 1
Можно также определить, можно ли предсказывать по категории одной
переменной (представленной строками) категорию другой переменной
(представленную колонками).
r  1 c 2 1 c 2
   x ij    n j

i 1  mi j 1
 N
τ  j 1
c
1
N   n2j
N j 1
Коэффициент τ Гудмана-Краскела не является симметричным, т.е.
сокращение вариации одной переменной при знании категории второй переменной,
не равно сокращению вариации второй переменной при знании категории первой
переменной.
Этот коэффициент может применяться для исследования количественных
переменных, не подчиняющихся закону нормального распределения, их
представляют интервалами и подсчитывают количество значений, попадающих в
интервалы. Далее рассчитывается τ . В этом случае он может помочь обнаружить
нелинейную связь между переменными.
Если ваш статистический пакет рассчитывает доверительные интервалы для
τ Гудмана-Краскела, то вы можете воспользоваться ими для определения
значимости или незначимости τ : если нижняя граница доверительного интервала
равна 0, то нет оснований говорить о связи (взаимном изменении) одной
переменной по отношению к другой.

87
10.2.6. Тест Фишера-Фримана-Халтона

В таблице сопряженности 80% оценок ожидаемых частот должны быть


больше 5. Если это правило не выполняется, то оценить меру сопряженности (меру
ассоциации) затруднительно. Но тем не менее, мы можем оценить наличие
некоторой связи между двумя мультиноминальными переменными.
Тест Фишера-Фримана-Халтона (Fisher-Freeman-Halton test) предназначен для
проверки однородности таблицы сопряженности.
В отличии от коэффициентов сопряженности рассчитывает вероятность
таблицы сопряженности при условии сохранения сумм строк и сумм столбцов
заданной таблицы (маргинальных сумм). Иными словами, какова вероятность того,
что таблица сопряженности с определенными значениями в ячейках
сформировалась случайным образом.
Этот тест является точным, в отличие от теста χ 2 .
Значение вероятности p  α означает, что связь признаков значима на уровне
α.

10.2.7. Коэффициент детерминации

Если одна из переменных количественная и распределена нормально, а


вторая представляет собой мультиноминальную переменную (упорядоченную или
неупорядоченную), то полный анализ данных может быть проведен с помощью
однофакторной ANOVA (см. раздел 15). Один из показателей такого анализа R 2 –
коэффициент детерминации. Рассчитывается как:

k ni

 x  xi 
2
ij
i 1 j 1
R2  1  k ni
,
 x  x
2
ij
i 1 j 1

где ni – размер группы данных, обусловленных i -ой категорией


мультиноминальной переменной, x i – среднее количественных данных по i -ой
группе, x – среднее по всей количественной переменной.
Интерпретируется как процент изменчивости количественной переменной,
обусловленный категориальной (мультиноминальной) переменной.

10.2.8. Непараметрическая однофакторная ANOVA

В случае если одна из переменных количественная, но не подчиняется закону


нормального распределения, а вторая – категориальная переменная, то мы можем
использовать тесты – аналоги непараметрической ANOVA: тест Краскела—Уоллиса,
медианный тест. В случае, когда категориальная переменная имеет только два
уровня (т.е. биноминальная), то тест Краскела-Уоллиса не отличается от теста
Манна-Уитни.

10.2.9. Точечно-бисериальная корреляция и сравнение двух групп

При проведении некоторых исследований часто сталкиваются с проблемой


выяснения взаимосвязи между характеристиками, одна из которых может быть
ранжирована, а вторая допускает только группировку в две группы по

88
качественному биноминальному признаку. В этом случае используется
коэффициент точечно-бисериальной корреляции, который интерпретируется
аналогично коэффициенту корреляции Пирсона r в случае, когда исследуется
ассоциация биноминальной и нормально распределенной переменных, или
аналогично коэффициенту ранговой корреляции  Кендалла в случае
иссдледования ассоциации биноминальной и порядковой переменных.
Точечно-бисериальная корреляция в медико-биологических исследованиях
используется редко, для оценки взаимосвязи биноминальной и количественной
переменной чаще используется анализ двух групп. Биноминальная переменная
делит значения количественной переменной на две группы и далее могут быть
использованы: тест Стьюдента, тест Уэлча для количественной переменной,
распределенной нормально; тест Манна-Уитни для количественных переменных, не
подчиняющихся закону нормального распределения.

10.2.10. Точный тест Фишера

Таблицу сопряженности можно составить и для двух биноминальных


переменных. Правило о том, что ожидаемые частоты должны быть не менее 5 для
того, чтобы вычислить меры сопряженности, сохраняется для таблиц 2 2 .
Точный тест Фишера (Fisher's exact test) используется для выявления того –
связаны ли две биномиальные переменные между собой или нет, если правило
ожидаемых частот нарушено.
Точный тест Фишера рассчитывает вероятность таблицы сопряженности при
условии сохранения сумм строк и сумм столбцов заданной таблицы (маргинальных
сумм).
Значение вероятности p  α , означает, что вероятность случайного появления
таких данных мала и, следовательно, связь признаков значима на уровне α . Тест
Фишера-Фримана-Холтона является обобщением теста Фишера таблиц 2 2 на r  c
таблицы.

10.3. Таблица мер ассоциации и взаимосвязи


Общий итог основных мер взаимосвязи представлен в таблице. Безусловно,
существуют и другие. Меры, приведенные в таблице 10–2, считаются самыми
понятными в интерпретации.
Таблица 10–2. Меры ассоциации и взаимосвязи двух переменных
Коэффициент корреляции от –1 до выявляет линейную связь, квадрат коэффициента – долю
Пирсона 1 изменчивости одной переменной, обусловленной второй
переменной
Коэффициент ранговой Выявляет монотонную связь, квадрат коэффициента не
корреляции Спирмена от –1 до используется
1

Тау Кендалла от –1 до Вероятность одинаковых порядков у двух переменных


1
Коэффициенты сопряженности от 0 до 1 сопряженность r  c таблиц

Goodman-Kruskal Tau от 0 до 1 выявляет долю изменчивости одной номинальной


переменной, которая может быть объяснена другой
номинальной переменной (несимметричен)
Коэффициент детерминации от 0 до 1 выявляет вклад в изменчивость количественной переменной
в зависимости от изменчивости номинальной переменной
Точечно-бисериальная от –1 до интерпретируется как коэффициент корреляции Пирсона или

89
корреляция 1 как Тау Кендалла
Все эти меры интерпретируются в сравнении с нулевым значением, которое
означает отсутствие ассоциации или взаимосвязи. Т.е. размер эффекта есть
точечная и интервальная оценка этих мер.
Ниже в таблице систематизировано, когда возможно употребление тех или
иных мер взаимосвязи, ассоциации, сопряженности. Это не означает, что применять
надо все и сразу, можно быстро проверить некоторые свои предположения,
используя приведенные оценки и их значимость.
После того, как вы определили все взаимосвязи между своими переменными,
можно составить вспомогательную таблицу исследования, в которой определяется,
как независимые переменные связаны с зависимой переменной и между собой.
Безусловно, если в исследовании около 10 переменных, то это будет достаточно
большая таблица. В этом случае для начала сделайте таблицу взаимосвязи
зависимой переменной (исхода) и остальных переменных. Желательно также
построить диаграммы рассеяния (зависимая и независимые переменные).
Определитесь, какие переменные никак не проявили себя по отношению к
зависимой переменной (отклику), и почему вы их включили в исследование.
Возможно, это переменные, по которым вы хотели провести стратификацию, или
переменные, которые как-то связаны с независимыми переменными. Их все равно
нельзя исключать из таблицы данных, пока он полностью не проведен.
Если вы поняли, что ваши переменные каким-то образом связаны между
собой, то далее можно проводить более глубокий анализ этой связи. В нескольких
дальнейших разделах будут рассмотрены основы более детального анализа данных.
Таблица 10–3. Анализ взаимосвязи двух переменных
Анализ взаимосвязи двух переменных
Переменная 1
Переменная 2 Биноминальная Мульти- Мультиноминальна Измерения на Измерения на
номинальная я (упорядоченные количественных количественных
(неупорядоченны категории) шкалах (не шкалах
е категории) распределены (нормальное
нормально) распределение)
Биноминальная Коэффициенты Коэффициенты Коэффициенты Сравнение двух Сравнение двух
сопряженности сопряженности сопряженности групп групп
непараметрическ параметрическими
Точный тест Goodman-Kruskal Тау Кендалла ими тестами тестами
Фишера Tau
Точный тест
Точный тест Фишера-Фримена- Непараметри- Точечно-
Фишера- Халтона ческий аналог бисериальная
Фримена- ANOVA корреляция
Халтона
Точечно-
бисериальная
корреляция

Мульти- Коэффициенты Коэффициенты Коэффициенты Непараметри- Различия в


номинальная сопряженности сопряженности сопряженности ческий аналог нескольких группах
(неупорядочен- ANOVA
ные категории) Goodman-Kruskal Goodman-Kruskal Goodman-Kruskal Коэффициент
Tau Tau Tau детерминации

Точный тест Точный тест Точный тест


Фишера- Фишера- Фишера-Фримена-
Фримена- Фримена- Халтона
Халтона Халтона

Мульти- Коэффициенты Коэффициенты Тау Кендалла Тау Кендалла Тау Кендалла


номинальная сопряженности сопряженности
(упорядоченные Goodman-Kruskal Непараметри- Различия в
категории) Тау Кендалла Goodman-Kruskal Tau ческий аналог нескольких группах

90
Tau ANOVA
Точный тест Коэффициент
Точный тест Точный тест Фишера-Фримена- детерминации
Фишера- Фишера- Халтона
Фримена- Фримена-
Халтона Халтона

Измерения на Сравнение двух Непараметри- Тау Кендалла Коэффициент Коэффициент


количественных групп ческий аналог ранговой ранговой
шкалах (не непараметрическ ANOVA Непараметри- корреляции корреляции
распределены ими тестами ческий аналог Спирмена Спирмена
нормально) ANOVA
Тау Кендалла Тау Кендалла
Непараметри-
ческий аналог
ANOVA

Точечно-
бисериальная
корреляция

Измерения на Сравнение двух Различия в Тау Кендалла Коэффициент Коэффициент


количественных групп нескольких ранговой корреляции
шкалах параметрически группах Различия в корреляции Пирсона
(нормальное ми тестами нескольких группах Спирмена
распределение) Коэффициент
Точечно- детерминации Коэффициент Тау Кендалла
бисериальная детерминации
корреляция

Основные аспекты
Если связи нет, то чуда не произойдет. Если, к примеру, у вас нет значимого
коэффициента корреляции между двумя переменными, то и простая линейная
регрессия не найдет зависимости между ними. Если точный тест Фишера не выявил
значимой связи признаков, то и отношение шансов также будет незначимо. Поэтому
такой быстрый анализ с помощью вышеописанных мер ассоциации, сопряженности
может уберечь вас от лишних и бесполезных дальнейших шагов в попытке доказать
то, что на ваших данных доказать невозможно.
Если тест показал, что уровень значимости связи p  0,2 , то возможно, что в
мультивариантном анализе при учете вмешивающихся переменных (конфаундеров)
уровень значимости будет меньше. Влияние конфаундеров и способы учета этого
влияния будут рассмотрены в разделе 16.1
Также необходимо обращать внимание на диаграмму рассеяния. Возможно,
связь нелинейна, и позже понадобится преобразование переменных.

1
Никто не мешает проверить поведение переменной а мультвариантном анализе и при бóльших зачениях
р. Но начните с тех, которые себя как-то проявили в бивариантном анализе.

91
11. Бивариантый анализ: биноминальная и биноминальная
переменные
Одна из распространенных задач медико-биологических исследований –
выявить факторы, влияющие на бинарный исход. Биноминальная зависимая
переменная предполагает, что исход описывается двумя состояниями, и вся выборка
данных делится на две группы согласно исходу. Как правило, общая задача
формулируется следующим образом – определить параметры независимой
переменной, ассоциированной с группами различного исхода. Это не означает, что
дизайн исследования только “случай-контроль”. Дизайн может быть любым.
Другая медико-биологическая задача – сравнить описания двух групп,
например, контрольной и экспериментальной, или мужчин и женщин в
исследовании и т.п. В данном случае биноминальная переменная не является
исходом, а скорее предпосылкой для различий в данных, однако для
статистического анализа используются те же методы.
Статистическая задача – сравнить две независимые группы.
В этом разделе будет рассмотрен более подробный анализ двух
биноминальных переменных. Если исходно эти переменные представлялись, как два
столбца данных исследования, заполненных нулями и единицами, то необходимо
перейти к таблицам 2 2 . В каждой ячейке таблицы содержится количество
наблюдений, соответствующих 4 состояниям, которые порождаются двумя
биноминальными переменными. Из четырех чисел этой таблицы можно получить
много различной информации. Таблица в общем виде выглядит следующим образом
(табл.11–1):
Таблица 11–1. Представление таблицы 2 2
Переменная 1
Да Нет
Да A B A+B
Переменная 2
Нет C D C+D
A+C B+D N
Трактовка обозначений A, B, C, D зависит от конкретной ситуации анализа.
Основные медико-биологические задачи:
– определение чувствительности и специфичности диагностического или
прогностического теста;
– оценка мер риска при изучении факторов риска;
– оценка эффективности лечения.

11.1.1. Чувствительность и специфичность тестов, прогностическая


ценность

Состояние, например, заболевание, может диагностироваться некоторым


фактором (переменной) пациента, ассоциируемый с данным состоянием (исходом).
Исследователь может определить такие параметры, как чувствительность и
специфичность исследуемого фактора. В таблице 11–2 приведены четыре состояния
результата диагностического теста. Таблица 11–3 содержит расчетные
характеристики таблиц 2 2 при определении чувствительности и специфичности.

92
Таблица 11–2. Представление данных для анализа для бинарного диагностического теста
Фактор (Диагностический тест)
Да Нет
Да Истинно- Ложно- A+B
положительный отрицательный
результат результат
Состояние A B
(Болезнь) Нет Ложно- Истинно- C+D
положительный отрицательный
результат результат
C D
A+C B+D N

Таблица 11–3. Расчетные характеристики для анализа бинарного диагностического теста


Истинно-положительный
Чувствительность = A/(A + В)
Истинно-положительный + Ложно-отрицательный

Истинно-отрицательный
Специфичность = D/(С + D)
Ложно-положительный + Истинно-отрицательный

Ложно-положительный
Доля ложно-позитивных = С/(С + D)
Ложно-положительный + Истинно-отрицательный

Ложно-отрицательный
Доля ложно-негативных = В/(A + В)
Истинно-положительный + Ложно-отрицательный

Прогностическая ценность Истинно-положительный


положительного =A/(A +С)
результата Истинно-положительный + Ложно-положительный

Прогностическая ценность Истинно-отрицательный


=D/(В + D)
отрицательного результата Ложно-отрицательный + Истинно-отрицательный

=(A +D)/(A Истинно-положительный + Истинно-отрицательный


Точность (accuracy)
+B +C + D) Все положительные +Все отрицательные

Чувствительность (sensitivity) – определяется, как способность корректно


идентифицировать пациентов, у кого имеется специфическое заболевание или
состояние (исход):
Sn  A A  B  .
Доверительный интервал приближенно определяется как:
нижняя граница 1    доверительного интервала:
2 A  B Sn  z γ2  z γ z γ2  4 A  B Sn1  Sn 
Sn L  ;

2 A  B  z γ2 
верхняя граница 1    доверительного интервала:
2 A  B Sn  z γ2  z γ z γ2  4 A  B Sn1  Sn 
SnU  ,

2 A  B  z γ2 

93
где z  – значение  -квантиля нормального распределения, γ  1  α для
2
двустороннего интервала, т.е. для α  0,05 γ  0,975 .
Специфичность (specificity) – определяется, как способность корректно
идентифицировать пациентов, которые не имеют специфического заболевания или
состояния (исхода):
Sp  D C  D ;
Нижняя граница 1  α  доверительного интервала:
2C  D Sp  z γ2  z γ z γ2  4C  D Sp1  Sp 
Sp L  ;

2 C  D  z γ2 
верхняя граница 1    доверительного интервала:
2C  D Sp  z γ2  z γ z γ2  4C  D Sp 1  Sp 
SpU  .

2 C  D  z γ2 
Чувствительность показывает степень, с которой отрицательные результаты
исследования позволяют отвергнуть то или иное заболевание. Специфичность же
показывает, насколько можно доверять диагнозу того или иного заболевания,
установленному на основе данного показателя. Высокая чувствительность и низкая
специфичность означают, что следует придавать больше значения отрицательным
результатам (отсутствию заболевания). При низкой чувствительности и высокой
специфичности, ценны положительные результаты (распознавание заболевания).
Прогностическая ценность зависит не только от чувствительности и
специфичности, но и определяется распространенностью заболевания (истинного
состояния) в исследуемой популяции.
Если распространенность заболевания в популяции низкая, то и
прогностическая ценность положительного результата (positive prediction value,
PPV) стремится к нулю. И, наоборот, если распространенность заболевания в
популяции высокая, то прогностическая ценность отрицательного результата
(negative prediction value, NPV) стремится к нулю.
Интерпретация оценки прогностической ценности положительного
результата (PPV): вероятность наличия заболевания среди тех, кто имеет
положительный результат теста.
Интерпретация оценки прогностической ценности отрицательного
результата (NPV): вероятность отсутствия заболевания среди тех, кто имеет
отрицательный результат теста.
Чувствительность и специфичность используются в ROC-анализе (см. раздел
12). При мультивариантном анализе (использовании логистической регрессии, см.
раздел 17) и построении модели прогноза в качестве фактора может использоваться
комбинация переменных. Для таких моделей тоже может быть рассчитана
чувствительность, специфичность, PPV, NPV и другие характеристики.

11.1.2. Оценка мер риска при изучении фактора риска и исхода

При оценке рисков исследователя интересуют в первую очередь


неблагоприятные исходы: смерть, ухудшение самочувствия, инвалидизация,
осложнения и т.п.

94
Факторы, которые увеличивают возникновение, распространение,
заболеваемость или смертность называются факторами риска.
Фактор изначально может быть не бинарной переменной, однако часто
существует граница (уровень) до которой фактор считается безопасным (например,
вес пациента – избыточный или нет). Тогда такую переменную кодируют как
бинарную (нет/ да, т.е. ниже критичного уровня и выше критичного уровня).
Исходом также может быть изначально не бинарная переменная. Исход может
оцениваться некоторой количественной переменной (например, давление), но опять
же можно задать границу, которая является безопасным уровнем.
Переход от количественной шкалы к бинарной – это распространенный
прием, которым часто пользуются, когда количественная переменная не имеет
закона нормального распределения, или не было возможности фиксировать точные
значения этой переменной, а также во многих других случаях. Это не значит, что им
нужно пользоваться всегда, должно быть некоторое обоснование, потому что, так
называемое понижение шкалы снижает информативность, которую в себе несет
количественная переменная. Но, тем не менее, и этот подход помогает определить
некоторые характеристики исследования.
Как видно, факторы и исходы являются разными по медицинскому описанию,
однако их анализ проводится одними и теми же методами – анализ таблиц 2 2 .
Для расчета мер риска используются оценки, которые приведены в таблице
ниже. В табл.11–4 приведены международные обозначения, которые часто
встречаются в медицинской литературе:
Таблица 11–4. Расчетные характеристики для бинарного фактора риска
Experimental group/ E Control group/С
Группа под воздействием Группа без воздействия
фактора фактора

Наименование характеристики Сокращенная запись Сокращенная запись


События /Events /E EE CE
Отсутствие события/Non- EN CN
events/N
Всего объектов/ Total subjects/S ES  EE  EN CS  CE  CN
Пропорция событий/Event EER  EE ES CER  CE CS
rate/ER
Наименование характеристики Сокращенная запись Расчет
Повышение абсолютного риска* ARI CER  EER
Снижение абсолютного риска* ARR
Повышение относительного риска* RRI CER  EER CER
Снижение относительного риска* RRR
Число подвергнутых воздействию NNH
фактора* 1 CER  EER
Число нуждающихся в лечении* NNT
Относительный риск* RR EER CER
Отношение шансов** OR EE EN  CE CN 
* – используется для естественной выборки
** – используется для целевой выборки

95
Относительный риск RR рассчитывается только для естественной выборки.
Целевую выборку характеризуют через отношение шансов OR .
Все характеристики определяют размер соответсвующего эффекта, исхоля
из данных может быть расчитана точечная и интервальная оценки
соответствующего эффекта ( характеристики).
Если речь идет о состоянии, которое является неблагоприятным
(заболевание, инвалидность, смерть и т.п.), и воздействие фактора – может быть
некоторым лечением, которое снижает относительный риск. В этом случае речь
идет о снижении абсолютного риска, относительного риска.
Если речь идет о неблагоприятном факторе, который вероятно увеличивает
неблагоприятный исход, то речь идет о повышении абсолютного риска,
относительного риска.
NNT – число нуждающихся в лечении, мера для оценки эффективности
лечения, сколько пациентов нужно лечить, чтобы предотвратить один плохой исход
по сравнению с контрольным лечением. Чем выше NNT, тем менее эффективно
лечение.
NNH – число индивидуумов, которых нужно подвергнуть воздействию
фактора риска, чтобы ровно у одного случился плохой исход. Чем меньше NNH, тем
опаснее фактор риска.
NNT обычно относится к терапевтическому эффекту, NNH – определяет
эффект от фактора риска.
Доверительные интервалы для отношения шансов и относительного риска
определяются через логарифмы среднеквадратичных отклонений.
Среднеквадратичное отклонение логарифма относительного риска:
 1 1   1 1 
slnRR       
 EE CE   EE  EN CE  CN 
Доверительный интервал для относительного риска:
Нижняя граница 1  α  доверительного интервала для относительного риска
RRL  exp lnRR   z γ  s lnRR 
Верхняя граница 1    доверительного интервала для относительного риска
RRU  exp lnRR   z γ  s lnRR  , где z γ – значение  -квантиля нормального
распределения, γ  1  αдля двустороннего интервала, т.е. для α  0,05 γ  0,975.
2
Если доверительный интервал для относительного риска содержит значения
как больше, так и меньше 1, то нет убедительных доказательств того, что
относительный риск возрастает или убывает. Если доверительный интервал
расположен правее единицы (нижняя граница больше единицы), то на уровне
значимости α принимается гипотеза о том, что риск наступления некоторого
состояния возрастает при наличии фактора. Если доверительный интервал
расположен левее единицы (верхняя граница меньше единицы), то на уровне
значимости α принимается гипотеза о том, что риск наступления некоторого
состояния снижается при наличии фактора.
Среднеквадратичное отклонение логарифма отношения шансов:
1 1 1 1
slnOR    
EE CE EN CN
Доверительный интервал для отношения шансов:

96
Нижняя граница 1  α  доверительного интервала для отношения шансов
OR L  exp lnOR   z γ  s lnOR  ;
Верхняя граница 1    доверительного интервала для отношения шансов
ORU  exp lnOR   z γ  s lnOR  ,

где z γ – значение γ -квантиля нормального распределения, γ  1  α для


2
двустороннего интервала, т.е. для α  0,05 γ  0,975.
Пример
Ниже в табл.11–5 приведены 2 примера расчета в случае возрастания и
снижения риска.
Таблица 11–5. Пример расчетов характеристик для бинарного фактора риска
Пример 1 (снижение риска, событие Пример 2 (возрастание риска,
(event) – неблагоприятно для событие (event) – неблагоприятно
пациента) для пациента)
Группа E Группа С Группа E Группа С
E EE  25 CE  100 EE  125 CE  100
N EN  125 CN  100 EN  25 CN  100
S ES  150 CS  200 ES  150 CS  200
EER  0,17 или CER  0,5 или EER  0,83 или CER  0,5 или
ER
17% 50% 83% 50%

0,33 или 33% (Вывод: снижение


абсолютного риска на 33% в
ARR экспериментальной группе по

сравнению с контрольной)
0,33 или 33% (Вывод: повышение
абсолютного риска на 33% у
ARI –
пациентов под воздействием
фактора)
0,66 или 66% (Вывод: Наблюдается
снижение относительного риска на
RRR 66% в экспериментальной группе по

сравнению с контрольной группой)
0,66 или 66% (Вывод: Наблюдается
повышение относительного риска на
RRI –
66% у пациентов под воздействием
фактора)
NNT 1,5 –
NNH – 3
RR 0,34 (Вывод: Риск наступления
1,66 (Вывод: Риск неблагоприятного
исхода повышается в 1,66 раза у
неблагоприятного исхода снижается в
пациентов под воздействием
2,9 (1/0,34) раза в экспериментальной
фактора)
группе по сравнению с контрольной
группой)

OR 0,2 (Вывод: Шансы наступления 5 (Вывод: Шансы неблагоприятного


неблагоприятного исхода в исхода в 5 раза выше у пациентов под
экспериментальной группе в 5 раз воздействием фактора)
ниже, чем в контрольной)

97
Как видно, для расчетов используются одни и те же формулы, одна и та же
математика, однако интерпретация полученных характеристик может быть разной
в зависимости от цели исследования.
В Приложении R-6 содержатся исходные данные двух примеров и R-скрипты
для расчетов пропорций, отношения шансов, относительных рисков и их
доверительных интервалов.

11.1.3. Оценка эффективности лечения

Самый распространенный тип анализа для оценки эффективности лечения –


также таблицы 2 х 2. Рассмотрим таблицы 2 х 2, когда они описывают эффект от
лечения в различных группах. Чаще всего такой анализ встречается в
рандомизированных клинических испытаниях.
Для биноминального распределения распространенная запись двухвходовой
таблицы в принятых обозначениях представлен в таблице 11–6.
Таблица 11–6. Представление результатов лечения для бинарной переменной
Группа 1 Группа 2
Исход
(экспериментальная) (контрольная)

Есть (успех лечения) EE CE

Нет (неудача лечения) EN CN

EE
тогда  1  – пропорция положительных исходов в группе 1.
EE  EN
CE
2  пропорция положительных исходов в группе 2.
CE  CN
Нулевая гипотеза формулируется как H 0 :  1   2 . Альтернативная гипотеза
либо как H A :  1   2 , либо H A :  1   2 , либо H A :  1   2 .
EE  CN
Отношение шансов группы 1 по отношению к группе 2 OR  .
CE  EN
CE  EN
Отношение шансов группы 2 по отношению к группе 1 OR  .
EE  CN
Разность в пропорциях: δ  π1 – π2 .
π1
Отношение пропорций .
π2
Основные направления статистического исследования таких таблиц – это
равенство исходов, различия частоты исходов в группах, как по разности, так и по
отношению, доверительные интервалы для пропорций и отношения шансов. В
рандомизированных клинических испытаниях оценка относительного риска не
производится.
Доверительный интервал для разности в пропорциях ( δ  π 1 – π 2 )
рассчитывается приближенно1:

1
Представленная формула не единственная для расчета доверительных интервалов в пропоциях.
Существуют и другие.

98
π 1 1 – π 1  π 2 1 – π 2 
δ L  δ – zγ  ;
n1 n2
π 1 1 – π 1  π 2 1 – π 2 
δ U  δ  zγ  .
n1 n2
Разность в пропорциях и соответствующий доверительный интервал
определяют размер эффекта в результате лечения.

11.1.4. Обнаружение различий в пропорциях двух групп на основе


доверительных интервалов

Существует достаточно много исследований, в которых основная


статистическая задача – сравнить две пропорции EER и CER (в исследуемой и
контрольной группе). Самый распространенный пример – это клинические
испытания новых методов лечения, новых препаратов и т.д. (дизайн исследования –
клинические испытания).
Есть несколько основных типов сравнений в таких исследованиях1:
Исследования превосходства (Superiority Trials).
Исследования эквивалентности ( Equivalence Trials).
Исследования полноценности/приемлемости ( Non-inferiority Trials).
Дизайн этих исследований может быть не только двухвыборочный, он может
быть достаточно сложным. Однако тут рассмотрим базовые подходы к
статистическому оцениванию двух пропорций по доверительным интервалам.
Предположим, у нас есть две оценки пропорций на основе исследования – для
контрольной группы и для исследуемой. Разность (difference) между ними – также
случайная величина. Оценить ее можно, используя точечные оценки и
доверительный интервал. Обычно нулевая гипотеза, которая выдвигается в
исследовании, гласит о том, что две случайные величины равны, то есть разность
между ними равна нулю (как вариант – их отношение равно единице). На рис.11–1
приведено иллюстративное соответствие расположения интервальной оценки
( 1  α  доверительный интервал) разности и уровня значимости критерия
гипотезы об отсутствии разницы между двумя пропорциями (разность равна нулю).
Доверительный интервал всегда будет положителен, если полученный уровень
значимости меньше заданного α , т.е. гипотеза о равенстве (то есть об отсутствии
разницы) отвергается. 1  α  доверительный интервал будет равен нулю снизу, если
уровень значимости нулевой гипотезы о равенстве двух пропорций равен α .
Доверительный интервал будет содержать отрицательные значения, если гипотеза
о равенстве двух пропорций не может быть опровергнута.

1
http://www.ncbi.nlm.nih.gov/pubmed/11560553

99
p <

p =

p >

Контроль 0 Исследование

лучше Разница лучше

Рис.11–1. Возможное расположение доверительных интервалов при сравнении двух групп

В исследованиях превосходства для доказательства значимой разности в


результатах доверительный интервал должен быть положительным (Рис. 11–2).

Превосходство имеет место

Превосходство отсутствует

Превосходство отсутствует

Контроль
0 0 Исследование

лучше Разница лучше

Рис.11–2. Возможное расположение доверительных интервалов для исследований


превосходства
Для исследований вводится понятие предельного значения (клинически
допустимого запаса) δ 0  0 . Расположение доверительных интервалов будет
следующее (Рис. 11–3): для опровержения нулевой гипотезы интервал должен
находится правее значения (  δ 0 ).

100
Приемлемо

Приемлемо

Неприемлемо

Контроль –0 0 Исследование

лучше Разница лучше

Рис.11–3. Возможное расположение доверительных интервалов для исследований


полноценности

Для исследований эквивалентности предельное значение  0 ограничивает


расположение интервала и слева и справа. Расположение доверительных
интервалов может быть следующим (Рис. 11–4):

Эквивалентно
Неэквивалентно

Эквивалентно

Неэквивалентно

Контроль –0 0  Исследование

лучше Разница лучше

Рис.11–4. Возможное расположение доверительных интервалов для исследований


эквивалентности

Все аналогичные представления могут быть получены не для разности, а для


отношения двух пропорций. В этом случае роль эквивалента нулевой разности
играет 1 – как равенства отношений этих пропорций. Когда оценивают разность
101
между пропорциям – то говорят, что одна превышает другую (меньше другой) на
х%. Когда оценивают отношений пропорций, говорят, что одна превышает другую
(меньше другой) в х раз.

11.1.5. Тесты таблиц 2 2

Если вам не нужен подробный анализ, то достаточно уже упомянутых выше


тестов.
Точный тест Фишера
Точный тест Фишера (Fisher’s exact test) может применяется для проверки
нулевой гипотезы о том, отобраны ли две исследуемые бинарные выборки из двух
популяций с одинаковой частотой встречаемости изучаемого эффекта, т.е. есть связь
между наличием фактора и исходом.
Тест χ 2 Пирсона (Pearson's Chi-Square Test)
Тест χ 2 Пирсона (Pearson's Chi-Square Test) – универсальный тест для таблиц
сопряженности, применятся для анализа частот в таблицах любых размерностей, в
том числе таблиц 2 2 , если ожидаемые частоты в ячейках таблицы больше 5.
Двухвыборочный тест пропорций
Двухвыборочный тест пропорций может использоваться для сравнения двух
пропорций, и основан на независимой случайной выборке размера m из первой
популяции и независимой случайной выборке размера n из второй популяции.
Основное предположение – предположение случайного осуществления
выборки от этих двух популяций.
выдвигаем гипотезу H0 : π 1  π 2  0 , альтернативная гипотеза H0 : π 1  π 2  0 .
Пусть k1 количество наблюдений выборки 1 с интересующим эффектом, k2 –
количество наблюдений выборки 2 с интересующим эффектом. Рассчитаем оценки
пропорций пропорции πˆ 1  k1 m и πˆ 2  k2 n , πˆ  k1  k2  m  n .
Рассчитываем значения mπˆ 1 , m1  πˆ 1 , nπˆ 2 и n1 πˆ 2  . Если все эти значения
больше или равны 5, переходим к следующим шагам. В ином случае необходим
точный тест Фишера.
Рассчитываем z  πˆ 1  πˆ 2  πˆ 1  πˆ 1 m  1 n .
Если z  zγ , где z γ – значение  -квантиля нормального распределения,
(γ 1α при альтернативной гипотезе H0 : π 1  π 2  0 , т.е. для α  0,05 γ  0,975),
2
то нулевая гипотеза может быть отклонена.
Заметим, что интересующим эффектом может быть не только состояние (“да-
нет”). Например, можно сравнить количественную переменную, закодировав
состояние ниже нормы как 0, выше нормы – как 1 и т.п.
Этот тест основан на том, что биноминальное распределение может быть
аппроксимировано нормальным распределением, когда события (состояния) не
являются редкими. Фактически расчет z – это нормализация разности пропорций, и
тест сравнивает нормализованное значение со стандартным нормальным
распределением.

102
Поскольку распределение χ 2 с одной степенью свободы – это квадрат
нормального распределения, то тест пропорций и χ 2 -тест Пирсона покажут
одинаковые результаты.
Доверительный интервал для разности двух пропорций
Пусть оценка разности в пропорциях оценивается как δ  πˆ 1  πˆ 2 .
Тогда доверительные интервалы для оценки разности рассчитаются как:
πˆ 1 1 –πˆ 1  πˆ 2 1 –πˆ 2 
δ L  δ – zγ 
n1 n2
πˆ 1 1 – πˆ 1  πˆ 2 1 – πˆ 2 
δ U  δ  zγ  ,
n1 n2
где n1 и n2 – размеры выборок, по которым оценивались пропорции πˆ 1 и πˆ 2 ,
zγ – значение  -квантиля стандартного нормального распределения, для
двустороннего интервала γ  1  α , α – уровень значимости.
2

Пример
Клинические исследования двух препаратов.
Условные данные приведены в Табл. 11–7.
Таблица 11–7. Данные примера

Препарат А Препарат В Всего

Есть результат 4 10 14

Нет результата 8 2 10

Всего: 12 12 24

Результаты расчета:
πˆ 1  0,33 ;
πˆ 2  0,83;
δ  πˆ 2 – πˆ 1  0,5 ;
Нулевая гипотеза: вероятности исходов равны H 0 :π 1  π 2 . Альтернативная
H A :π 1  π 2 . Точный двусторонний критерий Фишера дает уровень значимости 0,015.
Нулевая гипотеза о равенстве вероятностей отклоняется.
Расчет доверительного интервала для разности двух пропорций:
0,83  0,17 0,33  0,67
δ L  0,5  1,96   0,5  0,34  0,16 ;
12 12
δ U  0,5  0,34  0,84 .
Как видно, точечная оценка разности больше нуля, доверительный интервал
не включает 0, поэтому можно утверждать, что пропорции различаются на уровне
значимости α  0,05 ; 33% пациентов в группе А ответили на лечение в сравнении с
83% пациентов в группе В (Точный критерий Фишера p=0,015). Размер эффекта
составил 50%, 95% доверительный интервал 16%–84%.

103
Вывод: Препарат В повышает вероятность благоприятного исхода у
исследуемой группы на 50% (95% доверительный интервал 16%–84%) в сравнении
с препаратом А по результатам лечения в группах пациентов на уровне значимости
α  0,05 .
Теперь рассмотрим отношение шансов. OR  10 , 95% доверительный
интервал (1,44; 69,26). Доверительный интервал не включает в себя значение
единица (1), это свидетельствует о том, что препарат В превосходит препарат А по
эффективности исходов. Размер эффекта препрарата В в данном случае в 10 (1,44;
69,26) раз выше в сравнении с препраратом А.
Вывод: 33% пациентов в группе А ответили на лечение в сравнении с 83%
пациентов в группе В. Шансы ответа на лечение в группе В в 10 раз (95%
доверительный интервал (1,44; 69,26)) выше по отношению к шансам группы А.
В Приложении R-7 содержатся R-скрипты для расчетов данного примера:
разности пропорций, отношения шансов, и их доверительных интервалов.
Основные аспекты
Количественную переменную можно представлять как биноминальную
переменную, однако это снижает информативность вашего исследования.
В зависимости от цели исследования нужно понимать, что именно
исследуется: неблагоприятный исход; эффект лечения; фактор риска или фактор,
снижающий риск, поскольку тестом (Фишера, Пирсона) можно определить только
наличие взаимосвязи, а статистическая оценка размера эффекта для бинарных
исходов в двух группах более детально изучается с помощью разности в пропорциях,
отношений шансов, доверительных интервалов.

104
12. Бивариантый анализ: биноминальная и количественная
переменные
Биноминальная переменная разбивает количественную переменную на две
группы. По взаиморасположению графиков частот или гистограмм можно визуально
отобразить расположение двух групп. На рис. 12–1 представлены различные
варианты расположения распределений количественной переменной в двух
группах.

Группа 1 Группа 2

Доверительный интервал Доверительный интервал


для среднего для среднего

а) Интервалы не пересекаются, группы разделены по расположению.

Группа 1 Группа 2

Доверительный интервал Доверительный интервал


для среднего для среднего

б) Группы разделены частично по расположению.

105
Группа 1 Группа 2

Группа 2:Доверительный
интервал для среднего

Группа 1: Доверительный
интервал для среднего

в) Группы имеют различную дисперсию , при одинаковом среднем.

Группа 1 Группа 2

Доверительный интервал
для среднего

г) Нет разделения.
Рис.12–1. Варианты расположения двух выборочных распределений

Как видно, ситуации бывают разные, необходимо проверять как


местоположение, так и рассеяние распределений. Чем больше у вас будет
визуального материала, тем легче будет понимание ваших данных.
Достаточно наглядным будет отображение двух групп с помощью графика
“ящик с усами”, Q-Q графики и пр.
Общий подход к анализу биноминальной и количественной переменной – это
анализ двух групп, представленных количественной переменной.

106
Существует множество тестов, которые проверяют взаиморасположение двух
выборочных распределений.
Нулевая гипотеза утверждает, что два распределения одинаковы. Выбор
критерия зависит от типа альтернативной гипотезы. Тестируется или положение
распределения (среднее, медиана), или рассеяние (масштаб). В таблице ниже
приведена классификация тестов по тестируемым параметрам.
Параметрические тесты основываются на знании закона распределения,
оперируя с параметрами такого распределения. Предположение о законе
распределения должно быть проверено перед применением таких тестов (проверка
предположения, лежащего в основе теста о том, что данные подчиняются закону
нормального распределения, для каждой из групп). В непараметрических тестах
знания закона распределения не требуется, но такие тесты являются менее
мощными. Самый частый прием при вычислении непараметрических статистик –
это присвоение рангов числовому ряду.
В линейных ранговых тестах исходные значения измерений заменяются на
некоторые ранги, которые имеют тот же порядок (в смысле возрастания и
убывания), что и исходные данные. Ранговые тесты различаются по способу
построения такой порядковой шкалы.
Основные тесты двух групп приведены в Табл. 12–1.
Таблица 12–1. Тесты количественной переменной для двух групп
Тестируемые параметры Статистический критерий
Положение (location tests) Непараметрические тесты

Wilcoxon-Mann-Whitney Test

Van der Waerden test (Normal Scores Test)

Savage Scores Test


Параметрические тесты

T-test for independent sample

Satterthwaite’s test (Welsh test)


Рассеяние/масштаб (scale tests) Непараметрические тесты

Siegel-Tukey Test

Mood Test

Ansari-Bradley Test

Klotz Test

Conover Test

Параметрические тесты

Fisher F-test

Критерий Вилкоксона–Манна–Уитни (Wilcoxon-Mann-Whitney Test)


Критерий Вилкоксона–Манна–Уитни (В некоторых источниках его называют
критерием Манна–Уитни) используется для определения “сдвига”, что означает, что
два распределения имеют одинаковую форму, но одно из них сдвинуто
относительно другого на определенную величину. Критерий непараметрический.
107
Критерий нормальных рангов (Van der Waerden test , Normal Scores Test)
Ранговый критерий. Альтернатива тесту Вилкоксона–Манна–Уитни, также
используется для определения “сдвига”. Критерий непараметрический.
Тест рангов Сэвиджа (Savage Scores Test)
Используется, если сравниваются две выборки, взятые из экспоненциального
распределения. Критерий непараметрический.
Критерий Сиджела-Тьюки (Siegel-Tukey Test1)
Критерий используется для проверки гипотезы, что две выборки взяты из
одного распределения против гипотезы о том, что выборки имеют одинаковый
параметр положения (среднее или медиану), но разные дисперсии. Критерий
непараметрический
Критерий Ансари-Бредли (Ansari-Bradley Test)
Критерий Ансари-Бредли – альтернатива тесту Сиджела-Тьюки. Критерий
непараметрический.
Критерий Клотца (Klotz test)
Критерий Клотца – альтернатива тесту Сиджела-Тьюки. Критерий
непараметрический.
Китерий Муда (Mood test)
Китерий Муда – альтернатива тесту Сиджела-Тьюки. Критерий
непараметрический.
Критерий Коновера (Conover test)
Критрий Коновера – альтернатива тесту Сиджела-Тьюки. Критерий
непараметрический. Тест более общий, не нуждается в предположении, что
параметр положения у двух популяций известен или одинаков.
F-критерий Фишера (Fisher F-test)
F-тест Фишера (критерий Фишера-Снедекора) применяют для сравнения
дисперсий двух нормальных выборочных совокупностей. Критерий часто называют
дисперсионным отношением или просто статистикой Фишера. Широко
используется в анализе вариаций (Analysis of Variance, ANOVA) для сравнения трех и
более выборок.
Тест Стьюдента для независимых выборок
Критерий Стьюдента для независимых выборок (two-group unpaired t-test)
предназначен для проверки нулевой гипотезы о равенстве средних значений двух
нормальных выборочных совокупностей в случае равных неизвестных дисперсий.
Предварительно необходимо проверить, что данные подчиняются закону
нормального распределения (для каждой из групп), а также сравнить дисперсии
групп F-тестом, поскольку тест Стьюдента используется для данных, взятых из
нормального распределения при равенстве дисперсий двух выборок. В случае
неравных дисперсий используется тест Уэлча.

1
Часто можно найти название теста – критерий Зигеля-Тьюки. Sidney Siegel был американским психологом.
Правильное прочтение оставляю за читателями.

108
Тест Уэлча (Walсh test, Satterthwaite’s test)
Тест Уэлча (критиерий Велча, Крамера-Уэлча, Саттерзвайта) предназначен
для проверки нулевой гипотезы о равенстве средних значений двух нормальных
выборочных совокупностей в случае неравных неизвестных дисперсий.

12.1. Анализ двух групп: Характеристическая кривая (receiver


operating characteristic(ROC) curve)
После того, как выяснено, что две группы значимо различаются в среднем,
можно определить, где находится "граница" между двумя группами. Если значимой
разницы в местоположении двух групп нет, то такую точку определить невозможно,
а точнее говоря, она не будет информативной. Поэтому ROC–анализ имеет смысл
использовать после того, как тесты двух групп (t-тест или его аналоги, тест Манна-
Уитни или его аналоги) показали значимость различия в местоположении. Если
тесты положения не являются значимыми, то построение характеристической
кривой также даст незначимые результаты.
Характеристическая кривая строится по мерам чувствительности и
специфичности.
Построение ROC-кривой рассмотрим на примере.
Пример
Данные приведены в табл.12–2.
Таблица 12–2. Данные примера
N лейкоциты Заболевание
(1/L) x106
1 1,0 да
2 1,1 нет
3 1,3 да
4 1,5 да
5 2,8 нет
6 3,7 да
7 4,6 нет
8 4,8 нет
9 4,9 да
10 5,5 нет
11 5,5 нет
12 5,9 нет

Шаг 1. Количественная переменная упорядочивается по возрастанию.


Предположим, что заболевание связано с низким значением показателя.
Шаг 2. Для каждого значения количественной переменной рассчитывается
таблица 2 х 2, как описано в Табл. 12–3. На основе таблиц для каждого значения
показателя x i рассчитываются значения Sni  Ai n и Spi  Di m .
Проще говоря, каждое значение количественной переменной по очереди
принимается за порог (границу), формируется таблица 2 2 и по ней
рассчитываются характеристики чувствительности и специфичности. В Табл. 12–4
приведены расчеты.

109
Таблица 12–3. Шаг расчета характеристической кривой
Фактор (Диагностический тест)
Пороговое значение xi
Да Количество “да”в Количество “да”в таблице n  Ai  Bi
таблице при условии, что при условии, что
(постоянно, равно
количественная количественная
количеству случаев
переменная меньше или переменная больше
группы с откликом
равна пороговому порогового значения
бинарной
значению
переменной “да”)
Состояние Ai Bi
(Болезнь)
Нет Количество “нет”в Количество “нет”в таблице m  C i  Di
таблице при условии, что при условии, что
(постоянно, равно
количественная количественная
количеству случаев
переменная меньше или переменная больше
группы с откликом
равна пороговому порогового значения
бинарной
значению
переменной “нет”)
Ci Di
Ai  C i Bi  Di N  nm

Таблица 12–4. Расчет характеристической кривой


Лейкоци- Заболе- Ai Bi Ci Di Sni Spi 1  Spi Spi  Sni
ты (1/L) x106 вание
1 1,0 да 1 4 0 7 0.20 1.0 0.0 1,20
2 1,1 нет 1 4 1 6 0.20 0.86 0.14 1,06
3 1,3 да 2 3 1 6 0.40 0.86 0.14 1,26
4 1,5 да 3 2 1 6 0.60 0.86 0.14 1,46
5 2,8 нет 3 2 2 5 0.60 0.71 0.29 1,31
6 3,7 да 4 1 2 5 0.80 0.71 0.29 1,51
7 4,6 нет 4 1 3 4 0.80 0.57 0.43 1,37
8 4,8 нет 4 1 4 3 0.80 0.43 0.57 1,23
9 4,9 да 5 0 4 3 1.0 0.43 0.57 1,43
10 5,5 нет 5 0 5 2 1.0 0.29 0.71 1,29
11 5,5 нет 5 0 6 1 1.0 0.14 0.86 1,14
12 5,9 нет 5 0 7 0 1.0 0.0 1.0 1,00

Шаг 3. Строится график, по оси X откладываются значения 1  Spi , по оси Y


значения Sni ( иногда в процентах), как на рис. 12–1.

110
1.0
0.8
4.150 (0.714, 0.800)

0.6
Sensitivity
AUC: 0.771 (0.483–1.000)

0.4
0.2
0.0

1.0 0.8 0.6 0.4 0.2 0.0


1-Specificity

Рис.12–1. Характеристическая кривая, графическое изображение результатов расчета

Площадь под кривой (area under curve – AUC) – это мера прогностичности
количественной переменной, иногда называется индекс конкордации (concordance
index). В контексте конкретного исследования – это может быть качество
диагностического или прогностического фактора. AUC считают в долях, 1 –
максимально возможное значение, 0,5 – совершенно неинформативный фактор.
1 n1
AUC   Sni  Sni 1 Spi  Spi 1  .
2 i 1
Рассчитывается стандартная ошибка
 AUC   2  AUC 
AUC 1  AUC   n  1  AUC 2   m  1  AUC 2 
SE  AUC    2  AUC   1  AUC .
n m
Доверительный интервал рассчитывается как:
AUC L  AUC  z γ  SE  AUC  ;
AUCU  AUC  z γ  SE  AUC  ,

где z γ – значение  -квантиля нормального распределения, γ  1  α для


2
двустороннего интервала, т.е. для α  0,05 γ  0,975.
Шаг 4. Определение наиболее подходящей точки разбиения (порога, границы,
уровня).
Характеристическая кривая – это графическая иллюстрация соотношения
между чувствительностью и специфичностью. Она всегда представляет собой
ломанную линию, на рис 12–2 представлена ее функциональная аппроксимация,
чтобы продемонстрировать точки перегиба, а также прямую линию (диагональ)
абсолютно неинформативного разбиения.
Характеристическая кривая показывает, насколько сложен компромисс между
чувствительностью и специфичностью теста. С помощью этой кривой можно
определить оптимальное значение точки разделения. Как правило, это точка
перегиба. Общая оценка эффективности разделения на две группы может быть
111
представлена в виде площади под характеристической кривой: чем больше эта
площадь, тем эффективнее разделение. С помощью значения AUC можно сравнивать
два теста.

0,9

0,8
чувствительность

0,7

0,6
Тест A
0,5
Тест B
0,4

0,3

0,2

0,1

0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
1-специфичность

Рис 12–2. Характеристические кривые (условные) для тестов с различной информативностью


Влияние выбора точки разделения на чувствительность и специфичность
показано на рисунке 12–3.

Нет заболевания Есть заболевание

– 1 2 +

– +

Рис 12–3. Выбор точки разбиения


Точка 1 характеризуется:
более высокой чувствительностью;
большей долей ложно-позитивных результатов;
более низкой специфичностью.

112
Точка 2 характеризуется:
меньшей чувствительностью;
большей долей ложно-негативных результатов;
большей специфичностью.
Чаще всего выбирают такую точку разбиения x i количественной переменной,
у которой сумма Spi  Sni максимальна.
Интерпретация оценок чувстительности и спцифичности см. п.11.1.1.
В Приложении R-8 содержатся R-скрипты для расчетов данного примера,
построения графика, выбора точки разбиения.

12.2. Анализ двух групп: расстояние между группами


Иногда необходимо определить не только различие по местоположению двух
групп, но и оценить это различие (оценить размер эффекта). Если в парном
сравнении достаточно было определить разность между парами, как случайную
величину и вычислить среднее и доверительный интервал (раздел 9.3), то действия
по оценке разности между двумя независимыми группами будут немного
отличаться.
Шаг 1. Пусть имеются две выборки (обе взяты из нормального
распределения) размером n1 и n2 . Определим среднее и выборочную дисперсию в
двух группах:
x 1 , s12 и x 2 , s22 .

Шаг 2. Рассчитать общую дисперсию как s 2 


n1  1s12  n2  1s22 .
n1  n2  2
1 1
Шаг 3. Рассчитать общую стандартную ошибку: SE  s 2   .
n1 n2
Шаг 4. Среднее разности между двумя случайными величинами: d  x2  x1 ;
Нижняя граница интервала : d L  d  t γ ;n1 n2 2   SE ;
верхняя граница интервала: dU  d  t γ ;n1 n2 2   SE ,
где t γ ;n1 n2 2  – значение γ -квантиля распределения Стьюдента с n1  n2  2
степенями свободы, γ  1 α для двустороннего интервала, т.е. для
2
α  0,05 γ  0,975, для одностороннего интервала γ  1  α ;
n – численность выборки.
Если доверительный интервал не содержит значение 0, значит разность
статистически значимо отлична от нуля. В этом случае размер эффекта есть
разность и доверительный интервал разности.
Основные аспекты
Тестироваться может как местоположение, так и рассеяние переменной,
представленной выборочными значениями.
В случае наличия значимых различий в местоположении, может быть
произведена оценка таких различий, т.е. определен размер эффекта.
Количественную переменную можно представлять, как номинальную
переменную и порог разделения может быть обоснованно выбран в случае, если
группы разделяются по местоположению.

113
Если нет доказательств, что группы могут разделяться, то и проводить ROC-
анализ не имеет смысла.

114
13. Бивариантный анализ: биноминальная и мультиноминальная
переменные (таблицы 2  c )
Исходные данные представляются таблицей 2 c (Табл.13–1).
Мультиноминальная переменная может быть упорядоченной и неупорядоченной.
Таблица 13–1. Представление данных таблицей 2 c
Фактор
Категория Категория … Категория … Категория
1 2 j с
Да x11 x 12 x1 j x 1c m1
Состояние
Нет x 21 x 22 x2 j x 2c m2
n1 n2 nj nc N
π1 π2 πj πc

Анализ неупорядоченных биноминальных выборок


Для анализа исхода и неупорядоченной мультиноминальной независимой
переменной мы имеем c групп ( c независимых выборок). Проверяется гипотеза о
эквивалентности всех пропорций H 0 : π 1  π 2    π c против гипотезы H A , что хотя
бы одно из равенств не выполняется. Гипотеза проверяется χ 2 -тестом Пирсона (см.
анализ неупорядоченных таблиц r  c ). Для чего рассчитываются ожидаемые
mi  n j
частоты для каждой ячейки таблицы как xˆ ij  . Если в таблице есть нулевые
N
ячейки (empty cells), то правильнее всего будет соединить две или несколько
категорий в одну не нарушая медико-биологического смысла категорий. Также не
менее 80% ячеек таблицы должны иметь оценки ожидаемых частот не менее 5. Если
это правило не соблюдается, то лучше использовать не χ 2 -тест Пирсона, а точный
тест Фишера-Фримена-Халтона.
Если гипотеза H 0 об эквивалентности пропорций отклоняется, то интерес
представляет, какие именно неупорядоченные категории порождают значимую
разницу в пропорциях. Мы можем также сравнить пропорции только в двух
категориях, представив их таблицей 2 2 . Однако уровень значимости α должен
быть уменьшен. Поправка Бонферрони (Bonferroni) для множественных сравнений
рассчитывается в зависимости от количества сравнений. Максимальное количество
сравнений в таблице 2  c равно в c c  1 2 . Например, при c  5 ,
α  0,05/5 5  1/2  0,005. Эта поправка является достаточно жесткой, есть более
лояльные: Шидака (Šidák), метода Holm–Bonferroni и др.1
Сравнение двух пропорций подробно изложено в разделе 11, можно
использовать те же статистические тесты, доверительные интервалы, только с
учетом поправки.
Подробно алгоритм расчета χ 2 -тест Пирсона и примеры даны в разделе 14
для анализа неупорядоченных таблиц r  c .

1
Обзор и анализ поправок для множественных сравнений см. в книге Dmitrienko et al (2005).

115
Анализ упорядоченных биноминальных выборок
В случае упорядоченной мультиноминальной зависимой переменной мы
можем сначала воспользоваться χ 2 -тестом Пирсона (точным тестом Фишера-
Фримена-Халтона) для выявления неоднородности таблицы 2  c (с теми же
оговорками, которые были приведены выше для неупорядоченных категорий, о
пустых ячейках и ожидаемых частотах), затем проверить наличие тренда в
пропорциях, ответить на вопрос увеличивается (уменьшается) пропорция при
возрастании/убывании категориальной переменной. Иначе говоря, проверить
гипотезу о том, что c независимых выборок имеют одинаковую пропорцию против
гипотезы о том, что существует тренд в пропорциях.
Для проверки гипотезы о тренде используется тесты трендов (trend test).
Типичное биомедицинское применение – связь дозы-отклика в клинических
испытаниях или в исследованиях случай-контроль. Также в качестве упорядоченной
мультиноминальной переменной может выступать степень тяжести заболевания
или группа риска. Исследуемый бинарный фактор в этом случае не должен
принимать участия в определении степени тяжести или группы риска.
В тестах выдвигается нулевая гипотеза о равенстве пропорций против
гипотезы о тренде в пропорциях. Один из тестов приведен ниже, чтобы понять
основы расчета таких тестов.
Шаг 1. Таблица (см. табл.13–2) дополняется весами для каждой категории
w j , j  1,  , c . Для линейного тренда веса определяются как w j  j  1, j  1, , c , для
квадратичного тренда w j   j  1 , j  1, , c и т.д. Тренд может быть нелинейным и
2

веса можно выбрать пропорционально уровню фактора, например, если уровни


воздействия : 0, 100, 500, 7000+, то веса можно выбрать 0,1,5,70. и т.д. Одно
существенное замечание для линейного тренда: неважно, какие числа выбраны в
качестве весов, важно только, что они расположены равномерно, с одинаковым
шагом.
Таблица 13–2. Выбор весов категорий для определения тренда в таблицах 2  c
Фактор
Категория Категория … Категория … Категория
1 2 j с
Да x11 x 12 x1 j x 1c m1
Состо-
яние Нет x 21 x 22 x2 j x 2c m2
n1 n2 nj nc N
Веса w1 w2 wj wc
Пример весов 0 1 j 1 c 1
для линейного
тренда

Пример весов
для
02 12  j  12 c  12
квадратичного
тренда

116
2
 c  m1n j  1 
N N  1   w j  x 1 j 
2
  
 j 1  N  2 
Шаг 2. Рассчитывается статистика χ 2   .
 c  c 
2

m1m2  N  n j w 2j    w j n j  
 j 1 
  j 1  
1
Поправка на непрерывность   в формуле используется, если веса берутся с
2
1
одинаковым шагом (для линейного тренда), иначе вместо   используется 0.
2
 m1n j 
Ремарка: Выражение  x 1 j   – это разность между наблюдаемой и ожидаемой частотой. Часто
 N 
используется в критериях для анализа категорий.

Статистика подчиняется χ 2 распределению с одной степенью свободы.


Если значение рассчитанной статистики χ 2 превышает χ 2
 χ 21α ;1  , то
предполагается наличие тренда с уровнем значимости α , где χ 21α ;1 – это 1  α 
квантиль χ 2 -распределения с одной степенью свободы.
Шаг 3. Если не обнаружено значимого наличия тренда, это означает, что
категории независимой переменной не ассоциируются с исходом (зависимой
переменной). Следовательно, можно рассчитать оценку общей пропорции для всей
m
выборки как отношение 1 и соответствующие доверительные интервалы, если это
N
необходимо.
Если выявлен линейный тренд, то далее можно провести более углубленный
анализ. Оценки пропорций – это ряд случайных величин и их стандартные ошибки,
полученных из биноминального распределения, и мы сможем построить регрессию
уже на базе этих оценок.
Например, исследуется количество послеоперационных инфекционных
осложнений в зависимости от состояния пациента непосредственно перед
операцией (или некоторого параметра анализа крови, например, нейтрофилов, и
т.п.). Рассчитывается количество пациентов в каждой группе, фиксируется
количество послеоперационных инфекционных осложнений в каждой группе,
находится пропорция случаев в каждой группе. Определяется, существует ли тренд в
пропорциях в зависимости от тяжести состояния (возрастания/убывания
интересующего параметра крови).
Иной пример – также количество послеоперационных инфекционных
осложнений в определенном отделении клинике, но по годам. Определяется
количество проведенных операций в год, количество послеоперационных
инфекционных осложнений для каждого года. Определяется, существует ли тренд в
пропорциях по годам – как изменилось качество постоперационного ухода.
Задачи совершенно разные, и выводы в одном случае касаются фактора риска,
в другом – качества лечения в определенном отделении клиники. Однако, и в том и в
ином случае используется один и тот же тест.
Также можно исследовать возрастание рисков при возрастании/убывании
категорий. В этом случае первая или последняя категория принимается за базовую

117
(baseline), относительно нее считаются отношения шансов в остальных категориях.
Мы получаем ряд случайных величин и их стандартные ошибки. Они также могут
быть исследованы с помощью регрессии (обычно используются логарифмы
отношения шансов). Нужно заметить, что для построения регрессии нам надо иметь
хотя бы 5–8 категорий для получения статистически устойчивых утверждений. Если
категорий 2–3, то не имеет смысла обращаться к более сложному виду анализа.
Основные аспекты
Если таблица сопряженности имеет размерность 2  c , то ее можно
трактовать, как ряд пропорций, определяемый соответствующей категорией.
Пропорции можно анализировать, как биноминальные переменные (находить
оценки и доверительные интервалы).
Если категории упорядочены, то можно предположить, что есть тренд в
пропорциях и подробно исследовать его.
Выбор теста диктуется не медико-биологической сутью переменных, а
свойствами шкал измерений, распределений, лежащих в основе переменных
исследования.

118
14. Бивариантый анализ: мультиноминальная и
мультиноминальная переменные (таблицы r  c )

Анализ таких переменных сводится к анализу неупорядоченных таблиц r  c .


Таблица представляется, как показано ниже (Табл. 14–1).
Таблица 14–1. Представление данных таблицей r  c
1 2 … j … c

1 x11 x 12 x1 j x 1c c
m1   x1 j
j 1
2 x 21

i x i1 x ij x ic c
mi   x ij
j 1

r xr 1 x rj x rc
r … r … r c
n1   xi 1 n j   x ij N   mi   n j
i 1 i 1 i 1 j 1

Каждое наблюдение попадает только в одну из ячеек таблицы, все категории


являются альтернативными. Таким образом, в ячейке содержится количество
случаев, попадающих в одну из категорий по каждой из двух переменных.
Все замечания, касающиеся пустых ячеек для таблиц 2  c верны для таблиц
r  c . Разреженная таблица с большим числом пустых ячеек в общем случае
малопригодна для анализа, а информация, полученная из такой таблицы может
касаться частных случаев исследования, ее сложно экстраполировать на популяцию.
Расчет χ 2 -теста Пирсона
Шаг 1. Для каждой ячейки такой таблицы рассчитываются оценки ожидаемых
частот:
mi  n j
xˆ ij  .
N
Шаг 2. Если более 20% ячеек содержат значения оценки ожидаемой частоты
менее 5, то нужно пересмотреть данные, каким-то образом объединив похожие
категории и повторить расчет оценок ожидаемых частот. Если объединить
категории невозможно в силу их принципиальных различий, то тогда необходимо
использовать точный тест Фишера-Фримана-Халтона.
Если в результате объединения категорий получилась таблица 2 2 , для
которой хотя бы одна ячейка содержит оценку ожидаемой частоты менее 5, то
лучше перейти к точному тесту Фишера.

χ  
2
r c x ij  xˆ ij 
2

Шаг 3. Рассчитывается статистика . Эта статистика


i 1 j 1 xˆ ij
асимптотически подчиняется распределению χ с r  1 c  1 степенями свободы.
2

119
Если значение рассчитанной статистики χ2 превышает χ 21α ,r 1c 1
χ 2

 χ 21α ,r 1c 1 , где χ 21α ,r 1c 1 – 1  α  квантиль χ 2 -распределения с
r  1 c  1 степенями свободы, то в таблице есть сопряженные категории.
Шаг 4. Для каждой из ячеек таблицы рассчитывается стандартизированные
x ij  xˆ ij
отклонения (Standardized deviates) как Devij  .
 m   n 
xˆ ij  1  i  1  
j

 N  N
Стандартизированные остатки подчиняются закону нормального
распределения Dev ~ NID(0;1) , поэтому Dev ij  2,0 указывают на значительное,
Devij  2,6 на очень значительное и Devij  3,3 на сверхзначительное отклонение
(Agresti (2002)).
Если одна из мультиноминальных переменных упорядочена, то таблица r  c
называется одноупорядоченной таблицей. Для ее исследования используются
непараметрический аналог ANOVA (тест Краскела-Уоллиса).
Если упорядочены обе мультиноминальные переменные, то таблица r  c
называется дважды упорядоченной таблицей. Для таких таблиц мы можем
использовать тест линейно-линейной ассоциации (Linear-by-linear Association Test),
тест Джонкира-Терпста (Jonckheere-Terpstra Test). Но поиск связи и ассоциаций в
таких таблицах тем не менее надо начинать с проверки наличия некой
сопряженности, связи, ассоциации, как описано в разделе 9. Переход к детальному
изучению таких таблиц возможен только после выявления статистически значимых
ассоциаций (коэффициенты сопряженности. Хи-квадрат критерий Пирсона, точный
тест Фишера-Фримена-Халтона, тау Кенделла, тау Гудмена-Краскела). Не выявив
наличия значимой ассоциации, вы можете потратить много времени на поиски того,
чего может и не быть.
Пример представления и анализа данных в таблицах сопряженности
Для описания двух групп (например, группа 1 – это группа женского пола,
группа 2 – группа мужского пола) была составлена таблица форм некоторого
гипотетического заболевания (Табл. 14–2). Расчет ожидаемых частот приведен в
таблице 14–3. Как видно, последние 4 формы заболевания имеют ожидаемые
частоты менее 5. Используем точный тест Фишера-Фримана-Халтона 1.
Таблица 14–2. Данные примера
Формы заболевания Группа 1 Группа 2
n=41(100%) n=56 (100%)
Форма А 6 (14,6) 21 (37,5)
Форма Б 9 (22,0) 12 (21,4)
Форма B 14 (34,1) 10 (17,9)
Форма Г 3 (7,3) 3 (5,4)
Форма Д 1 (2,4) 5 (8,9)
Форма E 3 (7,3) 0 (0)
Форма Ж 5 (12,2) 5(8,9)

1
Все расчеты данного примера проводились с помощью статистического пакета R (R Foundation for
Statistical Computing, Vienna, Austria; http://www.r-project.org/; Accessed August 1, 2011).

120
Таблица 14–3. Расчетные данные ожидаемых частот
Формы заболевания Группа 1 Группа 2
Форма А 11,41 15,59
Форма Б 8,88 12,12
Форма B 10,14 13,86
Форма Г 2,54 3,46
Форма Д 2,54 3,46
Форма E 1,27 1,73
Форма Ж 4,23 5,77

Точный тест Фишера-Фримана-Халтона дает результат p = 0,036.


Предположим, что в примере формы Г-Ж действительно встречаются реже
или похожи друг на друга. Объединим их (Табл. 14–4) и заново рассчитаем
ожидаемые частоты (Табл. 14–5).
Таблица 14–4. Данные примера после объединения строк
Формы заболевания Группа 1 Группа 2
n=41(100%) n=56 (100%)
Форма А 6 (14,6) 21 (37,5)
Форма Б 9 (22,0) 12 (21,4)
Форма B 14 (34,1) 10 (17,9)
Иные формы (редкие формы) 12 (29,3) 13 (23,2)

Таблица 14–5. Расчетные данные ожидаемых частот после объединения строк


Формы заболевания Группа 1. Группа 2
Форма А 11,41 15,59
Форма Б 8,88 12,12
Форма B 10,14 13,86
Иные формы (редкие формы) 10,57 14,43

Теперь точный тест Фишера-Фримана-Халтона дает результат p = 0,058, χ 2 -


критерий Пирсона p = 0,062.
Как относится к таким результатам?
Это всего лишь статистические доказательства на уровне значимости
α  0,05 . Если Вы установите уровень значимости вашего исследования α  0,01 , то
результат будет незначим как до, так после объединения строк. Если Вы установите
уровень значимости вашего исследования α  0,1 , то результат будет значим как до,
так после объединения строк.
Далее можно рассуждать различными путями, в зависимости от дизайна и
целей исследования.
Например, согласится с тем, что есть некоторая тенденция, и сравнить
частоты появления каждой формы у мужчин и женщин отдельно. В этом случае
придется использовать поправку Бонферрони или некоторую другую поправку,
например Шидака (Šidák) для множественных сравнений. Поправки зависят от
количества сравнений, чем больше сравнений, тем меньше значение
скорректированного уровня значимости α .
Предположим, мы не сравниваем формы между собой, а сравниваем только
частоты их проявления у мужчин и женщин. В этом случае нам необходимо сделать
7 (4) сравнений (7 исходных форм или 4, если объединить некоторые формы).
Оценим различия формы А заболевания (против всех остальных форм) точным
тестом Фишера (раздел 11.1.5). Получим значение p = 0,021. C учетом поправки
Бонферрони наш тест может быть признан незначимым. Однако если в

121
исследовании нас интересует только форма А (как отличающаяся от всех других
форм), мы можем говорить о различиях между мужчинами и женщинами по данной
форме заболевания.
Следующий вариант рассуждений: оценить, достаточен ли размер групп для
принятия решения1.
Поскольку расчеты размера выборки для таблиц сопряженности достаточно
сложны и выходят за рамки данного пособия, поступим следующим образом: оценим
размер выборки для обнаружения различий в пропорциях по одной из форм
заболевания, где выборочная разность в пропорциях наибольшая (чем меньше это
различие, тем бóльший размер выборки нам понадобится). Из таблицы 14–2
следует, что наибольшая разность в пропорциях у формы А. Используя формулу для
доказательства статистического различия из раздела 4.4 при уровне мощности
исследования 80% и α  0,05 , получим, что размер каждой группы (мужчин и
женщин) должен быть не менее 54:
2
 z1α  z1β 
n 2   p  1  p   p  1  p  
 ε  1 1 2 2
 
2
 1,96  0,84 
   0,375 1  0,375  0,146 1  0,146  54.
 0,375 0,146 
.
На имеющихся наблюдениях нам не хватает мощности исследования для
принятия решения даже по форме А заболевания (размер одной из групп меньше
54). Если одновременно устанавливать различия по другим формам, данных
понадобится еще больше.
Поэтому тут только статистические методы ничего не решат. В первую
очередь надо обратиться к дизайну исследования. Это было когортное исследование
или экспериментальное? Насколько доказательство различий необходимо? Нужно
ли увеличивать размер исследований и возможно ли его увеличить? Принципиально
ли для вашего исследования найти более четкие доказательства наличия или
отсутствия различий? Если ли в литературе данные по вопросу разных форм
данного заболевания у мужчин и женщин? Решать это придется исследователю.
В качестве примера приведем наше решение. Но в иной ситуации оно могло
быть иным. Ниже дана таблица (табл.14–6), которая в результате вошла в отчет по
исследованиям и публикации. Наше исследование было когортным, по всем случаям
некоторого заболевания в нашей республике за 2000–2005 гг. Большего количества
данных у нас не было. Основной акцент исследования фокусировался не на
гендерных различиях, однако необходимо было описать характеристики пациентов
когорты. Поэтому мы справочно опубликовали таблицу и указали, что общие
различия между группами мужчин и женщин по формам заболевания находятся на
уровне p  0,063.
Таблица 14–6. Пример представления данных
Формы заболевания мужчины женщины Всего,
n=41(100%) n=56 (100%) n=97 (100%)
Форма А, n(%) 6 (14,6) 21 (37,5) 27 (27,8 )
Форма Б, n(%) 9 (22,0) 12 (21,4) 21 (21,6)
Форма B, n(%) 14 (34,1) 10 (17,9) 24 (24,8)

1
Оценка размера выборки для таблиц сопряженности описана в Chow (2008).

122
Иные формы (редкие формы) , n(%) 12 (29,3) 13 (23,2) 25 (25,8)
Форма Г 3 3 6
Форма Д 1 5 6
Форма E 3 0 3
Форма Ж 5 5 10

Ремарка: Статистический анализ – только инструмент для исследователя. Выводы на основе


статистического анализа и статистических доказательств – прерогатива исследователя.

Пример расширенного анализа данных таблицы сопряженности


Этот пример приведен не только для демонстрации анализа конкретной
связи двух категориальных переменных, но и для демонстрации полного анализа
такой взаимосвязи.
В Приложении R-9 содержатся R-скрипты для расчетов данного примера.
Изучается взаимозависимость наличия/отсутствия метастазов от
локализации опухоли щитовидной железы. Исследователем выделено три основных
типа локализации опухоли под капсулой (I), внутри капсулы (II), перешеек (III).
Данные приведены в Табл. 14–7.
Таблица 14–7. Данные примера

I II III
Наличие 54 57 14 125
Отсутствие 14 33 1 48
Всего 68 90 15 173
Пропорция 0,79 0,63 0,93

Шаг 1. Оценки ожидаемых частот (Табл. 14–8)


Таблица 14–8. Расчетные данные ожидаемых частот
I II III

Наличие 49,13 65,03 10,84 125


Отсутствие 18,87 24,97 4,16 48
68 90 15 173

Только в одной ячейке ожидаемая частота менее 5. Продолжаем анализ.


Шаг 3.
Рассчитанная статистика χ 2  8,64 . Табличная статистика χ 02.95;2  5,99 .
Рассчитанная статистика превышает табличную, p = 0,0133. Наличие метастазов
статистически связано с локализацией опухоли.
Шаг 4. Расчет стандартизированных отклонений в каждой ячейке (табл.14–9).
Существует значительное отклонение (неоднородность таблицы), связанная с
локализацией по типу II.
Таблица 14–9. Расчетные данные стандартизированных отклонений
I II III
отсутствие –1,69 2,72 –1,91
наличие 1,69 –2,72 1,91

123
Вывод: локализация опухоли и наличие метастазов взаимосвязаны
(p = 0,0133).
Если исследователя не интересует более детальный анализ, можно
остановиться на таком выводе. Можно продолжить анализ для более детального
изучения нашей таблицы. Для большей наглядности можно воспользоваться
диаграммой ассоциаций (см. Рис. 14-1).

Рис.14–1. Графическое изображение неоднородности таблицы r  c

После того, как установлена неоднородность таблицы, мы можем провести


попарные сравнения категорий. Рассчитаем пропорции (см. Табл. 14–6) и сравним их
попарно для категорий I-II и I-III двухвыборочным тестом пропорций. Уровень
значимости с учетом поправки Бонферрони α  0,025 (мы осуществляем два
сравнения α  0,05/2  0,025 ). Проверяется нулевая гипотеза о том, что пропорция
категории II эквивалентна пропорции других категорий против гипотезы о том, что
пропорция во категории II меньше чем в I и III . Используем тест для сравнения двух
пропорций.
Нулевая гипотеза H0 : π 2  π 1 , альтернативная гипотеза H A : π 2  π 1 .
p21  0,0143.
Нулевая гипотеза H0 : π 2  π 3 , альтернативная гипотеза H A : π 2  π 3 .
p23  0,0108 .
Поскольку полученные p-значения значимости менее α  0,025 , мы можем
сделать вывод о том, что действительно вероятность возникновения метастазов при
локализации опухоли по II типу ниже, чем по I и III типу.
Вывод: доля пациентов с метастазами при локализации опухоли по II типу
значимо ниже, чем при локализациях по типу I и III ( p  0,0143 и p  0,01076
соответственно).
Мы имеем право объединить категории I и III и противопоставить их
категории II.
В этом случае мы переходим к анализу таблиц 2 2 (Табл.14–10).
Таблица 14–10. Данные примера после объединения колонок

124
Не II II Всего
наличие 68 57 125
отсутствие 15 33 48
Всего 83 90 173
Пропорция π 2  0,82 π 2  0,63

Проверим гипотезу H 0 :π 2  π 2 против альтернативной H A :π 2  π 2 .


Расчеты показали p  0,006. Категория II отличается от остальных категорий.
Мы могли проверить гипотезу H0 :π 2  π 2 против H A :π 2  π 2 . Уровень
значимости был бы p  0,003. Но нас интересовало наличие различий.
Вывод: Вероятность возникновения метастазов при локализации опухоли по
II типу отличается от вероятности возникновения метастазов при других
локализациях ( p  0,01 ).
Если исследователя не интересует более детальный анализ и оценка размера
эффекта, можно остановиться на таком выводе. Можно продолжить анализ для
более детального изучения.
Далее мы оценим вероятности возникновения метастазов при различных
локализациях опухоли. Оценка пропорции возникновения метастазов при
локализации опухоли по второму типу : π 2  0,63 , 95% ДИ 0,53–0,73. При остальных
типах локализации: π 2  0,82 , 95% ДИ 0,73 –0,89.
Разность в пропорциях составляет π 2  π 2  0,19 . 95% доверительный
интервал для разности 0,05 – 0,31 (см. раздел 11.1.5), т.е. от 5 до 31 %. Это и будет
размером эффекта локализации второго типа по отношению к другим.
Если исследование когортное, то можно оценить относительный риск
появления метастазов для локализаций, отличных от II типа (не-II локализации)
RR  1,29 , 95% ДИ (1,07–1,56). Интервал не содержит 1, следовательно, такие
локализации являются неблагоприятными. Иными словами, расположение опухоли
не по второму типу увеличивает вероятность появления метастазов на 29% (7% –
56%).
Если исследование не когортное и нас интересуют локализации не-II типа, то
можно оценить отношение шансов для не-II локализаций как неблагоприятных,
OR  2,62 ; 95% ДИ (1,30 – 5,31).
Таким образом, интерпретация статистического вывода в наблюдениях
зависит от целей исследования. Статистический анализ не интерпретирует
результаты, он только отмечает, что есть связи и различия. Глубина и направление
статистического анализа зависит от исследователя, от его целей и проблематики
исследования.
Основные аспекты
Таблицы r  c обычно в полную силу используются, когда есть достаточно
наблюдений для построения таких таблиц, в ином случае вы все равно будете
вынуждены избавляться от пустых ячеек и малых ожидаемых частот путем
объединения категорий, и ваши таблицы в результате превратятся в таблицы 2 2
или 2  c .
Не пытайтесь искусственно перейти от количественных переменных к таким
таблицам путем разбиения количественной переменной на интервалы, далее будет
показано, что используются одни и те же непараметрические тесты как для одно- и
125
дважды упорядоченных таблиц, так и для анализа количественной переменной,
которая не распределена нормально в исследовании. Пытаясь разбить
количественную переменную на интервалы, вы только теряете информативность
ваших данных; хотя всегда найдутся отдельные исследования, когда разбиение
имеет смысл и обоснование.
Как глубоко анализировать данные – решать вам, но при использовании
любого теста предположения, лежащие в основе теста, должны быть проверены.

126
15. Бивариантый анализ: мультиноминальная и количественная
переменные – анализ нескольких групп
Если одна из переменных представляет собой категории(группы), а вторая
переменная количественная, то наиболее подходящим анализом является
дисперсионный анализ (ANOVA – analysis of variance).
Для ANOVA необходимо выполнение нескольких предположений.
Наблюдения должны быть независимы. Обязательна проверка на
гомоскедастичность количественной переменной.
Гомоскедасичность (гомогенность) – это однородность дисперсий(рассеяния).
В противоположность этому термину существует термин гетероскедастичность
(гетерогенность) – разнородность дисперсий (рассеяния).
Независимость наблюдений обеспечивается дизайном исследования.
Тест Левена (Levene test), тест Брауна-Форсайта (Brown–Forsythe test), тест
Бартлетта (Barlett test) служат для проверки нулевой гипотезы о равенстве
дисперсий генеральных совокупностей, т.е. проверка на гомогенность дисперсий.
Первые два теста менее чувствительны к нарушению предположения о
нормальности количественной переменной.

15.1. Однофакторная ANOVA (Однофакторный дисперсионный


анализ)
Рассмотрим применение однофакторного дисперсионного анализа для
случая, когда количественная переменная распределена нормально.
После того, как есть уверенность в том, что группы гомогенны, выдвигается
нулевая гипотеза, которая гласит, что все средние в группах равны между собой
H0 : μ1  μ2    μ k  μ , где μ i – среднее в группе i , k – количество сравниваемых
групп, μ – генеральное среднее, обычно центрируют данные таким образом, что
μ  0 ; альтернативная гипотеза H A формулируется следующим образом: если
сформировать все возможные линейные комбинации (контрасты) средних, то
существует линейная комбинация, которая отлична от нуля (при условии μ  0 ).
Ремарка: Такие гипотезы об общем равенстве в анализе ANOVA носят название гипотезы омнибуса
(Omnibus Null Hypothesis).
Основная идея такого анализа – сравнение суммы отклонений от среднего
(вариаций) в группах и целиком в выборке. Считается, что вариация в группах
обуславливается случайной ошибкой, разность между вариацией всей совокупности
и суммой вариаций в группах может объясняться эффектом, связанным с
различными группами (эффект группы).
Пусть в исследовании общее число наблюдений – N , число групп (категорий
мультиноминальной переменной) – k , ni – размер группы данных, обусловленных
i -ой категорией мультиноминальной переменной, x i – среднее количественных
данных по i -ой группе (категории), x – среднее по всей количественной
переменной. Тогда можно рассчитать следующие вариации (Табл. 15–1):
Таблица 15–1. Расчеты в анализе вариаций
Источник вариации Сумма квадратов (Sum Число Среднее квадратов
of Square, SS) степеней (Mean of Square, MS)
свободы

127
Межгрупповая вариация k k 1 SS 1
SS 1   ni x i  x 
2
(различия между группами) MS 1 
i 1 k 1
Вариация, обусловленная
эффектом
Внутригрупповая вариация k ni N k SS 2
SS 2   x ij  x i  MS 2 
2
(различия внутри групп)
i 1 j 1
N k
Вариация ошибки
Полная вариация: сумма k ni N 1 SS
SS   x ij  x  MS 
2
вариаций SS  SS 1  SS 2 N 1
i 1 j 1

Рассмотрим пример расчета (Табл. 15–2) :


Таблица 15–2. Пример расчетов в анализе вариаций
Среднее Сумма Общее Сумма
в квадратов среднее квадратов
Значение
Группа группах отклонений отклонений
переменной
от среднего от общего
в группах среднего
1 1
2 1 2 2
3 1
5 58
7 2
8 2 8 2
9 2

Сумма общей вариации составила SS  58 , сумма внутригрупповых вариаций –


SS 2  4 , сумма межгрупповых вариаций – SS 1  54 . Согласно ANOVA, вариация в 4
объясняется случайной ошибкой, 54 – объясняется различием средних в группах.
SS
Выражение R 2  1  2 называется коэффициентом детерминации и
SS
показывает, какая часть полной выборки объясняется влиянием групп (категорий,
MS 2
фактора). R 2  1  носит название уточненного коэффициента детерминации.
MS
Тест, который проверят, что различия в вариации между группами и внутри
групп не являются случайными носит название F-критерия:
k

 n x  x
2

N k i i
N  k SS 1
F  i 1
  ,
k 1 k ni
k  1 SS 2
 x  xi 
2
ij
i 1 j 1

Статистика F подчиняется F-распределению с параметрами k  1 и N  k  .


Превышение значения рассчитанной статистики над 1  α  перцентилем F-
распределения свидетельствует о значимости влияния групп (категорий) на
количественную переменную.
Альтернативная гипотеза ANOVA утверждает, что различия есть, но не
уточняет, какие именно.
Кроме проверки гипотезы омнибуса можно проводить попарные сравнения
групп. Однако, необходимо использовать критерии, специально предназначенные
для таких множественных сравнений, проводить напрямую сравнения
двухвыборочным критерием Стьюдента – неправильно. Необходима поправка на
множественность сравнений (см. раздел.21.1). Критерий Стьюдента с поправкой
Бонферрони для множественных сравнений становится слишком жестким, когда
128
k
сравнений много. При наличии k групп необходимо провести k  1 сравнений.
2
Более грамотно будет воспользоваться специально разработанными критериями
множественных сравнений: критерий Дункана (Duncan's test), критерий Шеффе
(Scheffé's test), критерий Тьюки (Tukey test), критерий Ньюмена–Кейлса (Newman-
Keuls test) и др. Все они имеют свою специфику, которую нужно понимать при их
использовании. Внимательно читайте условия их использования в статистических
пакетах, которыми вы будете пользоваться. Некоторые предназначены для
сравнения групп одинаковой размерности, некоторые сравнивают группы
различной размерности.
Ремарка: Процедура множественных парных сравнений не эквивалентна проверке гипотезы
омнибуса и существует отдельно от ANOVA.
Отдельно нужно упомянуть критерий Даннета (Dunnett test) для проведения
сравнений с контрольной группой (одна из групп – контрольная, остальные –
экспериментальные).
Можно также оценить среднее по группе, найти доверительные интервалы.
Можно оценить контраст – различия в двух отдельно взятых группах (раздел
12.2), найти величину различия в средних между ними и доверительный интервал
для различий в средних.
Если некоторые группы в анализе не различаются между собой, что
доказывается дисперсионным анализом, у вас есть основания их объединять в
анализе (безусловно, не нарушая медико-биологического смысла групп).

15.2. Непараметрическая ANOVA


Если количественная переменная не подчиняется закону нормального
распределения, то используется непараметрический аналог ANOVA (ранговый
однофакторный анализ Краскела-Уоллиса). Также могут использоваться тест
Коновера в предположении, что данные взяты из нормального распределения с
различным местоположением, но не вариацией, и потом распределены в c
различных категорий; тест Сэвиджа – что в основе лежит экспоненциальное
распределение, и потом данные распределены в c различных категорий.
Так же, как и в параметрическом анализе, встает проблема множественных
попарных сравнений, для проверки предположения о различии используется
критерий Данна (Dunn's test), непараметрическая модификация критерия Ньюмена–
Кейлса и др.

15.3. Общие замечания


Бывают исследования, когда две группы из нескольких с самого начала
представляют особый интерес для исследователя. В этом случае результаты F-теста
(или непараметрических критериев) имеют ограниченный интерес для
исследователя, и тест Стьюдента (Манна-Уитни в непараметрическом случае) может
использоваться без поправки ошибки первого рода α на множественность
сравнений. Однако в этом случае все остальные группы должны быть сохранены в
анализе, поскольку при перегруппировке, или разделении оставшихся групп еще на
несколько, вариация может измениться. Кроме того, это поможет избежать
перегруппировки с исследуемыми группами, сосредоточившись на анализе
контраста только между двумя предопределенными группами.
Пример: при классификации злокачественных опухолей используется
классификация TNM. T – классифицирует степень прорастания опухоли. Изучаются

129
различные группы опухолей, интерес представляют группа T1–2 и Т3. Существует
еще группа Тх – группа, в которой невозможно определить, проросла опухоль или
нет. При сравнении групп T1–2 и Т3 по некоторому признаку можно опустить группу
Тх, но нельзя искусственно разделить Тх еще на некоторые подгруппы, равно как и
объединить ее с любой из групп. В этом случае не используют множественные
сравнения (поскольку фактически имеем 2 группы), но и не изменяют исследуемые
группы.
Следующее замечание: что делать, если мультиноминальная переменная
имеет упорядоченные категории? Можно воспользоваться ANOVA, в любом случае.
Однако, в случае, если мультиноминальная переменная упорядочена, мы
можем найти тренд в таких данных, т.е. определить связано ли возрастание одной
переменной с возрастанием (убыванием) другой переменной. Если количественная
переменная подчиняется закону нормального распределения, то существует класс
моделей регрессионного анализа, который оценивает величину тренда. Для
количественных переменных, не подчиняющихся закону нормального
распределения, можно использовать тест линейно-линейной ассоциации (Linear-by-
linear association test), тест Джонкира-Терпста (Jonckheere-Terpstra test). Однако, как
говорилось в предыдущем разделе, поиск связи и ассоциаций в таких таблицах надо
начинать с проверки наличия некой сопряженности, связи, ассоциации, как описано
в разделе 10, проверки на то, существует ли общее различие в группах,
образованных категориями мультиноминальной переменной.
Основные аспекты
Однородность дисперсий – важное предположение для ANOVA.
Общая вариация может быть разложена на составляющие вариации.
Попарные сравнения нескольких группах требуют специальных тестов и
коррекции уровня значимости на множественность сравнений.
Какие именно данные перед вами и как к ним относится – это ваши
предположения, которые зависит от логики вашего исследования и подтверждены
статистическими тестами.

130
Часть 2

16. Линейная регрессия


До сих пор мы рассматривали статистические оценки, доступные
исследователю при различных типах переменных. Мы оценивали различные
параметры, интерпретировали их, объясняя гипотезу исследования. Теперь будем
знакомиться со статистическими моделями.
Ремарка: Основной вопрос, на который должна ответить статистическая модель: дает ли модель,
которая включает предполагаемый предиктор (фактор) больше информации о зависимой
переменной, чем модель, которая не включает этот предиктор?
В статистических моделях обычно присутствует три компонента: случайный
(random component), который идентифицируется как зависимая переменная
(результат воздействия, эффект, исход наблюдения) y и предполагает, что в основе
переменной y лежит некоторое распределение; систематический (systematic
component), который содержит предиктор x или комбинацию предикторов
x1 , x2 , , x n  , т.е. правая часть модельного уравнения; и функцию связи (link
function), которая определяет функцию от ожидаемых (средних) значений y ,
стоящего в левой части модельного уравнения.
Ремарка: Мы сторим модель поведения переменной y от значений предиктора x . При этом, как
правило, предметом интереса исследования является предиктор x , а не зависимая переменная y .

16.1. Простая линейная регрессионная модель


Самая первая модель – модель линейной регрессии с количественной
переменной – исходом и количественным предиктором (независимой переменной
модели).
Ремарка: Основное свойство линейных моделей (не обязательно статистических): приращение
зависимой переменной пропорционально приращению независимой переменной.
Прежде чем перейти в к рассмотрению линейной регрессионной модели,
напомним уравнение прямой: y  kx  b , где k – угол наклона прямой.
При k  0 , y возрастает при возрастании x .
При k  0 , y убывает при возрастании x .
При k  0 , прямая параллельна оси абсцисс.
b является показателем ординаты точки пересечения прямой с осью ординат,
т.е. при x  0 , y  b .
При b  0 , прямая проходит через начало координат.
Приращение x на 1 единицу шкалы оси абсцисс вызывает пропорциональное
изменение y на k единиц шкалы оси ординат.
Теперь рассмотрим простую линейную регрессию. Основная цель этой модели
– описать, как среднее значение зависимой переменной y изменяется при
изменении единственной независимой переменной – предиктора x .

131
Ремарка: В контексте нижеследующего изложения предиктором называется некоторый показатель
исследования, который несет некоторый биологический, клинический, эпидемиологический и др.
смысл для исследователя. Переменная – это часть модели, которая имеет некоторое математическое
описание. Иногда предиктор представляется несколькими переменными в модели, иногда
переменная сама является некоторой функцией от значений предиктора (преобразование
переменной) или нескольких предикторов.
В линейной модели предполагается, что, изменения в одной случайной
переменной приводят к пропорциональным изменениям в другой случайной
переменной, т.е. предполагается, что средние значения y лежат на линии регрессии
(линии средних). Систематический компонент модели:
E  y | x    0  1 x ,
Где E  y | x  – ожидаемое (среднее) значение y при данном x ;
β 1 – уклон линии регрессии, который интерпретируется как изменение в
среднем значении y при изменении переменной x на одну единицу;
β 0 – пересечение, среднее значение y при x  0 .
Случайный компонент модели: предполагается, что переменная y случайна1.
Каждая пара наблюдений x i , yi  выборки может быть представлена как:
yi  E  y | xi    i  0  1 xi   i , где i – номер наблюдения в выборке,
εi – ошибка.
Функция связи в данном случае – тождественна y : f  y   y (identity link
function)2.
Статистические предположения, лежащие в основе модели, касаются
распределения случайной величины ε . Предполагается, что  i ~ N 0,  2  , т.е., что
ошибка независима, одинаково распределена и
1. Имеет нормальное распределение;
2. Имеет среднее значение 0 для любого значения x ;
3. Имеет постоянную дисперсию  2 для любого значения x ;
4. Значения ошибки статистически независимы.
Первое предположение означает, что модель "устраняет" из значений
переменной y вариацию, связанную с переменной x , а оставшаяся вариация носит
полностью случайный характер, второе предположение важно для проверки того,
что связь между зависимой переменной y и переменной-предиктором x
действительно линейна, третье предположение касается гомоскедастичности
(постоянной вариации y при любых значениях x ), четвертое – связано с
независимостью наблюдений.

1 Изучение регрессии основано на том, что случайные величины x и y , имеющие совместное


распределение вероятностей, связаны вероятностной зависимостью: при каждом фиксированном значении
x  X величина y является случайной величиной с определенным (зависящим от значения x ) условным
распределением вероятностей. Регрессия величины y по величине x определяется условным
математическим ожиданием y , вычисленным при условии, что x  X . Линейная регрессия предполагает
пропорциональное изменение математического ожидания y при изменении x .
2
В отличие от уравнения прямой, в котором мы можем выразить x как функцию от y , x  f 1  y  , для
уравнения линейной регрессии такое обратное преобразование неверно.

132
Позже будет показано, как изменяются модели при нарушении одного из
предположений.
В простой линейной регрессии для переменной y часто выдвигается
предположение о "нормальности" ее распределения1. Для переменной-предиктора x
не делается никаких предположений о виде распределения.
Коэффициенты регрессии носят название общее название параметров
модели; β 1 – уклон (slope), коэффициент при переменной модели; β 0 – пересечение
(intersept), свободный член уравнения регрессии. Обычно о коэффициентах говорят,
как о параметрах модели. Если в линейной модели есть свободный член β 0 , то
количество параметров будет на единицу больше количества переменных. Обычно
количество переменных обозначается p , таким образом, q  p  1 – это количество
параметров модели ( с учетом β 0 ).
Линия простой линейной регрессии полностью определяется этими двумя
коэффициентами (параметрами модели) и задача исследователя – найти оценки
параметров βˆ 0 и βˆ1 2. Нахождение этих оценок иначе называется подгонкой модели
(model fittng). Не вдаваясь в подробности математических подходов, можно сказать,
что для линейной модели чаще всего используется оценка (подгонка модели)
методом наименьших квадратов (Least Squares Estimation), метод минимизирует
сумму квадратов отклонений переменной y от линии регрессии.
N

 x i  x  yi  y 
βˆ1  i 1
N
; βˆ 0  y  βˆ1 x .
 x  x
2
i
i 1

В результате мы получим уравнение регрессии для i -го наблюдения:


yˆ i  βˆ 0  βˆ1 x i , ŷi – подходящее, ожидаемое значение (fitted value) для i -го
наблюдения.
Разность ei  yi  yˆ i называется величиной остатка (residual) i -го наблюдения.
Поскольку метод наименьших квадратов использует сумму вариаций
(отклонений), то аналогично предыдущему разделу мы можем записать:
N
TSS    yi  y  – общая (Total SS) сумма квадратов ( рассеяние переменной
2

i 1
y );

 
N N
RSS    yi  yˆ i    yi  βˆ 0  βˆ1 x i
2 2
– сумма квадратов остатков (рассеяние
i 1 i 1
переменной y относительно линии регрессии – Residual SS);

 
N N
MSS    yˆ i  y    βˆ0  βˆ1 x i  y
2 2
– сумма квадратов модели (Model SS)
i 1 i 1
(рассеяние оценок переменной y, полученных по уравнению регрессии
относительно среднего y );
MSS  TSS  RSS .

1
Это теоретический вопрос в области статистических моделей, который дискутируется по сей день.
2
Символ “^” над параметром означает его оценку по имеющемуся набору данных, расчетное значение.

133
Среднеквадратичная ошибка (mean squared error) рассчитывается как
RSS
MSE  , где N – количество наблюдений, в общем случае N  q – это степени
N q
свободы модели, q – количество параметров модели, обычно q  p  1 , в случае
простой регрессии с одной переменной, т.е. с двумя параметрами N  q  N  2 .
Для исследования связи предиктора x и зависимой переменной y тестируют
нулевую гипотезу, которая гласит, что H0 : β 1  0 , т.е. нет систематической связи
между x и y . Альтернативная гипотеза утверждает, что H A : β 1  0 . Наиболее
подходящим тестом является F-критерий, который показывает, значимо ли
снижается вариация в результате использования модели; для модели с одной
MSS
переменной статистика рассчитывается как F  , статистика F подчиняется
MSE
распределению Фишера с 1; N  2 степенями свободы (см. раздел 16.7).
Также для проверки гипотезы используется критерий Вальда (Wald test). Он
βˆ  β 1
аналогичен t-тесту: T  1
 
SE βˆ1
. Поскольку нулевая гипотеза предполагает, что

βˆ1
H0 : β 1  0 , то T 
 
SE βˆ1
. Статистика T подчиняется распределению Стьюдента с

 
N  q  N  2 степенями свободы, SE βˆ – стандартная ошибка оценки параметра βˆ ,
1 1
рассчитанная по имеющимся данным.
Доверительные интервалы для параметров рассчитываются как:
 
 
ˆ    
ˆ ˆ ˆ 
β 1  tγ ;N 2  SE β 1 ; SE β 1  MSE  N

1 .
2 
  x i  x  
 i 1 
Также рассчитывается доверительный интервал для βˆ 0 :

 
 
   
2
ˆ ˆ ˆ  1 x ;
β 0  t γ ;N 2  SE β 0 ; SE β 0  MSE  
N N 
  x i  x 2 
 i 1 
где t γ ;N 2  – значение γ -квантиля распределения Стьюдента с N 2
степенями свободы, γ 1α для двустороннего интервала, т.е. для
2
α  0,05 γ  0,975, для одностороннего интервала γ 1  α ;
Если доверительный интервал не содержит нуля, то истинное значение β1
отлично от нуля с доверительной вероятностью 1  α  .
Если βˆ1 значимо больше нуля, то связь между y и x будет положительной,
если βˆ1 значимо меньше нуля – то отрицательной. В общем случае, уровень
значимости р критерия Вальда, и доверительные интервалы важны для понимания
статистических результатов модели, более глубоких, чем ответ на вопрос – значима
ли связь между пердиктором и зависимой переменной или нет.
Доверительный интервал (confidence limits) для точки линии регрессии равен:

134
 
 2 
1
yˆ i  tγ ;N 2 MSE    N i
x  x   .
N 
  x i  x 2 
 i 1 
На основе формулы для доверительного интервала строится очень
распространенный график взаимосвязи двух переменных с линией регрессии и
доверительным интервалом (см. рис.16–1).
Если мы хотим осуществить предсказание y new для нового значения x new , то:
ynew  βˆ0  βˆ1 x new ;
Доверительный интервал для y new (prediction limits):

 
 2 
1 x  x  
βˆ 0 
 βˆ1 x new  tγ ;N 2 MSE   1   N new
 N 2 
.
  x i  x  
 i 1 

Все вычисления доверительных интервалов проводятся в предположении,


что ошибка распределена нормально. Если это не так, то интервал может быть
рассчитан неверно.
Можно построить на одном графике точечный график пар точек x i , yi  ,
линию регрессии yˆ  βˆ  βˆ x , доверительные интервалы для линии регрессии и
0 1

доверительные интервалы для предсказанных значений (пример представлен на


рис. 16–1). Эта информация наглядно представляет результаты подгонки модели
линейной регрессии.

Рис. 16–1. Линия регрессии и доверительные интервалы для среднего и для предсказанных
значений

Таким образом, коэффициент β 1 является мерой эффекта: изменение


величины x на 1 вызывает изменение y в среднем на β 1 .

135
Коэффициент корреляции Пирсона между y и x (см. раздел 9) связан с β 1 как
r  βˆ 1 s x s y , где s x и s y – стандартные отклонения переменной x и y . Таким
образом тестирование гипотезы H 0 : β 1  0 эквивалентно H 0 : ρ  0 , т.е. быстрая
проверка (см. раздел 9) может осуществляться без построения простой линейной
регрессии.
Квадрат коэффициента корреляции для простой линейной регрессии будет
MSS
равен коэффициенту детерминации r 2  R 2  . R 2 интерпретируется как доля
TSS
вариации, которая может быть объяснена предиктором.
R 2 не является мерой качества подгонки модели.
R 2 не является мерой величины уклона.

16.1.1. Корреляция vs регрессия

Корреляция определяет степень, в которой две переменные ассоциированы


друг с другом. Корреляция не находит наиболее подходящую линию для выявления
этой ассоциации. Мы просто вычисляем коэффициент корреляции ( r ), который
свидетельствует о том, насколько одна переменная имеет тенденцию меняться при
изменении другой.
Вычисляя корреляцию, исследователь может не сопоставлять переменным
причину и следствие. Эта количественная оценка того, насколько хорошо две
переменные связаны друг с другом. При регрессионном анализе предполагается, что
есть причина и следствие, и линия регрессии – это способ, как наилучшим образом
предсказать y от x в среднем.
В корреляционном анализе не имеет значения, какая из двух переменных,
называется x , а какая y . Коэффициент корреляции не изменится, если их поменять
местами. В линейной регрессии это не так. .Линия, которая лучше предсказывает y
на основании x не то же самое, что и линия, которая предсказывает x от y .
Корреляционный анализ чаще используется при измерении обеих
переменных. Но его не стоит использовать, когда одной переменной манипулируют
экспериментально (например, доза препарата или комбинации препаратов). В
линейной регрессии, переменная x чаще неслучайна, а переменная y – изучается
как результат воздействия переменной x .

16.2. Линейная регрессия с бинарным предиктором


Уравнение такой модели не отличается от предыдущей:
E y | x  β0  β1x .
Предположим, переменная x имеет только два состояния (0; 1), т.е. бинарная.
Для случая, когда x  0 , уравнение примет вид E  y | x  0  β 0 , для случая,
когда x  1 , E  y | x  1  β 0  β 1 . Различие в средних при x  0 и x  1 составит
E  y | x  1  E  y | x  0  β 0  β 1  β 0  β 1 .
Поскольку у нас в левой части уравнения стоит среднее по переменной y , β1
интерпретируется не только как величина (эффект) изменения среднего у на
единицу изменения предиктора x . Более правильно ее трактовать как разность в
средних для двух групп.

136
Нулевая гипотеза, которая гласит, что H 0 : β 1  0 , равнозначна гипотезе об
отсутствии различий в средних для двух групп (см. раздел 12).

16.3. Линейная регрессия с мультиноминальным предиктором


Предположим, у нас есть предиктор, который представляет собой
мультиноминальную переменную ν (упорядоченную или неупорядоченную). Ее
значения – это 5 категорий (ν 1, v2, v3, v4, v5 ). Наиболее часто используется
следующий подход: вместо одной категориального предиктора создается несколько
переменных модели (на единицу меньше, чем количество категорий в исходном
предикторе ν ). Такие переменные называются индикаторными (в англоязычной
литературе встречается название dummy variable или indicator).
Эти переменные кодируются как индикаторы состояния (Табл. 16–1):
Таблица 16–1. Кодирование индикаторных переменных

I2 I3 I4 I5
ν1 0 0 0 0
ν2 1 0 0 0
v3 0 1 0 0
v4 0 0 1 0
v5 0 0 0 1

Тогда модель запишется как


E  y | x   β 0  β 2  I 2  β 3  I3  β 4  I 4  β 5  I5
.
Если обратить внимание на кодировку этих переменных, то категория ν1
выбрана в качестве референтной группы, относительно которой будут оцениваться
все остальные, а уравнение примет вид:
 β 0 , v  v1

 β 0  β 2 , v  v2

E  y | x    β 0  β 3 , v  v3
β  β , v  v 4
 0 4

 β 0  β 5 , v  v5
Интерпретация коэффициентов β i – это разность в средних переменной y
между референтной категорией (группой) и i -ой категорией. Таким образом,
рассчитываются эффекты остальных групп относительно референтной.
Основные особенности такой модели:
1. Данная модель в отсутствии других предикторов полностью повторяет
однофакторную ANOVA.
2. Выбор референтной группы зависит от исследователя, многие
статистические пакеты выбирают референтную группу автоматически по
наименьшему/наибольшему номеру группы.
3. Разность средних между двумя любыми группами также определяется из
данной модели. Например – разность между средними группы v 4 и v5 определяется
как β 4  β 5 .

137
И для биноминальной переменной-предиктора, и для мультиноминального
предиктора (состоящего из нескольких переменных модели) может использоваться
критерий Вальда для проверки значимости коэффициентов.
Исследуя модель с одним мультиноминальным предиктором, мы получили
модель с несколькими переменными. Нужно заметить, что количество оцениваемых
параметров больше, чем предикторов. Т.е. для изучения количественного
предиктора использовалась модель с двумя параметрами, для изучения бинарного
предиктора – тоже. Мультиноминальный предиктор порождает модель с бóльшим
числом параметров.

16.4. Линейная регрессионная модель с несколькими


предикторами
Необходимость создания модели с несколькими предикторами может быть
продиктована такими ситуациями как:
изучение нескольких предикторов, влияющих на изучаемый результат;
изучение предиктора и возможного влияния вмешивающихся переменных.
Для модели с несколькими предикторами (несколькими независимыми
переменными) можно записать:
E  y | x   β 0  β 1 x1  β 2 x2    β p x p ,
где x – это набор (вектор) переменных x 1 , x 2 ,  , x p .
β 0  β 1 x 1  β 2 x 2    β p x p – называется линейной комбинацией переменных.
Модель представляет собой зависимость среднего значения y от линейной
комбинации переменных.
Каждый коэффициент модели β 1 , β 2 , , β p интерпретируется как изменение
среднего E  y | x  при изменении предиктора на единицу при том условии, что все
остальные переменные постоянны (фиксированы). β 0 интерпретируется как
среднее значение E  y | x  , когда все переменные равны нулю.
Случайный компонент модели:
y i  E  y i | x i   ε i  β 0  β 1 x 1i  β 2 x 2i    β p x pi  ε i
По-прежнему предполагается, что εi ~ N 0, σ ε2  , т.е., что ошибка независима,
одинаково распределена и
1. Имеет нормальное распределение;
2. Имеет среднее значение 0 для любого значения x ;
3. Имеет постоянную дисперсию σ ε2 для любого значения x ;
4. Значения ошибки статистически независимы.
MSS
Коэффициент детерминации R 2  интерпретируется как доля вариации,
TSS
которая может быть объяснена предикторами. Естественно, он не совпадает с
частными коэффициентами корреляции между зависимой переменной y и каждой
переменной x в отдельности. В 16.1 показано, что в случае простой линейной
регрессии параметр уклона β 1 связан с коэффициентом корреляции Пирсона.
Коэффициент корреляции, который не зависит от шкалы измерения переменных,
может помочь в сравнении силы связи различных переменных. В
мультипредикторной модели такую роль играют стандартизированные

138
коэффициенты регрессии βˆ js  βˆ j s x j s y , где s x j и s y – выборочные стандартные
отклонения переменной x j и переменной y . Стандартизированные коэффициенты
регрессии интерпретируются как сила связи переменной (предиктора) с зависимой
переменной y в рамках построенной модели. Сравнение силы связи имеет смысл,
когда в модели несколько количественных предикторов.
Однако, для категориальных предикторов лучшей интерпретацией являются
нестандартизированные коэффициенты, которые оценивают разность в средних
переменной y между двумя или несколькими группами, при условии что остальные
переменные модели фиксированы, т.е. разность в средних между группами.
В общем случае, предикторы могут быть представлены либо количественной
переменной, либо биноминальной, мультиноминальная переменная сводится к
набору индикаторных биноминальных переменных.
F -критерий Фишера используется для проверки как общей гипотезы о
значимости модели, H0 : β 1  β 2    0 , так и для проверки частных предположений,
например: H0 : β 2  0 .
Тест Вальда (Wald) может также использоваться для поверки значимости как
каждого параметра модели, так и комбинации переменных в модели. SE βˆ i  
рассчитываются сложнее, чем в случае с одной переменной, но расчет
доверительных интервалов для коэффициентов регрессии производится
аналогично модели с одной переменной, с учетом степеней свободы t-
распределения.

16.5. Понятие конфаундера, ковариационный анализ


Ковариата – это переменная,относящаяся к пациенту (например: пол, возраст,
раса и др.), которая может быть как связана, так и не связана с изучаемым исходом.
Если ковариата связана с воздействием/фактором риска и исходом
одновременно, это ковариата является конфаундером.
Конфаундер – это ковариата, которая связана как с воздействием/фактором
риска, так и с исходом. Конфаундер может изменять (повышать или понижать)
вероятность исхода (рис.16-2).

Рис.16–2. Различия в средних двух групп с учетом ковариаты.

139
Вмешивающийся фактор (конфаундер, конфаундинг-фактор, неучтенный
фактор) — переменная, искажающая оценку влияния на зависимую
переменную(эффект, исход) изучаемого фактора из-за того, что эта переменная
одновременно имеет причинную связь с рассматриваемым заболеванием
(состоянием) и статистическую связь с изучаемым фактором. Конфаундер обычно
находится вне интересов исследования, однако его влияние приводит к
возникновению систематической ошибки.
Например, известно, что мужчины чаще, чем женщины, болеют ишемической
болезнью сердца. Однако это может быть связано не с исследуемым фактором (пол),
а с тем, что мужчины чаще курят, больше подвергаются стрессам и пр.
Есть несколько способов удалить влияние конфаундера, т.е. систематическую
ошибку еще на стадии дизайна. Первый – это сравнивать между собой наблюдения,
которые имеют одно и то же значение конфаундера, что ведет к
стратифицированному дизайну исследования, который в свою очередь требует
больших объемов наблюдений. Второй способ – сравнивать только те группы,
которые имеют одинаковые распределения конфаундера. На стадии дизайна это
называется подбор (например, “matched pairs”). Рандомизация – это еще один способ
минимизировать систематическую ошибку в исследованиях.
Включение в регрессионную модель конфаундера позволяет уточнить
влияние исследуемого фактора на исход.
В традиционных статистических приложениях такой анализ называется
ковариационным анализом (analysis of covariance), в клинико-эпидемиологических
исследованиях этот анализ часто называется контролем влияния вмешивающихся
переменных (control of confounding).
Предположим, у нас есть две группы и мы сравниваем средний вес в группах.
Однако, если в группах разный возраст, то наше сравнение будет бессмысленно,
поскольку различия в весе возможна из-за возраста. Необходимо устранить
рассогласование в возрасте прежде, чем сравнивать группы.
В ковариационном анализе присутствуют номинальные переменные и
количественные переменные. Для выполнения ковариационного анализа
выдвигаются два предположения: связь между конфаундером x и переменной y
линейна и уклоны в каждой группе одинаковы. Графически это представлено на рис.
16–3.
Рассмотрим самый простой вариант этого анализа.
Пусть биноминальная переменная обозначена z , она принимает два значения
0 и 1, ковариата (количественная переменная) обозначена как x , зависимая
переменная – как y . Статистическая задача: оценить различия между двумя
группами с учетом различий в распределениях ковариаты в группах. Без учета
конфаундера оценка разности в средних равна yˆ 1  yˆ 0 (рис. 16–3) и совпадает с
разностью в средних по группам y1  y0 .
Пусть среднее по ковариате в группе, которая закодирована как 0 равно x 0 ,
среднее по ковариате в группе с кодом 1 равно x 1 .

140
y

ŷ1
ŷ1

ŷ0

ŷ0

x0 x x1
x
Рис.16–3. Различия в средних двух групп с учетом ковариаты.

Модель с учетом конфаундера запишется как


E y | x  β 0  β1z  β 2x
. Предполагая, что переменная z бинарная, можно
переписать уравнение следующим образом:
 β 0  β 2 x , z  0;
E y| x 
β 0  β 1  β 2 x , z  1.
Тогда разность в средних в двух группах составит
E  y | z  1  E  y | z  0  β 0  β 1  β 2 x 1  β 0  β 2 x 0  β 1  β 2 x1  x 0  . Это означает, что
при сравнении двух групп в разности присутствует не только истинная разность
между группами β 1 , но и дополнительный компонент β 2 x 1  x 0  , связанный с
различием в средних конфаундера. Дополнительный компонент равен нулю в двух
случаях: если параметр β 2 значимо не отличается от нуля, или x 1  x 0  значимо не
отличается от нуля. Иначе необходимо рассчитать скорректированную (adjusting)
разницу в эффектах. Оценка различий производится при значении ковариаты,
которая равна взвешенному среднему x . Как видно на рис. 16.3 разность в средних
при скорректированном значении ковариаты равна yˆ 1  yˆ 0 .
Все эти рассуждения верны только в случае выполнения предположений
ковариационного анализа об одинаковых уклонах и линейной связи ковариаты с
зависимой переменной.

16.6. Взаимодействие предикторов в линейной модели


Если предположения ковариационного анализа не выполняются, то это может
означать, что эффект предиктора в модели меняется в зависимости от уровня
(значений) другого предиктора или конфаундера. Конфаундер в этом случае
называют модификатором эффекта (effect modifier).
В медико-биологических исследованиях часто встречаются такие
взаимодействия как:
Лечение  степень тяжести заболевания;
Возраст  факторы риска;
Возраст  тип заболевания;
Пол  факторы риска;
Пол  тип заболевания;

141
Раса  заболевание;
Измерения  состояние пациента в момент измерения;
Географическое положение  заболевание и др.
С точки зрения математических основ статистических моделей – какая из
переменных является предиктором, а какая конфаундером, не имеет значения. В
модель включаются компоненты более высокого порядка, которые описывают
взаимодействие между переменными. Интерпретация зависит от проводимого
исследования.
Модель строится следующим образом:
Предположим, у нас два предиктора: x1 и x 2 . В этом случае модель
записывается как:
E  y | x   β 0  β 1 x 1  β 2 x 2  β 3 x1 x 2 , E  y | x  – среднее значение y при
определенных значениях x , x – вектор наблюдений, т.е. x1 , x2  . Такая модель носит
также название модели со взаимодействием второго порядка.
Рассмотрим модель с количественной переменной-предиктором и бинарной
переменной-предиктором.
Поскольку очень часто вмешивающимися переменными выступают возраст и
пол, рассмотрим эту модель взаимодействия на примере этих переменных: возраст и
пол.
Пусть x1  age , x2  sex , sex  0 – мужcкой пол (male), sex  1 – женский пол
(female).
Тогда интерпретация коэффициентов следующая:
E  y | age  0 & sex  male   β 0 ;
E  y | age  x  1 & sex  male   E  y | age  x & sex  male   β 1 ;
E  y | age  0 & sex  female   β 2 ;
E  y | age  x  1 & sex  female   E  y | age  x & sex  female  
 E  y | age  x  1 & sex  male   E  y | age  x & sex  male   β 3 .
Иными словами, среднее значение y при age  0 и sex  male есть β 0 ;
изменение в среднем значении y при увеличении age на 1 и sex  male есть β 1 ;
среднее значение y при age  0 и sex  female есть β 2 ; при увеличении age на 1
значение y изменилось для мужчин и для женщин, разность между изменениями y
есть β 3 ,т.е., β 3 – это разность в уклонах двух регрессионных уравнений: для
x 2  male и x2  female . На рис. 16–4 приведена геометрическая интерпретация
коэффициентов. Предположение о рандомизации геометрически обозначает, что
ковариата ( age ) имеет одинаковое распределение для уровней x 2  male и
x2  female .

142
y

x2  male β1

β2
β0
β 1  β 3 
x2  female

1 x1  age
Рис.16–4. Геометрическая интерпертация модели со взаимодействием переменных
Если существует модель со взаимодействиям второго порядка, нужно
интерпретировать эффекты первого порядка в условиях, которые сводят эффект
взаимодействия к нулю. В нашем случае эффект взаимодействия ( β 3 x1 x 2 ) равен
нулю либо при age  0 , либо при sex  male .
Какие гипотезы о параметрах имеет смысл тестировать?
H 0 : β 1  0 – означает, что ассоциируется ли возраст с переменной y для
мужчин.
H 0 : β 2  0 – ассоциируется ли пол с переменной y для возраста 0 лет.
Такие гипотезы не являются подходящими для исследования.
Представим отношения и взаимодействия в табл.16–2:
Таблица 16–2. Гипотезы при подгонке модели со взаимодействием переменных
Варианты гипотез Математическое
утверждение
Эффект пола независим от эффекта возраста H0 : β 3  0
Эффект возраста независим от эффекта пола
Пол и возраст аддитивны (нет эффекта
наложения)
Эффекты возраста для мужчин и женщин
параллельны
Возраст и пол взаимодействует друг с другом HA : β3  0
(совместный эффект)
Возраст модифицирует эффект пола
Пол модифицирует эффект возраста
Возраст не ассоциируется с y H0 : β 1  β 3  0
Возраст ассоциируется с y H A : β 1  0 или β 3  0
Возраст ассоциируется с y или для мужчин или
для женщин
Пол не ассоциируется с y H0 : β 2  β 3  0
Пол ассоциируется с y H A : β 2  0 или β 3  0
Пол ассоциируется с y для некоторых значений

143
возраста
Ни возраст ни пол не ассоциируются с y H0 : β 1  β 2  β 3  0
Или возраст или пол ассоциируются с y H A : β 1  0 или β 2  0
или β 3  0
Последний тест в таблице – тест отсутствия глобальной ассоциации
(отсутствия взаимодействия).
Геометрически отсутствие взаимодействия выглядит как показано на рис. 16–
5. Уклоны линий регрессии одинаковы, разность между ними β 3  0 . В этом случае
мы можем говорить об эффекте пола независимо от возраста, поскольку
регрессионные линии параллельны, находятся на одинаковом расстоянии друг от
друга во всей области изменения переменной x . Эффект возраста присутствует, но
не зависит от пола. Проще говоря, обе линии регрессии параллельно возрастают
(убывают) под одним углом. Модель приводится к модели ковариационного
анализа.

x2  male β1

β 1  β 3   β 1  0
β0

β2 x2  female

1 x1  age
Рис. 16–5. Геометрическая интерпретация модели с отсутствием взаимодействия
Теперь рассмотрим случай, когда оба предиктора бинарные. Предположим
некоторое гипотетическое исследование: экспериментальное лечение, которое
контролирует уровень гемоглобина в крови. Предполагается, что есть некоторая
зависимость между уровнем гемоглобина и давлением; лечение действует как на
гемоглобин, так и на давление.
В качестве бинарного предиктора может быть использована и
количественная переменная, если ее по некоторому принципу представили как
бинарную, например, давление (Presure) норма (0) и выше нормы (1). Второй
предиктор бинарный (Treatment): пациент получал плацебо (0), пациент получал
лечение (1).
E  y | x   β 0  β 1  Presure  β 2  Treatment  β 3  Presure  Treatment .
Составим таблицу комбинаций бинарных предикторов и соответствующего
вида уравнения регрессии (Табл. 16–3).
Таблица 16–3. Уравнение регрессии при двух бинарных переменных

Группы Presure Treatment PxT E  y | x


1 0 0 0 β0
2 1 0 0 β0  β1

144
3 0 1 0 β0  β2
4 1 1 1 β0  β1  β2  β3

В табл.16–3: β 1 – эффект, связанный с нарушением давления в группе


плацебо; β 2 – эффект, связанный с лечением в группе с нормальным давлением;
разность в лечении в группе с высоким давлением будет определяться как
β 0  β 1  β 2  β 3   β 0  β 1   β 2  β 3 ; β 3 – даст разницу в эффектах лечения в двух
группах.
Гипотеза H 0 : β 3  0 – гипотеза об эквивалентных эффектах лечения в группе с
высоким и нормальным давлением.
Вариант линейной регрессии с двумя бинарными предикторами полностью
аналогичен двухфакторной ANOVA. Это регрессионный подход к многофакторной
ANOVA.
Все предположения, касающиеся остатков (ошибки модели) остаются в силе и
для моделей с взаимодействием нескольких переменных.

16.7. F-критерий в линейной регрессии


В линейной регрессии оценка значимости коэффициента уклона исследуется
с помощью анализа таблицы вариаций (дисперсионного анализа). Эта таблица
разделяет общую сумму квадратов отклонений наблюдений от их средних на две
части: сумма квадратов отклонений наблюдений от линии регрессии RSS
(остаточная сумма квадратов) и сумма квадратов отклонений прогнозируемых
значений на основе регрессионной модели от среднего (или регрессионная сумма
квадратов, сумма квадратов модели). Это просто удобный способ отображения
сравнения наблюдаемых и прогнозных значений по двум моделям. В линейной
регрессии сравнения наблюдаемых и предсказанных значений базируется на основе
квадрата расстояния между ними.
Если yi –это i -е наблюдение, ŷi – и обозначает предсказанное значение i -го
наблюдения , то это сравнение может осуществляться на базе статистики
N
RSS    yi  yˆ i  .
2

i 1

Если модель не содержит независимых переменных, а только параметр β 0 , то


βˆ0  y , т.е. среднее значение y . RSS в этом случае была равна общей вариации,

 
N N N
RSS    yi  yˆ i    yi  βˆ 0    yi  y   TSS .
2 2 2

i 1 i 1 i 1

Изменения в общей вариации могут снижаться при использовании


модельного уравнения, содержащего независимые переменные. Большое снижение
означает значимое влияние независимой переменной. Таким образом, когда мы
включаем предиктор в модель, любое значимое снижение RSS будет связано с тем,
что уклон (параметр регрессии) для этого предиктора не равен нулю.
N N
MSS  TSS  RSS    yi  y     yi  yˆ i 
2 2
– разность в сумме квадратов
i 1 i 1
вариации модели без предикторов и сумме квадратов вариации модели с
предикторами. Больше значение MSS будут свидетельствовать о том, что предиктор
(предикторы), включенные в модель значимо снижают вариацию и действительно
могут предсказать значения y .
145
Оценить значимость можно с помощью статистики Фишера.
N  q MSS
Статистика F   , где q – количество оцениваемых параметров
q  1 RSS
модели, N – количество наблюдений подчиняется распределению Фишера с
q  1; N  q степенями свободы. Статистика F проверяет общую гипотезу о том, что
между предикторами и зависимой переменной нет связи. Альтернативная гипотеза
гласит, что хотя бы для одной переменной связь существует. F-критерий покажет,
значимо ли снижается вариация в результате использования модели, т.е.
моделирования зависимости переменной y от предикторов. Однако, насколько
модель подходит вашим данным – на это F-критерий не ответит. Вполне возможно,
что использование другой модели, отличной от линейной, даст тоже значимое
снижение вариации. F-критерий в этом случае сравнивает модель с переменными и
модель, где β 1  β 2    β p  0 , т.е. модель без предикторов.
Также F-критерий может использоваться для тестирования включения
дополнительной переменной/нескольких переменных в модель или исключения
переменной/нескольких переменных из модели, т.е. насколько значимо изменится
вариация при таком включении/исключении. Могут сравниваться только модели,
построенные на одном наборе данных. Сравнение моделей с помощью F-критерия
(или других критериев: критерия отношения правдоподобия, критерия Вальда и
пр.) покажет, какая из них лучше объясняет поведение y . Но сравнение не покажет,
выполняются ли условия, лежащие в основе модели (см. 16.8), адекватны ли модели
данным и пр.
Роль F-критерия очень высока при построении модели последовательно, т.е.
при экспериментах по включению одних предикторов, исключению других. Каждый
раз мы можем оценить значимость изменений в двух последовательных моделях,
используя этот критерий.
F-критерий также используется для тестирования линейных гипотез, когда
мы можем проверить равенство или комбинацию нескольких параметров регрессии,
но обсуждение этой темы выходит за рамки пособия.

16.8. Анализ остатков


Для того, чтобы проверить предположения модели об ошибке, используются
методы анализа остатков (resudual analysis). Этот анализ является обязательным.
Без него нельзя определить, действительно ли модель подобрана в соответствии с
имеющимися данными.

16.8.1. Предположение линейности модели

Напомним, что линейность для регрессионных моделей интересна с точки


зрения ее свойства: приращение зависимой переменной пропорционально
приращению независимой переменной. Соответственно, речь идет о
количественных переменных. Для категорий понятие приращения не имеет смысла,
только оценка различий между группами.
Нарушение предположения линейности крайне серьезны – если вы
используете линейную модель данных, которые на самом деле нелинейно связаны
между собой, ваши прогнозы на основании такой модели, вероятно, будут
ошибочны, особенно, если прогноз экстраполируется за пределы данных выборки.

146
Нелинейность, как правило, наиболее заметна, если построить точечный
график наблюдаемых значений в зависимости от предсказанных значений (observed
versus predicted values), а также график остатков в зависимости от предсказанных
значений (residuals versus predicted values). На первом графике точки должны быть
симметрично распределены вокруг диагональной линии, на втором – симметрично
горизонтальной линии. На рис 16–6 изображены графики, которые свидетельствуют
об отсутствии нарушения предположения о линейности.

Рис 16–6. Tочечные графики для проверки линейности модели

Безусловно, эти графики не единственные для диагностики линейности. Но


они легко доступны практически в каждом статистическом пакете. Для отображения
более специфических графиков иногда приходится производить определенные
расчеты, иногда они генерируются статистическим пакетом по вашему запросу.
Поэтому внимательно читайте разделы помощи по диагностике линейности модели
в вашем статистическом пакете.
Если нелинейность существует, то можно рассмотреть вопрос о
применении нелинейного преобразования для зависимых и/или независимых
переменных.

16.8.2. Предположение независимости остатков

Нарушения независимости также очень серьезно, особенно если модель


включает такую переменную как время. Анализ временных рядов – это специальные
модели регрессионного анализа. В этом пособии анализ временных рядов не
рассматривается, но тем не менее можно упомянуть, что определить
автокорреляцию остатков можно с помощью критерия Дарбина-Уотсона (Durbin-
Watson test).
Корректировка такой модели зависит от того, положительна автокорреляция
или отрицательна. Возможно, в вашей модели присутствует эффект отставания или
опережения предикторов от переменной y во времени.

16.8.3. Предположение о гомоскедастичности

Нарушения предположения о гомоскедастичности усложняет оценку


истинного стандартного отклонения ошибки прогноза, в результате доверительные
интервалы прогнозного значения становятся либо слишком широкими, либо
слишком узкими. Гетероскедастичность также может изменять оценку
коэффициентов модели.
147
Определить это нарушение можно, построив график остатков в зависимости
от предсказанных значений. Если модель включает переменную, связанную со
временем, то также можно использовать график остатков в зависимости от времени.
Если с увеличением предсказанных значений (времени) остатки становятся более
рассеянными вокруг горизонтальной линии, то предположение о
гомоскедастичности остатков нарушается (см.рис. 16–7).

Рис 16–7. Пример нарушения гомоскедастичности в линейной регрессии

Гетероскедастичность также может быть побочным продуктом


существенного нарушения предположений линейности и/или независимости,
поэтому сначала надо удостоверится, что эти предположения не нарушены.

16.8.4. Предположение о нормальности распределения ошибки

Нарушение предположения о нормальности ведет к скошенным оценкам


параметров модели и влияет на расчет доверительных интервалов. Иногда
распределение остатков "скошено" из-за наличия нескольких крупных выбросов в
данных. Так как оценка параметров основывается на минимизации квадратов
ошибки, выбросы (крайние значения) могут оказать непропорциональное влияние
на оценки параметров. Расчет доверительных интервалов и различные тесты
значимости для коэффициентов основаны на предположении нормально
распределенной ошибки. Если ошибка существенно отклоняется от нормального
распределения, доверительный интервал может быть слишком широким или
слишком узким.
Наиболее подходящая проверка – это нормальный вероятностный график
остатков (Q-Q график). В идеале – это прямая диагональная линия.
Дугообразная картина отклонений от диагонали указывает, что остатки имеют
чрезмерный перекос (то есть, они не симметричны, с большим количеством
больших ошибок в одном направлении). S-образная кривая остатков показывает,
что остатки имеют чрезмерный эксцесс, т.е. есть или слишком мало или слишком
много больших остатков в обоих направлениях (см. раздел 6).
Нарушения нормальности часто возникают либо потому, что (а)
распределения y и/или предикторов значительно отклоняются от нормального,
и/или (б) нарушается предположение о линейности. В таких случаях, нелинейные

148
преобразования переменных могут помочь в решении этих проблем. Часто проблема
с остатками связана с одним или двумя очень большими выбросами в данных. Такие
значения нужно внимательно проанализировать: являются ли они подлинными (т.е.
не являются результатом ошибок при вводе данных), объяснимы ли они с медико-
биологической точки зрения, могут ли такие наблюдения произойти в будущем, и
как они влияют на подгонку модели?
Решение принимается после анализа моделей с выбросами и с исключением
выбросов. Возможно, что крайние значения обеспечивают более реалистичную
величину ошибки прогноза, и исключать выбросы из данных будет неправильно.

16.8.5. Диагностика выбросов и аномальных наблюдений в регрессии

Выбросы (outliers) в данных – это значения в данных, которые не согласуются


с остальными данными. В регрессионной модели как минимум две переменные:
предиктор x и зависимая переменная y . Выбросы могут быть как по x , так и по y .
Для регрессии понятие выброса связано с большим остатком, т.е. величиной
ˆ
yi  yi Однако, большое абсолютное значение остатка еще не говорит о том, что
.
точка данных x i , yi  влияет на коэффициент регрессии (на связь между x и y ).

Рис. 16–8. Изменения линии регрессии при различном расположении влияющих точек
На рис. 16–8 слева показано, что одно и то же значение y при различных
значениях x может влиять и не влиять на оценку коэффициента корреляции
(оценку коэффициента βˆ1 ). Точки данных, которые оказывают чрезмерное влияние
на оценки коэффициентов регрессии называют влияющими точками (influential
points). В первом случае точка, влияющая на изменение оценки коэффициента βˆ1

149
имеет крайние значения как по y , так и по x . Во втором случае точка является
влияющей, но не является выбросом ни по y , так и по x . В третьем случае точка
является выбросом как по регрессионному остатку, так и по переменной y , однако
она не оказывает влияния на βˆ1 . В четвертом – выброс по предиктору x вызвал
изменение в оценке коэффициента βˆ1 , при этом регрессионный остаток у данной
точки не самый большой. Выбросы значений предиктора x , которые потенциально
могут влиять на оценки коэффициентов регрессии называют точками сильного
воздействия (high leverage points).
Выбросы в данных, включенные в модель с относительно большими
значениями остатков могут очень сильно влиять на модель, а именно увеличивать
вариации оценок коэффициентов, что может снижать статистическую значимость
эффектов.
Причины появления выбросов различны:
1. Человеческие ошибки или ошибки приборов измерения. В этом случае надо
попытаться получить правильное значение, если это невозможно, то придется
отказаться от этой точки данных.
2. Неадекватность модели. В этом случае именно наличие выбросов будет
свидетельством неправильных предположений о связи предикторов и зависимой
переменной. Отказ от точки данных, которую посчитали выбросом, может быть
катастрофичным.
3. Если исследуемая выборка значений попала в хвост распределения, которое
считается распределением с тяжелыми хвостами. Это может означать неправильный
или неграмотный дизайн выборки. Также может означать наличие двух или более
различных групп с различной вариацией (дисперсией), которые не учитываются в
дизайне.
Различные статистические пакеты считают диагностики для изучения
остатков, выбросов, влияющих наблюдений. Внимательно читайте руководство
пользователя, чтобы понять, что именно считает тот или иной пакет. Поскольку
большинство пакетов англоязычные, ниже даны распространенные наименования
диагностик на английском языке.
Для выявления влияющих наблюдений используется следующая
диагностика: влияющие значения (Leverage Values/Hat Diag). Для i -го наблюдения
обозначается как hi , рассчитывается на основе значений предикторов набора
наблюдений.
Математическое описание этой диагностики достаточно сложно. Если в
пространстве предикторов (переменная y не участвует) найти центр, то влияние
(leverage) – это расстояние от центра до точки данных, представленной значениями
предикторов. Чем больше расстояние, тем более влияющим может быть
наблюдение. Второе название Hat Diag связано с матричным представлением
предикторов по всем наблюдениям, после определенных преобразований
диагональные элементы полученной матрицы и являются стандартизированными
расстояниями до центра пространства предикторов. Эта диагностика определяет
выбросы в независимых переменных (предикторах) регрессии.
Выбросами считаются наблюдения, для которых значение влияния (leverage)
больше, чем 2q N , где q – количество параметров модели (включая и β 0 ), N –
количество наблюдений.

150
Ремарка: Количество параметров и число предикторов модели не одинаково. Если
мультиноминальный предиктор представлен индикаторными переменными, то каждая
индикаторная переменная имеет свой параметр β , также параметром является β 0 .

Основные характеристики:
ei  yi  yˆ i – значение остатка i -го наблюдения.
N
e   ei  0 – среднее ошибки равно нулю.
i 1

1 N 2
MSE  RSS N  q  ei – вариация ошибки, среднеквадратичная ошибка
N  q i 1
(mean squared error). Часто используется термин RMSE  MSE (root mean squared
error).
ei
zi  – стандартизированный остаток (standard residual), или
MSE
полустьюдентизированный остаток ( semistudentized residuals.) Если опираться на
предположения регрессии, можно ожидать, что zi взято из нормального
распределения NID0,1 .
ei
ri  – стьюдентизированный остаток (studentized residuals), и
MSE  1  hi 
приближенно следует распределению Стьюдента с N  q степенями свободы.
Считается, что остатки распределены нормально. Свойства нормального
распределения (см. раздел 6) позволяют нормализовать (стандартизировать)
остатки и делать заключения об их величине. Напомним, что 95% значений
нормально распределенной величины попадают в интервал  2σ , 99,7% значений
попадают в интервал  3σ . Стьюдентизированный остаток подчиняется
распределению Стьюдента с N  q степенями свободы. Следовательно, значение
более 3 для стандартизированного остатка i -го наблюдения для можно
рассматривать как выброс в регрессии. Некоторые источники указывают, что нужно
обращать внимание и на значения больше 2, особенно для малых выборок.
Для более внимательного изучения поведения i -го наблюдения предложено
следующее: удалить это наблюдение из набора, повторить все расчеты и
посмотреть, как изменились все параметры модели. Этот подход называется анализ
удаленных остатков (deleted residual, jackknife residual).
После удаления i -го наблюдения, строят модель (определяют параметры
модели) без этого наблюдения, и рассчитывают предсказанное значение ŷ i  на
основе полученной модели, после чего рассчитывают остаток di  y i  yˆ i  .
Также рассчитывается стандартизированный удаленный остаток (standard
deleted residual); стьюдентизированный удаленный остаток (studentized deleted
residuals, R-Student residuals). Аналогично, значения более 2–3 рассматривают как
выбросы регрессии.
Кроме стандартизированных удаленных остатков рассчитывается такая
статистика как DFFITS – мера того, как наблюдение влияет на регрессионную
yˆ i  yˆ i 
модель. Статистика стандартизирована: DFFITS i  , где ŷi – предсказанное
MSE i hi

151
значение y для i -го наблюдения по исследуемой модели, ŷ i  – предсказанное
значение y по модели с удаленным i -м наблюдением.
q
Значения более 2  рассматриваются как сильно влияющие.
N
Следующая статистика DFBETAS k ,i – мера того как i -е наблюдение влияет на
определенный k -ый параметр регрессии, рассчитывается для всех параметров.
2
Статистика стандартизирована. Значения более рассматриваются как сильно
N
влияющие. Если таких точек много (более 10–15% от всех данных), то модель
необходимо менять, возможно стратифицировать или учитывать непостоянство
дисперсии (гетероскедастичность). Также такая ситуация может свидетельствовать
о том, что имеется еще какой-то предиктор или конфаундер, который не учтен в
вашей модели.
Расстояние Кука (Cook’s Distance) – мера общего влияния наблюдения как на
коэффициенты регрессии, так и на значения регрессии. Значения расстояния Кука
4
более чем рассматриваются как сильно влияющие на модель регрессии.
N
COVRATIO – мера влияния каждого наблюдения на вариацию и стандартную
3q
ошибку коэффициентов регрессии и их ковариацию. Значения COVRATIO  1 
N
рассматриваются как сильно влияющие.
Фактор падения вариации, VIF (Variance Inflation Factor) – мера того, насколько
один предиктор коррелирует с другими предикторами модели. Является
диагностикой мультиколлинеарности предикторов и рассчитывается следующим
образом: строится линейная модель зависимости j -ого предиктора от всех других,
используемых в модели, и рассчитывается коэффициент детерминации полученной
1
модели R j . Фактор падения вариации j -ого предиктора равен VIF j  .
1  R 2j
Предполагается, что если бы этот предиктор не коррелировал с другими, значение
стандартной ошибки коэффициента этого предиктора была бы в VIF раз меньше.
Значения VIF более 10 для предиктора вызывает большое увеличение стандартной
ошибки из-за корреляции этого предиктора с другими.
В любом статистическом пакете эти характеристики рассчитываются
одинаково, однако предел, выше которого наблюдение является влияющим
(выбросом) может определяться по-разному.

16.9. Преобразование переменных


Графическая диагностика линейности, нормальности и гомоскедастичности
не дает статистически подтвержденного ответа и в этом смысле нет
рекомендованных тестов. Преобразование переменных часто усложняет
интерпретацию результатов. Естественным критерием полезности преобразования
может являться существенные различия в результатах анализа до и после
преобразования данных. Если различия несущественны, то лучше воздержаться от
таких преобразований. Нет никакого смысла в работе с преобразованными
данными, если это не добавляет ценности анализу.
Типичные преобразования:

152
Смещение
Значения количественной переменной x смещают на постоянную величину
x  C . Такое преобразование не изменяет в модели никаких параметров, кроме
параметра β 0 . Служит для лучшей интерпретации результатов. Например, в модели
используется предиктор – возраст смены зубов. Традиционно в модели
E  y | x   β 0  β 1 x , β 0 равно оценке среднего зависимой переменной при x  0 . Но в
возрасте 0 лет зубы не меняются. Более логичным будет использование переменной
x new  x  6 , тогда интерпретация параметра β 0 – оценка среднего зависимой
переменной в возрасте 6 лет.
Смещение не влияет ни на изменение остаточной ошибки, на общую
значимость модели, ни на что, кроме интерпретации параметра β 0 .
Логарифмическое преобразование
Логарифмическое ( log x или ln x ): это преобразование может быть
использовано, когда первоначальные данные взяты из логнормального
распределения, или когда распределение скошено вправо.
Логарифмическая основа (например, любой натуральный или десятичный
логарифм) должна быть одна и та же в процессе анализа. Если некоторые из
первоначальных значений являются нулем, то принято добавлять малое ненулевое
значение для того, что бы сделать значение данных ненулевым, поскольку
логарифма нуля не существует. Размер этой добавки зависит от величины
ненулевых данных и последствий потенциального неправильного вывода из
получившихся преобразованных данных. Как рабочая точка может быть выбрано
значение одной десятой от самого наименьшего ненулевого значения в данных. Не
имеет значения, используется ли натуральное (ln) или десятичное (log) основание
для преобразования, поскольку оба преобразования соотносятся как
ln x  2,303 log x , главное – использование одного и того же основания.
Интерпретация логарифмического преобразования
Сначала рассмотрим, что произойдет, если предиктор подвергся
преобразованию x transform  ln x . В этом случае коэффициент регрессии
преобразованного предиктора, умноженный на ln1,01 будет интерпретироваться
как изменения в средней величине переменной y на 1% возрастания значений
предиктора. Если коэффициент умножить на ln1,05 или на ln1,1 , то он покажет
изменения в y на каждые 5% или 10% возрастания значений предиктора.
Аналогично, если значения y были логарифмированы ytransform  ln y , то
 ˆ

величина 100 e β  1 интерпретируется процентное возрастание средней величины
y при изменении предиктора на единицу.
Наконец, если преобразованы и предиктор x и зависимая переменная y , то
 ˆ

величина 100 e β ln 1,01  1 – на сколько процентов изменится средняя величина y при
том, что предиктор изменился на 1 %.
Квадратный корень
Квадратный корень(х). Это преобразование может использоваться, когда
имеем дело с малыми целыми числами такими, как возникновение редких событий.
Предположение, лежащее в основе этого, гласит о том, исходные данные взяты из
распределения Пуассона, в котором среднее и вариация данных равны. Нужно

153
отметить, что, когда в исходных данных имеются очень малые значения и нули,
используется преобразование x  1 .
Преобразование Бокса-Кокса
Это сложное мощное преобразование, которое использует первоначальные
данные и возводит их в некоторую степень λ .
 x λ 1
 ,λ 0
x transform   λ .
lnx , λ  0

Логарифмическое преобразование является особым случаем преобразования
Бокса-Кокса. Существуют специальные модули в некоторых статистических пакетах
для определения λ , чтобы преобразованные данные имели наилучшую модель
структуры вариации, ошибка была распределена нормально и вариация была
постоянной, насколько это возможно по всем значениям. Для нахождения λ
используется метод максимального правдоподобия, чтобы остаточная ошибка от
соответствующей теоретической модели была минимизирована. Это
преобразование в зависимости от значения λ может аппроксимироваться другими
более простыми преобразованиями (табл.16–4). Поэтому на практике точное
значение λ округляется к удобному значению для облегчения в интерпретации
(например, λ  1,1 округляется к –1, так как имеется интерпретация обратно
пропорционального преобразования). Одним из недостатков преобразования Бокса-
Кокса является трудность в медико-биологической интерпретации
преобразованных данных. Однако есть и преимущество: после выполнения
преобразования статистические пакеты выдают значение λ . По этому значению
можно оценить, какое преобразование, кроме преобразования Бокса-Кокса, может
дать похожий результат.
Таблица 16–4. Соответствие значений параметра λ различным преобразованиям

λ Преобразование
x transform  f trasform x 
–2 1
x transform 
x2
–1 1
x transform 
x
–0,5 1
x transform 
x
0 x transform  ln x
0,5 x transform  x
1 Тождественно x transform  x
2 x transform  x 2
В любом случае, преобразования – это сложный момент исследования и лучше
получить консультации специалистов.
Квантификация количественной переменной
Очень часто количественная переменная является биологичческой
характеристикой организма пациента и клиницистам неинтересен вывод о том, что

154
изменение данной характеристики (предиктора) на единицу измерения вызывает
изменение на β единиц зависимой переменной, практикующим врачам интересна
конечная рекомендация, например, в возрасте после 60 лет зависимая переменная
критически снижается. В этом случае количественную переменную преобразуют в
порядковую или фактор, разбивая на некоторые интервалы.
Каким образом можно провести разбиение?
Самый простой способ использовать квантили, например, разбить на 2 уровня
– ниже и выше медианы, в этом случае получаем бинарную переменную (фактор)
вместо количественной переменной. Также можно разбить на три группы (0-33
перцентиль, 34-67 перцентиль, 68-100 перцентиль) и т.п.
Также если по интересующей количественной переменной существуют
некоторые биологические (медицинские) нормы, можно использовать их: норма/не
норма; ниже нормы/норма/выше нормы. Однако часто в исследованиях такая
переменная отличается от нормы для всех наблюдений.
Один из примеров квантификации количественной переменной приведен в
п.17.9.4.

16.10. Примеры построения линейной регрессии


В данном исследовании была проведена оценка параметров костного
метаболизма (остеокальцина и β-CTX) у излеченных пациентов (детей), которые
находились на лечении по поводу злокачественного образования, и здоровых
сверстников. Анализ также был проведен по объему лечения: контрольная группа и
группы получивших высокодозную и низкодозную химиотерапию
(химиотерапевтическое воздействие).
Цель – определить, как влияет химиотерапия и ее объем на параметры
костного метаболизма, а также оценить пределы нормы для здоровых детей
различного возраста и отклонения от нормы для детей, которые поверглись
химиотерапевтическому лечению. Известно, что период активного
костеобразования у детей продолжается приблизительно до 15 лет.
В контексте данного исследования мы могли говорить не о “воздействии”, а о
лечении, но мы изучаем отрицательные моменты, связанные с химиотерапией. Для
аналитика “воздействие” – это любое влияние на организм (положительное или
отрицательное), однако термин “лечение” ассоциируется с положительным
влиянием на организм. Поэтому употребление термина “воздействие” (expose) будет
более точным.
Исследуемых, которые подверглись воздействию некоторого фактора,
обычно называют исследуемой группой, исследуемых, не подвергавшихся
воздействию – контрольной группой.
Всего в исследовании 105 наблюдений (Таблица 16-5).
Таблица 16-5. Распределение наблюдений по полу и группам
Группы male female
1 - control 33 23
2 - LowDose 17 10
3 - HighDose 14 8
Всего 64 41

Исходные данные приведены в приложении R-10. Также приведены R


скрипты статистических расчетов в статистическом пакете R.

155
Модель для оценки уровня β-CTX
Рассмотрим анализ β-CTX .
Шаг 1.
Для того, что выбрать направление анализа данных, рассмотрим, как
распределен β-CTX у контрольной группы. Для этого выполним тест на соответствие
этих данных закону нормального распределения. Критерии Шапиро-Уилка, Шапиро-
Франсиа не подтвердили отклонений от нормального распределения β-CTX у
контрольной группы (р=0,15 и р= 0,24 соответственно).

Рис. 16-9. Зависимость BCTX от пола и возраста, в котором проведены измерения

Рис. 16-10. Зависимость BCTX от объема воздействия и возраста, в котором проведены


измерения
Поскольку возраст и пол, особенно у детей, являются конфаундерами,
рассмотрим поведение β-CTX, (зависимая переменная BCTX) от возраста (предиктор
age.at.measure) и пола (предиктор Sex, значения male/female); возраста и наличия
воздействия (предиктор Expose, значения control/expose); возраста и объема

156
воздействия (предиктор Group, значения control/LowDose/HighDose). Графики
представлены на рис. 16-9 и рис.16-10 соответственно.
Поведение BCTX меняется с возрастом, зависимость нелинейна, есть также
различия между девочками и мальчиками.
Поскольку зависимость от возраста нелинейна, разделим наблюдения на 4
возрастные подгруппы (Age.Group): до 10 лет, 10-14, 15-18, 18+.
Количество наблюдений (Таблица 16-6) по полу в возрастных подгруппах
однородно (Хи-квадрат критерий, p = 0,89). Однако в старшей возрастной подгруппе
средний возраст девочек значимо ниже.
Таблица 16-6. Половозрастные подгруппы исследования
Age.Group female male
Кол-во Средний Кол-во Средний
возраст возраст
до 10 12 7,5 16 7,3
10-14 10 12,5 16 12,8
15-18 10 16,3 14 16,4
18+ 9 20,1 18 22,4

Количество наблюдений по наличию воздействия в возрастных подгруппах


(Таблица 16-7) также однородно (Хи-квадрат критерий, p = 0,86).
Таблица 16-7. Группы с воздействием и без него по возрастным подгруппам
Age.Group control expose
до 10 16 12
10-14 14 12
15-18 11 13
18+ 15 12

Комментарии к Шагу 1.
2. Мы проверили ВСТХ на “нормальность” в первую очередь в контрольной
группе, а не во всей выборке по следующим соображениям: воздействие
(заболевание, лечение и пр.) может изменять закон распределения исследуемой
переменной. Если в норме некоторый показатель ведет себя “нормально”, то мы
можем принять это во внимание в дальнейшем анализе.
Тем не менее, рекомендуется проверить на “нормальность” и группу(ы) с
воздействием для того, чтобы выбрать направление анализа таких данных,
определить критерии, по которым могут сравниваться группы.
Тестировать на “нормальность” смешанные данные (заболевших и здоровых
наблюдаемых) можно, но результаты могут привести в недоумение неопытного
исследователя, поскольку изучаемый параметр в группе контроля и группа
пациентов, страдающих определенным заболеванием, может иметь различные
законы распределения. Смешение таких данных на гистограмме или графике
плотности вероятности может дать неинформативную или искаженную картину.
Мы проверили данные двумя тестами, поскольку существует множество
обсуждений о том, когда и при каких обстоятельствах использовать критерии
согласия. Обычно тест Шапиро-Уилка используется для групп размером до 50
наблюдений, хотя существуют его версии для бóльшего числа наблюдений.

157
Небольшие отклонения от закона нормального распределения могут и не
приниматься во внимание при построении моделей, но знать, как распределены
ваши данные – обязательно.
3. ВСТХ имеет нелинейную зависимость от возраста, поэтому мы разделили
исследуемых на подгруппы и проверили, достаточно ли сбалансированы группы.
Если бы был дисбаланс в количестве наблюдений, то нам бы пришлось каким-то
образом менять разделение на возрастные подгруппы. Проще всего при наличии
нелинейной зависимости попробовать разделить наблюдения в соответствии с
квартилями на 4 группы и группы будут содержать приблизительно одинаковое
количество наблюдений.
В нашем исследовании мы ориентировались на значения квартилей возраста
исследуемых: Q25=9,6; Q50=14,8; Q75=18,2. Это означает, что все наблюдения
поделены на 4 приблизительно равные части. Мы также проверили, что полученные
подгруппы приблизительно сбалансированы (однородны) по полу и получаемому
воздействию. В литературе возрастные подгруппы часто называют стратами.
Деление на подгруппы по квантилям возраста – не единственное решение при
нелинейной зависимости переменной от предиктора. Также могут использоваться
иные рассуждения, например – допубертатный период, пубертат, постпубертатный
период; возможно деление на пятилетние периоды и т.п. Также можно делить на
возрастные подгруппы на основании изучения графических зависимостей. Также
используют более сложные математические методы, например сплайны
(выделяются участки с равномерным возрастанием/убыванием функциональной
зависимости) и др.
4. Проверка на однородность подгрупп необходима, поскольку к примеру в
исследовании будут в одной подгруппе находится девочки только до 10 лет, а в
другой только мальчики только после 10 лет, возможно возникнет смещение
(уклон), которое мы не сможем рассчитать и скорректировать из-за
недостаточности или отсутствия данных. Смещение среднего возраста в подгруппе
+18 может стать причиной смещения оценок параметров модели. Но, исходя из
природы данных (известно из литературы, что маркеры костного метаболизма
после 25 и до 50 лет имеют постоянный уровень у человека независимо от пола), мы
пренебрегли возрастным различием в последней возрастной подгруппе.

Шаг 2.
Поскольку мы предполагаем, что уровень ВСТХ ассоциирован с некоторыми
группами (воздействия, возраста, пола), то можно воспользоваться
многофакторным дисперсионным анализом или линейной регрессионной моделью.
Выберем следующую стратегию подгонки модели: сначала построим модель
с основными эффектами предикторов (Group.Age, Sex, Group), убедимся, что они
существуют. Если есть возможность, снизим размерность модели (объединение
уровней предикторов без потери качества подгонки модели), потом построим
модель со взаимодействием всех предикторов. Следующий этап – сокращение
размерности модели путем исключения незначимых взаимодействий. Затем
проверим предположения, лежащие в основе модели.
Предварительная модель LM.0 включает в себя предикторы Age.Group (4
возрастных подгруппы) , Group (3 группы), Sex (2 группы).
Анализ квадратов отклонений (таблица ANOVA) предварительной модели
LM.0 – модели основных эффектов приведен в Таблице 16-8. Мы убедились, что
основные эффекты, связанные с возрастом, полом и группой исследования значимы.

158
Таблица 16-8. Таблица ANOVA предварительной модели LM.0
Предиктор Сумма Степени Значение p
квадратов свободы F-критерия (Pr(>F))
(Sum Sq) (Df)
Age,Group 23,48 3 32,15 <0,0001
Group 3,38 2 6,74 0,0019
Sex 3,40 1 13,97 0,0003
Residuals 23,85 98

Оценка параметров модели приведена в Таблице 16-9.


Исходя из оценок параметров модели LM.0 можно предположить, что
1. Подгруппы до 10 и 10-14 неразличимы (в модели группа до 10 принята за
базовую, незначимость параметра модели Age.Group[10-14] означает, что
подгруппа 10-14 неразличима с базовой подгруппой до 10).
2. Эффект от высокодозного воздействия (Group[HighDose] ) сравним с
эффектом от низкодозного воздействия (Group[LowDose]) и отличается от
контрольной группы (p<0,01).
Таблица 16-9. Оценка параметров предварительной модели LM.0 для ВСТХ
Переменная Estimate Std. Error t-value p

(Intercept) 1,67295 0,11651 14,359 <0,0001


Age,Group[10-14] 0,10308 0,13839 0,745 0,4582
Age,Group[15-18] -0,43715 0,13826 -3,162 0,0021
Age,Group[18+] -1,08798 0,13382 -8,130 <0,0001
Group[HighDose] -0,35665 0,12572 -2,837 0,0055
Group[LowDose] -0,35532 0,11728 -3,030 0,0031
Sex[male] 0,37043 0,09909 3,738 0,0003

Комментарий к Шагу 2.
1. Выбранная стратегия подгонки модели не является единственной.
Возможно построение модели с основными эффектами, ее исследование на
значимость независимых предикторов, и после – проверка значимости
взаимодействий предикторов в модели. Возможно построение модели со всеми
взаимодействиями, а после ее уменьшение за счет незначимых переменных.
Возможен выбор наилучшего подмножества из всех возможных комбинаций
предикторов и их взаимодействий.
2. Эффект воздействия некоторого бинарного/мультиноминального
предиктора – это значимый сдвиг среднего значения исследуемой (зависимой)
переменной при изменении уровня (значения) данного предиктора. Размер эффекта
определяется оценкой соответствующего коэффициента.
3. Значимость каждого из предикторов модели может определяться
критерием отношения правдоподобия, F-критерием, критерием Вальда и др.
Удобнее всего оценивать значимость предикторов модели с помощью таблиц ANOVA
– вклада в снижение вариации модели каждого предиктора.
Шаг 3.
Проверим линейную гипотезу о равенстве эффектов высокой и низкой дозы
воздействия. Тест показал, что эффекты неразличимы ( p= 0,9928). Мы имеем право

159
объединить группы с высокой и низкой дозой воздействия, перейти к исследуемой и
контрольной группам.
Также из Таблицы 16-9 значимость переменной Age.Group[10-14] p=0,46,
следовательно уровни предиктора Age.Group до 10 и 10-14 можно объединить.
Заменим предиктор Group на предиктор Expose (expose/control), который уже
есть в наборе данных, а также объединим группу до 10 лет и 10-14 в одну группу.
Введем в данных новый столбец в данных Age.Group.BCTX.
Новая предварительная модель LM.1 (Таблица 16-10) незначимо отличается
от модели LM.0 (p=0,74; F-критерий).
Таблица 16-10. Таблица ANOVA модели LM.1
Предиктор Сумма Степени Значение p
квадратов свободы F-критерия (Pr(>F))
(Sum Sq) (Df)
Age,Group,BCTX 23,43 2 48,826 <0,0001
Expose 3,25 1 13,546 0,0004
Sex 3,45 1 14,372 0,0003
Residuals 24,00 100

Комментарии к Шагу 3.
1. Мы снизили число параметров модели. Напомним, что число параметров
конкретного уравнения модели может быть не равно числу изучаемых предикторов.
Число параметров модели определяется как количеством уровней предиктора, так и
количеством взаимодействий предикторов.
2. Также мы доказали, что различия в объемах воздействия значимо не влияет
на β-CTX. Наличие химиотерапии ассоциировано со снижением уровня β-CTX в
данном исследовании.
3. Мы ввели новый столбец данных Age.Group. BCTX, поскольку у нас есть еще
один параметр костного метаболизма для исследования – остеокальцин. Возможно,
деление на 4 группы по возрасту нам пригодится при его изучении.
4. Сравнение моделей проводили с помощью F-критерия. Можно использовать
и другие тесты: критерий Вальда, критерий отношения правдоподобия. Модели,
построенные на различных наборах данных не сравниваются. Смысл сравнения
заключается в том, что модель LM.1 объясняет такую же долю вариации в зависимой
переменной y (отклика), как и модель LM.0, но при этом модель LM.1 использует
меньше параметров.
Мы не стали смотреть оценки параметров модели, хотя это можно сделать, но
сначала необходимо убедится, что в модели или нет взаимодействия предикторов,
или они присутствуют. Пока мы констатировали, что модель значимо не ухудшилась
при объединении уровней предикторов.
Шаг 4.
Теперь оценим значимость попарных взаимодействий предикторов и удалим
незначимые взаимодействия. Построим новую модель LM.interaction, в которой
учтем попарные взаимодействия предикторов. Удаление незначимых переменных
модели выполним, используя алгоритм "backward stepwise". Результаты подгонки
модели LM.interaction приведены в Таблице 16-11 и Таблице 16-12.
Таблица 16-11. Таблица ANOVA модели LM.interaction
Предиктор Сумма Степени Значение p
квадратов свободы F-критерия (Pr(>F))

160
(Sum Sq) (Df)
Age,Group, BCTX 23,43 2 50,451 <0,0001
Expose 3,25 1 13,997 0,0003
Sex 3,55 1 15,267 0,0002
Age,Group, BCTX: Expose 1,24 2 2,665 0,0747
Residuals 22,76 98

Таблица 16-12. Оценка параметров модели LM.interaction


Переменная Estimate Std.Error t-value p

(Intercept) 1,77652 0,10212 17,396 <0,0001


Age,Group,BCTX[15-18] -0,48578 0,17016 -2,855 0,0053
Age,Group,BCTX[18+] -1,36348 0,15295 -8,915 <0,0001
Expose[expose] -0,48979 0,13261 -3,693 0,0004
Sex[male] 0,37983 0,09721 3,907 0,0002
Age,Group,BCTX[15-18]:Expose[expose] 0,02229 0,23854 0,093 0,9258
Age,Group,BCTX[18+]:Expose[expose] 0,50652 0,22896 2,212 0,0293

Комментарии к Шагу 4.
1. Алгоритм "backward stepwise" является пошаговым алгоритмом. На каждом
шаге он исключает предиктор из модели и одновременно проверяет, не могут ли в
модель быть включены ранее исключенные предикторы. На каждом шаге из модели
удаляются предикторы, не влияющие значимо на снижение оценки максимального
правдоподобия модели данных. Снижение оценки максимального правдоподобия
проверяется критерием отношения правдоподобия или AIC-критерием или другими
критериями.
Алгоритм не единственный, существует достаточное количество других.
Алгоритм "backward stepwise" рекомендуют на небольших наборах данных.
2. Почему мы сразу не строили модель со всеми взаимодействиями, а сначала
редуцировали уровни предикторов? Поскольку у нас не так много данных, то полная
модель с попранным взаимодействием имела бы 16 оцениваемых параметров (при
учете взаимодействий более высокого порядка – 22). При наборе данных в 105
наблюдений мы могли бы или потерять значимое взаимодействие или получить
некоторое случайно значимое взаимодействие. Наша модель имеет 7 параметров,
мы обнаружили значимое взаимодействие после того, как убедились в том, что
основные эффекты существуют.
3. Мы получили условно окончательную модель. Ее так называют, поскольку
еще не исследованы предположения, лежащие в основе модели.

Шаг 5.
Перейдем к исследованию остатков модели и возможных выбросов.
Необходимо проверить предположение о том, что регрессионные остатки
подчиняются закону нормального распределения.
Основные диагностические графики приведены на Рис.16-11. Выполним тест
Шапиро-Уилка остатков модели (р=0,02) .

161
Рис. 16-11. Основные диагностические графики модели LM.interaction

Рис. 16-12. Диаграмма влияния наблюдений на оценки параметров модели.


Проанализируем возможные выбросы в модели графически и с помощью
тестов. Построим диаграмму наиболее влияющих значений (Рис. 16-12).
Тест Бонферрони на выбросы показал, что наиболее влияющим является
наблюдение 84. И диаграмма и тест указывают на одно и тоже наблюдение.
Удалим наблюдение 84 из набора данных и повторим построение модели
основных эффектов, модели со взаимодействием предикторов. Значимость
предикторов в условно окончательной модели LM.fit приведена в Таблице 9 и
оценка параметров модели – в Таблице 10.
Основные диагностические графики модели LM.fit приведены на рис. 16-13,
тест Шапиро-Уилка показал р=0,24. Мы можем принять данную модель как
окончательную.

162
Рис. 16-13. Основные диагностические графики модели LM.fit
Таблица 16-13. Таблица ANOVA модели LM. fit
Предиктор Сумма Степени Значение p
квадратов свободы F-критерия (Pr(>F))
(Sum Sq) (Df)
Age,Group, BCTX 23,77 2 58,480 <0,0001
Expose 2,53 1 12,442 0,0006
Sex 3,04 1 14,951 0,0002
Age,Group, BCTX: Expose 1,12 2 2,759 0,0684
Residuals 19,71 97
Таблица 16-14. Оценка параметров модели LM.fit
Переменная Estimate Std.Error tvalue p

(Intercept) 1,79101 0,09560 18,733 0,0001


Age,Group,BCTX[15-18] -0,64991 0,16472 -3,945 0,0002
Age,Group,BCTX[18+] -1,35985 0,14307 -9,505 0,0001
Expose[expose] -0,48616 0,12406 -3,919 0,0002
Sex[male] 0,35266 0,09121 3,867 0,0002
Age,Group,BCTX[15-18]:Expose[expose] 0,18293 0,22696 0,806 0,4222
Age,Group,BCTX[18+]:Expose[expose] 0,50290 0,21418 2,348 0,0209

Комментарий к Шагу 5.
1. График на рис. 16-13 слева должен показать наличие или отсутствие
зависимости величины остатков от величины предсказанных значений.
Зависимости не наблюдается (практически линия параллельна оси абсцисс), что
означает, что предположение о линейности скорее всего не нарушено.
График на рис. 16-13 справа – это график квантилей (q-q график) остатков.
Наблюдается некоторое отклонение от закона нормального распределения.
Можно построить больше диагностических графиков, например зависимость
предсказанных значений от наблюдаемых и т.п.

163
Также интересна диаграмма влияния, в котором наблюдаются отклонения
более ±3 сигм в распределении остатков.
На данных графиках мы наблюдаем несколько выбросов.
Более подробно мы изучили выбросы с помощью тестов, выявили наиболее
значимый выброс (наблюдение 84), который относился к наблюдениям
контрольной группы. Мы приняли решение повторить подгонку модели без
наблюдения 84.
2. После удаления наблюдения 84:
(a) состав значимых переменных модели не изменился;
(б) уклоны не поменяли знак;
(в) уменьшились оценки стандартных ошибок параметров модели (сравните
Таблицу 16-12 и Таблицу 16-14).
Больше всего изменилась оценка параметра в возрастной подгруппе
Age.Group[15-18], поскольку наблюдение 84 (исключенное) принадлежало этой
подгруппе.
3. На практике отклонение более 10-15% наблюдений от модели
сигнализирует о том, что, возможно, модель не соответствует данным. В нашем
случае удаление одного наблюдения из выборки в 105 наблюдений не изменило
принципиально модель, и снизило вариацию, мы получили более узкие
интервальные оценки параметров модели данных.
Шаг 6.
“Прочтем” полученную окончательную модель (Таблица 16-14).
Уравнение модели выглядит следующим образом:
E BCTX   β 0 
 β 1  Age.Group. BCTX[15 - 18] 
 β 2  Age.Group. BCTX[18 ] 
 β 3  Expose[exp ose] 
 β 4  Sex[male] 
 β 5  Age.Group. BCTX[15 - 18]  Expose[exp ose] 
 β 6  Age.Group. BCTX[18 ]  Expose[exp ose] 
ε
Оценку случайной ошибки ε мы рассмотрели на предыдущем шаге, сейчас мы
рассматриваем систематическую часть модели.
За базовую подгруппу приняты девочки контрольной группы в возрасте до 15
лет. Среднее значение β-CTX ( E BCTX  ) в этой подгруппе равно β 0  1,79 . Эффект
воздействия снижает среднее значение β-CTX на β 3  0,49 , эффект значим (р=0.0002).
Поскольку есть взаимодействие воздействия и возрастных подгрупп, то этот эффект
относится к подгруппе в возрасте до 15, т.е это означает, что в подгруппе до 15 лет у
исследуемых из группы с воздействием с значение β-CTX в среднем на 0,49 ниже,
чем в контрольной группе без воздействия.
Эффект пола (мальчики) повышает значение β-CTX в среднем на β 4  0,35 ,
эффект значим (р=0,0002). Переменная Sex не взаимодействует с другими
переменными, фактически это означает, что у мальчиков (независимо от
воздействия, а также от возраста) значение β-CTX в среднем на 0.35 выше, чем у
девочек.

164
Таким образом у девочек контрольной группы в возрасте до 15 лет среднее
значение β-CTX равно β 0  1,79 ; у мальчиков контрольной группы
β 0  β 4  1,79  0,35  2,14 . У девочек из исследуемой группы
β 0  β 3  1,79  0,49  1,30 ; у мальчиков этой же группы
β 0  β 3  β 4  1,79  0,49  0,35  1,65 .
Для возрастной подгруппы 15-18 лет:
эффект данной возрастной подгруппы составляет β 1  0,65 , эффект значим
(р=0.0002). Фактически это означает, что в возрастной подгруппе 15-18 лет у
контрольной группы (независимо от пола) идет снижение показателя β-CTX в
среднем на 0.65 по сравнению с контрольной группой возраста до 15 лет. Таким
образом в данной возрастной группе для девочек контрольной группы среднее
значение β-CTX равно β 0  β 1  1,79  0,65  1,14 ; для мальчиков контрольной группы
β 0  β 1  β 4  1,79  0,65  0,35  1,49 .
Для исследуемой группы наблюдается взаимодействие возраста и
воздействия в возрастной подгруппе 15-18 лет. Эффект равен
β 1  β 5  0.65  0.18  0.47 . Для девочек исследуемой группы в возрасте 15-18 лет
среднее значение β-CTX составит β 0  β 1  β 3  β 5  1,79  0,65  0,49  0,18  0,83 ; у
мальчиков исследуемой группы в возрастной подгруппе 15-18 лет среднее значение
β-CTX составит β 0  β 1  β 3  β 4  β 5  1,79  0,65  0,49  0,35  0,18  1,18 .
Для возрастной подгруппы после 18 лет:
эффект возрастной подгруппы 18+ составляет β 2  1,36 , эффект значим
(р<0,0001), т.е. наблюдается снижение уровня β-CTX у здоровых пациентов на 1,36 по
сравнению с подгруппой до 15 лет у здоровых (независимо от пола).
для девочек контрольной группы среднее значение β-CTX равно
β 0  β 2  1,79  1,36  0,43 ; для мальчиков контрольной группы
β 0  β 2  β 3  1,79  1,36  0,35  0,78 .
Для исследуемой группы в возрастной подгруппе 18+ в модели присутствует
эффект взаимодействия ( β 2  β 6  1,36  0,50  0,86 ) и среднее значение β-CTX
составит соответственно для девочек исследуемой группы
β 0  β 2  β 3  β 6  1,79  1,36  0,49  0,50  0,44 ; для мальчиков исследуемой группы
β 0  β 2  β 3  β 4  β 6  1,79  1,36  0,49  0,35  0,50  0,79 .
По модели рассчитаем средние и доверительные интервалы для различных
групп (см. Таблица 16-14). На рис. 16-14 представлены графики эффектов,
полученных в модели LM.fit.

165
Рис. 16-14. График эффектов модели LM.fit для BCTX
Значимость изменения уровня β-CTX для каждой возрастной подгруппы,
ассоциированную с наличием химиотерапевтического воздействия, можно
выяснить с помощью линейных гипотез для модели LM.fit. Значимость изменений
составила соответственно для подгруппы до 15 лет p<0,0001; для подгруппы 15-18
лет p=0,11; для подгруппы 18+ p=0,92.
Комментарии к Шагу 6.
1. Мы получили ответ на вопрос о том, снижает ли химиотерапевтическое
воздействие активность костного метаболизма. При разработке модели мы учли
такие конфаудеры (вмешивающиеся переменные), как возраст и пол. Их влияние в
модели было значимым. Причем изначально наблюдалась нелинейная зависимость
от возраста, и мы сформировали возрастные группы.
2. Наличие взаимодействия с одной стороны уточняет модель, с другой –
увеличивает ее размерность, из-за чего при внутригрупповых сравнениях (проверке
линейных гипотез) мы получили незначимые оценки различия в эффекте лечения в
контрольной и излеченной группах для подгруппы 15-18 лет. Фактически нам не
хватило мощности исследования для установления эффекта от
химиотерапевтического воздействия в возрастной подгруппе 15-18 лет.
Нужно очень осторожно относиться к увеличению размерности модели при
малом размере выборки.
В данном исследовании одна из задач состояла в том, чтобы доказать
значимые различия именно в возрасте активного костеобразования – до 15 лет.
Другая задача – рассчитать ориентировочные нормы для здоровых детей в возрасте
до 18 лет.
3. Если бы мы сформулировали иные цели исследования, мы бы по-другому
использовали наши данные.
Например, если бы целью было рассчитать уровень снижения маркера
костного метаболизма у детей вследствие лечения химиотерапией по сравнению с
контрольной группой, мы бы (1) ограничили бы выборку исследуемыми до 18 лет
(поскольку речь идет только о детях); убедились бы, что среднее возраста в
контрольной и исследуемой группе не различаются, равно как и нет уклона по полу
(т.е. мальчики девочки представлены в исследовании сбалансированными
группами), (2) рассчитали эффекты от применения химиотерапии и в зависимости

166
от пола исследуемых; (3) проверили предположения, лежащие в основе модели; (4)
сделали соответствующие выводы. Это можно сделать самостоятельно.
Клиническая ценность
1. У нас есть убедительные доказательства, что высокодозное и низкодозное
лечение одинаково влияют на поведение β-CTX .
2. Определен эффект, связанный с лечением. Лечение ассоциировано со
снижением β-CTX в возрасте до 15 лет, т.е. в период активного костеобразования.
После от 15 до 18 лет имеется тенденция в различиях, в более старшем возрасте
этот эффект исчезает.
3. Также определен эффект связанный с полом. Он имеет место во всех
возрастных группах.
4. По модели можно рассчитать средние и доверительные интервалы для
здоровых и излеченных пациентов в различных возрастных группах (Таблица 16-
15). Для контрольной группы данные значения могут рассматриваться как норма и
интервал нормы. Для пациентов, которые подверглись некоторому воздействию
(или заболеванию) говорят не о нормах, а определяют отклонения от нормы (в
процентах, в абсолютном выражении, в стандартизированном выражении).
Таблица 16-15. Значение β-CTX с учетом пола, возрастной подгруппы и наличия
химиотерапии
Средний β-CTX
возраст 95% Доверительные
Возраст в группе Пол Группа Среднее интервалы
до 15 male ХТ 1,66 1,47 1,85
10,0
до 15 male контроль 2,14 1,96 2,33
до 15 female ХТ 1,30 1,09 1,52
9,8
до 15 female контроль 1,79 1,60 1,98
15-18 male ХТ 1,19 0,93 1,45
16,4
15-18 male контроль 1,49 1,20 1,79
15-18 female ХТ 0,84 0,57 1,10
16,3
15-18 female контроль 1,14 0,84 1,44
18+ male ХТ 0,80 0,54 1,07
22,4
18+ male контроль 0,78 0,55 1,02
18+ female ХТ 0,45 0,16 0,73
20,1
18+ female контроль 0,43 0,17 0,69

Перейдем к рассмотрению второго показателя – остеокальцина.


Модель для оценки уровня остеокальцина
У нас есть три фактора, которые, как мы полагаем, ассоциированы с уровнем
остеокальцина: возраст исследуемых, пол и объем воздействия.
Мы не будем подробно рассматривать каждый шаг исследования, поскольку
во многом оно аналогично исследованию β-CTX, опишем опорные моменты, нюансы
и отличия.
Шаг 1.
Как и для β-CTX, рассмотрим, как распределен остеокальцин (Osteocalcin) у
контрольной группы. Тест Шапиро-Уилка показал p=0,03, тест Шапиро-Франсиа
р=0,058. Данные контрольной группы по остеокальцину скорее всего не
подчиняются закону нормального распределения.

167
Выполним следующие преобразование данных Ost.sqrt=(Osteocalcin)0.5 –
преобразование квадратного корня из значения, введем новый столбец в
исследовании: Ost.sqrt.
Проверим преобразованные данные контрольной группы на соответствие
закону нормального распределения. Теперь тест Шапиро-Уилка показал p=0,09, тест
Шапиро-Франсиа р=0,18.
В исследовании остеокальцина будем пользоваться новой зависимой
переменной Ost.sqrt. После окончания исследования проведем обратное
преобразование для средних и доверительных интервалов.
Рассмотрим поведение зависимой переменной Ost.sqrt от возраста (предиктор
age.at.measure) и пола (предиктор Sex, значения male/female); возраста и наличия
воздействия (предиктор Expose, значения control/expose); возраста и его объема
(предиктор Group, значения control/LowDose/HighDose). Графические зависимости
представлены на рис. 16-15 и рис. 16-16.

Рис. 16-15. Зависимость Ost.sqrt от пола и возраста, в котором проведены измерения

Рис. 16-16. Зависимость Ost.sqrt от объема воздействия и возраста, в котором проведены


измерения

Комментарии к Шагу 1.

168
1. После проверки распределения остеокальцина в контрольной группе
пришлось использовать монотонное преобразование исследуемой переменной.
Найти подходящее преобразование – неформальная задача, но для некоторых
показателей, которые могут принимать только положительные значения – можно
попытаться использовать преобразование Бокса-Кокса. Мы нашли значение λ
преобразования Бокса-Кокса, равное 0,44. Это приблизительно соответствует
преобразованию квадратного корня из значений исследуемой переменной. Мы
искали преобразование для контрольной группы, в первую очередь, поскольку нас в
исследовании также интересовали нормы для здоровых детей1.
2. В отличие от BCTX мы наблюдаем в младшей возрастной подгруппе
нарастание Ost.sqrt с возрастом, значимо оно или нет – покажет исследование. Мы
будем использовать то же разбиение на четыре возрастные подгруппы.
Шаг 2-3.
Проверяем гипотезу о равенстве эффектов высокодозного и низкодозного
воздействия (р= 0,82).
Линейная гипотеза о неразличимости возрастных подгрупп до 10 и 10-14
имеет уровень значимости р=0,20.

Комментарий к шагу 2-3.


В отличие от BCTX различия между двумя возрастными подгруппами до 10 и
10-14 более заметны.
В целом, пока не построена окончательная модель, обычно значимость
параметра модели на уровне p<0,25 считают тенденцией. Внесение в модель
дополнительных предикторов и их взаимодействий может изменить значимость
отдельного предиктора как в меньшую, так и в большую сторону.
Шаг 4.
Строим модель LM.interaction со взаимодействием предикторов и удаляем
незначимые взаимодействия, используя алгоритм "backward stepwise". Результаты
представлены в Таблице 16-16 и Таблице 16-17.

Таблица 16-16. Таблица ANOVA модели LM.interaction


Предиктор Сумма Степени Значение p
квадратов свободы F-критерия (Pr(>F))
(Sum Sq) (Df)
Age,Group 293,07 3 55,909 <0,0001
Expose 20,00 1 11,443 0,0010
Sex 12,14 1 6,950 0,0100
Age,Group: Expose 18,45 3 3,519 0,0180
Residuals 167,74 96

1
Если бы модель, построенная на преобразованных данных, не удовлетворяла предположениям, лежащим
в основе такой модели, мы бы попытались найти другое преобразование. В данном случае оно не
понадобилось.

169
Таблица 16-17. Оценка параметров модели LM.interaction
Переменная Estimate Std.Error tvalue P

(Intercept) 8,9641 0,3632 24,684 <0,0001


Age,Group[10-14] 0,9969 0,4840 2,060 0,0422
Age,Group[15-18] -1,7240 0,5181 -3,327 0,0012
Age,Group[18+] -4,3151 0,4759 -9,067 <0,0001
Expose[expose] -1,0082 0,5048 -1,997 0,0486
Sex[male] 0,7058 0,2677 2,636 0,0098
Age,Group[10-14]:Expose[expose] -1,1288 0,7273 -1,552 0,1240
Age,Group,BCTX[15-18]:Expose[expose] 0,4135 0,7410 0,558 0,5782
Age,Group,BCTX[18+]:Expose[expose] 1,2122 0,7190 1,686 0,0950

Комментарии к Шагу 4.
1. При учете взаимодействия отличия между базовой подгруппой до 10 и 10-14
стали значимы.
2. Снижение вариации модели при взаимодействии переменных Age.Group и
Expose значимо (Таблица 16-16, р=0,0180). Однако на каждом уровне
взаимодействия (Таблица 16-17) значимость p>0,05. Мы должны оставить
переменную взаимодействия в модели и учитывать оценки параметров при расчете
средних, поскольку общий вклад в снижение вариации при взаимодействии
существует.
Шаг 5.
Исследование остатков модели LM.interaction показало (Рис. 16-17), что
предположение модели о нормальном распределении остатков не нарушено (тест
Шапиро-Уилка p = 0,66).
Эту модель можно принять за окончательную.

Рис. 16-17. Основные диагностические графики модели LM.interaction

170
Комментарий к шагу 5.
Тем не менее, в модели существуют выбросы, наиболее значимые – это
наблюдение 39 и наблюдение 84 (см. рис. 16-18).

Рис. 16-18. Диаграмма влияния наблюдений на оценки параметров модели LM.interaction.


Если удалить эти 2 выброса из данных, и повторить шаги, то уменьшится
стандартная ошибка оценки параметров. Основные эффекты не изменятся. Это
можно сделать самостоятельно.
Наблюдение 84 как, и в предыдущей модели, являлось выбросом. Следует
рекомендовать исследователю перепроверить данные этого ребенка, возможно, его
не следовало включать в контрольную группу по медицинским или другим
показаниям. Например, этот ребенок может активно заниматься специфическим
видом спорта, или принимать специфическое лечение, не связанное с данным
исследованием и т.п.
Шаг 6.
Значимость изменения уровня остеокальцина для каждой возрастной
подгруппы, ассоциированную с наличием химиотерапевтического воздействия,
можно выяснить с помощью линейных гипотез для модели LM.fit. Значимость
изменений составила соответственно для подгруппы до 10 лет р=0,046; в 10-14 лет
p<0,0001; для подгруппы 15-18 лет p= 0,273; для подгруппы 18+ p= 0,690.
Для того, чтобы получить оценки средних остеокальцина в возрастных
подгруппах, мы сначала рассчитаем по модели средние и доверительные интервалы
для преобразованной переменной, потом выполним обратное преобразование.
Результат представлен в Таблице 16-18. График эффектов представлен на рис. 16-19.

171
Таблица 16-18. Значение остеокальцина с учетом пола, возрастной группы и наличия
химиотерапии
Остеокальцин
95% Доверительные
Возраст Пол Группа Среднее интервалы
до 10 male ХТ 75,02 61,98 89,32
7,3
до 10 male контроль 93,51 80,53 107,45
до 10 female ХТ 63,30 50,94 76,99
7,5
до 10 female контроль 80,36 67,95 93,80
10-14 male ХТ 72,76 60,23 86,47
12,8
10-14 male контроль 113,78 98,34 130,34
10-14 female ХТ 61,22 48,55 75,34
12,5
10-14 female контроль 99,22 84,84 114,72
15-18 male ХТ 54,04 43,34 65,92
16,4
15-18 male контроль 63,14 50,86 76,74
15-18 female ХТ 44,16 34,38 55,17
16,3
15-18 female контроль 52,42 40,70 65,62
18+ male ХТ 30,90 22,86 40,15
22,4
18+ male контроль 28,67 21,66 36,66
18+ female ХТ 23,55 16,14 32,37
20,1
18+ female контроль 21,61 15,09 29,31

Рис. 16-19. Графики эффектов модели LM.fit для Ost.sqrt

Клиническая ценность
1. У нас есть убедительные доказательства, что высокодозное и низкодозное
химиотерапевтическое воздействие одинаково влияют на уровень остеокальцина у
пациентов исследуемой группы.
2. Определен эффект, связанный с применением химиотерапии. Это
воздействие ассоциировано со снижением остеокальцина в возрасте до 15 лет, т.е. в
период активного костеобразования. После 15 лет этот эффект исчезает.
3. Также определен эффект связанный с полом. Он имеет место во всех
возрастных группах.
4. Можно определить средние и доверительные интервалы для контрольной
и исследуемой группы в различных возрастных подгруппах (Таблица 16-18).
172
Основные аспекты
Понятие линейности в регрессии.
Понятие предиктора и зависимой переменной в регрессии.
Понятие параметра регрессии.
Количество переменных модели может отличаться от количества
исследуемых предикторов, поскольку один предиктор может порождать несколько
индикаторных переменных, комбинация нескольких предикторов может порождать
одну переменную;
Интерпретация параметров регрессии – важный момент в исследовании. На
основании параметров расчитываются различные эффекты.
Понятие конфаундера и его учет в модели.
Значимость модели и значимость параметров модели – разные понятия.
Силу влияния различных переменных на зависимую переменную можно
определять в пределах одной модели.
Сравнение моделей возможно только на одних и тех же исходных данных.
Построенная модель не всегда верна, если нарушаются предположения,
лежащие в основе модели.
Выбросы и ошибочные данные влияют на подгонку модели.
Регрессионная модель интерпретируема в пределах изменения наблюдаемых
данных.
Интерпретация не включает в себя момент причинно-следственной связи,
только констатацию наличия ассоциации между зависимой переменной и
предиктором.

173
17. Логистическая регрессия
С точки зрения компонентов модели логистическая регрессия описывается
следующим образом:
Систематический компонент – это один предиктор или линейная комбинация
нескольких предикторов; случайный компонент – исход1, который имеет
биноминальное распределение; функция связи – логистическая функция (logit)2.
Переменная исхода y может принимать два значения: 0 и 1.
Вероятность того, что y  1 при определенных значениях x обозначим как
π(x ) . Оценка π(x ) – это пропорция наблюдений в выборке: отношение количества
наблюдений, для которых исход y  1 ко всем наблюдениям в выборке.
В модели логистической регрессии предполагается, что
yi подчиняется биноминальному закону распределения;
среднее E  y | x   π x  представляется уравнением
exp β 0  β 1 x 
E  y | x   π x   .
1  exp β 0  β 1 x 
Значения переменной исхода статистически независимы.
expβ 0  β 1 x 
Уравнение π x   можно преобразовать как
1  expβ 0  β 1 x 
π x  π x 
 exp β 0  β 1 x  . Левая часть уравнения является математической
1  π x  1  π x 
записью шанса исхода в исследуемой выборке (отношение вероятности того, что
событие произойдет, к вероятности того, что событие не произойдет).
 π x  
Прологарифмируем обе части: log    β 0  β 1 x . Полученное уравнение
 1  π x  
напоминает уравнение линейной регрессии, но слева находится не количественная
переменная, а некоторое преобразование бинарной переменной исхода. Выражение
 π x  
логарифма шанса исхода log   называют логит-преобразованием
 1  π x  
вероятности исхода logit π x  , а модель – логит-моделью.
Использование логит-преобразования – это первое важное отличие
логистической регрессии от линейной. Второе важное отличие логистических
регрессионных моделей касается условного распределения переменной исхода3. В
линейной регрессии предполагалось, что переменная исхода yi  E  y | x i   ε i , ε i
называлось ошибкой и отражало отклонение наблюдения от условного среднего.
Самое общее предположение касалось ε i – ошибка следует нормальному
1
Исход – это зависимая переменная y . Термин “исход” (outcome) – используется в эпидемиологии, когда
зависимая переменная представляет собой некоторое событие/состояние, вероятность наступления
которого нужно оценить.
2
Другие преобразования (функции связи), равно как и логит-преобразование относятся к классу
обобщенных линейных моделей (generalized linear model). Правая часть уравнения остается линейной
комбинацией предикторов.
3
Закон распределения случайной величины y в обобщенных линейных моделях может быть различным.

174
распределению с нулевым средним и дисперсией, постоянной на любом уровне x i .
Т.е. условное распределение переменной исхода при заданном x i будет нормальным
со средним E  y | x i  с постоянной дисперсией. При бинарном исходе это не так.
Значение переменной исхода может быть записано как yi  π x i   ε i . В этом случае,
если yi  1 , то ε i  1  π x i  с вероятностью π x i  , при yi  0 , ошибка ε i  π x i  с
вероятностью 1  π x i  . Условное распределение переменной исхода следует
биноминальному распределению с вероятностью, определенной условным средним
π x i  .
В линейной регрессии коэффициенты оценивались на основе метода
наименьших квадратов. Находились такие оценки параметров, которые бы
минимизировали сумму квадратов отклонений наблюдаемых значений y и
ожидаемых (предсказанных по модельному уравнению). Для логистической
регрессии используется метод максимального правдоподобия, который является
более общим и включает в себя метод наименьших квадратов. Не вдаваясь в
математические подробности можно сказать, что метод максимального
правдоподобия (maximum likelihood estimator) находит значения неизвестных
параметров, которые максимизируют вероятность получения наблюдаемого набора
данных.
Интерпретация параметров модели будет рассмотрена ниже.

17.1. Логистическая регрессия с бинарным предиктором


Пусть предиктором является биноминальная переменная x со значениями 0
и 1.
Тогда logit π 1  logit π 0  β 0  β 1  1  β 0  β 1  0  β 1 . С другой стороны,
 π 1   π 0   π 1 1  π 1 
log    log    log   . Выражение под логарифмом – это
 1  π 1   1  π 0   π 0 1  π 0 
отношение шансов в двух группах (см. раздел 11). Таким образом, параметр β 1
может интерпретироваться как логарифм отношения шансов. Отношение шансов
рассчитывается в двух группах: при x  1 и при x  0 . Это значит, что для бинарной
переменной логистическая регрессия полностью эквивалентна расчету отношения
шансов в таблицах 2 х 2.
π 1 1  π 1
Отношение шансов OR   exp β 1  .
π 0 1  π 0
Для проверки значимости параметра β 1 тестируется нулевая гипотеза,
которая гласит, что H 0 : β 1  0 , т.е. отношение шансов равно expβ 1   1 , иначе
говоря, что предиктор не влияет на изменение шансов. Отношение шансов
интерпретируется как размер эффекта, во сколько раз изменится в среднем
величина y при изменении x на 1.
Для тестирования значимости переменных в логистической регрессии
обычно используется тест логарифма правдоподобия, он также используется для
проверки значимости модели в целом. Также может быть использован тест Вальда и
др.

175
17.2. Логистическая регрессия с мультиноминальным
предиктором
Для мультиноминальной шкалы используется тот же подход, как и в разделе
16.3. Одна из категорий принимается за референтную и отношения шансов
остальных категорий определяются относительно нее. Иногда количественную
переменную разбивают на несколько уровней, и исследуют, как возрастает
отношение шансов от уровня к уровню. Однако, надо иметь ввиду, что количество
наблюдений в группах должно быть сбалансировано (приблизительно одинаковым).
На малые группы по количеству наблюдений разбивать не рекомендуется.
Выбор референтной категории также является тонким моментом, требуется,
чтобы количество наблюдений в этой категории не было малым. Если
мультиноминальная переменная упорядочена, можно исследовать тренд в
отношениях шансов.

17.3. Пример построения логистической регрессии


Рассмотрим пример из раздела 14. Мы анализировали его для выявления
зависимости наличия метастазов от локализации опухоли.
Данные из Tабл. 14–7 можно проанализировать с использованием
логистической регрессии.
Представим предиктор "локализация" как набор индикаторных переменных
(Табл. 17–1).
Таблица 17–1. Представление категориальной переменной исследования индикторными
переменными

Локализация I2 I3
1 0 0
2 1 0
3 0 1
Запишем модель:
 π x  
log    β 0  β 2I 2  β 3I3 .
 1  π x  
Тест логарифма правдоподобия (оценка значимости предиктора
“локализация”) показал значимость предиктора (статистика отношения логарифмов
правдоподобия = 9,5397 , степени свободы = 2, p  0,008482 . Вывод – предиктор
является значимым в модели.
Оценки параметров в модели представлены в табл.17–2.
Таблица 17–2. Оценки параметров модели

Estimate Std. Error p


Intercept 1,3499 0,2999 6,76e–06
I2 –0,8034 0,3712 0,0304*
I3 1,2891 1,0777 0,2316

У нас есть ранее рассчитанные пропорции (см. табл 14–7).


Сравним их с полученными значениями, результаты сведены в табл.17–3:
Таблица 17–3. Сравнение результатов модели и расчетов таблиц сопряженности

176
Локали- Пропор- Уравнение π x  E  y | x   π x  
 exp 
зация ция из 1  π x  exp 
таблицы 
1  exp 
14–6
I 0,794  π x   exp β 0   0,794
log  
 1  π x    exp 1,3499  
 β0  3,857

II 0,633  π x   exp β 0  β 2   0,633


log  
 1  π x    exp( 0,5465) 
 β0  β2  1,727

III 0,933  π x   exp β 0  β 3   0,933


log  
 1  π x    exp( 2,639) 
 β0  β3  14,000

Как видно, второй и последний столбцы в таблице 17–3 совпадают, значения


пропорций, рассчитанные непосредственно по данным, и полученные в результате
расчетов по модели не различаются.
Исходя из результатов подгонки модели, для индикаторной переменной I2 ,
которая представляет в нашей модели локализацию второго типа, коэффициент
регрессии значим, т.е. локализация второго типа отличается от локализации
первого типа. Локализация третьего типа незначимо отличается от локализации
первого типа. Может быть проверена линейная гипотеза о различии коэффициентов
β 2 и β 3 , которая покажет отличия локализации II типа от локализации III типа.
Как и при анализе таблицы в разделе 14, мы можем и в модели объединить
локализации. Если нас интересует локализация II типа, закодируем ее 1, а остальные
типы – 0. Если же нас интересует локализации не-II типа, то их закодируем 1, а
локализацию II типа – 0.
После объединения локализаций первого и третьего типа, для новой модели
получены следующие результаты (Табл. 17–4):
Таблица 17–4. Оценка параметров модели после объединения категорий

Estimate Std. Error р


βˆ SE
Intercept 0,5465 0,2187 0,0125
Локализации не-II типа 0,9649 0,3595 0,0073

 
Отношение шансов OR  exp βˆ1  exp0,9649  2,625. Полученное значение
совпадает с отношением шансов, рассчитанным в примере раздела 14.
Расчет доверительных интервалов для отношения шансов по логистической
регрессии производится следующим образом:
Сначала строится доверительный интервал для оценки параметра:
βˆ  βˆ  z  SE и βˆ  βˆ  z  SE ,
L 1 γ H 1 γ

177
где zγ – значение γ -квантиля нормального распределения, γ  1  α для
2
двустороннего интервала, т.е. для α  0,05 γ  0,975 .
Затем вычисляется доверительный интервал для отношения шансов:
L  
OR  exp βˆ и OR  exp βˆ .
L H  
H

ORL  exp0,9649 1,96 0,3595  1,30;


ORH  exp0,9649 1,96 0,3595  5,31 .
Как видно из данного примера, статистические выводы идентичны примеру
раздела 14. Локализации, отличные от типа II, ассоциируются с повышенным
уровнем метастазирования, т.е. более неблагоприятны.

17.4. Логистическая регрессия с количественным


предиктором
Для количественной переменной – изменение предиктора на единицу шкалы
измерения составит logit π x  1  logit π x   β 0  β 1  x  1  β 0  β 1  x   β 1 .
π x  1 1  π x  1
Тогда OR   exp β 1 , т.е. отношение шансов при
π x  1  π x 
возрастании предиктора на единицу шкалы.
π x  Δ  1  π x  Δ 
Отсюда следует, что OR   exp β 1Δ  , т.е. если увеличение
π x  1  π x 
предиктора произошло на Δ единиц, то логарифм отношения шансов изменился в Δ
раз.
Для проверки значимости параметра β 1 тестируется нулевая гипотеза,
которая гласит, что H0 : β 1  0 , т.е. отношение шансов равно 1, иначе говоря, что
предиктор не влияет на изменение шансов.
Отношение шансов на каждую единицу изменения количественной
переменной не всегда понятно интерпретируется. Поэтому чаще используют
следующий подход: рассчитывают отношение шансов между 25 и 75 перцентилями
(квартилями) выборки ( Q25 и Q75 ). Это означает, что если выборку разбить по
медиане Q50 значений количественного предиктора на две группы (значения
количественного предиктора ниже медианы и выше), то отношение шансов у этих
групп будет равно OR  expβ 1 Q75  Q25 .

17.5. Интерпретация параметра β 0 в логистической регрессии


Интерпретация параметра β 0 зависит от типа дизайна.
Логистическая регрессия может использоваться для различных типов
дизайнов исследования.
π x 
В отсутствии предикторов шанс исхода  exp β 0  .
1  π x 
В когортных исследованиях β 0 отражает реальное соотношение случаев в
когорте. Заметим, что в когортных исследованиях логистическая регрессия
применяется редко. Для применения логистической регрессии в когортных
исследованиях необходимо проведение так называемых закрытых когортных
исследований, когда все наблюдения имеют одинаковую длительность. Когда время
наблюдения различно, используется регресионная модель Кокса.

178
Для исследований "случай-контроль" мы имеем две искусственно созданные
группы. Если используется количественный предиктор, β 0 является параметром,
который "центрирует" модель относительно среднего значения предиктора1. При
бинарном и мультиноминальном предикторе β 0 соответствует логарифму
отношения шансов в референтной группе.
В дизайне "matched pairs", когда ровно на один случай приходится ровно один
контроль это соотношение равно 1. β 0 в этом случае не включается в модель.
Переменная, которая представляет интерес в исследовании в дизайне "случай-
контроль" ни в коем случае не должна влиять на выбор пациентов, включенных в
исследование "случай-контроль" (см. раздел 2), иначе мы получим систематическую
ошибку при оценке этой переменной.
Для дизайна "matched pairs" используется специальный подход к оценке
правдоподобия, называемый условное правдоподобие (conditional likelihood),
основанный на условной вероятности. Сложность компьютерных расчетов
заключается в том, что различные статистические пакеты предоставляют
различный интерфейс для моделирования логистической регрессии и расчета
условного правдоподобия в условиях дизайна "matched pairs". Необходимо получить
консультации специалиста именно по выбранному статистическому пакету, в
котором вы проводите подгонку логистической регрессии при дизайне "matched
pairs". Интерпретация результатов, однако, не отличается от вышеприведенной за
исключением того, что β 0 исключается из модели. Дизайн "matched pairs"
достаточно своеобразен и к нему никогда не следует относиться легкомысленно.
Эффективный подбор пар (в случаях, когда переменные, по которым проводится
подбор – вмешивающиеся переменные с сильным влиянием), может дать более
точные оценки связи события (заболевания/состояния) и воздействия (экспозиции
фактора). Однако, когда переменные, по которым подбирались пары, на самом деле
не обладают одновременным воздействием на изучаемую переменную и исход, то
может наблюдаться снижение точности в сравнении с непарным дизайном
исследования. Более того, в дизайне "matched pairs" соответствие критериям
"парности" (одинаковый возраст, одинаковая раса, одинаковое предыдущее лечение
и пр.) может осложнять подбор и вести к потере информативных данных.

17.6. Взаимодействие предикторов в логистической регрессии


Аналогично, как и в линейной регрессии, можно построить модель для
исследования конфаундеров (контроля влияния вмешивающихся переменных).
logit π x1 , x 2   β 0  β 1 x1  β 2 x 2  β 3 x1 x 2 .
Пусть переменная x1  x – влияющая ковариата (конфаундер, например,
возраст), x 2  F – изучаемый фактор с уровнями f 0  0 и f1  1 (например,
традиционное и новое лечение). Задача – исследовать отношение шансов уровней
изучаемого фактора f 0 и f 1 с учетом модификатора эффекта x .

Центрирование означает следущее: если мы вычислим среднее предиктора x в наборе данных, на


1

котором осуществляется подгонка модели, и подставим это значение в полученную модельную формулу

E  y | x   π x  
 
exp βˆ0  βˆ1 x
, то значение y будет равно в точности отношению количества

1  exp βˆ0  βˆ1 x
наблюдений, для которых исход y  1 к общему числу наблюдений в наборе, т.е. пропорции в выборке.

179
logit π 1, x   logit π 0, x  
 β 0  β 1  1  β 2 x  β 3 x  1  β 0  β 1  0  β 2 x  β 3 x  0  β 1  β 3 x ;
Т.е lnOR  β 1  β 3 x ; а OR  expβ 1  β 3 x  , отношение шансов исхода при
наличии и отсутствии изучаемого фактора – функция от ковариаты (конфаундера).
Гипотеза H0 : β 3  0 констатирует, что отношение шансов уровней фактора F
не зависит от конфаундера. Проверяя ее, мы либо доказываем, что эффект от
модификатора (конфаундера) существует и значим, либо не значим.
Ремарка: Напомним, что нулевая гипотеза не доказывается, она остается верной, пока не получены
новые доказательства.
Предположение о рандомизации ковариаты (модификатор эффекта) не
меняется для логистической регрессии.
Если эффект влияния существует, можно рассчитать OR  exp β 1  β 3 x  при
различных x  x1 , x  x2 , . Очень часто таким модификатором в клинико-
эпидемиологических исследованиях выступает возраст. Можно рассчитать
отношение шансов исследуемого фактора для разных возрастов с шагом 10 или 5.
Мы можем проверить, существует ли тренд в отношениях шансов для нескольких
возрастных групп, которые упорядочены.

17.7. Стратифицированный анализ серии таблиц 2 х 2


В случае, когда у нас есть исход и предиктор, и нам важно установить влияние
конфаундера, может использоваться стратифицированный анализ серии таблиц
2 2 вместо использования логистической регрессии. Конфаундером может
выступать биноминальная, мультиноминальная переменная. Допускается
дискретизация (интервальное разбиение) количественной переменной.
Стратифицированный анализ серии таблиц 2 2 должен дать ответ на вопрос:
изменяется ли отношение шансов на различных уровнях конфаундера. Если
конфаудер не изменяет отношение шансов, то можно рассчитать общее отношение
шансов (common OR). Этот анализ аналогичен анализу взаимодействия с помощью
логистической регрессии.
Гомогенная ассоциация – симметрическое свойство, которым может обладать
любая пара переменных, которая рассматривается на уровнях (стратах) третьей
переменной. Если пара имеет гомогенную ассоциацию, то нет эффекта
взаимодействия этой пары и третьей переменной. Т.е. если мы рассматриваем исход
и предиктор (пара) и выясняем, что они взаимодействуют одинаково при всех
значениях конфаундера, то ассоциация (связь) исхода и предиктора гомогенна,
конфаундер не меняет их ассоциации.
Существует несколько критериев гомогенной ассоциации (гомогенности
отношений шансов) по всем стратам: Breslow-Day тест, тест Breslow-Day с поправкой
Tarone, Zelen’s тест и др. Нулевая гипотеза для таких тестов гласит
H0 : ORi  OR, i  1, L , т.е. отношение шансов одинаково для всех страт1.
Если критерии подтверждают наши предположения, и отношение шансов
одинаково по всем стратам, то далее конфаундер может быть исключен из анализа.
Если нас интересует общий эффект предиктора, то проверяется гипотеза об
общем отношении шансов H 0 : OR  1 , т.е. изменение в предикторе не меняет

1
Критерий гомогенной ассоциации также используется при проверке качества подгонки (goodness of fit)
логистической регрессии.

180
вероятности исхода. При проверке гипотезы может использоваться тест Кокрейна–
Мантеля–Хензеля (Cochran–Mantel–Haenszel – CMH-test).
Пусть имеем L страт (уровней конфаундера). На i -ом уровне мы можем
представить данные исхода и исследуемого предиктора как таблицу 2 2 .
Таблица 17–5 Таблицы 2 2 на каждом уровне конфаундера
Уровень i Исход
1 0
1 Ai Bi
Фактор
0 Ci Di
Ai Di
Отношение шансов рассчитывается по таблице 2 2 как ORi  .
Bi C i
Ожидаемое значение в ячейке А таблицы 2 2 уровня i равно:
A  Ci  Ai  Bi  ,
E  Ai   i
Ni

вариация Var  Ai  
Ai  C i  Bi  Di  Ai  Bi  C i  Di  ,
Ni 2 Ni  1
Где Ni  Ai  Bi  Ci  Di .
Тест подсчитывает квадрат суммы отклонений ожидаемых и наблюдаемых
частот интересующего состояния ( Ai ) по всем стратам, далее сумма
стандартизируется на сумму вариаций:
2
 L 
   Ai  E  Ai 
CMH   i 1 L  .

Var Ai 
i 1

Статистика CMH подчиняется χ 2 распределению с одной степенью свободы.


Если статистика CMH значима, это означает, что общее отношение шансов
отклоняется от 1.
Также можно рассчитать общее отношение шансов. Эта оценка носит
название оценки Мантеля-Хензеля:
L

AC i i Ni
ORMH  i 1
L
.
B D
i 1
i i Ni

Также можно рассчитать доверительные интервалы через вариацию


логарифма отношения шансов ORMH . Вариация носит название Robins-Breslow-
Greenland (RBG) вариации. Формула достаточно объемна, но реализована во всех
пакетах, которые рассчитывают оценку Мантеля-Хензеля.
Тест гомогенной ассоциации не дает значения общего отношения шансов, он
только констатирует наличие или отсутствие гомогенной ассоциации.
Тест CMH констатирует наличие или отсутствие гомогенности отношений
шансов. Оценка Мантеля-Хензеля позволяет уточнить значение общего отношения
шансов Тест гомогенной ассоциации не является необходимым при расчете оценки
Мантеля-Хензеля.

181
Если же отношения шансов различны на уровнях конфаундера, то можно
графически проследить эти изменения в отношениях шансов. Если уровни
конфаундера упорядочены, то возможно наличие тренда, который хорошо виден
визуально.
Стратифицированный анализ таблиц 2 2 , а также и другие виды
стратифицированного анализа широко используются в мета-анализе, когда
аналогичные исследования ведутся в нескольких медицинских центрах или
лабораториях и нужна обработка таких данных. Стратами выступают центры,
лаборатории и т.п. Анализ данных от нескольких центров и выводы, сделанные на
его основании, повышают точность оценок, выявляют действительно значимые
результаты, помогают уточнять методики исследований1.

17.8. Пример анализа взаимодействия с помощью таблиц 2 x 2


Исследовалась дополнительное постоперационное лечение
(поддерживающая терапия после операции в течение 1 недели после операции).
Часть пациентов получала основное и дополнительное лечение (ОДЛ), часть –
только основное (OЛ). Неблагоприятный исход (осложнение после операции в
течение 2 месяцев) закодирован как 0, благоприятный (отсутствие осложнений) – 1,
поскольку интересует эффект от дополнительной терапии. Исследование
проводилось в нескольких центрах2. Пропорции по группам и отношение шансов в
каждом центре представлены в нижних строках таблицы.
Тест гомогенности отношения шансов (Breslow-Day) опроверг нулевую
гипотезу о равенстве отношений шансов по всем стратам (р=0,043). Это означает,
что данные негомогенны, т.е результаты лечения различны в разных центрах.
Рассчитаем общее отношение шансов (оценку Мантеля-Хензеля) ORMH  2,27 ,
95% ДИ 0,90–3,95. Поскольку интервал содержит 1, пока невозможно сказать о том,
что дополнительная послеоперционная терапия снижает риск осложнений в первые
два месяца после операции. Возможно, нужны дополнительные исследования.
Таблица 17–6. Данные примера
Центр 1 Центр 2 Центр 3 Центр 4

Исход ОДЛ OЛ всего ОДЛ OЛ всего ОДЛ OЛ всего ОДЛ OЛ всего

1 11 43 54 32 35 67 38 15 53 47 22 69

0 6 29 35 17 26 43 7 20 27 10 13 23

Всего 17 72 89 49 61 110 45 35 80 57 35 92

Пропор-
0,65 0,60 0,65 0,57 0,84 0,43 0,82 0,63
ция
OR 1,24(0,41–3,72) 1,40(0,64–3,04) 7,24 (2,54–20,64) 2,78(1,06–7,31)
(95%
ДИ)

1
О прикладном мета-анализе подробнее см. в книге Dmitrienko et al (2005).
2
Слияние данных от разных центров может привести к парадоксу Симпсона (Simpson’s paradox)- тренд в
данных отдельных групп может стать противоположным при их слиянии. Подробнее см. Agresti(2002).

182
Для того, чтобы сравнить результаты, полученные выше и результаты
логистической регрессионной модели, выполним построение логистической
регрессии на этих же данных.
Первый центр выбран как референтная группа. Введены индикаторные
переменные I 2, I3, I 4 . Модельное уравнение имеет вид:
logit π ОДЛ , I 2, I3, I 4  β 0  β 1  ОДЛ  β 2  I 2  β 3  I3  β 4 I 4 
 β 5  ОДЛ  I 2  β 6  ОДЛ  I3  β 7  ОДЛ  I 4.
Протестируем переменные модели(см. Раздел 17.9) на значимость снижения
вариации по логарифму отношения правдоподобия (Табл. 17–7).
Таблица 17–7. Тест отношения правдоподобия1
LR df Р
(тест отношения (степени свободы)
правдоподобия)
ОДЛ 12,9373 1 0,0003

Центр 2,9009 3 0,4072

ОДЛ х Центр 7,8696 3 0,0488

Как видно, центр не влияет на результаты лечения. Иначе говоря, пропорция


исходов без учета варианта лечения в разных центрах статистически не
различается. Можно рассчитать из таблицы, что пропорция благоприятных исходов
в центрах (безотносительно варианта лечения) составляет 0,60; 0,61; 0,66; 0,75.
Доверительные интервалы можно рассчитать самим и убедится в отсутствии
различий.
Есть статистически значимая разница в результатах двух методов лечения без
учета центра. Пропорция благоприятного исхода по варианту ОДЛ составляет 0,76,
по варианту ОЛ – 0,57. Однако, в мета-анализе результаты по нескольким центрам
не суммируются, поскольку различно число наблюдений, условия наблюдения и т.п.
Поэтому мы использовали модель со взаимодействием переменных.
Как видно, есть неоднородность в результатах различного лечения в
зависимости от центра. Оценим параметры регрессии ( Табл. 17–8).
Таблица 17–8. Оценка параметров модели на основе данных примера I

Параметр βˆ 
SE βˆ p
Intercept
βˆ0 0,39390 0,24029 0,1012

ОДЛ
βˆ1 0,21223 0,56153 0,7055

Центр 2
βˆ2 –0,09665 0,35323 0,7844

Центр 3
βˆ3 –0,68159 0,41762 0,1027

Центр 4
βˆ 4 0,13219 0,42440 0,7554

ОДЛ х Центр 2
βˆ5 0,12304 0,68733 0,8579

1
Обратите внимание, что в таблице первой идет предиктор, который представляет интерес для
исследования, а после – конфаундер. Это принятая практика подачи результатов.

183
ОДЛ х Центр 3
βˆ 6 1,76713 0,77534 0,0227

ОДЛ х Центр 4
βˆ7 0,80924 0,74764 0,2791

Как “прочесть” модель и что означают параметры?


β 0 – логарифм шансов благоприятного исхода в группе OЛ центра 1
( ln(0,6/(1  0,6) );
exp β 0 
– пропорция благоприятных исходов в группе OЛ центра 1 (0,6);
1  exp β 0 
exp β 0  β 2 
– пропорция благоприятных исходов в группе OЛ центра 2;
1  exp β 0  β 2 
expβ 0  β 3 
– пропорция благоприятных исходов в группе OЛ центра 3;
1  expβ 0  β 3 
expβ 0  β 4 
– пропорция благоприятных исходов в группе OЛ центра 4;
1  expβ 0  β 4 

β 1 – логарифм отношения шансов группе ОДЛ к группе OЛ центра 1;


exp β 0  β 1 
– пропорция благоприятных исходов в группе OДЛ центра 1;
1  exp β 0  β 1 
exp β 0  β 1  β 2  β 5 
– пропорция благоприятных исходов в группе OДЛ
1  exp β 0  β 1  β 2  β 5 
центра 2;
exp β 0  β 1  β 3  β 6 
– пропорция благоприятных исходов в группе OДЛ
1  exp β 0  β 1  β 3  β 6 
центра 3;
exp β 0  β 1  β 4  β 7 
– пропорция благоприятных исходов в группе OДЛ
1  exp β 0  β 1  β 4  β 7 
центра 4;
Отношение шансов при дополнительном лечении в центре 1 составляет
 
exp β 1  1,24 ; в центре 2 – exp βˆ1  βˆ5   1,40 ; в центре 3 – exp βˆ1  βˆ6   7,24 ; в центре
ˆ
4 – exp βˆ1  βˆ7   2,78 . Это соответствует нашим расчетам выше.
Как видно, разница в результатах двух типов лечения в центре 3 значимо
отличается от результатов двух типов лечения референтного центра 1.
Теперь мы немного изменим данные (Табл. 17–9), чтобы увидеть как
рассчитывается оценка Мантеля-Хензеля при гомогенности отношений шансов в
группах. (Добавлено 10 наблюдений с благоприятным исходом в группе ОДЛ центра
1).

184
Таблица 17–9. Измененные данные примера1
Центр 1 Центр 2 Центр 3 Центр 4

Исход ОДЛ OЛ всего ОДЛ OЛ всего ОДЛ OЛ всего ОДЛ OЛ всего

1 21 43 54 32 35 67 38 15 53 47 22 69

0 6 29 35 17 26 43 7 20 27 10 13 23

Всего 27 72 89 49 61 110 45 35 80 57 35 92

Пропор-
0,78 0,60 0,65 0,57 0,84 0,43 0,82 0,63
ция
OR 2,36(0,85–6,56) 1,40(0,64–3,04) 7,24 (2,54–20,64) 2,78(1,06–7,31)
(95%
ДИ)

Тест гомогенности отношения шансов (Breslow-Day) не опроверг нулевую


гипотезу о равенстве отношений шансов по всем стратам (р=0,086). Это означает,
что данные гомогенны, т.е разница в отношениях шансов результатов лечения в
группах ОДЛ и ОЛ в разных центрах неразличима.
Рассчитаем общее отношение шансов (оценку Мантеля-Хензеля) ORMH  2,55 ,
95% ДИ 1,06–4,47. Интервал не содержит 1, дополнительная послеоперционная
терапия снижает риск осложнений в первые два месяца после операции.
Выполним построение логистической регрессии на этих же данных, как
делали в предыдущем примере.
Первый центр выбран как референтная группа. Введены индикаторные
переменные I 2, I3, I 4 . Модельное уравнение имеет вид:
logit π ОДЛ , I 2, I3, I 4  β 0  β 1  ОДЛ  β 2  I 2  β 3  I3  β 4 I 4 
 β 5  ОДЛ  I 2  β 6  ОДЛ  I3  β 7  ОДЛ  I 4.
Протестируем переменные модели на значимость снижения вариации по
логарифму отношения правдоподобия (Табл. 17–10).
Таблица 17–10. Тест отношения правдоподобия
LR Df Р
(тест отношения (степени свободы)
правдоподобия)
ОДЛ 17,1872 1 <0,0001

Центр 3,0820 3 0,3792

ОДЛ х Центр 6,4196 3 0,0929

Как видим, взаимодействие незначимо ( p  0,0929), т.е. данные различных


центров имеют гомогенную ассоциацию.

1
Обратите внимание, что отношение шансов для центра 1 и центра 2 было незначимым как при исходных,
так и при измененных данных, а критерий гомогенности показал различные результаты. Критерий
гомогенности не сравнивает отношения шансов между собой. Он улавливает более тонкие изменения,
связанные с гомогенностью таблиц.

185
Рассчитаем модель без взаимодействия, учитывая вариацию, которую вносят
центры.
Таблица 17–11. Оценка параметров модели на основе измененных данных примера

Параметр βˆ SE βˆ  p
Intercept
βˆ0 0,3726 0,2192 0,089

ОДЛ
βˆ1 0,9614 0,2359 <0,001

Центр 2
βˆ2 -0,3304 0,2963 0,262

Центр 3
βˆ3 -0,2031 0,3299 0,539

Центр 4
βˆ 4 0,1839 0,3336 0,539

Общее отношение шансов при сравнении двух вариантов лечения составит


exp β 1   exp 0,9614   2,62 (1,65–4,19). Напомним, что ORMH  2,55 (95% ДИ 1,06–
ˆ
4,47).
Оценка Мантеля-Хензеля разработана авторами задолго до того, как
логистическая регрессия стала популярной, однако расчеты этой оценки мало
отличаются от результатов логистической регрессии.
В Приложении R-11 содержатся R-скрипты для расчетов, приведенных в
данном разделе как для расчета оценки Мантеля-Хензеля, так и подгонки
логистической регрессии.

17.9. Проверка предположений модели логистической


регрессии
17.9.1. Тестирование гипотез логистической регрессии

При оценке значимости линейной модели нас интересовало MSS  TSS  RSS .
Общая вариация TSS состояла из двух частей: вариация относительно линии
регресии RSS (остаточная сумма квадратов) и вариация предсказанных на
основании модели значений исхода относительного среднего значения исхода
N
RSS    yi  yˆ i  .
2
(сумма квадратов модели). Если модель не содержала
i 1

независимых переменных, а только параметр β 0 , то βˆ0  y , т.е. среднее значение


исхода. RSS в этом случае была равна общей вариации,
 
N N N
RSS    yi  yˆ i    yi  βˆ 0    yi  y   TSS . Изменения в общей вариации
2 2 2

i 1 i 1 i 1
снижались при использовании модельного уравнения, содержащего независимые
переменные. Большое снижение означало значимое влияние независимой
переменной.
Для логистической регрессии поступают аналогично – сравнивают значения
наблюдаемых и ожидаемых исходов при наличии и отсутствии изучаемого
предиктора в модели.
Оценки параметров в логистической регрессии осуществляют на основании
метода максимума функции правдоподобия, т.е. находят такие оценки параметров,
которые дают максимальное правдоподобие на имеющихся данных.

186
Совместная вероятность данных (правдоподобие (likelihood)) равна:
N
N  yi N

L   p y i  1  p   p i 1  1  p  
1 y i  N yi
i 1 ,
i 1

где p – истинная вероятность наступления события; N – количество


наблюдений; yi – принимает значение 1 – событие наступило или 0 – событие не
наступило.
На практике используют логарифм правдоподобия:
N
 N

l  ln L  ln p yi  ln1  p  N   yi  .
i 1  i 1 
Оценка π̂ максимального правдоподобия (MLE, maximum likelihood estimation)
параметра p проводится таким образом, чтобы логарифм правдоподобия l был
1 N
максимален: πˆ   yi .
N i1
С учетом оценок параметров рассчитывают статистику
N
D  2  yi lnπˆ xi   1  yi ln1 πˆ xi  .
i 1

Статистика D называется во многих источниках девиацией (deviance) и


играет ту же роль для логистической регрессии, что и RSS для линейной регрессии.
Девиация связана с функцией правдоподобия как D  2lnL .
Тест отношения правдоподобия (likelihood ratio test, LR test) сравнивает
отношение правдоподобия двух моделей. Оценка отношения правдоподобия
трансформируется в оценку разности двух девиаций.
Пусть для одной модели (на одних и тех же данных) рассчитана девиация D1 ,
для второй модели D2 .
Обозначим:
L1  lnL модель без переменной,
L2  lnL модель с переменной .
Известно, что G  2L1  L2  .
Статистика теста G  2lnL1  L2   D1  D2  подчиняется χ 2 распределению со
степенями свободы, равным разности в количестве переменных в моделях (с учетом
представления мультиноминальной переменной набором индикаторных
переменных).
Расчет логарифма правдоподобия и тест отношения правдоподобия –
стандартные расчеты для всех пакетов, которые могут работать с логистической
регрессией. В некоторых пакетах рассчитывается девиация D , в других – логарифм
отношения правдоподобия L . Тест рассчитывается одинаково.
Ремарка: Правдоподобие моделей, построенных на разных наборах данных, не сравнивается.
Кроме теста отношения правдоподобия используются тест Вальда,
оценочный тест (Score test). Геометрическая интерпретация этих тестов приведена
на рис. 17–1. Функция логарифма правдоподобия вогнута (перевернутая чаша) для
моделей биноминальной логистической регрессии и некоторых других. Метод
максимального правдоподобия для β находит точку βˆ , где функция логарифма
правдоподобия максимальна. Тест отношения правдоподобия сравнивает значения

187
логарифмов L1  L βˆ  и L0  L0 . Тест Вальда оценивает поведение функции
2
 βˆ 
логарифма правдоподобия около точки βˆ в форме   . Чем больше кривизна, тем
 SE 
 
меньше стандартная ошибка, соответственно значение статистики Вальда больше.
Оценочный тест проводит касательную к кривой в точке β  0 . Чем больше наклон
касательной, тем дальше βˆ отстоит от нуля. Все три теста используют
χ 2 распределение для оценки значимости отклонений. Для малых выборок тест
отношения правдоподобия более надежен.
Этими тестами можно проверять различные гипотезы, как о значимости
отдельного предиктора, так и нескольких или всех предикторов, входящих в модель.

Lβ 

L1

L0

0
β̂

Рис. 17–1. Геометрическая интерпретация различных тестов


Кроме вышеназванных тестов для сравнения моделей используется
информационный критерий Акаике ( AIC критерий), который штрафует за
использование излишнего количества параметров модели.
AIC рассчитывается как AIC  2ln L  2 p , где p – количество параметров
модели. Часто применяется для выбора оптимального числа параметров в моделях.

17.9.2. Диагностика логистической регрессии

Бинарная природа переменной исхода в логистической регрессии отличается


от количественного исхода линейной регрессии. Распределение остатков модели
также отличается от линейной регрессии.
Техника диагностики влияющих значений похожа в определении и
интерпретации на аналогичные диагностики в линейной регрессии.
В линейной регрессии используются стандартизированные остатки для
проверки предположения о линейности в отношении количественного предиктора.
Аналогично, в логистической регрессии используются остатки,
стандартизированные по Пирсону (standardized Pearson residuals). Однако
некоторые графики, основанные на наблюдаемых значениях исхода, сложнее для
восприятия, поскольку исход равен или 0 или 1.
Визуализация зависит от того, используются ли количественные или
бинарные переменные в модели. Часто используются графики, в которых по оси х
откладывается номер наблюдения, а по y – остатки какого-либо типа.

188
Аналогично, можно рассчитать удаленные остатки (deleted residual),
девиацию каждого наблюдения и др. Также доступна статистика DFBETAs по
каждому предиктору.
Существуют несколько тестов, которые определяют согласие (goodness of fit)
построенной модели с имеющимися данными: тест le Cessie-van Houwelingen-Copas-
Hosmer, Hosmer-Lemeshow тест и др. Поскольку это критерии согласия, то нулевая
гипотеза о том, что данные согласуются с моделью остается верной, если уровень
pα.
Различные пакеты предоставляют различный набор диагностических
средств: графиков и тестов. Поэтому необходимо ознакомится с руководством по
конкретному пакету для выполнения соответствующих действий.

17.9.3. Предположения о линейности количественных переменных в


логистической регрессии

Вопрос линейности для количественных переменных решается несколькими


способами. Один достаточно простой способ приведен ниже.
Количественная переменная разбивается на несколько интервалов – групп.
Обычно используют квартили (т.е. разбиение упорядоченного выборочного набора
на 4 равные части), или разбиение происходит в соответствии с медико-
биологической интерпретацией количественной переменной. В зависимости от
количества наблюдений интервалов может быть и больше. Новая переменная –
упорядоченная мультиноминальная переменная, представленная несколькими
индикаторными переменными. Строится вспомогательная логистическая регрессия
на основе на основе индикаторных переменных. Строится график, по оси x
откладываются середины интервалов разбиения (медианы или среднее значение
интервала), по оси y – значения коэффициентов логистической регрессии
соответствующей категории. Для референтной категории коэффициент равен 0.
Через точки проводится линия. По графику определяется вид кривой. Если она
нелинейна, определяется или ее трансформация, или решение о разбиении
количественной переменной на интервалы или некоторое другое решение.

17.9.4. Пример анализа линейности количественной переменной

Гистограмма возраста пациентов в некотором исследовании эффективности


лечения исследовании приведена на рис. 17–2.

Рис. 17–2. Пример распределения возраста в выборке исследования


Количественная переменная возраст была разбита на 4 интервала согласно
квартилям 0–25, 26–50, 51–75, 76–100. Соответственно возраст : 25–52, 53–62, 63–68,
69–75.

189
Для того, чтобы не давать объемные исходные данные, ниже в табл.17-12
приведены результаты разбиения на 4 группы.
Таблица 17–12. Данные примера

Исход Возраст Возраст Возраст Возраст


25–52 53–62 63–68 69–75
0 23 27 43 35
1 69 53 67 54
Средний возраст 45,40 58,19 65,58 71,76
Коэффициенты во
вспомогательной 0 0,090 0,135 0,123
модели

Рассчитан средний возраст в каждой категории. После чего была построена


модель с 4 категориями, одна из которых (более младший возраст) был принят за
референтную категорию. Получены 3 коэффициента регрессии. Для младшей
категории коэффициент равен 0 (Таблица 17–12). Построен график (рис. 17–3).
Фактически такую проверку можно осуществить и без использования
вспомогательной логистической регрессии. В каждой возрастной категории может
быть рассчитана пропорция бинарных исходов. Рассчитав пропорции, и логарифмы
отношения шансов в каждой категории относительно референтной, можно
построить график.
График покажет изменения логарифма отношения шансов относительно
референтной категории (как с использованием, так и без использования
вспомогательной логистической регрессии).

0,160
0,140
0,120
0,100
 0,080
0,060
0,040
0,020
0,000
20 30 40 50 60 70 80
Возраст

Рис. 17–3. График зависимости параметра от возраста


Как видно, последняя категория опровергает предположение о линейности. В
данном случае, мы приняли решение о том, что трансформация переменной возраст
нецелесообразна, необходимо объединить 3 и 4 категории и представлять возраст
тремя упорядоченными категориями в логистической регрессии (см. рис 17–4). Если
бы изгиб был в середине графика , решение бы было иным.

190
0,140
0,120
0,100
0,080

0,060
0,040
0,020
0,000
0 10 20 30 40 50 60 70 80
Возраст

Рис. 17–4. График зависимости параметра от возраста после объединения двух категорий
Каждый раз, анализируя конкретную переменную, надо учитывать ее медико-
биологический смысл, ее релевантность конкретному исследованию,
целесообразность ее трансформации или разбиения.
Есть и более сложные алгоритмы анализа линейности связи бинарного исхода
и количественной переменной, но они выходят за рамки данного пособия.

17.10. Вычислительные проблемы


Источник вычислительных проблем в логистической регрессии – наличие
пустых (нулевых) ячеек в таблице, связанных предиктором, коллинеарность
переменных, или так называемое полное разделение (complete or quasi-complete
separation). Внешнее проявление этого – огромная оценка параметра и огромная
стандартная ошибка. Причем предиктор остается значимым в исследовании, т.е.
вносит вклад в снижение изменчивости исхода.
Есть несколько советов, которые дают известные статистические центры
(например, SAS).
• В случае полного разделения, убедитесь, что мы не используем бинарное
представление переменной исхода, которая изначально является количественной. В
этом случае лучше попытаться использовать другие виды регрессии.
• Если это квази-полное разделение, самая простая стратегия “ничего не
делать”. Максимальное правдоподобие для других предикторов остается в силе.
Недостатком является то, что мы не получаем никакой разумной оценки для
переменной, которая фактически эффективно предсказывает исход. Эта стратегия
не работает в ситуации полного разделения.
• Еще одна простая стратегия – исключить проблемный предиктор из модели.
Однако это приводит к смещенным оценкам для других предикторов в модели.
Таким образом, это не рекомендуемая стратегия.
• Возможно, мы могли бы объединить некоторые категории проблемного
предиктора, если он мультиноминальная переменная и если есть основания для
такого объединения.
• Точные методы расчета являются хорошей стратегией, когда набор данных
невелик и модель не очень большая. Расчет таких моделей осуществляется
специальными пакетами программ, и может занимать от нескольких минут, до
нескольких часов и даже дней, в зависимости от размеров выборки и количества
предикторов.

191
• Логистичекая регрессия с использованием штрафной функции, чаще всего
используется смещение Ферта (Firth's bias reduction), – еще одна хорошая стратегия.
Использование смещения Ферта считается одним из идеальных решений при
полном разделении в логистической регрессии.
• Последний подход, если в модели используются только биноминальные
предикторы и только один из них представляет интерес, а остальные выступают в
роли конфаундеров – считать отношение шансов по Кокрейну-Мантелю-Хензелю,
переводя все остальные переменные в страты.

17.11. Замечания по использованию логистической регрессии


Логистическая регрессия может использоваться для классификации на два
класса (состояния), соответственно, может определяться чувствительность и
специфичность. В этом случае анализируется таблица 2 2 наблюдаемых и
ожидаемых (предсказанных по модели) исходов.
На основе результатов моделирования (оценки параметров уравнения
регрессии) рассчитывается значение правой части модельного уравнения
 π x   ˆ exp βˆ0  βˆ1 x 1  βˆ2 x 2   
log    β 0  βˆ1 x 1  βˆ 2 x 2   , откуда πˆ x   ,
 1  π x   1  exp βˆ0  βˆ1 x 1  βˆ2 x 2   
0  πˆ x   1 . Наблюдения должны быть отнесены к одной из двух групп 0 или 1.
Ожидаемое (предсказанное) значение πˆ x  для конкретного наблюдения будет либо
πˆ x   0,5 (ожидаемая группа классификации соответствует коду 0) либо πˆ x   0,5
(ожидаемая группа классификации соответствует коду 1). Таким образом, можно
сравнить имеющуюся классификацию групп и ожидаемую, т.е. полученную на
основе модельного уравнения.
Таблица 2 2 может быть составлена на основе наблюдаемых и ожидаемых
классификаций (Tабл. 17–13).
Таблица 17–13. Таблица 2 2 для классификационной модели
Ожидаемая группа (классификация по
модели)
1 0
Наблюдаемая 1 A B A+B
группа
(классификация 0 C D C+D
в выборке)
A+C B+D N

По такой таблице можно рассчитать чувствительность и специфичность


построенной модели (см. раздел 11).
В случае одной количественной переменной логистическая регрессия может
работать как ROC-анализ, и определять оптимальную точку разбиения x̂ значений

количественной переменной. Из уравнения 0,5 


exp βˆ 0  βˆ 1 x  
1  exp βˆ  βˆ x 
, можно найти
0 1 1 
βˆ 0
xˆ   как точку разбиения количественной переменной в ROC-анализе.
βˆ1
Если предикторы представлены только бинарными переменными, то в
правой части уравнения получится конечный набор состояний вектора предикторов
(комбинаций 0 и 1). Такой представление ведет ко многовходовым таблицам 2 2 ,

192
которые анализируются с помощью анализа категорий не менее эффективно, чем
регрессионный подход с использованием логистической регрессии.
Различные статистические пакеты определяют различные характеристики
модели, поэтому лучше консультироваться со специалистом по использованию
конкретного пакета для построения и использования логистической регрессии.
Также внимательно читайте разделы помощи, там описаны те характеристики
данных и модели, которые может рассчитывать пакет.
Не увлекайтесь логистической регрессией, она достаточно сложна в
обращении, иногда требует дополнительной коррекции (penalty function), не всегда
обладает хорошей чувствительностью и специфичностью, хотя модель может быть
значима и т.п.
Есть еще одно правило, касающееся количества предикторов и количества
оцениваемых параметров. Каждый оцениваемый параметр “весит” 8–10 наблюдений
с интересующим исследователя исходом. Это означает, что если у вас есть 100
наблюдений, но исследуемый исход наблюдался только в 10 случаях, вы можете
использовать только одну переменную. Если это количественный предиктор, то вы
можете его использовать; но использовать мультиноминальную переменную с 5
категориями в качестве предиктора – неправильно. В терминах двухвходовых
таблиц 2  c вы получите много пустых ячеек (empty cells). В случае 60 наблюдений,
из которых 30 наблюдений имеют исследуемый исход, вы можете использовать до
3–4 количественных предикторов, или 3–4 биноминальных, или один
мультиноминальный с 3–4 категориями. Если же количество интересующих исходов
составляют большую половину от всех наблюдений, то ориентироваться надо на
количество N  n1  – объем выборки за минусом интересующих исходов. Иными
словами, выбирается наименьшая пропорция из двух (исход в логистической
регрессии либо 0, либо 1, соответственно, можно рассчитать пропорцию количества
0 и количества 1 в выборке), и количество наблюдений в числителе этой пропорции
определяет количество возможных предикторов модели.

Основные аспекты
Прежде чем строить модель логистической регрессии, убедитесь, что она
действительно необходима.
Анализ таблиц сопряженности для исхода и номинальных предикторов
полностью аналогичен логистической регрессии.
Логистическая регрессия с одним количественным предиктором – это аналог
ROC-анализа.
Логистическая регрессия с одним бинарным предиктором – это аналог
анализа таблиц 2 2 .
Логистическая регрессия с одним мультиноминальным предиктором – это
аналог анализа таблиц 2  c .
Логистическая регрессия специфично исследует исход при различных типах
дизайна исследования.
Количество оцениваемых параметров сопоставляется с количеством
наблюдений не всей выборки, а количеством наблюдений в наименьшей из
пропорций исходов.

193
18. Анализ выживаемости
Анализ выживаемости – это отдельный раздел статистических исследований,
главной особенностью которых является исход, наблюдаемый во времени (time-to-
event).
Данные выживаемости – это расширение данных о событиях, которое
учитывают время до наступления события или время до окончания наблюдения,
даже если событие не произошло к окончанию наблюдения. В рамках конкретного
исследования событие может наступить через период времени t , а может и не
наступить до конца наблюдения.
Поэтому особенность анализа выживаемости – наличие так называемых
“цензурированных данных”.
Поскольку в данных о времени до наступления события присутствуют
цензурированные данные, мы не можем анализировать количественный исход, как
это делалось в линейной регрессии. Данные также содержат сведения о событиях, но
мы не можем анализировать их с помощью логистической регрессии, поскольку
время наблюдения для каждого случая различно. В качестве исхода в анализе
выживаемости рассматривается время до наступления события или время
наблюдения и исход, который наступил или не наступил к указанному времени.

18.1. Понятие цензурированных данных, событий и времен


наблюдения
Основное отличие данных выживаемости – это наличие времени наблюдения
связанное с наступлением некоторого события (событие не наступило к указанному
времени/ follow-up time или событие наступило в определенное время/ time-to-
event).
Хотя в исследовании время начала наблюдения фактически может быть
разным (рис. 18–1), формально все данные корректируются к одному моменту
начала наблюдения, как показано на рис. 18–2. Обратите внимание, что у пациента 4
на рис. 18–1 имелось событие, но оно выходило за рамки продолжительности
исследования, и он “потерян из под наблюдения” (lost follow-up) на рис. 18–2.
Согласно базовым понятиям анализа выживаемости теоретически
интересующее исследователя событие рано или поздно наступит у каждого
наблюдаемого.
Данные, в которых событие произошло за время наблюдения, называются
полными наблюдениями (complete observations); данные в которых событие не
наступило, называются цензурированными наблюдениями (censored observations).
Что считается событием (event, failure)? Изменение состояния, связанное с
изучаемым заболеванием: смерть от изучаемого заболевания, инвалидизация
вследствие изучаемого заболевания, ремиссия изучаемого заболевания, рецидив
изучаемого заболевания, наступление сопутствующего заболевания и др.

194
Н6

Н5

Н4 С

Н3 С

Н2 С

Н1

Начало время, t Конец


исследования исследования

Н Начало наблюдения, номер пациента

С Наступление события
Выбытие из под наблюдения без события

Рис.18–1. Наблюдения в исследовании с течением времени

Н6

Н5

Н4

Н3 С

Н2 С

Н1

Начало время, t
наблюдения

Рис.18–2. Наблюдения в исследовании, приведенные к единому началу наблюдений

195
Цензурирование может произойти в нескольких случаях:
пациент потерян из-под наблюдения в силу некоторых обстоятельств:
переехал, отказался участвовать в исследовании и пр. В этом случае конечным
временем выставляется дата последнего контакта с пациентом;
пациент выбыл из исследования в связи с наступлением другого события,
которое делает невозможным его дальнейшее участие в исследовании, например,
смерть от заболевания, которое не изучается в исследовании (гибель в
автомобильной аварии пациента, который принимал участие в исследовании
возникновения сопутствующих заболеваний сахарного диабета);
пациент выбыл по причине окончания сроков исследования.
Обычно, дизайн таких исследований – когортное исследование.
Необходимо очень внимательно подходить к определению момента начала
наблюдения и момента окончания наблюдения, поскольку они могут не совпадать
со сроками начала и конца исследования.
Также очень точно нужно определять, что именно является событием в вашем
исследовании и от какого момента исследования начинает отсчет времени
наблюдения.
Пример: изучается когорта пациентов, у которых установлен диагноз –
лимфобластный лейкоз. Изучаемые исходы – рецидивы , причинно-специфическая и
общая выживаемость. Расчет времен наблюдений будет различен. Для общей
выживаемости время до наступления события будет определяться с момента
постановки диагноза до момента летального исхода по любой причине. Для
причинно-специфической выживаемости время будет отсчитываться от момента
постановки диагноза до момента смерти по причине (или вследствие) лейкоза. Для
рецидивов началом отсчета будет считаться момент наступления ремиссии
пациента, окончание – момент обнаружения рецидива заболевания. И вероятность
наступления рецидива в такой когорте будет рассчитываться с учетом того, что у
некоторой части наблюдаемых ремиссия не была зафиксирована. Если бы изучалось
лечение солидной опухоли с оперативным вмешательством, момент начала отсчета
времени для безрецидивной выживаемости совпадал бы с моментом оперативного
вмешательства.

18.2. Функция выживаемости


Формально, время наблюдения называется цензурированным справа к
моменту времени t , если известно только, что оно больше, чем t . Т.е. если пациент
включен в исследование и последний контакт состоялся спустя 1 месяц после начала
исследования, при этом было выяснено, что для этого пациента изучаемое событие
не состоялось, то мы точно знаем, что пациент наблюдался не менее 1 месяца без
наступления события. Для пациента однако сохраняется вероятность наступления
события в следующие моменты времени. В анализе выживаемости эта вероятность
зависит от времени и называется кумулятивной инцидентной функцией (cumulative
incidence function) в момент времени t , обозначается F t  – вероятность того, что
событие случится в момент времени t , или, что эквивалентно, что время дожития до
события меньше или равно t .
Функция инцидентности напрямую не изучается, изучается функция
выживаемости или дожития (survival function) в момент времени t , S t  , которая
связана с F (t ) как F t  1  S t  . S t  – это вероятность того, что событие не

196
наступило до момента времени t , иначе говоря, вероятность того, что время
наступления события больше чем t .
Понятно, что со временем F (t ) не убывает, а S (t ) – не возрастает.
Как рассчитать вероятность S (t )? Есть несколько методик расчета. Одна из
наиболее распространенных – таблицы дожития (Life table).
Принимается, что в момент начала наблюдений S 0  1 .
Пример расчета приведен в табл.18–1. Единицей измерений интервала могут
выступать час, сутки, неделя, год и т.п. Шаг интервала постоянен и может быть
кратен единице измерения. В примере – это 5 месяцев. График зависимости S (t ) от
времени приведен на рис. 18–3.
Таблица 18–1. Пример расчета таблицы дожития
Количество наблюдений на начало

Среднее число наблюдаемых за


Количество событий в течение
Количество выбывших из под
наблюдения без события
Начало интервала, мес

Конец интервала, мес


Номер интервала

периода

периода

Пропорция
период

выживших за S (t ) на начало интервала


период

ni*  pi 
ti t i 1 ni mi di Sˆ t i   Sˆ t i 1  pi 1
 ni  mi 2  1  di ni*
1 0 5 395 4 5 393 0,9873 Sˆ 0  1
Sˆ 5  1  0,9873 
2 5 10 386 12 11 380 0,9711
 0,9873
S 10  0,9873  0,9711 
3 10 15 363 23 12 351,5 0,9659
 0,9873
4 15 20 328 16 19 320 0,9406 0,9260
5 20 25 293 8 14 289 0,9516 0,8710
6 25 30 271 14 10 264 0,9621 0,8288
7 30 35 247 7 10 243,5 0,9589 0,7974
8 35 40 230 12 22 224 0,9018 0,7647
9 40 45 196 13 9 189,5 0,9525 0,6896
10 45 50 174 15 12 166,5 0,9279 0,6568
11 50 55 147 18 3 138 0,9783 0,6095
12 55 60 126 6 6 123 0,9512 0,5962
13 60 65 114 6 4 111,0 0,9640 0,5671

197
Рис.18–3. График зависимости S t  от времени на основе таблицы дожития
Каплан и Майер предложили рассчитывать оценку функции выживаемости
nt   di
как Ŝ t    i , где t i – момент наступления события в наблюдаемой выборке,
t i t nt i 
nt i  – количество наблюдаемых на момент времени t i (т.е. исключают выбывших
до момента t i ) , di – количество событий в момент времени t i , S t   1 , если t  t 1 .
Т.е. функция рассчитывается в моменты времени, когда наступает событие,
считается, что она не изменяется, когда событий не происходит, в начале
наблюдений, когда t  0 , S t   1 . Пример графика функции выживаемости с оценкой
Каплана-Майера (Kaplan–Meier estimator) приведен на рис. 18–4.

Рис.18–4. График зависимости S t  от времени на основе оценки Каплан-Майера


Вариацию оценки Каплан-Майера рассчитывают по формуле Гринвуда:
 
Vˆar Sˆ t   Sˆ t  
2 di
;
t i t nt i nt i   di 

стандартную ошибку рассчитывают как

 
SE  Vˆar Sˆ t   Sˆ t 
di
 nt nt   d  .
t i t i i i

Формула Гринвуда не единственная, есть и другие приблизительные


формулы расчета вариации.
Доверительные интервалы приблизительно рассчитывают по формуле:

198
 
Sˆ t L  Sˆ t   z γ  Vˆar Sˆ t  ,

Sˆ t U  Sˆ t   z γ  Vˆar Sˆ t 

где zγ – значение γ -квантиля нормального распределения, γ  1  α для


2
двустороннего интервала, т.е. для α  0,05 γ  0,975 .
Необходимо заметить, что и оценку Каплан-Майера и доверительные
интервалы для такой оценки рассчитывают только в момент наступления события.
Ремарка: Если ранее в наших статистических исследованиях мы исследовали случайные величины, то
в анализе выживаемости мы исследуем случайный процесс, который зависит от времени.
Также одной из базовых характеристик выживаемости является медиана
выживаемости – момент времени, в котором Sˆ t   0,5 . Поскольку S t 
рассчитывается только для моментов времени, в которых происходит событие,
оценка медианной выживаемости основывается на интервале, который включает в
себя значение Sˆ t   0,5 .
В каком случае используются оценка выживаемости, а в каком – медиана
выживаемости? Оценка выживаемости приводится на определенный срок,
например, год, три года, пять лет и т.п. Перед тем, как оценить выживаемость, нужно
убедится, что к этому сроку (год, три года, пять лет и т.п.) бóльшая половина
наблюдений состоялась, т.е. более 50% пациентов наблюдалось не менее этого
срока. Иначе информация о выживаемости на данный срок будет искаженной, т.е.
мы еще не знаем, что произойдет с большинством пациентов в будущем. С другой
стороны, если события происходят очень интенсивно, то к выбранному сроку
выживаемость может составить очень малую величину по причине событий у
большинства наблюдаемых. В последнем случае имеет смысл рассчитать медиану
выживаемости – срок, к которому оценка выживаемости составит 0,5.

18.3. Сравнение групп по выживаемости


В анализе выживаемости между собой сравниваются функции выживаемости,
т.е. если брать графическое представление, это сравнение двух или нескольких
кривых. Нулевая гипотеза гласит, что распределение выживаемости в группах
одинаково для всех времен наблюдений. Альтернативная гипотеза утверждает, что
оно различно.
Существует несколько тестов, которые основаны на разности наблюдаемых и
ожидаемых событий в моменты времени, которая потом суммируется. Все эти тесты
принадлежат классу логранговых, все они используют разность ожидаемых и
наблюдаемых частот (как в критерии Пирсона), но отличаются способом
определения весов при суммировании разностей. Принцип построения таких тестов
приведен в разделе 12 при анализе биноминальных выборок.
w d  e 
Статистика рассчитывается как χ k21   , где d – количество событий
e
в определенной категории (интервале) для каждой из групп, e – ожидаемое
количество событий в интервале для каждой из групп, w – весовой коэффициент
(табл.18–2), N – количество наблюдений в интервале, k – количество групп1.
Таблица 18–2. Весовые коэффициенты для различных тестов

1
Фактически тестовая статистика рассчитывается на основе функции риска (см. раздел 18.4.).

199
Тест весовой коэффициент
Логранговый w 1
Gehan-Breslow wN
(обобщенный тест
Wilcoxon)
Tarone-Ware w N
Peto-Peto (Peto-Peto- w  Sˆ t 
Prentice)
Модифицированный N
Peto-Peto w  Sˆ t 
N 1
Если бы не было времен наблюдений, то эти тесты были бы аналогичны
тестам Манна-Уитни (для двух выборок), тесту Краскела-Уоллиса (для нескольких
выборок), тесту Мантеля-Хензеля и т.п. Но если мы сравним пропорции выживших
только в один момент времени, можем получить результат, который
свидетельствует об отсутствии различий (см. рис. 18–5). На рисунке можно увидеть
различия в двух группах в 20, 40, 60 месяцев, однако после 80 месяцев различия
исчезают. Логранговый тест, благодаря суммированию различий в моменты
наступления событий, “накапливает” суммарное различие на протяжении всего
времени наблюдения.

Рис.18–5. Кривые дожития в двух группах


Часто в публикациях упоминается логранговый тест без уточнения метода
расчета весовых коэффициентов при разностях ожидаемых и наблюдаемых частот. В
любом случае, если вы сравниваете группы, то лучше иметь не только расчетные
значения тестов, но и графическое представление кривых выживаемости.
Безусловно, не надо использовать все тесты в каждом исследовании, равно как и не
стоит останавливаться только на одном. Выбор диктуется гипотезой, которая
сделана до изучения кривых выживаемости. В частности, если нет предположений о
распределении, лежащем в основе функции выживаемости, лучше использовать
классический расчет логрангового теста без модификаций, особенно, если
количество цензурированных наблюдений велико.

18.4. Понятие функции риска


Функция риска (hazard function или hazard rate) связана с понятиями функции
выживаемости S t  и кумулятивной инцидентной функцией F (t ) . Обозначается как

200
ht  , измеряется как количество случаев на один объект наблюдения в единицу
времени, ht  является аналогом моментальной скорости наступления событий в
единицу времени.
Чтобы не давать точного математического описания взаимосвязи этих
величин, рассмотрим пример.
Предположим, случайное событие наступает 1 раз в 100 лет. Разобьем весь
наш интервал наблюдения в 100 лет на k равных интервалов, например 1 год.
Вероятность того, что событие не наступит через год после начала т.е.
1
выживаемость S 1  1   0,99 .
100
Кумулятивная вероятность того, что событие не наступит через два года
равна вероятности того, что событие не наступило в первый год, умноженная на
вероятность не наступления события во второй год: S 2  S 1 1  0,01   1  0,01  .
2

Для k -го года наблюдений кумулятивная вероятность выживания составит


S k   1  0,01  , для ста лет S 100   1  0,01  . В Табл. 18–3 приведены расчеты для
k 100

различного числа лет. Как видно, кумулятивная вероятность наступления события


через 100 лет составит 63%.
Таблица 18–3. Расчет кумулятивной вероятности во времени
k S k  F k 
1 0,99 0,01
2 0,9801 0,0199
10 0,9044 0,0956
50 0,6050 0,3950
100 0,3660 0,6340

Теперь предположим, у нас есть некоторый промежуток времени наблюдения


0,t  и постоянная функция риска h . Для вычисления кумулятивной вероятности
события мы разобьем этот промежуток на большое число интервалов k .
Вероятность выживания в конце промежутка наблюдения составит
k
 t 0
S t    1  h  . При k   осуществляется предельный переход и известно из
 k 
математического анализа, что предельный переход дает функцию S t   exp ht  .
Кумулятивная инцидентная функция будет определяться как F t   1  exp ht .
Однако, функция риска может сама изменяться от времени. Обычно ее
обозначают ht  . Предположим, у нас есть две группы пациентов, которых мы
наблюдаем во времени: группа экспериментального лечения и группа
традиционного лечения.
h t 
Отношение рисков (hazard ratio) в двух группах HR t   1 . По отношению
h2 t 
рисков можно судить об эффекте воздействия экспериментального лечения по
сравнению с традиционным или значимости фактора риска. Если отношение
меньше единицы, то экспериментальное лечение возможно снижает риск
наступления неблагоприятного события в группе 1 по сравнению с группой 2.
Также, если мы говорим о некотором воздействии неблагоприятного фактора, то

201
если отношение рисков более 1, то есть основания говорить о неблагоприятном
факторе (воздействии) в группе 1,
Статистическая задача – доказать, что это отношение значимо (т.е
доверительный интервал не включает единицу, поскольку рассматриваем
отношение). Теория оценивания отношения риска такова, что нам не обязательно
знать сами функции риска групп и их изменение во времени.
Предположение, которое лежит в основе многих тестов и моделей – это
предположение о пропорциональности функций риска (proportional hazard
assumption), т.е., что HRt   HR  const . Тогда мы можем говорить о том, что
некоторая группа на всем протяжении времени исследования имеет более высокий
(низкий) риск, чем другая.

18.5. Регрессионная модель пропорциональных рисков Кокса


В уравнении линейной регрессии E  y | x   β 0  β 1 x1  β 2 x2    β p x p
предполагалось, что предикторы связаны со средним исхода напрямую, в
 π x  
логистической регрессии log    β 0  β 1 x 1  β 2 x 2    β p x p предполагалось,
 1  π x  
что предикторы связаны с условной вероятностью исхода π x   E  y | x  логит-
преобразованием. В модели пропорциональных рисков Кокса линейная комбинация
предикторов связана с отношением рисков через логарифмическое преобразование:
ht | x 
logHR x   log  β 1 x1  β 2 x2    β p x p ,
h0 t 
где ht | x  – функция риска в момент времени t для наблюдения с набором
значений ковариат-предикторов x , h0 t  – базовая функция риска во времени, при
условии, что значения всех предикторов равны нулю.
Решая уравнение относительно ht | x  , получим:
ht | x   h0 t exp β 1 x 1  β 2 x 2    β p x p   h0 t HR x  .
Это уравнение описывает мультипликативную модель в том смысле, что
эффект предикторов умножается на базовую функцию риска. В линейной модели мы
имели аддитивный эффект предикторов: при изменении x k на единицу шкалы
измерения предиктора x k , y имеет изменение на β k единиц шкалы исхода y . В
модели Кокса эффект мультипликативен: базовая функция риска умножается на
эффект от предикторов.
Экспоненциальное преобразование линейной комбинации предикторов
всегда положительно. Если выражение логарифмировать, то получим:

log ht | x   log h0 t   β 1 x 1  β 2 x 2    β p x p ,


log h0 t  играет роль β 0 – пересечения для уравнения линейной регрессии.
Подобно β 0 в логистической регрессии, h0 t  не используется в интерпретации
результатов, только для "центрирования" линейной комбинации предикторов.
Основное предположение модели пропорциональных рисков Кокса – связь
между отношением рисков и предикторами логлинейна, отношение рисков
пропорционально на всем времени наблюдения и не зависит от времени.
Ремарка: Регрессия Кокса моделирует функцию риска, а не выживаемость.

202
18.6. Регрессия Кокса с бинарным предиктором
Пусть предиктором является биноминальная переменная x со значениями 0
и 1. Запишем функцию риска ht | x   h0 t exp β 1 x  .
При x  1 , ht | x  1  h0 t expβ 1  ;
при x  0 , ht | x  0  h0 t expβ 1  0  h0 t  .
ht | x  1 h0 t expβ 1 
Отношение рисков HR t     expβ 1  . Т.е. отношение
ht | x  0 h0 t 
рисков изменяется в expβ 1  раз, если в модели учитывается бинарная переменная
(например, 2 группы лечения, пол и пр.).
Если значимо β 1  0 , expβ 1   1 , мы наблюдаем увеличение риска в expβ 1 
раз при сравнении двух групп, бинарная переменная увеличивает риск исхода,
снижает выживаемость.
Если значимо β 1  0 , 0  expβ 1   1 , т.е мы наблюдаем уменьшение риска в
expβ 1  раз при сравнении двух групп, бинарная переменная снижает риск исхода,
увеличивает выживаемость.
Ремарка: Используя термин "риск" в данном контексте, мы подразумеваем, что речь
не идет о кумулятивном риске за весь период наблюдения, а именно о функции ht  .
Для проверки значимости параметра β 1 тестируется нулевая гипотеза,
которая гласит, что H0 : β 1  0 , т.е. риски равны в обеих группах. Если β 1  0 ,
expβ 1   1 , мы наблюдаем равенство рисков при сравнении двух групп, что означает
– бинарная переменная не влияет на выживаемость. Эта модель аналогична
логранговому тесту, который сравнивает выживаемость в двух группах.
Если в модели линейной регрессии мы могли предсказать значение исхода по
значениям предиктора непосредственно из уравнения линейной регрессии, в
логистической регрессии мы преобразовывали линейную комбинацию предикторов
для получения предсказанной вероятности наступления события. Для того, чтобы
получить ожидаемую (прогнозируемую) функцию выживаемости на основе модели
Кокса, нужны более сложные преобразования и расчеты, которые учитывают не
только полученные параметры модели, но также все наблюдения в исследуемой
когорте. Т.е. на основании модели можно оценить отношение рисков, базовая
функция выживаемости строится на основании имеющихся данных в исследуемой
когорте, и уже потом модифицируется с учетом рисков, привносимых предикторами.

18.7. Регрессия Кокса с количественным предиктором


Пусть предиктором является количественная переменная x . Запишем
функцию риска ht | x   h0 t exp β 1 x  .
При x  x1 , ht | x  x1   h0 t expβ 1 x1  ;
при x  x1  1 ,
ht | x  x1  1  h0 t exp β 1  x1  1 
 h0 t exp β 1 x1  β 1   h0 t exp β 1 x1 exp β 1 .
ht | x  x 1  1 h0 t exp β 1 x 1 exp β 1 
Отношение рисков HR t     exp β 1  ,
ht | x  x 1  h0 t exp β 1 x 1 
logHRt   β 1 .

203
Отношение рисков изменяется в expβ 1  раз, если переменная x
увеличивается на 1.
Если значимо β 1  0 , expβ 1   1 , мы наблюдаем увеличение риска в expβ 1 
раз при увеличении количественной переменной на единицу шкалы ее измерения,
переменная увеличивает риск исхода, снижает выживаемость.
Если значимо β 1  0 , 0  expβ 1   1 , мы наблюдаем уменьшение риска в
expβ 1  раз при увеличении количественной переменной на единицу шкалы ее
измерения, переменная снижает риск исхода, увеличивает выживаемость.
Для проверки значимости параметра β 1 тестируется нулевая гипотеза,
которая гласит, что H0 : β 1  0 , т.е. риски равны при изменениях количественной
переменной. Если β 1  0 , expβ 1   1 , т.е мы не наблюдаем изменений в риске т.е.
количественная переменная не влияет на выживаемость.

18.8. Взаимодействие предикторов в модели Кокса


Взаимодействие двух предикторов порождает модель:
log ht | x   log h0 t   β 1 x1  β 2 x2  β 3 x1 x2 .
Как и в других моделях, отсутствие взаимодействия двух предикторов
(влияние конфаундера на пару предиктор-исход) проверяется тестированием
гипотезы H0 : β 3  0 .

18.9. Проверка предположений модели регрессии Кокса


В основе модели регрессии Кокса лежит два предположения: логлинейности и
пропорциональности рисков (log-linearity and proportional hazards).
Предположим, у нас есть две группы, для которых мы рассчитали S 1 t  и
S 2 t  . Если предположение о пропорциональных рисках выполняется, то
S 2 t   S 1 t 
exp  β 
. Далее используется двойное преобразование, которое называется
лог-минус-лог преобразование (берется логарифм выражения, затем меняется знак
выражения и выражение логарифмируется еще раз) :
log S 2 t   log S 1 t  exp β ;
log  log S 2 t   log  log S 1 t   β .
Параметр β отличает одно преобразованное выражение от другого, смещая
его на β . Т.е. две функции равномерно отстоят друг от друга, если β  const .
Далее строится график зависимости от времени двух преобразованных
функций log logS1 t  и log logS2 t  ( S t  может быть получено, например,
путем расчета оценки Каплан-Майера). Если линии отстоят друг от друга на
одинаковом расстоянии, то предположение о пропорциональности рисков не
нарушается. Обычно время откладывается на логарифмической оси. В этом случае
сами функции имеют форму, близкую к прямой линии в случае пропорциональных
рисков.
На рис 18–6 приведены два примера, в первом случае риски можно считать
пропорциональными, во втором случае – явно нет.

204
Рис. 18–6. Графическая диагностика предположения о пропорциональности рисков
Если работать с моделью, в которой нарушено предположение, то можно
получить модель, неадекватную имеющимся данным. На рисунке 18–7 слева –
графики Каплан-Майера по выживаемости в двух группах, для которых риски
непропорциональны, справа графики выживаемости, построенные на основе
параметров Кокс-регрессии на этих же данных (т.е. модель данных с одним
бинарным предиктором). Как видно, модель совершенно не отражает поведение
данных. Математически расчеты могут быть проведены в любом случае, оценить
результаты расчетов – это задача исследователя.

Рис. 18–7. Неадекватность модельных расчетов при нарушения предположения о


пропорциональности рисков.
В случае пропорциональных рисков модель адекватно отражает поведение
данных (рис. 18–8).
Кроме графической проверки используется тест Шоенфельда (Schoenfeld)
корреляции остатков. Рассматриваются только остатки в момент времени
наступления события. Эти остатки не должны коррелировать со временем (т.е. не
изменяться со временем). Если корреляция статистичеки значима, то это означает,
что нарушается предположение о пропорциональности рисков. Тест Шоенфельда
имеет графическое отображение в некоторых статистических пакетах (см. рис 18–9)
как изменение стандартизованной оценки параметра во времени.

205
Рис. 18–8. Оценка Каплан-Майера и модельные оценки функции выживаемости при
соблюдении предположения о пропорциональности рисков

βˆ
2

-2

4.5 7.4 8.9 12 13 16 18 21

Log (t)

Рис 18–9. График поведения стандартизированной оценки параметра во времени


Если же отношение рисков непропорционально меняется во времени, иначе
говоря, нарушается предположение о пропорциональности рисков, то тогда нельзя
напрямую пользоваться Кокс-регрессией. Это нарушение видно на графике (Рис.18–
9) изменения коэффициентов β во времени. β стандартизирована, отклонение в 2
– это значимое влияние переменной исследования на исход, но со временем
значение падает до 0.
Линейность для количественных переменных анализируется аналогично
логистической регрессии (Раздел 17.9), только в качестве вспомогательной
регрессии используется Кокс-регрессия. В случае нелинейности количественной
переменной мы можем также разбивать на интервалы или трансформировать эту
переменную. Но это нелинейная зависимость исхода и количественного предиктора.
И все статистические рассуждения и выводы будут касаться преобразованных
значений количественной переменной.

18.10. Оценка значимости и согласованности модели


пропорциональных рисков Кокса
Как и в других линейных моделях, статистические пакеты рассчитывают
критерий отношения правдоподобия для модели Кокс-регрессии.

206
Кроме этого, рассчитывается индекс согласованности (Concordance index, c-
index), который определяет вероятность согласованности для двух случайных
наблюдений, согласованность в данном случае означает, что в паре наблюдение с
более коротким временем выживаемости имеет более высокий риск. Индекс
согласованности рассчитывается не только для оценки Кокс-регрессии, но и для
других моделей, которые включают в себя вероятность наступления события.
Если в модели есть одна количественная переменная, индекс согласованности
эквивалентен τ Кенделла. Значение индекса 1 – это полная согласованность,
значение 0,6–0,7 – это типичный результат для данных по выживаемости; 0,5 – это
означает, что согласованность имеет случайный характер; менее 0,5 – возможно, что
наблюдение с более коротким временем выживаемости имеет менее высокий риск,
т.е. необходимо понять как именно должен интерпретироваться исследуемый
фактор риска.
Вычисление проводится для всех nn  1 2 пар наблюдений в выборке. Для
данных выживаемости, однако, не все пары сравнимы. Например пара времен (5+, 8).
Первое наблюдение цензурировано, и мы не знаем, на самом деле время выживания
первого наблюдения больше или меньше, чем второго. Тем не менее, индекс
согласованности, с учетом связок (одинаковые значения времени до события или
одинаковые значения предиктора), может давать информацию о качестве подгонки
модели.

18.11. Замечания по использованию регрессии Кокса


Как и в случае с логистической регрессией, для оценки одного параметра
нужно около 10 наблюдений с интересующим исходом (т.е. наблюдений до
наступления события). Количество цензурированных наблюдений может быть
разным.
Модель регрессии Кокса, как и другие модели, можно использовать для
предсказания значений исхода по заданному набору предикторов. При этом
оцениваются также доверительные интервалы для предсказанных значений.
Аналогично тому, как логистическая регрессия оценивает отношение шансов,
регрессионная модель пропорциональных рисков Кокса дает возможность
исследовать отношение рисков.
Для преодоления нарушений пропорциональности и логлинейности могут
использоваться регрессионная модель Кокса, с ковариатой, зависящей от времени
(time-dependent covariate). Но и такие модели не всегда дают удовлетворительную
подгонку модели. Решение о трансформации предикторов принимается для
конкретного набора данных.
Модель Кокса является полупараметрической моделью, когда мы не знаем (не
оцениваем) параметры распределения, лежащего в основе кумулятивной
вероятности наступления события. Существуют модели, учитывающие форму
распределения (чаще всего распределение Вейбулла, экспоненциальное
распределение, распределение Гомпетца и др.). Регрессионный подход остается
таким же, как и для вышеописанных моделей.

207
18.12. Основные типы выживаемости при исследовании
онкологических заболеваний
Медианная выживаемость (median survival)
Медианная выживаемость (median survival) – это мера того, как долго
пациенты будут жить с определенной болезнью или после лечения. Вероятность
остаться в живых свыше срока медианной выживаемости составляет 50%.
Определение:
Медианная выживаемость – это срок, который означает, как долго выживают
пациенты с заболеванием в общем или после соответствующего лечения. Это время
(выраженное в месяцах или годах), когда ожидается, что половина пациентов жива.
Это означает, что вероятность выжить более этого времени составляет 50%.
Пример:
Медианная выживаемость пациентов с I стадией фолликулярной лимфомы
после лечения радиационной терапией составляет 10 лет.
Для конкретного пациента это означает, что вероятность остаться в живых
свыше 10 лет равна 50%.
Общая выживаемость (overall survival, OS)
Общая выживаемость – указание пропорции наблюдаемых в пределах группы,
кто, как ожидается, выживет свыше указанного времени. Общая выживаемость
учитывает смертельный исход по любым причинам – как связанным, так и
несвязанным с исходным заболеванием.
Определение:
Общая выживаемость – характеристика, которая определяет вероятность
остаться в живых для наблюдаемых в пределах группы с некоторым заболеванием.
Общая выживаемость указывает процент наблюдаемых в группе, которые возможно
останутся живы свыше определенного времени. На базовом уровне, общая
выживаемость показывает соотношение эффективности лечения.
Пример:
5-летняя общая выживаемость для стадии IIA Ходжкинской лимфомы
составляет 80%, когда лечится с применением препарата XXX, включая
радиотерапию.
Это означает, что из всех пациентов в наблюдаемой группе со стадией IIA
Ходжкинской лимфомы 80% осталось в живых после 5 лет наблюдения.
Причинно-специфическая выживаемость (cause-specific survival, CSS)
Причинно-специфическая выживаемость – это характеристика, подобная
общей выживаемости. Он измеряет пропорцию наблюдаемых, которые умрут, как
ожидается, от рака за определенное время. Отличие от общей выживаемости в том,
что исключаются (цензурируются) случаи смерти, не связанные с раком.
Определение:
Причинно-специфическая выживаемость – характеристика, которая означает
вероятность смерти в силу (или по причине) специфических условий в
определенный момент времени. Исключаются смерти, не связанные с болезнью.
Используется в описании выживаемости в клинических и популяционных
исследованиях.
Пример:

208
''5-летняя причинно-специфическая выживаемость для стадии IIA
Ходжкинской лимфомы составляет 85%, когда лечится с применением препарата
XXX, включая радиотерапию. ''
Это означает, что 15% из этих пациентов умрет непосредственно из-за
болезни IIA Ходжкинской лимфомы в течение 5 лет. Оставшиеся 85% будут живыми
или умрут по другим несвязанным с основным заболеванием причинам.
Выживаемость, свободная от заболевания (disease-free survival, DFS)
Выживаемость, свободная от заболевания – мера пропорции между всеми
пациентами, которые лечились от рака и теми из них, кто не заболел спустя
определенное время после лечения.
DFS означает вероятность остаться свободным от заболевания после
специфического лечения для группы наблюдаемых, страдающих от рака. Это –
процент наблюдаемых в группе, кто, вероятно, свободен от заболевания после
указанного периода времени. Отношение DFS – индикатор того, насколько
эффективно определенное лечение.
Очень часто, две стратегии лечения сравниваются на основании DFS, которая
достигается в подобных группах.
DFS часто используется вместе с термином общая выживаемость при
описании исследований.
Пример: ''2-летняя DFS для стадии IIA Ходжкинской лимфомы составляет
80%, когда лечится с новой комбинацией препаратов.'' Это подразумевает это после
этого лечения, 80% из тех, кто принимал это лечение, свободен от заболевания в
течение 2 лет.
Бессобытийная выживаемость (event-free survival, EFS)
Бессобытийная выживаемость – это мера пропорции наблюдаемых в пределах
группы, у которых нет осложнений после лечения, которое разработано чтобы
предотвратить или задержать определенные осложнения.
Определение:
Бессобытийная выживаемость – характеризует возможность возникновения
специфического события (группы событий) после лечения, которое проектируется,
чтобы задержать или предотвратить эти события.
Бессобытийная выживаемость рассчитывается, когда дается определенное
лечение для предотвращения или сдерживания специфических осложнений
болезни.
Пример:
1-летняя бессобытийная выживаемость для боли в костях при лимфомах
после лечения радиотерапией составляет 50%. Это означает, что у 50% пациентов,
после лечения радиотерапией не наступит боли в костях в течение года.

Основные аспекты
При анализе выживаемости исследуется процесс, связанный со временем.
Функция риска (моментальный риск) не измеряется напрямую, интерес
представляет отношение рисков в исследуемой популяции.
Проверка допущений, лежащих в основе модели – обязательна.
Использование графического материала в анализе выживаемости очень
важно.

209
19. Выбор предикторов для модели и рекомендации по
построению регрессионных моделей
Выбор предикторов по сей день остается самой нетривиальной задачей
анализа данных. Единого алгоритма выбора не существует. Есть
последовательность шагов, которые надо проделать, чтобы получить модель,
описывающую ваши данные, но решение на каждом шаге принимает исследователь.
Конечная модель должна быть мотивированно обоснована, интерпретируема,
убедительна; предположения, лежащие в основе модели, должны соблюдаться.
Рекомендации по выбору предикторов и построению моделей
1. Переменная исхода должна быть единственная и адекватно представлять
результат исследования. Переменная, представляющая интерес для исследователя
(variable of primary interest, primary variable) – чаще всего фактор риска или
прогностический фактор, т.е. предиктор, – должна быть тщательно описана,
выявлены ее связи с переменной исхода и другими возможными предикторами,
чтобы понять их влияние на исследуемый фактор1.
2. В исследовании не должно быть более 15–20 потенциальных предикторов.
Это объясняется следующим рассуждением. Уровень значимости исследования
α  0,05 предполагает, что в одном из 20 случаев мы можем допустить ошибку.
Таким образом, наличие более чем 20 параметров исследования приводит к тому,
что некоторая связь (из более чем 20) между предполагаемым предиктором и
исходом может быть получена случайно.
3. Построению модели всегда должен предшествовать анализ связи между
предполагаемым предиктором и исходом.
4. Некоторые авторы указывают, что если для предполагаемого предиктора и
исхода установлена связь или ассоциация на уровне значимости p  0,25 , то
потенциально такой предиктор можно включать в предварительную
мультивариантную модель, поскольку возможно, что его взаимодействие с другими
переменными модели выявит его значимое влияние на исход (маскирующий эффект
вмешивающихся переменных).
5. Основная проблема обсервационных наблюдений (см. раздел 2) – это
наличие скрытых влияний, смещающих истинную оценку связи исследуемого
фактора с исходом. Поэтому конфаудеры включают в модель для снижения
эффектов искажения, исследуют их взаимодействие с изучаемым фактором и
исходом.
Общее правило:
если способ выборки объектов исследования или сбора данных ведет к
некорректной ассоциации, говорят об уклоне/смещении (bias) данных;

1
Анализ двух переменных называется бивариантным анализом (bivariate analysis), в котором нас не
интересует, какая из переменных является зависимой, мы пытаемся обнаружить связь между двумя
переменными. Модель (регрессионная) с одним предиктором называется унивариантной моделью или
унивариантным анализом (univariate analysis), который предполагает, что зависимая переменная
определяется значениями (уровнями) одной независимой переменной. В англоязычной литературе,
например, встречается следующее: если вы используете критерий Фишера таблиц 2 х 2 – это bivariate
analysis, если логистическую регрессию для тех же данных с одним предиктором – это univariate analysis, и
т.п.

210
если наблюдаемая ассоциация не корректна, поскольку имеются переменные,
ассоциированные как с потенциальными предикторами, так и с исходом, хотя и не
являются причиной исхода сами по себе, то говорят о конфаундерах;
если наблюдаемый эффект имеет место, но его величина различна для
различных групп (например мужчины и женщины), то говорят о модификации
эффекта (взаимодействии).
6. Для бинарного исхода (логистическая и Кокс-регрессия) лучше сначала
тестировать возможную нелинейность и трансформировать или категоризировать
количественную переменную до включения в предварительную мультивариантную
модель (т.е. модель с несколькими переменными и их взаимодействием).
7. Для категориальной переменной определить категории, которые возможно
объединить без потери медико-биологической информативности.
8. При построении предварительной мультивариантной модели есть
несколько подходов к ее формированию: пошаговое включение переменных в
модель, пошаговое исключение, полный перебор комбинаций переменных. Каждый
подход имеет свои преимущества и недостатки и не гарантирует, что
предположения, лежащие в основе модели будут соблюдены.
9. Не гонитесь за количеством предикторов, правило для исследования
бинарного исхода (логистическая регрессия или регрессия Кокса): не менее 10
наблюдений с исследуемым исходом на один параметр модели. Для
количественного исхода (линейная регрессия) – это не менее 6–8 наблюдений на
один параметр модели.
10. Выявление важных независимых предикторов – одна из целей построения
модели. Определение лучшей модели – это баланс между сложностью и
интерпретируемостью. Нужна большая осторожность в интерпретации слабых
ассоциаций.
11. Модели с несколькими предикторами часто страдают от
мультиколлинеарности – корреляции между предикторами, которая дает
следующий эффект: кажется, что ни одна переменная не значима, когда модель
включает мультиколлинеарные предикторы. Может казаться, что у предиктора
небольшой эффект, потому он уже "предсказывается" другими предикторами,
которые коррелируют с ним. Удаление избыточного предиктора необходимо, но
нужно определить, какой именно предиктор избыточен и решение принимает
исследователь не только на основании математических расчетов, но и на основании
медико-биологического смысла предиктора.
12. Как правило, сложная модель строится в несколько итераций. Поэтому
возможно повторение шагов изучения взаимосвязи двух переменных в наборе
данных, корректировка линейности (пропорциональности), проверка взаимосвязи
предикторов, прежде чем переменная окончательно включается в
мультивариантную модель.
13. При построении регрессии вы будете использовать некоторый
статистический пакет для расчетов. Убедитесь, что вы правильно понимаете все
расчеты, которые выдает пакет. Как правило, в пакетах есть контрольные примеры.
Найдите походящий пример и выполните сначала его.
14. Документируйте результаты как предварительных расчетов и
предварительных моделей, так и окончательных. Это поможет избежать повторов,
утвердится в правильности пути анализа.

211
20. Использование результатов моделирования для прогноза1
В линейных регрессионных моделях в первую очередь мы изучали связь
предиктора и исхода, силу этой связи, влияние вмешивающихся переменных и иные
нюансы поведения предиктора и исхода. Следующий шаг, который кажется
логичным – использовать построенную модель для предсказания результатов
нового наблюдения. Но несмотря на то, что математически вы можете это сделать,
будет ли ваш результат прогноза верным?
Очень важный момент исследований – это экстраполяция результатов
исследования на популяцию.
Выше было кратко сказано, что на основании моделей можно делать прогноз.
Но нужно быть крайне осторожным, поскольку ваша выборка имеет ограниченную
“зону влияния”.
Необходимо принимать во внимание тип дизайна исследования. При дизайне
“случай-контроль” исследуется связь и сила связи предиктора и исхода, но группы
исследования не отражают состояние распространенности заболевания в
популяции. Когортное исследование является более подходящим для построения
модели прогноза, но оно может иметь систематические ошибки, которые модель не
в состоянии устранить.
В исследовании так или иначе создаются искусственные ограничения
(включение и исключение пациентов в исследование), реальные клинические
случаи более вариативны.
Например, исследования шли в Европе, и 90% пациентов в исследовании
имели белую расу. В окончательную модель конфаундер “раса” не был включен.
Будет ли ваша модель работоспособна для пациентов другой расы?
Для того, чтобы модель могла быть экстраполирована на всю популяцию,
первый шаг – валидация модели. Валидация модели бывает внутренней и внешней
(internal and external validity).
Внутренняя валидация подразумевает, что после построения модели на
данных выборки, эти же данные определенным образом используются для
валидации. Внутренняя валидация скорее служит целям показать внутреннюю
непротиворечивость модели, отсутствие систематических ошибок.
Для внешней валидации используется другой набор данных аналогичного
исследования. В этом случае выборку, по которой строилась модель, называют
обучающей, внешняя выборка называется тестовой. Объем тестовой выборки
должен быть сравним с объемом обучающей выборки.
Существуют определенные критерии “производительности” моделей. Это
мера объясненной вариации R 2 , оценка Брира (Brier score), индекс согласованности
(concordance index, c-index) и др.
Если валидация модели показала удовлетворительные результаты, то
следующий шаг – это калибровка модели. Калибровка – это оценка разногласий
модели и реальных данных, введение поправок. Она выполняется как на обучающей
так и на тестовой выборке.
Также может быть рассчитана чувствительность и специфичность модели: ее
возможность правильно различать бинарные исходы.

1
Только для ознакомления

212
Если есть доказательства того, что линейная модель пригодна для
прогнозирования, то, благодаря линейности комбинации предикторов, может быть
построена номограмма и проведена калибровка номограммы.
В любом случае, построение модели прогноза – это сложный этап, и не всегда
построение модели является целью исследования. Чаще модели используются для
оценки влияния исследуемого фактора на исход с учетом вмешивающихся
переменных для определения истинной силы влияния исследуемого фактора.
Основные аспекты
Модели прогноза используются для практических целей, для клинической
практики, эпидемиологических служб и т.п. Поэтому кроме того, что доказана
статистическая значимость модели, надо убедится, что она пригодна к
практическому применению.

213
21. ANOVA с повторяющимися измерениями
Анализ вариаций (ANOVA) – мощный инструмент для анализа
количественных измерений, которые могут быть сгруппированы по некоторым
признакам. Зависимая переменная является количественной переменной,
группировок (категориальных переменных) может быть несколько. Основная
интерпретация такого анализа – как изменяются средние значения количественной
переменной в зависимости от того, какой группе (подгруппе) принадлежит
наблюдение и каково соотношение между ними. Интерес исследования, как правило,
связан с категориальной переменной – группами исследования, но о различии групп
мы судим по средним значениям количественной переменной.
ANOVA с повторяющимися измерениями предполагает, что одна
категориальная переменная определена особым образом и связана с дизайном
исследования. Чаще в медико-билогических исследованиях это некоторые точки
времени (timepoint, visit), в которых измерения повторяются для всех наблюдений
(для всех пациентов, включенных в исследование). Также ANOVA с повторяющимися
измерениями используется для обработки данных в дизайне, который предполагает
исследование действия различных препаратов на одну и ту же группу испытуемых.
Особенностью является то, что проводятся повторные измерения у одного и того же
пациента, и ANOVA с повторяющимися измерениями учитывает это при оценках
эффектов (различий) между группами. Группы, по возможности, должны иметь
одинаковую численность, сбалансированы по численности.
Типичная задача 1 – исследовать, как изменился некоторый параметр
(давление, уровень лейкоцитов, концентрация препарата в организме и т.п.) за
время между двумя или более точками во времени. Это может быть длительное
лечение некоторого заболевания. Исследуется несколько типов лечения. В этом
случае группы должны быть исходно однородны, т.е. не различаться по
исследуемому параметру, а также по конфаундерам, которые могут влиять на
исследуемый параметр.
Типичная задача 2 – группы изначально разделены по уровню исследуемого
параметра. Необходимо проследить динамику этого параметра в связи с одним и
тем же воздействием (например, лечением) у различных групп. Предполагается, что
группы однородны по конфаундерам.
Типичная задача 3 – взяты образцы тканей (биопсия, кровь) у различных
испытуемых, разделены на несколько частей, осуществляется несколько различных
воздействий на части каждого образца. Как вариант дизайна, в рандомизированных
клинических испытаниях исследуется несколько препаратов и испытуемый
получает все препараты в случайном порядке1. Этот дизайн относится к так
называемому полному однофакторному эксперименту. Здесь нет фактора времени,
есть различные уровни воздействия фактора на одну группу, т.е. исследуемыми
группами становятся результаты каждого воздействия на одни и те же образцы.
Задача – оценить различия в исследуемом параметре в связи с различными
уровнями воздействия фактора. Если важно исходное состояние образцов, то
добавляют еще одну группу – контроля, которая фиксирует неизменное состояние, и
после выполнения ANOVA может проводиться сравнение с контрольной группой
(критерий Даннетта/Dunnett test).

1
Это экспериментальное исследование. Полное описание этого типа дизайна не приводится. Каждое такое
исследование строго регламентировано и документ, сопровождающий такие испытания, может занимать
300-500 страниц.

214
Задачи на типы поделены условно в данном пособии. На самом деле первые
два типа задач называют моделями со смешанными эффектами, двухфакторная
ANOVA с повторяющимися измерениями (mixed effects models , 2-ways repeated
measures ANOVA). Задачи третьего типа – однофакторная ANOVA с повторяющимися
измерениями (one-way repeated measures ANOVA).
Далее рассмотрим задачи 1-2 типа, которые включают повторные измерения
во времени у нескольких групп.
Ремарка: Фармакокинетические исследования – это также повторяющиеся наблюдения, но для
обработки таких данных используется специальный математический аппарат.

Очень многих начинающих исследователей пугает математический аппарат,


лежащий в основе ANOVA. В других главах приведены таблицы ANOVA, которые
используются для оценки значимости снижения вариации моделей (см. Разделы16,
17, 22)
Цель этой главы – научить “читать” таблица ANOVA для повторяющихся
измерений.
Основной источник вариации в таких исследованиях – различия между
пациентами, вариация в эффекте группы (межгрупповые различия) может быть
относительно меньше, чем вариация самих пациентов. Использование ANOVA с
повторяющимися измерениями позволяет учесть вариацию (индивидуальные
характеристики) пациентов.
Различия между группами и различия между точками времени – носят
название основных эффектов (main effects). Учет различной динамики в различных
группах носит название эффекта взаимодействия (interation effect).
Источники вариации в модели ANOVA с повторяющимися измерениями:
SSG – вариация, связанная с различием групп;
SSP(G) – вариация, связанная с различием пациентов ;
SSV – вариация, связанная с различием точек времени;
SS(GV) – вариация, связанная со взаимодействием различных точек времени и
различных групп;
SSE – остаточная вариация (SSresidual).
Оценка значимости различий между группами проводится на основании
отношения SSG и SSP(G) с учетом соответствующих степеней свободы, оценка
значимости динамики в различных точках времени – на основании отношения SSV и
SSE с учетом соответствующих степеней свободы, оценка значимости различий в
динамике у различных групп – на основании отношения SS(GV) и SSE с учетом
соответствующих степеней свободы. Все оценки проводятся с помощью F-критерия.
Обычно статистические пакеты выдают полный набор вариаций (SSx), а
также MSx – среднее соответствующей вариации SSx, т.е. SSx деленное на число ее
степеней свободы, и соответствующие значения F-критерия. На графиках,
сопровождающих ANOVA, обычно показаны средние и их доверительные интервалы
в разных точках времени, линией соединены одинаковые группы в различные точки
времени.
Дадим интерпретацию значимости для моделей, в которых динамика
оценивается по двум точкам: начальной и конечной (Таблица 21-1).
Отношение MSV/MSE характеризует есть ли эффект от лечения вообще (т.е.
как изменился исследуемый параметр между начальной и конечной точками),
отношение MSG/MSP(G) характеризует различия между исследуемыми группами;

215
отношение MS(GV)/MSE характеризует различия между группами в динамике
наблюдений.
Таблица 21-1. Интерпретация и визуализация расчетов ANOVA
MSG/MSP(G) MSV/MSE MS(GV)/MSE Визуализация Возможные причины1

1 незначимо значимо незначимо Возможно, все типы лечения


одинаково эффективны.
Динамика одинакова у всех
групп.

до после

На первом рисунке значения


исследуемоого параметра
повышаются, на втором,
снижаются по сравнению с
начальным состоянием.
до после

2 незначимо значимо значимо Возможно, у одной группы


есть эффект от лечения, у
остальных нет. За счет
этого различий между
группами не наблюдается, а
наблюдается только
до после частный эффект в одной
группе и эта группа по
численности меньше других
групп.
В данном случае
рекомендуется более
тщательно выполнить
до после дизайн исследования,
возможно, необходимо
увеличить численность
групп
3 значимо значимо незначимо Возможно, изначально
пациентов делили на группы
по уровню исследуемого
показателя, а все типы
лечения одинаково
эффективны
до после

до после

1
Комментарии даны из личного опыта автора. Безусловно, варианты объяснений могут быть другими.

216
4 значимо значимо значимо Есть значимый эффект от
лечения в целом, между
группами (вариантами
лечения) значимые различия
в эффективности типов
лечения
до после Как вариант, изучалось
воздействие одного
препарата на организм.
Разделение на группы шло по
некоторому признаку,
который как
предполагалось, менял
до после эффект лечения.
5 значимо незначимо значимо Возможно, изначально
пациентов делили на группы
по уровню исследуемого
показателя, а различные
типы лечения имеют
противоположные
до после эффекты.
В первом случае также
возможно, что проводятся
испытания одного и того
же препарата, который
нормализует отклонения в
исследуемом параметре
Во втором случае возможно,
изучается некоторый
неблагоприятный фактор,
который дисбалансирует
состояние изучаемого
до после параметра.
6 значимо незначимо незначимо Группы изначально не
рандомизированны,
возможно
несбалансированны. Не
соотносите различия в
исходном состоянии с
до после различием в результатах
лечения.
7 незначимо незначимо незначимо Нет никаких эффектов.

до после

8 незначимо незначимо значимо В медицинских


исследованиях такие
взаимодействия редки,
считается, что вероятно
существует фактор,
который не учтен при
до после составлении дизайна при
условии, что использовано
одно и то же лечение.

217
Например, группы разделены по уровню исследуемого
фактора, в одну группу включены мужчины с высоким
уровнем исследуемого показателя, в другую –
женщины с низким уровнем показателя, третья
группа смешана и уровень показателя средний. Т.е.
использовано два признака деления на группы вместо
одного. В этом случае фактор пола должен быть
ковариатой и его вариация должна учитываться в
составе модели.
В социологических исследованиях некоторые
мотивации дают различное воздействие на
различные социальные группы и такие
взаимодействия изучаются.
После общего анализа можно оценить средние значения в каждой группе в
каждой точке времени ( до и после). Оценка средних обычно проводится методом
наименьших квадратов ( LS means). Также можно оценить размер эффектов –
разность в средних между группами, разность в средних между точками времени,
разность между изменениями в группах. Статистические пакеты предоставляют
такую возможность с учетом поправок на множественность сравнений.
Пример
Некоторый биохимический параметр BioChem (который исходно повышен)
замерялся до начала лечения и спустя 2 недели (категориальная переменная
"timepoint" с двумя уровнями before/after. Лечение было направлено на снижение
данного параметра. Исследование изучало три типа лечения (категориальная
переменная "treatment", три уровня – A, B, C). Данные приведены в Приложении R-12.
Шаг 1.
Проверим предположения, лежащие в основе анализа вариаций.
Проверим данные до и после лечения на соответствие закону нормального
распределения в каждой из групп лечения на каждой точке времени критерием
согласия Шапиро-Уилка. ANOVA устойчива к небольшим отклонениям данных от
закона нормального распределения, но в нашем примере ни одна из подгрупп не
нарушает предположения о согласии с законом нормального распределения1.
Выполним тест на гомогенность дисперсий и убедимся, что предположение не
нарушается (р= 0,5233).
Шаг 2.
Выполним анализ.
В результате получим расчеты, приведенные в Таблице 21-2.
Таблица 21-2. Расчеты ANOVA, статистический пакет R, библиотека ez
Effect DFn DFd SSn SSd F p ges
(Intercept) 1 24 18592,67 403,00 1107,26 0,0000 0,98
treatment 2 24 72,33 403,00 2,15 0,1379 0,13
timepoint 1 24 75,85 73,22 24,86 0,0000 0,14
treatment:timepoint 2 24 68,93 73,22 11,30 0,0003 0,13
SSn – вариация соответствующего эффекта (Sum of Squares in the numerator,
a.k.a. SSeffect);
1
Это предположение не является обязательным. Более важно соблюдение предположения о гомогенности
дисперсий, а также о нормальности распределения остатков модели. Тем не менее, предпочтительнее
данные, которые изначально подчиняются закону нормального распределения.

218
SSd вариация с которой сравнивается вариация эффекта по F-критерию
(Sum of Squares in the denominator , a.k.a. SSerror);
DFn и DFd – степени свободы соответствующих вариаций;
F – значение F-критерия;
ges – оценка величины эффекта: доля вариации зависимой переменной
(BioChem), которая объясняется независимой переменной при фиксированных
значениях остальных переменных.
Таблица 21-3. Расчеты ANOVA, статистический пакет R, библиотека lme4
Effect Sum Sq Mean Sq NumDF DenDF F.value Pr(>F)
treatment 13,14 6,571 2 24 2,15 0,1379
timepoint 75,85 75,852 1 24 24,86 0,0000
treatment:timepoint 68,93 34,463 2 24 11,30 0,0003

Для сравнения, эта же результаты, представленные в пакете Statistica,


выглядят, как показано в Таблице 21-4.
Таблица 21-4. Расчеты ANOVA, статистический пакет Statistica
SS Degr. of MS F p
Freedom
Intercept 18592,67 1 18592,67 1107,26 0,0000
treatment 72,33 2 36,17 2,15 0,1379
Error 403,00 24 16,79
timepoint 75,85 1 75,85 24,86 0,0000
timepoint*treatment 68,93 2 34,46 11,30 0,0003
Error 73,22 24 3,05

Шаг 3.
Проверка предположений о распределении остатков модели.
На Рис.21-1 представлен график “квантиль-квантиль” остатков модели.

Рис. 21-1. График “квантиль-квантиль” остатков модели.

219
Шаг 4.
Расчет эффектов и визуализация. Разультаты оценки средних и различий в
средних по группам и лечению не приводятся.
На Рис.21-2 представлена различная визуализация результатов на основании
оценки средних.

Рис. 21-2. Визуализация расчетов средних для ANOVA.


Таким образом, существует значимый общий эффект, связанный с лечением
всех исследуемых пациентов(p<0,0001), различия в типах лечения незначимы
(p=0,1379) Феномен одной из групп требует дополнительного изучения
(действительно ли он связан с лечением или с особенностями пациентов данной
группы).
Данные для расчета этого примера и R-скрипты для выполнения анализа
приведены в Приложении R-12.

21.1. Контроль ошибки первого рода при множественных


сравнениях
После проведения анализа вариаций у исследователя возникает желание
сравнить группы между собой, например, по эффективности лечения.
Что обычно делают неправильно?
1. сравнивают только результаты (последнюю точку визитов);
Такое сравнение допустимо, если группы не различались между собой перед
началом лечения. И, тем не менее, более грамотным будет учитывать начальные
различия, пусть даже незначимые, при расчете эффектов, связанных с лечением.
2. не учитывают поправку на множественные сравнения.
Множественные сравнения обычно сопровождают анализ нескольких групп,
независимо от того, являлись ли измерения повторяющимися или нет. Они
выполняются после проверки общей гипотезы (omnibus hypothesis) о наличии
неоднородности. Если отклонения от общей гипотезы незначимы, по выполнение
попарных множественных сравнений проводить не имеет смысла. Мы можем
получить некоторые частные эффекты (при парных сравнениях), однако общий

220
эксперимент останенется статистически незначимым, т.е. мы не имеем права
экстраполировать результаты на популяцию.
При множественных попарных сравнениях одновременно проверяется
несколько гипотез.
Аналогично Таблице 4-1 мы можем составить Tаблицу 21-4.
Tаблица 21-4. Уровень ошибки при множественных сравнениях
Число верных гипотез Число неверных гипотез
(нет различий, нулевая (различия истинны)
гипотеза верна)
“Не значимо” A B
“Значимо” C D

Мы контролируем групповую вероятность ошибки первого рода (family-wise


error rate) C A  C  на уровне 0,05, т.е. оставляем за собой право на ошибку в 5%
случаев сравнения. Эта ошибка применима к каждому сравнению отдельно, поэтому
мы должны учесть это путем уточнения уровня значимого отклонения при каждом
сравнении.
Обычно в исследованиях, свзязанных с лечением, исследователя интересуют
различия в эффектах разных типов лечения/препаратов при завершении
экпериментальной части исследования, а не отдельно в каждой точке визита
пациента. Поэтому чаще количество сравнений рассчитывается исходя из
количества групп лечения. Если в исследовании три группы – это значит, что мы
сделаем три попарных сравнения. Если интерес исследования состоит только в
сравнении с экспериментальных лечений с контрольной группой – то таких
сравнений будет два.
Различные статистически пакеты предлагают различные алгоритмы расчетов
таких сравнений (с учетом и без учета повторяющихся измерений). Внимательно
читайте рекомендации по использованию различных способов сравнения. Они
могут меняться из-за различий в количестве наблюдений в группах, из-за того,
используются ли поврояющиеся измерения или нет, какая именно поправка на
множественные сравнения используется и т.п.1
Можно рекомендовать следующее:
Если решается задача третьего типа – повторные измерения на одних их тех
же образцах при различных воздействиях – используйте для множественных
сравнений парный t-критерий с поправкой Бонферрони. В задачах 1-2 типа –
аналогично используте такие расчеты для сравнения двух точек времени.
Сравнение между типами лечения, когда пациентов разбивают по различным
группам, лучше проводить по критерию Тьюки.
Сравнение с контрольной группой – по критерию Даннета.
Основные аспекты
ANOVA требует проверки предположений, лежащих в основе данного анализа.
Сбалансированность групп (в идеале – рандомизация) должна быть
соблюдена.
ANOVA хорошо визуализируется и картину изменений, взаимодействий вы
можете оценить предварительно по графикам.
1
Эта одна из причин того, почему в публикации обязательна ссылка на используемый статистический пакет.

221
Нельзя вести анализ параметра по группам пациентов отдельно, равно как и
не стоит вести его отдельно по точкам наблюдения: до, во время и после лечения.
Вы увеличиваете вероятность ошибки. Анализ должен быть общим, учитывать
особенности пациентов.
Проводя только парные сравнения без поправки, мы можем контролировать
только ошибку парного сравнения (comparisonwise error rate (CER)); используя
критерий Фишера мы можем контролировать ошибку эксперимента при гипотезе
омнибуса, см. раздел 15 (experimentwise error rate under the complete null hypothesis
(EERC)); используя поправки, мы контролируем максимальную ошибку
эксперимента (maximum experimentwise error rate under any complete or partial null
hypothesis (MEER)).
Таким образом, сила статистического вывода зависит от того, какую ошибку
мы контролируем.

222
22. Лабораторные эксперименты
Большинство лабораторных исследований на животных являются
рандомизированными контролируемыми исследованиями (randomized controlled
trials – RCT).
Эти исследования имеют три важных аспекта:
• Рандомизация (Randomization). Животные случайным образом
распределяются по группам лечения. Рандомизация важна, потому что увеличивает
вероятность того, что среди групп лечения нет различий в начале исследования, и
поэтому различия между группами в конце исследования являются результатом
лечения. Рандомизация не гарантирует, что группы лечения точно сопоставимы в
каждом исследовании, только то, что они будут сопоставимы в среднем. По-
прежнему существует вероятность того, что группы будут отличаться только
случайностью, а рандомизация позволяет измерять вероятность различий из-за
случайности.
• Контроль (Control). В исследовании сравниваются результаты для
животных, получающих интересующее лечение и конечные результаты для
животных в сравнительной группе, которая во всех отношениях одинакова, кроме
лечения. Обычно группа сравнения получает плацебо или текущий стандарт
лечения. Это необходимо, потому что часто животные могут чувствовать себя
лучше/хуже сами по себе и важно знать, как лечение влияет на них помимо того, что
произошло бы в отсутствие лечения.
• Ослепление (Blinding): экспериментатор не знает, какие животные получают
лечение. Это важно, чтобы избежать таких проблем, как обеспечение лучшего ухода
или применение разных стандартов (даже не осознавая этого) к одной из групп.

22.1. Базовые схемы дизайна


Распространенные общие схемы рандомизированных контролируемых
испытаний
• Параллельный дизайн (Parallel design). Этот общий проект исследования
начинается с одной группы животных. Каждому животному произвольно
назначается одно и только одно лечение.
• Блочный дизайн (Blocked design). Иногда животные естественным образом
группируются в блоки или группы, которые могут отличаться друг от друга,
например, помет, клетка или стойка. Нецелесообразно применять лечение
(обработку) А к первой клетке, лечение (обработку) В ко второй клетке и т. д.,
потому что было бы невозможно определить, были ли какие-либо различия
вызваны обработкой или различными условиями в разных клетках. В этой ситуации
принято рандомизировать животных в каждой клетке. Таким образом, если есть две
процедуры, половина животных в первой клетке будет назначена на лечение А, а
половина будет назначена на лечение В. Та же схема рандомизации будет
проводиться в других клетках.
• Согласованный дизайн (Matched design): животные подбираются на основе
таких характеристик, как пол, возраст и генетика. Например, в исследовании могут
использоваться 10 пар новорожденных братьев и сестер самок. Каждому животному
из каждой пары произвольно назначается лечение А, а другому животному
назначается лечение В.
• Парный дизайн (Paired design): каждая процедура применяется к другой
части тела одного животного. Например, лечение А может быть применено к
правому глазу, а лечение В - к левому глазу того же животного.

223
• Перекрестный дизайн (Crossover design): для одного и того же животного
последовательно применяют две или более обработки. Животные
рандомизированно получают лечение либо A, либо лечение B, во-первых, в случае,
если порядок, в котором лечение принимается, влияет на результат. Каждое
животное получает одно лечение в течение определенного периода времени, затем,
после периода выздоровления или “вымывания” (wash-out) без лечения, получает
второе лечение.

22.2. Описание данных


Статистический анализ зависит от типа собранных данных. Основные типы
данных опсаны подробно в Разделе 3.2. Сбор данных описан в Разделе 5.
A. Категориальные данные:
Номинальные: данные могут быть разделены на две или более групп,
которые не имеют естественного рангового порядка.
• живые / мертвые
• мужской /женский
• группа крови
Порядковые: данные могут быть разделены на три или более групп, которые
могут быть естественно ранжированы от низкого до высокого
• стадия опухоли
• лучше / одинаково / хуже
• любая рейтинговая шкала
B. Количественные данные:
Счетные: Данные, которые представляют количество наблюдаемых
элементов; Может быть целым числом, большим или равным нулю
• количество измененных клеток
• количество опухолей
Непрерывные величны, не подчиняющиеся закону нормального распределения:
данные, которые могут принимать значения, отличные от положительных целых
чисел, но которые обычно не распределены нормально
• коэффициенты
• проценты
• титры
Непрерывные величны, подчиняющиеся закону нормального распределения:
Данные, которые следуют нормальному распределению. Это важно, потому что
многие общие статистические тесты, включая t-тесты и дисперсионный анализ,
основаны на предположении, что данные распределены нормально.
• вес
• длина
• объем
Количественные данные могут быть произвольно разделены на категории
(например, вес <5 г против веса> 5 г). Это может быть полезно для описания данных,
но приводит к потере точности при проведении статистических расчетов.
Первым шагом в любом статистическом анализе является обобщение и
описание данных.
A. Категориальные данные:
Укажите количество и процент в каждой категории.

224
Например, “состояние 24 из 40 животных (60%) улучшились в ходе
исследования, состояние 12 животных (30%) остались неизменными, а у остальных
4 (10%) ухудшилось”.
B. Количественные данные:
Количественные данные должны описываться как мерой расположения,
которая описывает центр распределения, или типичным значением; а также мерой
дисперсии, которая описывает меру распространения данных, или как данные
соотносятся с центром распределения. Обычные меры определения
местоположения включают среднее, медиану и геометрическое среднее. Обычные
меры дисперсии включают стандартное отклонение, доверительный интервал и
интерквартильный размах (IQR). Выбор для конкретного анализа зависит от типа
обобщаемых данных (см. Раздел 7.1.5).
Счетные: Медиана и IQR
Непрерывные величны, не подчиняющиеся закону нормального распределения:
Медиана и IQR, или среднее геометрическое и доверительный интервал. Среднее
геометрическое (Сг) и доверительные интервалы для Сг часто используются для
отношений, титров и других измерений, которые лучше всего просматривать и
анализировать в логарифмической шкале.
Непрерывные величны, подчиняющиеся закону нормального распределения:
среднее и стандартное отклонение

22.3. Статистические критерии


Выбор соответствующего статистического критерия (теста) зависит от
исследовательского вопроса, дизайна исследования и типа данных. Три общих
вопроса исследования:
• Чем отличаются две группы? Например, сравнить лечение с плацебо.
• Чем отличаются несколько групп? Например, сравнить несколько доз
лекарственного средства или несколько разных методов лечения одного и того же
состояния/заболевания.
• Насколько хорошо согласуются два измерения? Например, могут ли
животные, получающие более высокую дозу, иметь лучшие результаты, или как
согласуются два разных способа измерения одного и того же признака (величины),
дают ли они аналогичные результаты?.
Параллельный и блочный дизайн предполагает, что одно животное получает
только одно лечение, данные независимы, результат для одного животного не дает
никакой информации об исходе для другого животного.
Согласованный, парный и перекрестный дизайн предполагает, что животное
или пара подопытных животных, получают все виды лечения и, следовательно,
могут сравниваться сами с собой. Эти исследования дают зависимые данные, в
которых два измерения, проведенных на одном и том же животном (или
подобранной паре животных), могут быть сходны друг с другом способами, не
связанными с лечением, что означает, что зная первый результат для животного
(или пары), мы располагаем информацией о втором результате.
Ниже в таблицах собраны основные статистические критерии для зависимых
и независимых данных в различных дизайнах исследования.

225
Таблица 22–1. Параллельные группы, независимые данные

Распределение данных Сравнение 2 групп Сравнение 3 и более


групп
Категории Хи-квадрат критерий, Хи-квадрат критерий
Точный критерий Фишера для Точный критерий
малых выборок Фишера-
Фримана_Халтона
Счетные и количественные Критерий манна-Уитни / Критерий Краскела-
(отличные от нормального) Критерий ранговых сумм Уоллиса
Вилкоксона
Количественные нормально t-критерий для независимых Дисперсионный анализ
распереденные выборок (ANOVA)
Таблица 22–2. Парный, согласованный или перекрестный дизайн; зависимые данные

Распределение данных Сравнение 2 Сравнение 3 и Согласие и


типов лечения более типов ассоциация между
лечения двумя
измерениями
одного и того же
признака
(величины)
Категории Критерий Мак- Критерий Каппа Коэна
Нимара Кокрейна
(Cochran’s Q)
Счетные и количественные Критерий Критерий Ранговая
(отличные от нормального) знаков рангов Фридмана корреляция
Вилкоксона (Friedman Спирмена
ANOVA)
Количественные нормально Парный t- Дисперсионный Корреляция
распереденные критерий для аналз Пирсона
зависимых повторяющихся
выборок измерений
(ANOVA)

22.4. Расчет размера выборки


Исследования на животных должны быть рассчитаны на использование
минимального количества животных, необходимых для достижения целей
исследования. Соответствующее количество животных зависит от следующих
факторов:
• размер эффекта (например, разница в средних между двумя группами);
• изменчивость данных (например, стандартное отклонение);
• желаемый уровень значимости (вероятность найти значимый результат
случайно, когда действительно нет эффекта, обычно 5%, см. раздел 4.2);
• желаемая мощность (вероятность нахождения значимого результата, когда
она действительно существует, обычно задается 80% или 90%%, см. раздел 4.3).
Часто исследователи не знают ожидаемого размера эффекта или
изменчивости данных, когда они планируют исследование. Они могут быть оценены
по результатам предыдущих исследований или из небольшого экспериментального
исследования. В общем, чем больше размер эффекта и чем меньше изменчивость
данных, тем меньше требуемый размер выборки.
В разделе 4.3 даны базовые формулы для расчета размера групп.

226
Основные аспекты
В этой главе не рассмотрено ничего нового, однако она позволяет понять, что
методы статистического оценивания и вывода применимы в различных областях
исследований независимо от объекта исследования (биологические клеточные
характеристики или пациенты, экспериментальные животные или социологические
опросы и т.д).
Кроме того, это ответ на частые вопросы о том, a) почему в “похожих”
клинических исследованиях мы используем различные критерии для оценки
различий в данных; б) почему в различных по смыслу исследованиях применяются
один и те же критерии. Смотрите в суть ваших данных и вашего дизайна. Не
пытайтесь “копировать” путь и логику другого исследования, разберитесь с вашими
данными в вашем исследовании.

227
23. Уровень значимости и доверительные интервалы:
практический подход
Красота статистической обработки данных заключается в двух основных
моментах: доказательность и интерпретируемость.
Когда исследователь заявляет, что ему нужно “провести какой-то
статистический анализ” – по моим наблюдениям, он напуган аппаратом
статистического анализа, который ему непонятен, он не понимает, как оценить свои
результаты математически. Он не соотносит анализ и медицинскую (клиническую,
биологическую) интерпретацию результатов. Когда исследователь говорит о том,
что ему нужно понять, как ведут себя данные в исследовании, например, снижает ли
новый препарат побочные эффекты, повышается ли выживаемость при изменении
лечения и т.д., то он использует статистический анализ для расчета
эффектов/воздействий и пр., интерпретации и понимания своих результатов
исследования.
Стандартный уровень значимости p  0,05 используется для заявления о том,
что некоторый статистический эффект составляет 0,05. Так или иначе, термин
“статистически значимо” стал синонимом 0,05 . Есть несколько историй о том,
почему так используется значение 0,05 , и все они корнями уходят ко всемирно
известному ученому в области статистики Р. Фишеру.
Чтобы понять значение p , нужно понять, что такое фиксированный уровень
тестирования гипотезы. Процесс исследования начинается с выдвижения нулевой
гипотезы. И нулевая гипотеза обычно говорит о нашем “незнании”, она
предполагает, что нет никаких различий. Мы предполагаем, что если данные,
которые мы соберем поведут себя определенным образом, то нулевая гипотеза
останется верной. Если же собранные данные поведут себя как-то иначе, мы сможем
рассчитать тестовую статистику – насколько собранные данные будут отклонятся
от нулевой гипотезы. Эта процедура известна как фиксированный уровень
тестирования, потому что нулевая гипотеза, тестовая статистика и ее уровень
фиксируется до сбора данных.
На сегодняшний день, когда компьютеры и статистические пакеты вошли в
повседневную практику, мы отмечаем наблюдаемый уровень значимости (или
значение p ) – самый маленький фиксированный уровень, на котором наша нулевая
гипотеза может быть отвергнута. Если ваш фиксированный уровень исследования
больше или равно значению p , вы отказываетесь от нулевой гипотезы. Если ваш
фиксированный уровень исследования меньше, чем значение p , вы не можете
отвергнуть нулевую гипотезу. Например, если значение p  0,023, результаты имеют
важное значение для всех фиксированных уровней больше, чем 0,023 (например,
0,05) и не имеют существенного значения для всех фиксированных уровней меньше,
чем 0,023 (например, 0,01). Исследователь, который использует уровень 0,05
отказался бы от нулевой гипотезы в то время как исследователь, который
использует уровень 0,01 не сможет ее опровергнуть.
Каким бы малым не было значение p , статистическую значимость
необходимо отличать от практической важности.
Рассмотрим несколько исследований по изменению уровня гемоглобина в
экспериментальной и контрольной группах (Табл. 23–1).

228
Формально, 1, 2 и 4 исследование удовлетворило требованию p  0,05 . Но
только результаты исследования 2 представляют интерес для практического
использования.
Формально, исследование 4 и 5 рапортуют о различных результатах – в
исследовании 4 есть значимые различия на уровне p  0,05 , в исследовании 5
таковых нет. Для того, чтобы сделать окончательный вывод в исследовании 4,
нужно определить мощность исследования – количество наблюдений, которое нам
понадобится, чтобы вынести окончательное решение. Но что нам мешает сделать то
же самое в исследовании 5?
Одна из известных систематических ошибок в мета-анализе носит название
“публикационное смещение” (publication bias). В публикацию отправляют
результаты, в которых найдены различия на уровне p  0,05 . Т.е. результаты
исследования 4 будут опубликованы вероятнее, чем результаты исследования 5.
Таблица 23–1. Данные условных исследований
Номер x экс  x контр p 95% Интерпретация Практическая
исследования доверительный “В среднем важность
интервал содержание
гемоглобина
увеличивается
на…..”
1 2 <0,001 1÷3 на 2 ( от 1 до 3) Нет

2 30 <0,001 20÷40 на 30 ( от 20 до Есть


40)
3 10 >0,1 –10 ÷ 30 на 10 ( от –10 до Нет доказательств,
20) что
экспериментальная
группа лучше
контрольной
4 30 0,032 2÷58 на 30 ( от 2 до ?
58)
5 30 0,061 –2÷62 на 30 ( от –2 до ?
62)

Значение p – это вероятность появления ваших фактических наблюдений в


условиях нулевой гипотезы. Значение p не является вероятностью того, что
нулевая гипотеза верна. Малое значение p заставляет отказаться вас от нулевой
гипотезы, потому что произошли события, которые в условиях нулевой гипотезы
вряд ли бы произошли.
Однако, отсутствие доказательств не есть доказательство отсутствия1.
Пример
Данные взяты из реального исследования. Задача исследования немого
упрощена, однако продемонстрированы приемы и методы, о которых шла речь в
данном пособии.

1
Altman D.G., Bland J.M. Statistics notes: Absence of evidence is not evidence of absence, BMJ, 1995, Vol. 311, No.
7003. —, p.485.

229
Изучалось дополнительное лечение (поддерживающая химиотерапия) для
лечения пациентов с некоторой первичной формой ракового заболевания III стадии
после операционного вмешательства. Пациенты проходили лечение в одной
клинике. Данные по таким пациентам были получены с 1999 по 2010 гг. из Регистра
раковых заболеваний.
Задача исследования – оценить преимущества дополнительного лечения
(treatment benefit) на снижение риска неблагоприятного исхода в течении 5 лет
после лечения для исследуемой популяции при наличии поддерживающей
химиотерапии.
Чаще изучаются факторы риска, связанные с неблагоприятным исходом, в
данном примере показано, как один и тот же аппарат анализа используется при
различных целях исследования: мы будем изучать не фактор риска, а преимущества
лечения.
В исследование были включены 395 пациентов, которые соответствовали
критериям включения (первичная форма, III стадия, морфологическое
подтверждение диагноза и стадии, радикальное лечение). Часть пациентов
наблюдалась после радикального лечения, часть получала поддерживающее
лечение. Поддерживающее лечение назначалось нерандомизированно и состояло из
6 курсов.
В примере опущена описательная часть , касающаяся радикального лечения, а
также эпидемиологических характеристик исследуемой когорты.
Тип исследования определялся как квазиэкспериментальное, открытое
когортное историческое исследование (данные получены из записей предыдущих
лет). Сроки наблюдения пациентов различны. Неблагоприятное событие – смерть от
основного заболевания. Следовательно, мы анализируем причинно-специфическую
выживаемость (канцер-специфическую). Метод исследования – анализ
выживаемости.
Шаг 1.
В процессе анализа данных выяснилось, что часть пациентов получила не 6
курсов поддерживающей химиотерапии, а меньше.
Одним из вопросов предварительного анализа данных был вопрос о том, как
рассматривать группу пациентов, получивших неполный курс поддерживающей
химиотерапии1.
Построенный график зависимости выживаемость от количества курсов
(Рис.22–1) дал возможность предположить, что можно выделить 3 группы: 0 курсов
(Группа 0), 1–4 курса (Группа 1–4) , 5–6 курсов (Группа 5–6).
После разбиения на группы использовался общий логранговый тест для
установления различий между группами. Тест был значим на уровне p  0,028.
Дальнейшее сравнение между группами показало, что значимые различия
существуют только между группами 0 и 5–6 ( p  0,006). Между группами 0 и 1–4
различия были незначимы ( p  0,945), незначимы были различия между группами
1–4 и 5–6 ( p  0,107).
У нас не было оснований присоединять группу 1–4 к какой либо из других
групп и нас интересовал риск связанный с наличием или отсутствием

1
Все расчеты и построение графиков проводились с помощью статистического пакета R
(R Foundation for Statistical Computing, Vienna, Austria; http://www.r-project.org/; Accessed August 1, 2011) с
пакетами survival и rms.

230
поддерживающей химиотерапии, поэтому было принято решение исключить группу
1–4 из анализа риска. Оставшийся объем выборки составил 360 пациентов.

Рис.23–1. Графики выживаемости в зависимости от количества проведенных курсов


поддерживающей химиотерапии
Шаг 2.
Мы закодировали бинарную переменную следующим образом “отсутствие
химиотерапии” – “0”, “наличие химиотерапии” – “1” (изучаем фактор преимущества
лечения). На основании логрангового теста мы уже могли говорить о том, что
наличие поддерживающей химиотерапии повышает причинно-специфическую 5-
летнюю выживаемость. Также мы построили регрессию Кокса (Раздел 18.6),
оценили значимость модели с этим предиктором (Табл.23–2), получили оценку
параметра βˆ1  0,51 (Табл. 23–3). Поскольку наличие химиотерапии – интересующее
состояние и закодировано “1”, и коэффициент регрессии будет читаться как
“логарифм отношения рисков групп с наличием и отсутствием химиотерапии”.
Отношение рисков, связанное с наличием химиотерапии составило
exp β 1   exp  0,5108   0,60 , 95% ДИ составил (0,41÷0,88) Это означает, что наличие
ˆ
химиотерапии снижает риск неблагоприятного исхода в 1,6 раз (на 40%).
Таблица 22–2. Тест отношения правдоподобия для Кокс-регрессии с предиктором "наличие
химиотерапии"

L χ2 df p
Модель без предиктора –672,40
Модель с –668,86 7,089 1 0,0078
предиктором"Наличие
химиотерапии"

Таблица 22–3. Оценка параметров регрессии с предиктором "наличие химиотерапии"

βˆ 1  
SE βˆ 1 Статистика
Вальда
p
Наличие химиотерапии 0,198
–0,5108 –2,58 0,00987
0

231
Второй вопрос, который надо было решить, был связан с возрастом как
типичным конфаундером в исследованиях такого рода (квазиэкспериментальные
когортные исследования). Мы должны были учесть влияние возраста на
исследуемый фактор – фактор преимущества химиотерапии.
Распределение пациентов по возрасту в когорте показано на рис. 23–2.
Медиана возраста – 62 года, Q25 53 года, Q75 68 лет.
70
60
Возраст

50
40
30

Рис.22–2. Распределение возраста в исследуемой когорте


Поскольку возраст является количественной переменной, то есть два
основных подхода к анализу такой переменной в анализе выживаемости – либо
разбить эту переменную на несколько интервалов (например, в соответствии с
квартилями на 4 интервала, 4 равных группы) или исследовать ее влияние с
помощью Кокс-регрессии. Мы выбрали использование однофакторной модели
Кокса. Тест отношения правдоподобия выявил значимость параметра “возраст” как
фактора риска (Табл. 32–4). Изменение возраста на 1 год вызывает увеличение
риска неблагоприятного исхода (Табл.23–5) в среднем в 1,018 раз (на 1,8%).
Таблица 23–4. Тест отношения правдоподобия для Кокс-регрессии с предиктором "возраст"

L χ2 df p
Модель без предиктора –672,40
Модель с предиктором –670,42 3,9679 1 0,04638
"возраст"

Таблица 22–5. Оценка параметров регрессии с одним количественным предиктором "возраст"

βˆ 1  
SE βˆ 1
Статистика
Вальда
p
Возраст 0,017938 0,009185 1,953 0,0508

График изменения логарифма относительного риска от возраста представлен


на рис. 23–3.

232
0.2
Ln (относительный риск)

0.0
-0.2
-0.4
-0.6 30 40 50 60 70

Возраст

Рис.23–3. Изменение логарифма относительного риска с возрастом по модели


Использование модели Кокса только с бинарным предиктором дает грубую
оценку относительного риска при наличии химиотерапии. Следующий шаг
исследования – составить модель Кокса для оценки снижения относительного риска
при наличии химиотерапии с коррекцией на возраст. Тест отношения
правдоподобия для предикторов и оценки параметров такой модели приведены в
Табл. 23–6 и 23–7.

Таблица 22–6. Тест отношения правдоподобия для Кокс-регрессии с двумя предикторами

LR χ2 df p
Наличие химиотерапии 4,6443 1 0,0312
Возраст 1,5232 1 0,2171

Таблица 22–7. Оценка параметров регрессии с двумя предикторами


Оценки Статистика
Оценки βˆ SE βˆ   Вальда
p

Наличие химиотерапии β1 –0,4362 0,2071 –2,107 0,0351


Возраст β2 0,0116 0,0095 1,219 0,2229

Как видно из Tабл. 23–4, в модели введение ковариаты, связанной с


возрастом, изменила оценку относительного риска из-за наличия химиотерапии.
Однако, предиктор Возраст престал быть значимым. Фактически значение
относительного риска exp βˆ 1   exp  0,4362   0.65 – это значение относительного
риска для среднего возраста по имеющейся выборке, 95% ДИ (0,43÷0,97) .
Построим модель со взаимодействием двух предикторов и проверим
предположение о взаимодействии возраста и исследуемого фактора преимущества
лечения (Раздел 18.8).
Для модели со взаимодействием тест отношения правдоподобия для
предикторов и оценки параметров такой модели приведены в Табл. 23–8 и Табл. 23–
9.

233
Таблица 23–8. Тест отношения правдоподобия для Кокс-регрессии с двумя
взаимодействующими предикторами

LR χ2 df p
Наличие химиотерапии 4,6443 1 0,0312
Возраст 1,5232 1 0,2171
Наличие химиотерапии х 2,8329 1 0,0924
Возраст

Таблица 23–9. Оценка параметров регрессии с двумя взаимодействующими предикторами


Параметр
в модели Оценки βˆ Оценки SE βˆ  Статистика
Вальда
p
Наличие
химиотерапии
β1 –2,5377 1,2953 –1,959 0,0501

Возраст β2 0,0013 0,0111 0.114 0,9089


Возраст х Наличие β3 0,0354 0,0213 1,658 0,0973
химиотерапии

Из Табл. 23-8 видно, что вклад в снижение вариации (девиации) модели у


переменной "Наличие химиотерапии" значим, однако оценка параметра (Таблица
23-9) незначима на уровне p=0,05.
Сначала “прочтем” модель (см. Раздел 16.6).
Среднее исхода y при Возраст =0 и Отсутствии химиотерапии есть β 1 ;
изменение в среднем исхода (логарифма относительного риска) y при увеличении
переменной Возраст на 1 и Отсутствии химиотерапии есть β 2 ; β 3 – это разность в
уклонах двух регрессионных уравнений: для Наличия химиотерапии и для
Отсутствия химиотерапии при изменении возраста на 1.
Из Табл. 23–9 следует, что возраст изменяет отношение рисков, связанное с
преимуществом лечения, между двумя группами. Однако, значимость параметра,
связанного со взаимодействием двух переменных 0,05  p  0,1 (Табл. 23–8). Мы
решили, что такое взаимодействие должно быть принято во внимание. Был
построен график зависимости логарифма относительного риска от возраста для
двух групп – при наличии и при отсутствии химиотерапии (рис. 23–4). Из этого
графика видно, что отсутствие химиотерапии – это постоянный относительный
риск в любом возрасте постановки диагноза (в течение 5 лет, поскольку мы строили
модель по пятилетней причинноспецифической выживаемости). Более низкий
относительный риск, связанный с наличием химиотерапии, возрастает с
увеличением возраста пациента на момент диагноза.

234
Рис.23–4. Изменение логарифма относительного риска с возрастом в группах с
химиотерапией и без химиотерапии
Мы рассчитали (Табл. 23–10) отношение рисков при наличии и отсутствии
химиотерапии для различных возрастов по имеющейся модели. Необходимо
обратить внимание на доверительные интервалы оценок для разных возрастов. Для
значений возраста больших медианы они содержат 1. Формально, это означает, что
для оценок отношения рисков p  0,05 .
Таблица 23–10. Отношение рисков для определенного возраста
Отношение рисков при наличии и отсутствии
Возраст, годы химиотерапии
значение Нижняя граница Верхняя граница
95% ДИ 95% ДИ
40 0,33 0,13 0,82
50 0,46 0,26 0,82
60 0,66 0,45 0,98
Q50=62 0,71 0,47 1,06
70 0,94 0,53 1,67
Нам не хватает мощности исследования, чтобы сделать окончательные
выводы по всем возрастным группам. Но, тем не менее, мы получили достаточно
полную картину, чтобы понять, что проведение поддерживающей химиотерапии в
возрасте до 60 лет статистически значимо снижает неблагоприятный исход. Этот
вывод имеет клиническую важность. Возможна разработка протокола лечения, по
которому поддерживающая химиотерапия будет обязательным этапом лечения в
возрасте до 60 лет.
Утверждение, что "отношение рисков для групп с наличием и отсутствием
химиотерапии с коррекцией на возраст (по модели с двумя предикторами без
взаимодействия) составило 0,65 (0,43÷0,97) для исследуемой когорты, т.е. снижение

235
риска на 35% (3%÷57%)", статистически значимо ( p  0,05 ), но верхняя граница
доверительного интервала близка к 1 (нижняя граница процентного интервала
близка к нулю), и практическая полезность этой информации невелика.
Примечания к примеру.
1. При изложении логики исследования опущена часть, связанная с
проверкой линейности и пропорциональности рисков для того,
чтобы не отвлекаться от основного изложения. В реальном
исследовании такая проверка была проведена, предположения
модели Кокса не были нарушены.
2. Мы видели на графике ( и можем доказать расчетами), что возраст не
влияет на относительный риск неблагоприятного исхода для группы
с отсутствием химиотерапии. Сложность заключалось в том, что
возраст играл роль в модели только при наличии химиотерапии,
редуцируя ее положительное влияние при увеличении. Если бы мы
отдельно построили 2 модели для этих двух групп (с химиотерапией
и без нее), то для группы с отсутствием химиотерапии оценка
параметра предиктора возраст была бы незначимой, в регрессионном
подходе трактуется как отсутствие связи между переменными. Таким
образом, наша задача оценки относительного риска при наличии
химиотерапии вылилась в задачу – как учесть влияние возраста,
причем, как выяснилось, только на одну из групп1. Можно еще раз
отметить, что визуализация при анализе – очень мощная поддержка
исследователю в понимании своих данных.
Данные для расчета этого примера и R-скрипты для выполнения анализа
приведены в Приложении R-13.

Основные аспекты
Если за данными, имеющимися в вашем распоряжении, видеть проблему, если
внимательно их анализировать, то вы найдете свою систему доказательств.

1
Для такого анализа могут использоваться так называемые иерархические модели, в которых учитывается
различный уклон количественных переменных на разных уровнях категориальной переменной.

236
Заключение
Пособие написано на основе многолетней работы в области статистического
анализа медико-биологических данных. Но это не справочник, который можно
открыть на любой странице. Фактически, это сквозное прохождение всех этапов
анализа в основных типах дизайнов исследования. Примеры взяты из реальных
исследований и немного адаптированы для изложения. В примерах мне хотелось
донести связь излагаемого материала – как характеристики исследования,
характеристики данных влияют на поиск решения, на обоснование статистических
доказательств. Я повторю, что с каждым исследователем мы начинали все заново,
потому что мы выстраивали систему доказательств на конкретном дизайне
исследования с учетом особенностей данных. Нет готовых решений, к решению надо
придти. Поэтому статистические пакеты – только инструмент в руках
исследователя.
Выводы – за вами!
Я очень благодарна коллегам-медикам за то, что они разрешили мне
использовать их данные в примерах, за их вопросы, которые иногда приводили к
длительным поискам по литературе и помогали мне лучше понять весь аппарат
анализа. Но главное, я благодарна им за ту работу, который они делают ежедневно –
лечат людей.

С уважением,
Ольга Красько

P.S. Найденные в тексте пособия ошибки любой природы: от методологических


до грамматических – исключительно моя ответственность.

237
Рекомендуемая литература
Некоторые теоретические и математические аспекты статистического
анализа сложны для неподготовленных читателей, поэтому даются ссылки книги
или пособия, которые излагают этот материал без привлечения сложных разделов
математики. В некоторых случаях приводятся книги для более глубокого изучения
определенной проблемы или вида анализа. Безусловно, литературы по
статистическому анализу в медицине, биологии, эпидемиологии намного больше, но
данное пособие – не теоретическое исследование, а руководство по методам
прикладного статистического анализа с уклоном в медико-биологические данные.

Раздел 1.
Флетчер Р., Флетчер С., Вагнер Э. Клиническая эпидемиология. Основы
доказательной медицины. — М.: Медиа Сфера, —1998. — 352 с.
Richard K. Riegelman. Studying a study and testing a test: how to read the medical
evidence. – Lippincott Williams & Wilkins, — 2005. — 403p.

Раздел 2.
Флетчер Р., Флетчер С., Вагнер Э. Клиническая эпидемиология. Основы
доказательной медицины. — М. : Медиа Сфера, —1998. — 352 с.
Stewart A. Basic statistics and epidemiology. A practical guide, Oxford: Radcliffe
Publishing, — 2010. — 208 p.
Szklo, M. Nieto F.J. Epidemiology: Beyond the Basics, Boston: Jones and Bartlett, —
2007. — 490p.
Research metods in Occupational Epidemiology, edited by Brian MacMahon, Oxford
University Press, — 1989. — 344p.
ICH E9 – Statistical Principles for Clinical Trials, —EMEA, — 2006. — 37p.
ICH E10 – Choice of Control Group in Clinical Trials, —EMEA, — 2006. — 30p.

Раздел 3.
Гланц C. Медико-биологическая статистика, — М.: Практика, —1998. — 459 с.
Петри А., Сэбин К. Наглядная статистика в медицине, — М.: ГЭОТАР-МЕД, —
2003. — 144c.
Chap T. Le. Introductory biostatistics, — NY: John Wiley & Sons, —2003. — 536p.
Stewart A. Basic statistics and epidemiology. A practical guide, Oxford: Radcliffe
Publishing, — 2010. — 208 p.

Раздел 4.
Гланц C. Медико-биологическая статистика, — М.: Практика, —1998. — 459 с.
Петри А., Сэбин К. Наглядная статистика в медицине, — М.: ГЭОТАР-МЕД, —
2003. — 144c.
Chap T. Le. Introductory biostatistics, — NY: John Wiley & Sons, — 2003. — 536p.
Stewart A. Basic statistics and epidemiology. A practical guide, Oxford: Radcliffe
Publishing, — 2010. — 208 p.
Chow S.C., Wang H., Shao J. Sample Size Calculations in Clinical Research, —
Chapman & Hall/CRC Biostatistics Series, — 2008. — 466 р.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.
238
Раздел 6.
Гланц C. Медико-биологическая статистика, — М.: Практика, —1998. — 459 с.
Петри А., Сэбин К. Наглядная статистика в медицине, — М.: ГЭОТАР-МЕД, —
2003. — 144c.
Chap T. Le. Introductory biostatistics, — NY: John Wiley & Sons, —2003. — 536p.
Stewart A. Basic statistics and epidemiology. A practical guide, Oxford: Radcliffe
Publishing, — 2010. — 208 p.
Newman S. C. Biostatistical Methods in Epidemiology, NY: John Wiley & Sons, —
2001. — 382p.

Раздел 7.
Гланц C. Медико-биологическая статистика, — М.: Практика, —1998. — 459 с.
Петри А., Сэбин К. Наглядная статистика в медицине, — М.: ГЭОТАР-МЕД, —
2003. — 144c.
Chap T. Le. Introductory biostatistics, — NY: John Wiley & Sons, —2003. — 536p.
Stewart A. Basic statistics and epidemiology. A practical guide, Oxford: Radcliffe
Publishing, — 2010. — 208 p.
Newman S. C. Biostatistical Methods in Epidemiology, NY: John Wiley & Sons, —
2001. — 382p.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.

Раздел 8.
Гланц C. Медико-биологическая статистика, — М.: Практика, —1998. — 459 с.
Петри А., Сэбин К. Наглядная статистика в медицине, — М.: ГЭОТАР-МЕД, —
2003. — 144c.
Chap T. L. Introductory biostatistics, NY: John Wiley & Sons, — 2003. — 536p.
Stewart A. Basic statistics and epidemiology. A practical guide, Oxford: Radcliffe
Publishing, — 2010. — 208 p.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.

Раздел 9.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.
Agresti A. Categorical Data Analysis, — NY: John Wiley & Sons, —2002. — 734p.
Breslow N. E., Day N. E. Statistical Methods in Cancer Research. Volume I. The
analysis of case-control studies, — IARC Scientific Publications, —1984. — 338p.

Раздел 10.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.
Петри А., Сэбин К. Наглядная статистика в медицине, — М.: ГЭОТАР-МЕД, —
2003. — 144c.
Chap T. Le. Introductory biostatistics, — NY: John Wiley & Sons, —2003. — 536p.

239
Stewart A. Basic statistics and epidemiology. A practical guide, Oxford: Radcliffe
Publishing, — 2010. — 208 p.

Раздел 11.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.
Newman S. C. Biostatistical Methods in Epidemiology, — NY: John Wiley & Sons, —
2001. — 382p.
Bishop Y.M., Fienberg S.E., Holland P.W. Discrete multivariate analysis: Theory and
practice, — NY: Springer, — 2007. —558p.
Agresti A. Categorical Data Analysis, — NY: John Wiley & Sons, —2002. — 734p.

Раздел 12.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.
Bishop Y.M., Fienberg S.E., Holland P.W. Discrete multivariate analysis: Theory and
practice, — NY: Springer, — 2007. —558p.
Agresti A. Categorical Data Analysis, — NY: John Wiley & Sons, — 2002. — 734p.

Раздел 13.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.
Agresti A. Categorical Data Analysis, — NY: John Wiley & Sons, — 2002. — 734p.
Breslow N. E., Day N. E., Statistical Methods in Cancer Research. Volume II.The
Design and Analysis of Cohort Studies, — IARC Scientific Publications No. 82, — 1987. —
406p.
Dmitrienko A., Molenberghs G., Chuang-Stein C., Offen W., Analysis of Clinical Trials
Using SAS®: A Practical Guide, — Cary, NC: SAS Institute Inc. , — 2005. — 420p.

Раздел 14.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.
Bishop Y.M., Fienberg S.E., Holland P.W. Discrete multivariate analysis: Theory and
practice, — NY: Springer, — 2007. —558p.
Agresti A. Categorical Data Analysis, — NY: John Wiley & Sons, —2002. — 734p.
Breslow N. E., Day N. E. Statistical Methods in Cancer Research. Volume II.The
Design and Analysis of Cohort Studies, — IARC Scientific Publications No. 82, — 1987. —
406p.
Dmitrienko A., Molenberghs G., Chuang-Stein C., Offen W., Analysis of Clinical Trials
Using SAS®: A Practical Guide, — Cary, NC: SAS Institute Inc. , — 2005. — 420p.

Раздел 15.
Монтгомери Д. К. Планирование эксперимента и анализ данных: Пер.—Л.:
Судостроение, 1980.—384 с.
Regression methods in biostatistics: linear, logistic, survival, and repeated measures
models / Eric Vittinghoff ... [et al.], — NY: Springer, — 2005. — 338p.

240
Dmitrienko A., Molenberghs G., Chuang-Stein C., Offen W., Analysis of Clinical Trials
Using SAS®: A Practical Guide, — Cary, NC: SAS Institute Inc. , — 2005. — 420p.

Раздел 16.
Н. Дрейпер, Г. Смит. Прикладной регрессионный анализ. В 2-х кн. – М. :
Финансы и статистика, — 1986.
Regression methods in biostatistics: linear, logistic, survival, and repeated measures
models / Eric Vittinghoff ... [et al.], — NY: Springer, — 2005. — 338p.

Раздел 17.
Agresti A. Categorical Data Analysis, — NY: John Wiley & Sons, — 2002. — 734p.
Regression methods in biostatistics: linear, logistic, survival, and repeated measures
models / Eric Vittinghoff ... [et al.], — NY: Springer, — 2005. — 338p.
Breslow N. E., Day N. E. Statistical Methods in Cancer Research. Volume II. The
Design and Analysis of Cohort Studies, — IARC Scientific Publications No. 82, — 1987. —
406p.
Hosmer D.W., Lemeshow S. Applied logistic regression. 2nd ed., — NY: John Wiley &
Sons, — 2000. — 376p.

Раздел 18.
Estève, J., Benhamou, E., Raymond, L., Statistical methods in cancer research, Volome
IV. Descriptive epidemiology, — Lyon: IARC Scientific Publications, — 1994. —302p.
Hosmer, D. W., and Lemeshow, S., Applied Survival Analysis, NY: John Wiley & Sons,
— 1999. —386p.
Cox, D. R., and Oakes, D., Analysis of Survival Data, — NY: Chapman & Hall,— 1985.
— 208p.
Selvin S., Survival Analysis for Epidemiologic and Medical Research, — Cambridge
University Press, — 2008. — 282p.

Разделы 19 – 20.
Harrell F.E. Regression modeling strategies: with applications to linear models,
logistic regression, and survival analysis. — NY: Springer , — 2001. — 568 p.
Ewout W. Steyerberg Clinical Prediction Models. A Practical Approach to
Development, Validation and Updating, — NY: Springer, — 2009. — 498p.

Раздел 21.
Монтгомери Д. К. Планирование эксперимента и анализ данных: Пер.—Л.:
Судостроение, 1980.—384 с.
Regression methods in biostatistics: linear, logistic, survival, and repeated measures
models / Eric Vittinghoff ... [et al.], — NY: Springer, — 2005. — 338p.

Раздел 22.
Монтгомери Д. К. Планирование эксперимента и анализ данных: Пер.—Л.:
Судостроение, 1980.—384 с.
Gart, J.J., Krewski, D., Lee, P.N., Tarone, R.E. and Wahrendorf, J., 1985. Statistical
methods in cancer research. Volume III-The design and analysis of long-term animal
experiments. IARC scientific publications, (79), pp.1-219.

241
Festing, M.F. and Altman, D.G., 2002. Guidelines for the design and statistical
analysis of experiments using laboratory animals. ILAR journal, 43(4), pp.244-258.

Раздел 23.
Флетчер Р., Флетчер С., Вагнер Э. Клиническая эпидемиология. Основы
доказательной медицины. — М.: Медиа Сфера, —1998. — 352 с.

Рекомендации по подготовке научных публикаций в медико-биологических


исследованиях хорошо представлены в книге:
Ланг Т.А., Сесик М., Как описывать статистику в медицине. Руководство для
авторов, редакторов и рецензентов. —М.: Практическая Медицина, 2011. - 480 с.

242
Приложение R. Почему R?
R – это специфический проект информационного сообщества для
статистического и интеллектуального анализа данных.
Основные преимущества R:
1. Вам не нужно знать весь проект, чтобы начать его использовать. Гибкая
система библиотек (package) позволит работать только с той частью проекта,
которая нужна для анализа ваших данных.
2. Использование R допускается в высокорейтинговых международных
журналах, которые ранее разрешали только использование программного
обеспечения SAS (Statistical Analysis System) для статистических расчетов. Также R
популярен в академической среде.
3. R – бесплатен и доступен. Скачать его можно с очень большого количества
серверов, расположенных по всему миру.
4. Главное – R помогает сосредоточиться на исследовании и системе
доказательств. Обращаясь к определенной функции R, вы получаете ответ ровно на
тот "вопрос", который вы задали. Это позволяет гибко составлять свое
исследование, избегая множества характеристик, которые не нужны в вашем
исследовании и могут вас запутать. Тем самым, он заставляет продумывать ваши
"вопросы" и логически систематизировать именно ваше исследование.
5. Все этапы анализа мы можете описывать для себя вместе со скриптами, как
комментарии. Вся последовательность анализа и система доказательств будет
записана. Вы получите цельный взгляд на свое исследование. Если вы что-то
пропустили, вы всегда можете добавить пропущенную часть анализа в нужное
место.
Если вы начинающий исследователь – скачайте ядро R (http://cran.r-
project.org/), установите у себя на компьютере. Запустив программу, вы получите
следующее окно:

243
Установите библиотеку Rcmdr (Rcmdr-package, он автоматически установит и
другие библиотеки). Введите команду library(Rcmdr) на консоли. Вы получите
следующее окно.

Его достаточно, чтобы начать работу с R.


Ваши данные можно импортировать из файла (текстового, файла EXCEL,
буфера обмена и др.).
Попробуйте, возможно, вам понравится строгость и лаконичность R?
Скрипты R, данные в настоящем пособии не оптимизированы с точки зрения
программиста. Но задача была – показать простоту R с точки зрения исследователя.
Пока нет русскоязычного руководства по R. Но, если русскоязычных
пользователей R станет больше, оно обязательно появится.
Пользователям желаю интересных исследований!
О.К.

244
Приложение R-1
library(abind)
library(e1071)
#####################################
# формирование набора данных
#####################################

Univar <- data.frame(cbind(


sample.А=c(114,119,117,121,115,116),
sample.Б=c(99.4, 104.0, 102.0, 106.0,100.0,101.0),
sample.В=c(94.0, 100.4, 97.0, 102.0, 95.0, 96.0),
sample.Г=c(94, 99, 97, 101, 95, 96),
sample.Д=c(101.8, 104.0, 102.0, 107.0, 100.0, 101.0)
))

######################################################
# расчет среднего и среднеквадратичного отклонения
######################################################

numSummary(Univar[,c("sample.А", "sample.Б", "sample.В", "sample.Г", "sample.Д")], statistics=c("mean", "sd"))

######################################################
# одновыборочный t-тест с различными гипотезами
######################################################
# Выборка А
t.test(Univar$sample.А, alternative='two.sided', mu=100.0, conf.level=.95)
t.test(Univar$sample.А, alternative='greater', mu=100.0, conf.level=.95)
t.test(Univar$sample.А, alternative='less', mu=100.0, conf.level=.95)

# Выборка Б
t.test(Univar$sample.Б, alternative='two.sided', mu=100.0, conf.level=.95)
t.test(Univar$sample.Б, alternative='greater', mu=100.0, conf.level=.95)
t.test(Univar$sample.Б, alternative='less', mu=100.0, conf.level=.95)

# Выборка В
t.test(Univar$sample.В, alternative='two.sided', mu=100.0, conf.level=.95)
t.test(Univar$sample.В, alternative='greater', mu=100.0, conf.level=.95)
t.test(Univar$sample.В, alternative='less', mu=100.0, conf.level=.95)

# Выборка Г
t.test(Univar$sample.Г, alternative='two.sided', mu=100.0, conf.level=.95)
t.test(Univar$sample.Г, alternative='greater', mu=100.0, conf.level=.95)
t.test(Univar$sample.Г, alternative='less', mu=100.0, conf.level=.95)

# Выборка Д
t.test(Univar$sample.Д, alternative='two.sided', mu=100.0, conf.level=.95)
t.test(Univar$sample.Д, alternative='greater', mu=100.0, conf.level=.95)
t.test(Univar$sample.Д, alternative='less', mu=100.0, conf.level=.95)

245
Приложение R-2
Перед выполнением скрипта необходимо скопировать данные, приведенные в
таблице ниже, двумя столбцами (Age, Size), сохранить в текстовом файле или файле
EXCEL, затем импортировать их в набор данных R под именем Proportions.

Age Size Age Size Age Size Age Size Age Size Age Size Age Size
6 3.23 7 18.32 8 20.12 9 12.21 10 2.6 11 8.31 12 8.62
6 4.07 7 3.5 8 6 9 25.15 10 12.45 11 11.86 12 7.47
8 2.63 9 31.61 10 5.48 11 3.81 12 5.71
8 3.56 9 5.27 10 10.3 11 8.21 12 5.22
8 5.18 9 7.66 10 2.99 11 7.44 12 6.47
8 20.84 9 6.71 10 8.29 11 3.59 12 7.79
8 9.58 9 12.42 10 3.56 11 7.78 12 21.56
8 6.13 9 4.32 10 3.51 11 5.69 12 5.29
10 9.1 11 8.13 12 8.62
10 5.21 11 4.74 12 5.99
10 9.77 11 1.98 12 9.66
10 6.37 11 10.01 12 9.52
10 7.24 11 2.74 12 4.42
10 3.6 11 5.27 12 16.19
10 9.9 11 10.96 12 5.14
11 2.62 12 5.93
12 1.37
12 45.62
12 7.9
12 13.95
12 4.65
12 4.01
12 5.92

###########################################
# одновыборочный биноминальный тест
###########################################
# расчет для группы возраста 6 лет

m6 <- nrow(subset(Proportions, Age==6 & Size >4.8))


n6 <- nrow(subset(Proportions, Age==6))

# точный биноминальный тест с расчетом доверительных интервалов


binom.test(m6, n6, alternative='two.sided', p=.03, conf.level=.95)

# тест пропорций - нормальная аппроксимация


prop.test(m6, n6, alternative='two.sided', p=.03, conf.level=.95, correct=FALSE)

# тест пропорций - нормальная аппроксимация с поправкой на непрерывность


prop.test(m6, n6, alternative='two.sided', p=.03, conf.level=.95, correct=TRUE)

###############################################################
# расчет для группы возраста 7-12 лет (только точный биноминальный тест)

m7 <- nrow(subset(Proportions, Age==7 & Size >5.41))


n7 <- nrow(subset(Proportions, Age==7))
binom.test(m7, n7, alternative='two.sided', p=.03, conf.level=.95)

m8 <- nrow(subset(Proportions, Age==8 & Size >6.44))


n8 <- nrow(subset(Proportions, Age==8))
246
binom.test(m8, n8, alternative='two.sided', p=.03, conf.level=.95)

m7 <- nrow(subset(Proportions, Age==7 & Size >5.41))


n7 <- nrow(subset(Proportions, Age==7))
binom.test(m7, n7, alternative='two.sided', p=.03, conf.level=.95)

m8 <- nrow(subset(Proportions, Age==8 & Size >6.44))


n8 <- nrow(subset(Proportions, Age==8))
binom.test(m8, n8, alternative='two.sided', p=.03, conf.level=.95)

m9 <- nrow(subset(Proportions, Age==9 & Size >7.13))


n9 <- nrow(subset(Proportions, Age==9))
binom.test(m9, n9, alternative='two.sided', p=.03, conf.level=.95)

m10 <- nrow(subset(Proportions, Age==10 & Size >7.65))


n10 <- nrow(subset(Proportions, Age==10))
binom.test(m10, n10, alternative='two.sided', p=.03, conf.level=.95)

m11 <- nrow(subset(Proportions, Age==11 & Size >9.0))


n11 <- nrow(subset(Proportions, Age==11))
binom.test(m11, n11, alternative='two.sided', p=.03, conf.level=.95)

m12 <- nrow(subset(Proportions, Age==12 & Size >10.4))


n12 <- nrow(subset(Proportions, Age==12))
binom.test(m12, n12, alternative='two.sided', p=.03, conf.level=.95)

247
Приложение R-3

# Тест Мак-Нимара, пропорция, доверительные интервалы


# для анализа пар (matched pairs)

library(PropCIs) # библиотека для расчетов доверительных интервалов для таблиц 2 х 2


Performance <- matrix(c(28, 13, 7, 27),
nrow = 2, dimnames = list("До мероприятий" = c("ЧБД", "УР"),"После мероприятий" = c("ЧБД", "УР")))
Performance # печать таблицы 2 х 2
mcnemar.test(Performance) # тест Мак-Нимара

diffpropci.Wald.mp(b=7, c=13, n=75, 0.95) # ДИ Вальда для пар(Wald interval for a difference of proportions with
matched pairs)

diffpropci.mp(b=7, c=13, n=75, 0.95) # Уточненные ДИ по Вальду для пар (Adjusted Wald interval for a
difference of proportions with matched pairs)

scoreci.mp(b=7, c=13, n=75, 0.95) # Расчет ДИ по Вилсону (Wilson's confidence interval for a single proportion)

oddsratioci.mp(b=7,c=13, 0.95) # ДИ для отношения шансов в парном дизайне (Adapted binomial score
confidence interval for the subject-specific odds ratio with matched pairs)

248
Приложение R-4
library(vcd)

Agreement <- as.table(matrix(c(23,2,1,0,2,14,5,0,0,2,36,0,0,0,3,12), 4, 4, byrow=TRUE))

rownames(Agreement) <- c('Нет заболевания', '1 степень ', '2 степень ', '3 степень ')
colnames(Agreement) <- c('Нет заболевания', '1 степень ', '2 степень ', '3 степень ')

Agreement # Печать таблицы

Kappa(Agreement) # расчет Каппы Коэна

confint(Kappa(Agreement)) # расчет доверительных интервалов


agreementplot(Agreement , main="Диагностика") # визуализация

249
Приложение R-5

# Сравнение сдвига в среднем до и после лечения

HG <- data.frame(cbind( before=c(100,95,73,98,110,101), after=c(130, 110, 120, 115, 105, 125) ))

t.test(HG$after, HG$before, alternative='two.sided', conf.level=.95, paired=TRUE)


t.test(HG$after, HG$before, alternative='greater', conf.level=.95, paired=TRUE)

250
Приложение R-6

library(PropCIs)
# Пример 1
EE=25
EN=125
CE=100
CN=100

OR=(EE/EN)/(CE/CN)
CIOR <- orscoreci(EE,EE+EN,CE,CE+CN, conf.level=0.95)
cat("Отношение шансов: ", OR,"; 95% ДИ ", CIOR$conf.int[1]," – ",CIOR$conf.int[2], "\n")

EER=EE/(EE+EN)
CER=CE/(CE+CN)
RR=EER/CER
CIRR <- riskscoreci (EE,EE+EN,CE,CE+CN, conf.level=0.95)
cat("Относительный риск: ", RR,"; 95% ДИ ", CIRR$conf.int[1]," – ",CIRR$conf.int[2], "\n")

# Пример 2
EE=125
EN=25
CE=100
CN=100

OR=(EE/EN)/(CE/CN)
CIOR <- orscoreci(EE,EE+EN,CE,CE+CN, conf.level=0.95)
cat("Отношение шансов: ", OR,"; 95% ДИ ", CIOR$conf.int[1]," – ",CIOR$conf.int[2], "\n")

EER=EE/(EE+EN)
CER=CE/(CE+CN)
RR=EER/CER
CIRR <- riskscoreci (EE,EE+EN,CE,CE+CN, conf.level=0.95)
cat("Относительный риск: ", RR,"; 95% ДИ ", CIRR$conf.int[1]," – ",CIRR$conf.int[2], "\n")

251
Приложение R-7
#Пример расчета клинического исследования двух препаратов

EE=10
EN=2
CE=4
CN=8
DifP=EE/(EE+EN)-CE/(CE+CN)

DCI <- diffscoreci(EE,EE+EN,CE,CE+CN,conf.level=0.95)


cat("Разность в пропорциях: ", DifP,"; 95% ДИ: ", DCI$conf.int[1]," – ",DCI$conf.int[2], "\n")

OR=(EE/EN)/(CE/CN)
CIOR <- orscoreci(EE,EE+EN,CE,CE+CN, conf.level=0.95)
cat("Отношение шансов: ", OR,"; 95% ДИ: ", CIOR$conf.int[1]," – ",CIOR$conf.int[2], "\n")

252
Приложение R-8
# построение ROC-кривой

library(pROC)

ls <- c(1.0, 1.1, 1.3, 1.5, 2.8, 3.7, 4.6, 4.8, 4.9, 5.5, 5.5, 5.9)
response <- c(1,0,1,1,0,1,0,0,1,0,0,0)
roc.data <-roc(response , ls,ci=T)
print(roc.data)
#ci.auc(roc.data)
plot.roc(roc.data,print.thres='best',print.auc=TRUE, grid=TRUE, family="mono")
plot.roc(smooth(roc.data), add=TRUE, col="blue")
ci.thresholds(roc.data,boot.n=200, conf.level=0.95, stratified=FALSE,thresholds='best')

253
Приложение R-9

library(abind, pos=4)
library(vcd)
library(lattice)
######################################
# три локализации
######################################
MS <- matrix(c(54,57,14,14,33,1), 2, 3, byrow=TRUE)
rownames(MS) <- c('Наличие', 'Отсутствие')
colnames(MS) <- c('I', 'II', 'III')
names(dimnames(MS)) <- c("Metastasis","Localization")
MS # печать таблицы
colPercents(MS) # проценты
TestChiq <- chisq.test(MS, correct=FALSE) # хи-квадрат тест

round(TestChiq$expected, 2)
round(TestChiq$stdres, 2)
TestChiq
remove(TestChiq)
# создание мозаичной диаграммы рис. 14-1
trellis.device(theme="col.whitebg", family="mono")
#параметры легенды мозаичной диаграммы
q <- legend_resbased(fontsize = 10,
x = unit(1, "lines"), y = unit(0.1,"npc"),
height = unit(0.8, "npc"), width = unit(0.7, "lines"),
digits = 3, check_overlap = TRUE, text = NULL,
steps = 200, ticks = 10, pvalue = TRUE, range = NULL)
#параметры мозаичной диаграммы
gg <- shading_hcl(MS, residuals = NULL, expected = NULL, df = 2,
h = NULL, c = NULL, l = NULL, interpolate = c(1.5, 2), lty = 1,
eps = NULL, line_col = "black", p.value = NULL, level = 0.95)
# получение рисунка
assoc(MS, shade=T, xscale=0.5,margins=c(5,4,4,5),legend = q,gp = gg, ,xlab="",
main = "", labeling_args = list(1,2))

remove(MS)

# сравнение II и I
metastasis <- c( 57, 54 )
all <- c( 90, 68)
prop.test(metastasis, all, alternative='less', conf.level=.95, correct=FALSE)

# сравнение II и III
metastasis <- c( 57, 14 )
all <- c( 90, 15)
prop.test(metastasis, all, alternative='less', conf.level=.95, correct=FALSE)

# сравнение II и не-II
metastasis <- c( 68, 57 )
all <- c(83, 90)
prop.test(metastasis, all, alternative='two.sided', conf.level=.95, correct=FALSE)

254
# доверительные интервалы для II и не-II групп
prop.test(57, 90)
prop.test(68, 83)

# Разность в пропорциях
metastasis <- c( 68, 57 )
all <- c(83, 90)
t <- prop.test(metastasis, all, alternative='two.sided', conf.level=.95, correct=FALSE)
cat("разность в пропоциях=",t$estimate[1]-t$estimate[2], ", 95% ДИ", t$conf.int[1], " - ", t$conf.int[2],"\n")

# оценка пропорций и разницы в пропоциях


# с помощью библиотеки epiR

library(epiR)

round(epi.conf(matrix(c(68, 15),ncol = 2), ctype = "prop.single"), digits = 3)


round(epi.conf(matrix(c(57, 33),ncol = 2), ctype = "prop.single"), digits = 3)

dat <- matrix(c(68, 15, 57, 33),ncol = 4)


round(epi.conf(dat, ctype = "prop.unpaired"), digits = 3)

# оценка отношения шансов


MS.2_not2 <- matrix(c(68,15,57,33), 2, 2)
rownames(MS.2_not2) <- c('Наличие', 'Отсутствие')
colnames(MS.2_not2) <- c('не II', ' II')
MS.2_not2
fisher.test(MS.2_not2)

# оценка относительного риска


library(PropCIs)

RR=(68/83)/(57/90)
t <- riskscoreci(68, 83, 57, 90, conf.level=0.95)

cat("относительный риск RR=",RR, ", 95% ДИ", t$conf.int[1], " - ", t$conf.int[2],"\n")

255
Приложение R-10
Исходные данные
Num age.at.measure Group Sex Osteocalcin BCTX
1 15.7 HighDose female 33.43 0.836
2 22.2 HighDose female 35.99 1.170
3 21.3 HighDose male 43.52 1.330
4 15.2 HighDose female 52.36 0.919
5 10.0 HighDose male 103.60 2.240
6 15.1 HighDose male 86.44 1.820
7 15.8 HighDose male 72.51 1.470
8 7.0 HighDose male 46.65 0.901
9 21.7 HighDose male 32.57 1.120
10 17.9 HighDose male 42.03 0.877
11 7.4 HighDose male 67.82 1.630
12 18.3 HighDose female 21.04 0.568
13 5.7 HighDose female 40.48 0.741
14 9.3 HighDose female 43.70 1.070
15 17.3 HighDose female 43.65 0.586
16 6.3 HighDose male 76.78 2.120
17 6.4 HighDose male 71.61 1.460
18 13.3 HighDose male 30.51 0.723
19 20.0 HighDose male 40.42 0.408
20 9.6 HighDose female 107.10 1.860
21 5.5 HighDose male 66.09 1.140
22 24.3 HighDose male 17.11 0.211
23 8.4 LowDose male 96.62 1.540
24 8.8 LowDose male 101.30 2.480
25 17.8 LowDose female 23.24 0.585
26 8.6 LowDose female 83.03 1.510
27 21.2 LowDose female 24.82 0.660
28 15.2 LowDose male 73.47 1.130
29 26.6 LowDose male 17.73 0.474
30 24.8 LowDose male 30.88 0.527
31 13.8 LowDose male 97.27 2.140
32 15.5 LowDose female 26.03 0.519
33 12.1 LowDose female 80.28 1.080
34 13.1 LowDose male 111.90 1.780
35 18.0 LowDose female 53.63 1.650
36 18.0 LowDose male 62.95 1.010
37 20.7 LowDose male 30.29 0.762
38 12.6 LowDose male 114.90 2.940
39 11.6 LowDose male 24.29 1.160
40 5.8 LowDose female 58.73 1.260
41 13.4 LowDose female 42.14 0.874
42 15.4 LowDose male 59.45 1.290
43 13.6 LowDose male 67.04 1.440
44 11.6 LowDose male 63.40 1.560
45 17.6 LowDose male 35.38 0.669
46 19.4 LowDose male 25.46 0.573
47 18.7 LowDose female 27.04 0.393
48 12.8 LowDose female 72.90 1.550
49 14.4 LowDose male 69.05 1.760
50 5.1 control male 103.90 2.500
51 5.3 control female 63.20 1.450
52 5.9 control female 127.90 1.880

256
53 6.4 control female 82.75 1.530
54 5.7 control male 84.94 1.920
55 6.6 control male 60.91 0.683
56 6.6 control female 93.15 1.900
57 6.8 control male 84.21 2.590
58 7.3 control male 55.58 1.640
59 7.5 control male 111.40 2.390
60 8.0 control male 69.29 1.790
61 8.7 control female 83.77 1.740
62 8.8 control female 72.53 1.650
63 9.3 control male 83.80 2.100
64 9.9 control male 152.80 3.230
65 9.3 control female 97.25 1.790
66 10.8 control female 121.10 1.990
67 10.8 control female 88.23 1.810
68 11.3 control female 87.87 2.110
69 11.6 control male 119.00 2.590
70 11.9 control female 102.00 1.450
71 12.5 control female 161.50 2.120
72 12.3 control male 110.10 2.440
73 12.3 control male 97.43 2.060
74 12.4 control male 166.80 2.890
75 13.5 control male 121.50 2.180
76 14.1 control female 70.76 1.310
77 14.1 control male 114.10 2.400
78 14.8 control male 89.88 2.100
79 14.8 control female 64.50 1.140
80 15.1 control female 44.04 1.100
81 15.0 control female 70.13 1.460
82 15.0 control male 69.11 1.830
83 15.2 control male 84.71 2.460
84 15.0 control male 130.60 3.330
85 15.8 control male 64.02 1.430
86 16.3 control female 35.15 0.649
87 16.7 control female 48.28 1.370
88 17.6 control male 32.32 0.418
89 17.7 control male 47.66 1.190
90 18.2 control female 24.81 0.464
91 18.0 control male 51.25 1.620
92 19.3 control female 25.71 0.987
93 20.3 control female 22.05 0.449
94 20.6 control female 14.46 0.262
95 20.9 control male 30.45 0.671
96 21.1 control male 33.86 1.260
97 21.1 control male 62.84 0.861
98 21.2 control male 33.90 0.793
99 21.7 control female 20.20 0.610
100 21.7 control male 21.63 0.809
101 21.8 control male 23.55 0.437
102 21.8 control male 27.28 0.562
103 23.6 control male 24.03 0.830
104 25.4 control male 24.63 0.631
105 26.5 control male 16.57 0.368

257
Скрипт R для выполнения анализа
Перед выполнением необходимо скопировать данные, сохранить в текстовом
файле или файле EXCEL и импортировать их в набор данных R под именем Markers.

library(abind)
library(nortest)
library(abind)
library(e1071)
library(class)
library(lattice)
library(grid)
library(colorspace)
library(effects)
library(car)
library(effects)

Markers$Group <- factor(Markers$Group, levels=c('control','LowDose','HighDose'))

##############################################

# Наблюдения по полу и объему лечения


# Таблица 16-5

xtabs(~Group + Sex, data=Markers)

##################################################################################
# BCTX
########################################################################
# Шаг 1 предварительные исследования зависимой переменной
########################################################################

# выделение контрольной группы


control.BCTX <- subset(Markers, subset=Group=="control", select=c(BCTX))

# проверка на соответствие закону нормального распределения


shapiro.test(control.BCTX$BCTX)
sf.test(control.BCTX$BCTX)

# выделение группы под воздействием

treat.BCTX <- subset(Markers, subset=Group!="control", select=c(BCTX))

# проверка на соответствие закону нормального распределения

shapiro.test(treat.BCTX$BCTX)
sf.test(treat.BCTX$BCTX)

# проверка на соответствие закону нормального распределения всей выборки

shapiro.test(Markers$BCTX)
sf.test(Markers$BCTX)
par(family='mono')
plot(density (Markers$BCTX))

# Графики Рис.16-8, Рис.16-9


trellis.device(theme="col.whitebg", family="mono")
scatterplot(BCTX~age.at.measure | Sex, reg.line=FALSE, smooth=TRUE, spread=F, boxplots='xy', cex.axis=0.8,
span=0.5, jitter=list(x=1, y=1), by.groups=TRUE, data=Markers)

258
scatterplot(BCTX~age.at.measure | Group, reg.line=FALSE, smooth=TRUE, spread=F, boxplots='xy', cex.axis=0.8,
span=0.5, jitter=list(x=1, y=1), by.groups=TRUE, data=Markers)

# создание бинарного предиктора контроль-лечение


Markers$Expose <- with(Markers, 1*(Group!='control'))
Markers$Expose <- factor(Markers$Expose, labels=c('control','expose'))

scatterplot(BCTX~age.at.measure | Expose, reg.line=FALSE, smooth=TRUE, spread=F, boxplots='xy', cex.axis=0.8,


span=0.5, jitter=list(x=1, y=1), by.groups=TRUE, data=Markers)

# группы возраста
numSummary(Markers[,"age.at.measure"], statistics=c("mean", "sd", "quantiles"),quantiles=c(0,.25,.5,.75,1))

Markers$Age.Group <- with(Markers, 1*(age.at.measure<10)+ 2*(age.at.measure>=10 &


age.at.measure<15)+3*(age.at.measure>=15 & age.at.measure<=18)+4*(age.at.measure>18))
Markers$Age.Group <- factor(Markers$Age.Group, labels=c('до 10','10-14','15-18','18+'))

# Таблица 16-6
.Table <- xtabs(~Age.Group+Sex, data=Markers)
.Table
chisq.test(.Table, correct=FALSE)

# проверка на различие возраста в группа, множественное сравнение


TukeyHSD(aov(age.at.measure ~ Age.Group*Sex, data=Markers))

# Таблица 16-7
.Table <- xtabs(~Age.Group+Expose, data=Markers)
.Table
chisq.test(.Table, correct=FALSE)
remove(.Table)

##################################
# Шаг 2 предварительная модель #
##################################

#предварительная модель с основными эффектами


LM.0 <- lm(BCTX ~ Age.Group+Group+Sex,
data=Markers)

#Таблица 16-8
Anova(LM.0, test="F")

#Таблица 16-9
summary(LM.0)

########################################################################
# Шаг 3 провека линейной гипотезы о равенстве коэффициентов регрессии
# снижение количества параметров модели, сравнение моделей
########################################################################

# проверка линейной гипотезы о различимом воздействии выскокодозного и низкодозного воздействия


linearHypothesis(LM.0, "Group[T.HighDose] - Group[T.LowDose] = 0")
# проверка линейной гипотезы о различии возрастных групп до 14 и 10-14
linearHypothesis(LM.0, "Age.Group[T.10-14] = 0")

# сокращение возрастных групп


Markers$Age.Group.BCTX <- with(Markers, 1*(age.at.measure<15)+2*(age.at.measure>=15 &
age.at.measure<=18)+3*(age.at.measure>18))

259
Markers$Age.Group.BCTX <- factor(Markers$Age.Group.BCTX, labels=c('до 15','15-18','18+'))

#предварительная модель с основными эффектами


LM.1 <- lm(BCTX ~ Age.Group.BCTX+Expose+Sex, data=Markers)

#Таблица 16-10
Anova(LM.1, test="F")

# сравнение моделей
anova(LM.0, LM.1, test="F")

##################################################
# Шаг 4 провека наличия эффектов взаимодействия
##################################################

LM.interaction <- stepAIC(LM.1, ~ .^2 ,direction='both', k=2,trace =T )

#Таблица 16-11
Anova(LM.interaction, test="F")
#Таблица 16-12
summary(LM.interaction)

#проверка линейной гипотезы


linearHypothesis(LM.interaction, "Expose[T.expose] + Age.Group.BCTX[T.18+]:Expose[T.expose] = 0")

##############################################
# Шаг 5 исследование остатков и выбросов
##############################################

# основные графики для исследования остатков Рис. 16-10


oldpar <- par(oma=c(0,0,3,0), mfrow=c(1,2),family='mono')
plot(LM.interaction,sub.caption = "LM.interaction", which=c(1,2))
par(oldpar)

#проверка остатков

res.LM.interaction <- residuals(LM.interaction)


shapiro.test(res.LM.interaction)
sf.test(res.LM.interaction)

# тест на выбросы
outlierTest(LM.interaction, cutoff=Inf)

# График Рис 16-11


influencePlot(LM.interaction, id.method="identify")

# влияющие наблюдения
inflm <- influence.measures(LM.interaction)
summary(inflm)

##########################################################
# удаление выброса и повторение шагов подгонки модели
##########################################################

Markers.New <- Markers[-c(84),]

# Повтороение подгонки модлеи


LM.prem <- lm(BCTX ~ Age.Group+Group+Sex, data=Markers.New)

260
LM.reduce<- lm(BCTX ~ Age.Group.BCTX+Expose+Sex, data=Markers.New)
Anova(LM.reduce, test="F")
anova(LM.reduce, LM.prem, test="F")

LM.fit <- stepAIC(LM.reduce, ~ .^2 ,direction='both', k=2,trace =T )


anova(LM.reduce, LM.fit, test="F")
Anova(LM.fit, test="F")

# основные графики для исследования остатков рис. 16-12


oldpar <- par(oma=c(0,0,3,0), mfrow=c(1,2),family='mono')
plot(LM.fit,sub.caption = "LM.fit", which=c(1,2))
par(oldpar)

#проверка остатков
res.LM.fit <- residuals(LM.fit)
sf.test(res.LM.fit)
shapiro.test(res.LM.fit)

# Рис. 16-13 графики эффектов


trellis.device(theme="col.whitebg",family='mono')
plot(allEffects(LM.fit), ask=F)

##################################
# Шаг 6 окончательная модель
##################################

# Таблицы 16-13 и 16-14


summary(LM.fit)
Anova(LM.fit, test="F")

# проверка линейных гипотез


linearHypothesis(LM.fit, "Expose[T.expose] = 0")
linearHypothesis(LM.fit, "Expose[T.expose] + Age.Group.BCTX[T.15-18]:Expose[T.expose] = 0")
linearHypothesis(LM.fit, "Expose[T.expose] + Age.Group.BCTX[T.18+]:Expose[T.expose] = 0")

##########################
# прогноз
##########################

NewData <- matrix(c(


'до 15','male','expose',
'до 15','male','control',
'до 15','female','expose',
'до 15','female','control',
'15-18','male','expose',
'15-18','male','control',
'15-18','female','expose',
'15-18','female','control',
'18+','male','expose',
'18+','male','control',
'18+','female','expose',
'18+','female','control'
), 12, 3, byrow=TRUE)
rownames(NewData) <- c('1', '2', '3', '4', '5', '6','7', '8', '9', '10', '11', '12')
colnames(NewData) <- c('Age.Group.BCTX', 'Sex','Expose')
NewData <- as.data.frame(NewData)

predict.fit <- predict(LM.fit, newdata = NewData, se.fit = T)

261
NewData$Means <- predict.fit$fit
LowCI <- (predict.fit$fit-1.96*predict.fit$se.fit)
HighCI <- (predict.fit$fit+1.96*predict.fit$se.fit)
NewData$LowCI <-LowCI
NewData$HighCI <-HighCI

# Таблица 16-15
NewData

##################################################################################
# Остеокальцин
##################################################################################

########################################################################
# Шаг 1 предварительные исследования зависимой переменной
########################################################################

# выделение контрольной группы


control.Osteocalcin <- subset(Markers, subset=Group=="control", select=c(Osteocalcin))

# проверка на соответствие закону нормального распределения


shapiro.test(control.Osteocalcin$Osteocalcin)
sf.test(control.Osteocalcin$Osteocalcin)

# выделение группы c воздействием


treat.Osteocalcin <- subset(Markers, subset=Group!="control", select=c(Osteocalcin))

# проверка на соответствие закону нормального распределения


shapiro.test(treat.Osteocalcin$Osteocalcin)
sf.test(treat.Osteocalcin$Osteocalcin)

# подбор параметра трансформации


powerTransform (control.Osteocalcin$Osteocalcin)

# создание преобразованной переменной


Markers$Ost.sqrt <- with(Markers, sqrt(Osteocalcin))

# проверка преобразованной переменной на соответствие закону нормального распределения


control.Ost.sqrt <- subset(Markers, subset=Group=="control", select=c(Ost.sqrt))

shapiro.test(control.Ost.sqrt$Ost.sqrt)
sf.test(control.Ost.sqrt$Ost.sqrt)

# График Рис. 16-14


scatterplot(Ost.sqrt~age.at.measure | Sex, reg.line=FALSE, smooth=TRUE, spread=F, boxplots='xy', cex.axis=0.8,
span=0.5, jitter=list(x=1, y=1), by.groups=TRUE, data=Markers)

# График Рис. 16-15


scatterplot(Ost.sqrt~age.at.measure | Group, reg.line=FALSE, smooth=TRUE, spread=F, boxplots='xy',
cex.axis=0.8, span=0.5, jitter=list(x=1, y=1), by.groups=TRUE, data=Markers)

scatterplot(Ost.sqrt~age.at.measure | Expose, reg.line=FALSE, smooth=TRUE, spread=F, boxplots='xy',


cex.axis=0.8, span=0.5, jitter=list(x=1, y=1), by.groups=TRUE, data=Markers)

##################################
# Шаг 2 предварительная модель
##################################

262
LM.0 <- lm(Ost.sqrt ~ Age.Group+Group+Sex, data=Markers)
Anova(LM.0, test="F")
summary(LM.0)
########################################################################
# Шаг 3 провека линейной гипотезы о равенстве коэффициентов регрессии
# снижение количества параметров модели, сравнение моделей
########################################################################

# проверка линейной гипотезы о различимом воздействии выскокодозного и низкодозного воздействия


linearHypothesis(LM.0, "Group[T.HighDose] - Group[T.LowDose] = 0")
linearHypothesis(LM.0, "Age.Group[T.10-14] = 0")

LM.1 <- lm(Ost.sqrt ~ Age.Group+Expose+Sex, data=Markers)


Anova(LM.1, test="F")
summary(LM.1)
anova(LM.0, LM.1, test="F")

##################################################
# Шаг 4 провека наличия эффектов взаимодействия
##################################################

LM.interaction <- stepAIC(LM.1, ~ .^2 ,direction='both', k=2,trace =T )

# Таблица 16-16
Anova(LM.interaction, test="F")

# Таблица 16-17
summary(LM.interaction)

##############################################
# Шаг 5 исследование остатков и выбросов
##############################################

# основные графики для исследования остатков рис. 16-16


oldpar <- par(oma=c(0,0,3,0), mfrow=c(2,2),family='mono')
plot(LM.interaction,sub.caption = "LM.interaction", which=c(1,2))
par(oldpar)

#проверка остатков
res.LM.interaction <- residuals(LM.interaction)
sf.test(res.LM.interaction)
shapiro.test(res.LM.interaction)

# График Рис. 16-17


influencePlot(LM.interaction, id.method="identify")

outlierTest(LM.interaction, cutoff=Inf)

# влияние наблюдений (дополнительно)


inflm <- influence.measures(LM.interaction)
summary(inflm)

LM.fit <- LM.interaction

# График Рис. 16-18


trellis.device(theme="col.whitebg", family='mono')
plot(allEffects(LM.fit), ask=F)

##################################

263
# Шаг 6 окончательная модель
##################################
Anova(LM.fit, test="F")
summary(LM.fit)

# проверка линейных гипотез


linearHypothesis(LM.fit, "Expose[T.expose] = 0")
linearHypothesis(LM.fit, "Expose[T.expose] + Age.Group[T.10-14]:Expose[T.expose] = 0")
linearHypothesis(LM.fit, "Expose[T.expose] + Age.Group[T.15-18]:Expose[T.expose] = 0")
linearHypothesis(LM.fit, "Expose[T.expose] + Age.Group[T.18+]:Expose[T.expose] = 0")

##################################
# прогноз
##################################

NewData <- matrix(c(


'до 10','male','expose',
'до 10','male','control',
'до 10','female','expose',
'до 10','female','control',
'10-14','male','expose',
'10-14','male','control',
'10-14','female','expose',
'10-14','female','control',
'15-18','male','expose',
'15-18','male','control',
'15-18','female','expose',
'15-18','female','control',
'18+','male','expose',
'18+','male','control',
'18+','female','expose',
'18+','female','control'
), 12, 3, byrow=TRUE)
colnames(NewData) <- c('Age.Group', 'Sex','Expose')
NewData <- as.data.frame(NewData)

predict.fit <- predict(LM.fit, newdata = NewData, se.fit = T)

NewData$Means <- (predict.fit$fit)^2


LowCI <- (predict.fit$fit-1.96*predict.fit$se.fit)
HighCI <- (predict.fit$fit+1.96*predict.fit$se.fit)
NewData$LowCI <-LowCI^2
NewData$HighCI <-HighCI^2

# Таблица 16-18
NewData

264
Приложение R-11

library(Rcmdr)
library(effects)
#################################################
# формирование набора данных на основе таблицы 17-6

TC <- matrix(rep(c('Advance','C1',1), 11), nrow=11, byrow=TRUE)


TC <- rbind (TC, matrix(rep(c('Advance','C1',0), 6), nrow=6, byrow=TRUE))
TC <- rbind (TC, matrix(rep(c('Basic','C1',1), 43), nrow=43, byrow=TRUE))
TC <- rbind (TC, matrix(rep(c('Basic','C1',0), 29), nrow=29, byrow=TRUE))

TC <- rbind (TC, matrix(rep(c('Advance','C2',1), 32), nrow=32, byrow=TRUE))


TC <- rbind (TC, matrix(rep(c('Advance','C2',0), 17), nrow=17, byrow=TRUE))

TC <- rbind (TC, matrix(rep(c('Basic','C2',1), 35), nrow=35, byrow=TRUE))


TC <- rbind (TC, matrix(rep(c('Basic','C2',0), 26), nrow=26, byrow=TRUE))

TC <- rbind (TC, matrix(rep(c('Advance','C3',1), 38), nrow=38, byrow=TRUE))


TC <- rbind (TC, matrix(rep(c('Advance','C3',0), 7), nrow=7, byrow=TRUE))

TC <- rbind (TC, matrix(rep(c('Basic','C3',1), 15), nrow=15, byrow=TRUE))


TC <- rbind (TC, matrix(rep(c('Basic','C3',0), 20), nrow=20, byrow=TRUE))

TC <- rbind (TC, matrix(rep(c('Advance','C4',1), 47), nrow=47, byrow=TRUE))


TC <- rbind (TC, matrix(rep(c('Advance','C4',0), 10), nrow=10, byrow=TRUE))

TC <- rbind (TC, matrix(rep(c('Basic','C4',1), 22), nrow=22, byrow=TRUE))


TC <- rbind (TC, matrix(rep(c('Basic','C4',0), 13), nrow=13, byrow=TRUE))

colnames(TC) <- c('Treatment', 'Center', 'Response')


TC <- as.data.frame(TC)

TC$Response <- with(TC, 1*(Response=='1'))

#####################################################
# выбираем базовое лечение как референтную группу
# выбираем первый центр как референтную группу
#####################################################
TC$Treatment <- factor(TC$Treatment, levels=c('Basic','Advance'))
TC$Center <- factor(TC$Center, levels=c('C1','C2','C3','C4'))

xtabs(~Response+Treatment+Center, data=TC)
#####################################################
# логит-модель со взаимодействием
#####################################################

LogitModel.1 <- glm(Response ~ Treatment*Center, family=binomial(logit), data=TC)


Anova(LogitModel.1, test="LR")
summary(LogitModel.1)

############################################
# результаты ОДЛ по центрам различаются?
############################################
linearHypothesis(LogitModel.1, "Treatment[T.Advance]:Center[T.C3] = Treatment[T.Advance]:Center[T.C4]")
linearHypothesis(LogitModel.1, "Treatment[T.Advance]:Center[T.C2] = Treatment[T.Advance]:Center[T.C4]")
linearHypothesis(LogitModel.1, "Treatment[T.Advance]:Center[T.C2] = Treatment[T.Advance]:Center[T.C3]")

265
############################################
# результаты ОЛ по центрам различаются?
############################################
linearHypothesis(LogitModel.1, "Center[T.C3] = Center[T.C4]")
linearHypothesis(LogitModel.1, "Center[T.C2] = Center[T.C4]")
linearHypothesis(LogitModel.1, "Center[T.C2] = Center[T.C3]")

#####################################################
# добавляем 10 одинаковых записей
#####################################################
newData <- matrix(rep(c('Advance','C1',1), 10), nrow=10, byrow=TRUE)
colnames(newData) <- colnames(TC)
TC<- rbind(TC, newData)
TC$Response <- as.numeric(TC$Response)
TC$Treatment <- factor(TC$Treatment, levels=c('Basic','Advance'))
TC$Center <- factor(TC$Center, levels=c('C1','C2','C3','C4'))

xtabs(~Response+Treatment+Center, data=TC)

#####################################################
# логит-модель со взаимодействием на новых данных

LogitModel.2 <- glm(Response ~ Treatment*Center, family=binomial(logit), data=TC)

Anova(LogitModel.2, test="LR")

linearHypothesis(LogitModel.2, "Treatment[T.Advance]:Center[T.C3] = Treatment[T.Advance]:Center[T.C4]")


linearHypothesis(LogitModel.2, "Treatment[T.Advance]:Center[T.C2] = Treatment[T.Advance]:Center[T.C4]")
linearHypothesis(LogitModel.2, "Treatment[T.Advance]:Center[T.C2] = Treatment[T.Advance]:Center[T.C3]")

linearHypothesis(LogitModel.2, "Center[T.C3] = Center[T.C4]")


linearHypothesis(LogitModel.2, "Center[T.C2] = Center[T.C4]")
linearHypothesis(LogitModel.2, "Center[T.C2] = Center[T.C3]")

#####################################################
# логит-модель без взаимодействия на новых данных

LogitModel.3 <- glm(Response ~ Treatment+Center, family=binomial(logit), data=TC)


Anova(LogitModel.3, test="LR")
summary(LogitModel.3)

Confint(LogitModel.3, level=0.95, type="LR")

##########################################
# графики эффектов для сравнения

trellis.device(theme="col.whitebg", family="mono")
plot(allEffects(LogitModel.1),sub="LogitModel.1", ask=FALSE)
trellis.device(theme="col.whitebg", family="mono")
plot(allEffects(LogitModel.2),sub="LogitModel.2", ask=FALSE)
trellis.device(theme="col.whitebg", family="mono")
plot(allEffects(LogitModel.3),sub="LogitModel.3", ask=FALSE)

###############################################################
# Расчет теста гомогенности и отношения шансов по Мантелю-Хензелю (пакет epiR)
library(epiR)

epi.mh(ev.trt = c( 11,32,38,47), n.trt = c(17,49,45,57),


ev.ctrl = c(43,35,15,22), n.ctrl = c(72,61,35,35),

266
names =c('C1','C2','C3','C4'), method = "odds.ratio",
alternative = "two.sided", conf.level = 0.95)

epi.mh(ev.trt = c( 21,32,38,47), n.trt = c(27,49,45,57),


ev.ctrl = c(43,35,15,22), n.ctrl = c(72,61,35,35),
names =c('C1','C2','C3','C4'), method = "odds.ratio",
alternative = "two.sided", conf.level = 0.95)

###############################################################
# расчет теста гомогенности и отношения шансов по Мантелю-Хензелю и визуализация с помощью пакета
rmeta
library(rmeta)
a <- meta.MH(ntrt = c(17,49,45,57), nctrl = c(72,61,35,35),
ptrt = c( 11,32,38,47), pctrl = c(43,35,15,22),names =c('C1','C2','C3','C4') )
metaplot(a$logOR, a$selogOR, nn=a$selogOR^-2, a$names, summn=a$logMH,
sumse=a$selogMH, sumnn=a$selogMH^-2,logeffect=TRUE)

b <-meta.MH(ptrt = c( 21,32,38,47),ntrt = c(27,49,45,57), pctrl = c(43,35,15,22),


nctrl = c(72,61,35,35), names =c('C1','C2','C3','C4'), conf.level=0.95,statistic="OR")
metaplot(b$logOR, b$selogOR, nn=b$selogOR^-2, b$names, summn=b$logMH,
sumse=b$selogMH, sumnn=b$selogMH^-2,logeffect=TRUE)

267
Приложение R-12
Исходные данные
Biochem1 Biochem2 treatment Number
19 19 A 1
20 20 A 2
25 21 A 3
17 17 A 4
22 21 A 5
16 15 A 6
17 20 A 7
21 19 A 8
25 25 A 9
17 18 B 15
21 21 B 16
17 15 B 17
17 12 B 18
21 23 B 19
24 22 B 20
16 14 B 21
20 18 B 22
19 20 B 23
19 14 C 24
18 13 C 25
20 15 C 26
21 19 C 27
19 10 C 28
16 12 C 29
22 12 C 30
21 12 C 31
23 22 C 32
Скрипт R для выполнения анализа
Перед выполнением необходимо скопировать данные, сохранить в текстовом
файле или файле EXCEL и импортировать их в набор данных R под именем AnovaRM.

#########################################
# ANOVA с повторяющимися измерениями
library(Rcmdr)
library(ez)
library(lattice)
library(ggplot2)
library(lme4)
library(lmerTest)

BB <- subset(AnovaRM, select=c(Biochem1, treatment,Number))


BA <- subset(AnovaRM, select=c(Biochem2, treatment,Number))
BB$timepoint <-paste ('before')
BA$timepoint <-paste ('after')

names(BB)[c(1)] <- c("BioChem")


names(BA)[c(1)] <- c("BioChem")

DD <- mergeRows(BB, BA, common.only=TRUE)

268
DD$timepoint <- factor(DD$timepoint)

DD$timepoint <- factor(DD$timepoint, levels=c('before','after'))

############### Шаг 1 – проверка предположений

with(DD, tapply(BioChem, as.factor(paste(treatment,timepoint)), shapiro.test))


leveneTest(BioChem ~ treatment*timepoint, data=DD, center=mean)

###### Шаг 2 – Выполнение анализа

# библиотека ez
model.RManova = ezANOVA(
data = DD
, dv = BioChem
, wid = Number
, within = timepoint
, between = treatment)
print(model.RManova)

# библиотека lme4
#################### Модель смешанных эффектов
model <- lmer( BioChem ~ treatment*timepoint +(1|Number), data=DD)
anova(model)

###### Шаг 3 Проверка остатков модели


qqPlot(resid(model), dist="norm", id.method="y" )

###### Шаг 4 Расчет эффектов и визуализация


lsmeans(model)
difflsmeans(model)

trellis.device(theme="col.whitebg", family="mono")
opar <- par(mfrow = c(1,1), oma = c(1.1, 0, 1.1, 0), las = 1)
with(DD, boxplot(BioChem ~ timepoint+ treatment, outline=T, notch=F,cex.axis=0.7))
title(main="RM-Anova")
title(ylab="BioChem")

trellis.device(theme="col.whitebg", family="mono")
opar <- par(mfrow = c(1,1), oma = c(1.1, 0, 1.1, 0), las = 1)

ezPlot(
data = DD
, dv = BioChem
, wid = Number
, within = timepoint
, between = treatment
,x=timepoint
,do_lines=T
,split=treatment
, y_lab="средние BioChem"
)+ theme_bw(base_size = 12, base_family = "mono")

269
Приложение R-13

сhemo- chemo-
Age course followUP.time censor Age course followUP.time censor
25 0 12 1 62 5 60 0
25 3 60 0 62 6 15 0
26 6 26 1 62 6 29 1
27 6 13 0 62 6 36 0
28 6 60 0 62 6 13 0
32 6 60 0 62 4 36 1
32 0 14 1 62 6 60 0
32 3 26 1 62 6 33 1
34 0 38 1 62 6 42 0
35 6 44 0 62 6 54 1
36 6 24 0 62 5 54 0
37 5 60 0 62 5 60 0
38 6 15 0 62 0 60 0
38 6 15 0 62 0 25 1
39 6 16 0 62 0 12 0
39 6 46 1 62 0 38 0
39 0 60 0 62 0 51 0
39 0 39 1 62 0 39 1
40 6 60 0 62 0 23 0
40 6 60 0 62 0 60 0
41 6 56 0 62 0 34 1
41 6 39 1 62 0 60 0
42 6 60 0 62 0 4 1
42 0 48 0 62 0 26 0
42 2 32 0 62 3 31 0
43 6 12 0 62 1 21 1
43 4 35 0 62 1 5 1
43 0 60 0 63 6 60 0
43 0 60 0 63 6 39 1
43 0 60 0 63 6 16 1
44 6 7 0 63 6 43 1
44 6 60 0 63 6 60 0
44 6 35 0 63 6 12 0
44 6 60 0 63 4 60 0
44 0 60 0 63 0 41 0
45 6 6 0 63 0 15 1
45 2 43 1 63 0 28 0
46 6 60 0 63 0 60 0
46 6 55 1 63 0 60 0
46 3 4 0 64 6 44 0
46 2 9 1 64 6 56 1
47 6 60 0 64 6 60 0
47 6 60 0 64 0 17 1
47 6 60 0 64 0 60 0
47 6 15 0 64 0 60 0
47 0 60 0 64 0 60 0
47 0 60 0 64 0 19 1
47 0 60 0 64 0 24 0

270
47 2 2 0 64 0 60 0
48 6 48 1 64 0 51 0
48 5 60 0 64 0 51 0
48 6 12 0 64 1 60 0
48 0 16 1 65 6 28 0
48 0 60 0 65 5 25 0
49 6 18 0 65 5 47 1
49 4 44 0 65 6 12 0
49 6 36 0 65 0 28 0
49 0 60 0 65 0 32 1
49 0 60 0 65 0 42 1
49 0 60 0 65 0 51 1
49 0 21 1 65 0 13 1
49 0 60 0 65 0 51 0
49 0 49 1 65 0 60 0
49 0 59 0 65 0 60 0
49 0 45 1 65 0 19 1
49 0 56 1 65 0 60 0
49 2 60 0 65 0 37 1
49 1 44 0 66 5 58 0
50 4 60 0 66 5 26 0
50 6 32 1 66 5 13 1
50 5 47 0 66 6 60 0
50 6 60 0 66 6 60 0
50 6 60 0 66 5 39 0
50 5 49 1 66 0 54 0
50 6 41 0 66 0 9 1
50 0 39 0 66 0 28 1
50 0 59 0 66 0 60 0
50 0 51 0 66 0 15 1
51 6 10 0 66 0 46 0
51 4 38 1 66 0 60 0
51 6 32 0 66 1 7 0
51 6 14 0 66 3 35 1
51 6 47 0 66 2 27 1
51 6 60 0 67 6 50 0
51 6 12 0 67 6 8 1
51 6 46 0 67 6 15 1
51 0 48 0 67 6 12 0
51 0 60 0 67 6 44 0
51 0 50 0 67 6 18 1
52 6 50 0 67 0 26 0
52 6 39 0 67 0 60 1
52 6 14 1 67 0 7 1
52 6 60 0 67 0 60 0
52 6 19 1 67 0 48 1
52 6 60 0 67 0 24 0
52 6 6 0 67 0 20 1
52 0 60 0 67 0 21 1
52 0 40 1 68 6 39 1
52 0 55 1 68 6 11 0
52 0 27 1 68 5 48 0
52 0 48 1 68 6 27 1
53 6 36 0 68 4 27 0

271
53 6 39 0 68 6 34 0
53 6 60 0 68 0 24 1
53 6 60 0 68 0 34 0
53 6 60 0 68 0 60 0
53 5 5 0 68 0 8 1
53 6 15 1 68 0 40 1
53 6 14 0 68 0 24 0
53 2 45 0 68 0 60 0
54 5 17 0 68 2 6 0
54 6 13 0 69 5 59 0
54 6 13 0 69 6 59 1
54 6 60 0 69 6 10 1
54 6 18 0 69 6 54 0
54 6 60 0 69 6 31 1
54 6 49 1 69 0 35 1
54 6 60 0 69 0 9 0
54 0 26 1 69 0 60 0
54 0 42 1 69 0 37 1
54 0 60 0 69 0 16 1
54 0 26 0 69 0 24 1
54 0 11 1 69 0 60 0
54 0 12 0 69 0 48 0
55 0 36 1 69 0 60 0
55 0 33 1 69 0 60 0
55 0 60 0 69 0 24 1
55 0 13 1 69 0 60 0
55 0 35 1 69 0 25 0
55 0 60 1 70 6 29 0
55 1 43 0 70 6 60 0
56 6 44 0 70 5 14 0
56 4 16 0 70 0 41 1
56 5 60 0 70 0 4 1
56 6 6 0 70 0 11 1
56 5 60 0 70 0 48 0
56 0 60 0 70 0 37 1
56 0 38 1 70 0 49 0
56 0 22 1 70 0 60 0
56 0 60 0 70 0 17 0
57 6 29 0 70 0 58 1
57 6 13 0 70 0 23 1
57 6 23 1 70 0 60 0
57 0 47 1 70 0 24 1
57 0 60 0 71 6 9 0
57 0 4 1 71 6 15 0
57 0 18 1 71 0 51 0
57 0 60 0 71 0 37 0
58 6 60 0 71 0 41 1
58 6 38 1 71 0 54 1
58 6 42 0 71 0 60 0
58 6 11 0 71 0 60 0
58 4 8 1 71 0 19 1
58 0 60 0 71 0 51 0
58 0 50 0 71 0 38 1
58 0 60 0 72 4 4 1

272
58 0 42 1 72 6 15 1
59 6 31 0 72 0 1 0
59 6 13 0 72 0 60 0
59 6 8 0 72 0 51 0
59 6 46 1 72 0 7 1
59 6 60 0 72 0 31 0
59 6 4 0 72 0 35 1
59 6 15 0 72 0 60 0
59 6 38 0 72 0 60 0
59 6 5 0 72 1 16 0
59 0 13 1 72 1 19 0
59 0 9 1 73 6 43 0
59 0 17 0 73 0 31 1
59 0 48 1 73 0 60 0
59 0 60 0 73 0 58 0
59 2 29 0 73 0 23 0
60 6 14 1 73 0 60 0
60 6 12 0 73 0 35 1
60 6 45 0 73 0 60 0
60 6 48 0 73 0 60 0
60 6 60 0 73 0 60 0
60 6 60 0 74 4 53 0
60 6 14 0 74 5 45 0
60 0 51 0 74 0 19 1
60 0 9 1 74 0 1 1
60 0 18 0 74 0 6 1
60 0 33 1 74 0 19 1
60 0 23 1 74 0 60 0
61 6 14 1 74 0 60 0
61 6 28 1 74 0 60 0
61 6 60 0 74 0 60 0
61 6 60 0 74 0 23 1
61 6 6 0 74 0 60 0
61 0 36 1 74 0 31 1
61 0 37 1 74 0 18 1
61 3 52 0 74 2 20 0
75 6 32 1
75 6 42 0
75 0 48 0
75 0 60 0
75 0 60 0
75 0 27 0
75 0 14 0
75 0 60 0
75 0 20 0
75 0 20 1
75 0 15 1

Скрипт R для выполнения анализа


Перед выполнением необходимо скопировать данные в 4 колонки с именами
(Age, сhemocourse, followUP.time, censor), сохранить в текстовом файле или файле
EXCEL и импортировать их в набор данных R под именем ChT.
273
library(car)
library(survival)

# Ищем количество курсов


par(family='mono')
plot(survfit(Surv(followUP.time , censor)~chemocourse, data=ChT),
xlab='Время, мес', ylab='Вероятность дожития', col=1:6, lty=1:6)

legend("bottomleft", c(levels(factor(ChT$chemocourse))), title="Количество курсов", col=1:6, lty=1:6, bty="n")

# Выделяем 3 группы

ChT$H1 <- with(ChT, 0*(chemocourse==0)+


1*(chemocourse>0 & chemocourse <= 4)+
2*(chemocourse>4))
ChT$H1 <- factor(ChT$H1, labels=c('нет','1-4','5-6'))

plot(survfit(Surv(followUP.time , censor)~H1, data=ChT),


xlab='Время, мес', ylab='Вероятность дожития', col=1:6, lty=c(1,2,3,4,5,6))
legend("bottomleft", c(levels(factor(ChT$H1))), title="Кол-во курсов", col=1:6, lty=1:6, bty="n")

# Общий логранговый тест для 3 групп


survdiff(Surv(followUP.time , censor)~H1, data=ChT)

# логранговые попарные тесты


survdiff(Surv(followUP.time , censor)~H1, data=ChT, subset=H1!="1-4")
survdiff(Surv(followUP.time , censor)~H1, data=ChT, subset=H1!="нет")
survdiff(Surv(followUP.time , censor)~H1, data=ChT, subset=H1!="5-6")

# исключаем группу 1-4 из исследования


ChT <- subset( ChT, H1!="1-4")
ChT$chemotherapy <- factor(ChT$H1, labels=c( 'no','yes'))

# модель с предиктором наличие химиотерапии


CoxModel.1 <- coxph(Surv(followUP.time, censor)~ chemotherapy, data=ChT)
summary(CoxModel.1)
Anova(CoxModel.1, test="LR")

#Определение дескриптивных характеристик переменной возраст


numSummary(ChT[,"Age"], statistics=c("mean", "quantiles"), quantiles=c(0,.25,.5,.75,1))

# модель с предиктором возраст


CoxModel.1 <- coxph(Surv(followUP.time, censor)~ Age, data=ChT)
Anova(CoxModel.1, test="LR")
summary(CoxModel.1)
par(family='mono')
scatterplot(CoxModel.1$linear.predictors~ChT$Age , reg.line=lm, smooth=FALSE, spread=F, boxplots=F,
span=0.5, by.groups=F, xlab="Возраст",ylab="Ln (относительный риск)")

# модель с 2 предикторами
CoxModel.2 <- coxph(Surv(followUP.time, censor)~ chemotherapy+Age, data=ChT)
summary(CoxModel.2)
Anova(CoxModel.2, test="LR")

# модель со взаимодействием предикторов


CoxModel.interaction <- coxph(Surv(followUP.time, censor)~ chemotherapy*Age, data=ChT)

274
Anova(CoxModel.interaction, test="LR")
summary(CoxModel.interaction)

#сравнение моделей
anova(CoxModel.interaction, CoxModel.2)

# тест Шоенфельда
cox.zph(CoxModel.interaction)

par(mfrow=c(2,2))
plot(cox.zph(CoxModel.interaction))

# построение графика 23-4


ChT$lp <- CoxModel.interaction$linear.predictors

par(family='mono')
scatterplot(lp~Age | chemotherapy, reg.line=lm, smooth=FALSE, spread=F, boxplots=F, span=0.5,
col=c('green','red'), pch=c("*",'+'), by.groups=T, xlab="Возраст",ylab="Ln (относительный риск)", data=ChT)

# расчет таблицы 23-10 (центрирование регрессии на возраст)


CoxModel.Age40 <- coxph(Surv(followUP.time,censor) ~ chemotherapy*I(Age-40), data=ChT)
summary(CoxModel.Age40)

CoxModel.Age50 <- coxph(Surv(followUP.time,censor) ~ chemotherapy*I(Age-50), data=ChT)


summary(CoxModel.Age50)

CoxModel.Age60 <- coxph(Surv(followUP.time,censor) ~ chemotherapy*I(Age-60), data=ChT)


summary(CoxModel.Age60)

CoxModel.Age62 <- coxph(Surv(followUP.time,censor) ~ chemotherapy*I(Age-62), data=ChT)


summary(CoxModel.Age62)

CoxModel.Age70 <- coxph(Surv(followUP.time,censor) ~ chemotherapy*I(Age-70), data=ChT)


summary(CoxModel.Age70)

275
Приложение. Уровни доказательности в исследованиях
Уровни доказательности и градации рекомендаций, используемые в
руководствах Американского Общества Клинической Онкологии (ASCO).

Уровень Тип

доказательности доказательности

Доказательства получены в результате мета-анализа


большого числа хорошо спланированных
рандомизированных исследований.
I
Рандомизированные исследования с низким уровнем
ложнопозитивных и ложнонегативных ошибок.

Доказательства основаны на результатах не менее


одного хорошо спланированного рандомизированного
II исследования. Рандомизированные исследования
с высоким уровнем ложнопозитивных
и ложнонегативных ошибок.

Доказательства основаны на результатах хорошо


спланированных нерандомизированных исследований.
III Контролируемые исследования с одной группой
пациентов, исследования с группой исторического
контроля и т.д.

Доказательства получены в результате


нерандомизированных исследований. Непрямые
IV
сравнительные, описательно корелляционные
исследования и исследования клинических случаев.

Доказательства основаны на клинических случаях


V
и примерах.

Степень Градация

Доказательство I уровня или устойчивые многочисленные


А
данные II, III или IV уровня доказательности.

Доказательства II, III или IV уровня, считающиеся в целом


В
устойчивыми данными.

Доказательства II, III, IV уровня, но данные в целом


С
неустойчивые.

D Слабые или несистематические эмпирические доказательства.

276
Я просто оставлю это здесь…

To call the statistician after the experiment is


done may be no more than asking him to
perform a post-mortem examination: he may
be able to say what the experiment died of.
Ronald A. Fisher

The most that can be expected from any


model is that it can supply a useful
approximation to reality: All models are
wrong; some models are useful.
George Box

Absence of evidence is not evidence of


absence.
No authors found 

…we must not forget the only important –


the patient! He/she is living person, not just
α 0.05.
Dirk Maarten Barends

...our greatest mistake would be to forget that


data is used for serious decisions in the very
real world, and bad information causes
suffering and death.
Ben Goldacre

277

Вам также может понравиться