Академический Документы
Профессиональный Документы
Культура Документы
в медицинских исследованиях
Рецензенты:
М.С.Абрамович, канд. физ-мат. наук, доцент, зав. НИЛ статистического анализа
и моделирования НИИ прикладных проблем информатики Белгосуниверситета.
Н.Н. Савва, кандидат медицинских наук, доцент, доцент 1-ой кафедры детских
болезней Минского государственного медицинского университета главный
внештатный специалист по паллиативной помощи детям Минздрава РБ.
Содержание
Статистический анализ данных ................................................................................................................ 1
Содержание ......................................................................................................................................................... 2
Часть 1 ...................................................................................................................................................................... 6
Введение................................................................................................................................................................ 6
1. Общий подход к построению исследования в доказательной медицине .................. 8
2. Основные типы дизайна исследований........................................................................................ 9
2.1. Когортное исследование ........................................................................................................... 10
2.2. Исследование случай-контроль ............................................................................................. 12
2.3. Одномоментное исследование ............................................................................................... 13
2.4. Экспериментальные или рандомизированные клинические исследования 15
2.5. Общие замечания по дизайну исследований .................................................................. 16
2.6. Понятие исхода и риска.............................................................................................................. 19
2.7. Подход к анализу рисков при бинарных исходах ......................................................... 19
2.7.1. Относительный риск в естественной выборке ..................................................... 19
2.7.2. Отношение шансов для целевых выборок .............................................................. 20
2.7.3. Взаимосвязь между относительным риском и отношением шансов ........ 21
2.8. Подходы к анализу рисков при множественных исходах и нескольких
уровнях фактора ......................................................................................................................................... 21
Основные аспекты .......................................................................................................................................... 22
3. Переменные исследования и типы данных............................................................................. 23
3.1. Переменные исследования....................................................................................................... 23
3.2. Типы данных в исследованиях ............................................................................................... 23
Основные аспекты .......................................................................................................................................... 26
4. Гипотеза исследования ...................................................................................................................... 27
4.1. Ошибки I и II рода при проверке гипотез ......................................................................... 27
4.2. Понятие уровня значимости ................................................................................................... 27
4.3. Этапы проверки статистических гипотез ........................................................................ 28
4.4. Мощность исследования и расчет объемов выборок ................................................. 29
4.5. Понятие надежности и валидности исследования ...................................................... 34
Основные аспекты .......................................................................................................................................... 37
5. Сбор данных ............................................................................................................................................. 38
Основные аспекты .......................................................................................................................................... 40
6. Основные виды распределений ..................................................................................................... 41
6.1. Непрерывные распределения ................................................................................................. 41
6.2. Дискретные распределения ..................................................................................................... 44
Основные аспекты .......................................................................................................................................... 46
7. Предварительный анализ данных ............................................................................................... 47
7.1. Основные характеристики данных в предварительном анализе ........................ 47
7.1.1. Количественные переменные ........................................................................................ 47
7.1.2. Номинальные и категориальные переменные ..................................................... 49
7.1.3. Характеристика времен наблюдения ........................................................................ 49
7.1.4. Точечные оценки и доверительные интервалы .................................................. 50
7.1.5. Представление данных в исследованиях ................................................................. 55
7.2. Графическое представление данных .................................................................................. 56
7.2.1. Количественные данные .................................................................................................. 56
7.2.2. Качественные данные ........................................................................................................ 60
7.3. Описание переменной исследования.................................................................................. 60
7.4. Выбор переменной, связанной с исходом......................................................................... 63
Основные аспекты .......................................................................................................................................... 63
2
8. Унивариантный анализ: сравнение с пороговым значением,
доверительные интервалы........................................................................................................................ 64
Основные аспекты .......................................................................................................................................... 70
9. Унивариантный анализ пар ............................................................................................................. 72
9.1. Биноминальная переменная ................................................................................................... 72
9.2. Мультиноминальная переменная ........................................................................................ 75
9.3. Количественная переменная .................................................................................................. 78
9.4. Схемы унивариантного анализа пар ................................................................................... 80
Основные аспекты .......................................................................................................................................... 81
10. Бивариантный анализ: взаимосвязь двух переменных ................................................ 82
10.1. Диаграмма рассеяния.............................................................................................................. 82
10.2. Меры ассоциации ...................................................................................................................... 83
10.2.1. Коэффициент корреляции Пирсона ....................................................................... 83
10.2.2. Коэффициент ранговой корреляции Спирмена ............................................... 85
10.2.3. Коэффициент ранговой корреляции τ (Тау) Кендалла ............................... 85
10.2.4. Коэффициенты сопряженности................................................................................ 86
10.2.5. Коэффициент τ Гудмана-Краскела ........................................................................ 87
10.2.6. Тест Фишера-Фримана-Халтона ............................................................................... 88
10.2.7. Коэффициент детерминации ..................................................................................... 88
10.2.8. Непараметрическая однофакторная ANOVA...................................................... 88
10.2.9. Точечно-бисериальная корреляция и сравнение двух групп ................... 88
10.2.10. Точный тест Фишера ...................................................................................................... 89
10.3. Таблица мер ассоциации и взаимосвязи ....................................................................... 89
Основные аспекты .......................................................................................................................................... 91
11. Бивариантый анализ: биноминальная и биноминальная переменные ............... 92
11.1.1. Чувствительность и специфичность тестов,
прогностическая ценность ............................................................................................................... 92
11.1.2. Оценка мер риска при изучении фактора риска и исхода .......................... 94
11.1.3. Оценка эффективности лечения .............................................................................. 98
11.1.4. Обнаружение различий в пропорциях двух групп на основе
доверительных интервалов ............................................................................................................. 99
11.1.5. Тесты таблиц 2 2 ......................................................................................................... 102
Основные аспекты ........................................................................................................................................ 104
12. Бивариантый анализ: биноминальная и количественная переменные............. 105
Тест Стьюдента для независимых выборок ................................................................................... 108
12.1. Анализ двух групп: Характеристическая кривая
(receiver operating characteristic(ROC) curve) ............................................................................. 109
12.2. Анализ двух групп: расстояние между группами ................................................... 113
Основные аспекты ........................................................................................................................................ 113
13. Бивариантный анализ: биноминальная и мультиноминальная
переменные (таблицы 2 c ) ................................................................................................................... 115
Основные аспекты ........................................................................................................................................ 118
14. Бивариантый анализ: мультиноминальная и мультиноминальная
переменные (таблицы r c ) .................................................................................................................... 119
Основные аспекты ........................................................................................................................................ 125
15. Бивариантый анализ: мультиноминальная и количественная
переменные – анализ нескольких групп .......................................................................................... 127
15.1. Однофакторная ANOVA (Однофакторный дисперсионный анализ) ............ 127
15.2. Непараметрическая ANOVA ............................................................................................... 129
15.3. Общие замечания .................................................................................................................... 129
Основные аспекты ........................................................................................................................................ 130
3
Часть 2 ................................................................................................................................................................. 131
16. Линейная регрессия ....................................................................................................................... 131
16.1. Простая линейная регрессионная модель ................................................................. 131
16.1.1. Корреляция vs регрессия............................................................................................ 136
16.2. Линейная регрессия с бинарным предиктором ...................................................... 136
16.3. Линейная регрессия с мультиноминальным предиктором ............................. 137
16.4. Линейная регрессионная модель с несколькими предикторами.................. 138
16.5. Понятие конфаундера, ковариационный анализ ................................................... 139
16.6. Взаимодействие предикторов в линейной модели .............................................. 141
16.7. F-критерий в линейной регрессии ................................................................................. 145
16.8. Анализ остатков ....................................................................................................................... 146
16.8.1. Предположение линейности модели ................................................................... 146
16.8.2. Предположение независимости остатков ......................................................... 147
16.8.3. Предположение о гомоскедастичности .............................................................. 147
16.8.4. Предположение о нормальности распределения ошибки ....................... 148
16.8.5. Диагностика выбросов и аномальных наблюдений в регрессии ......... 149
16.9. Преобразование переменных ........................................................................................... 152
16.10. Примеры построения линейной регрессии............................................................... 155
Основные аспекты ........................................................................................................................................ 173
17. Логистическая регрессия............................................................................................................. 174
17.1. Логистическая регрессия с бинарным предиктором ........................................... 175
17.2. Логистическая регрессия с мультиноминальным предиктором .................. 176
17.3. Пример построения логистической регрессии ....................................................... 176
17.4. Логистическая регрессия с количественным предиктором ............................ 178
17.5. Интерпретация параметра β 0 в логистической регрессии .............................. 178
17.6. Взаимодействие предикторов в логистической регрессии .............................. 179
17.7. Стратифицированный анализ серии таблиц 2 х 2 ................................................. 180
17.8. Пример анализа взаимодействия с помощью таблиц 2 x 2............................... 182
17.9. Проверка предположений модели логистической регрессии ......................... 186
17.9.1. Тестирование гипотез логистической регрессии ......................................... 186
17.9.2. Диагностика логистической регрессии .............................................................. 188
17.9.3. Предположения о линейности количественных переменных
в логистической регрессии ............................................................................................................ 189
17.9.4. Пример анализа линейности количественной переменной ................... 189
17.10. Вычислительные проблемы .............................................................................................. 191
17.11. Замечания по использованию логистической регрессии .................................. 192
Основные аспекты ........................................................................................................................................ 193
18. Анализ выживаемости .................................................................................................................. 194
18.1. Понятие цензурированных данных, событий и времен наблюдения ......... 194
18.2. Функция выживаемости ...................................................................................................... 196
18.3. Сравнение групп по выживаемости .............................................................................. 199
18.4. Понятие функции риска ...................................................................................................... 200
18.5. Регрессионная модель пропорциональных рисков Кокса ................................ 202
18.6. Регрессия Кокса с бинарным предиктором............................................................... 203
18.7. Регрессия Кокса с количественным предиктором ................................................ 203
18.8. Взаимодействие предикторов в модели Кокса ....................................................... 204
18.9. Проверка предположений модели регрессии Кокса ............................................ 204
18.10. Оценка значимости и согласованности модели
пропорциональных рисков Кокса ................................................................................................... 206
18.11. Замечания по использованию регрессии Кокса...................................................... 207
4
18.12. Основные типы выживаемости при исследовании онкологических
заболеваний ................................................................................................................................................ 208
Основные аспекты ........................................................................................................................................ 209
19. Выбор предикторов для модели и рекомендации по построению
регрессионных моделей ............................................................................................................................ 210
20. Использование результатов моделирования для прогноза ..................................... 212
Основные аспекты ........................................................................................................................................ 213
21. ANOVA с повторяющимися измерениями ........................................................................... 214
21.1. Контроль ошибки первого рода при множественных сравнениях............... 220
Основные аспекты ........................................................................................................................................ 221
22. Лабораторные эксперименты ................................................................................................... 223
22.1. Базовые схемы дизайна ....................................................................................................... 223
22.2. Описание данных .................................................................................................................... 224
22.3. Статистические критерии .................................................................................................. 225
22.4. Расчет размера выборки...................................................................................................... 226
Основные аспекты ........................................................................................................................................ 227
23. Уровень значимости и доверительные интервалы: практический подход ..... 228
Основные аспекты ........................................................................................................................................ 236
Заключение .................................................................................................................................................... 237
Рекомендуемая литература ................................................................................................................. 238
Приложение R. Почему R? ..................................................................................................................... 243
Приложение R-1........................................................................................................................................... 245
Приложение R-2........................................................................................................................................... 246
Приложение R-3........................................................................................................................................... 248
Приложение R-4........................................................................................................................................... 249
Приложение R-5........................................................................................................................................... 250
Приложение R-6........................................................................................................................................... 251
Приложение R-7........................................................................................................................................... 252
Приложение R-8........................................................................................................................................... 253
Приложение R-9........................................................................................................................................... 254
Приложение R-10 ........................................................................................................................................ 256
Приложение R-11 ........................................................................................................................................ 265
Приложение R-12 ........................................................................................................................................ 268
Приложение R-13 ........................................................................................................................................ 270
Приложение. Уровни доказательности в исследованиях ................................................ 276
5
Часть 1
Введение
Книг по статистическому анализу данных много, не просто много, а очень
много. И, тем не менее, каждый раз с каждым исследователем мы начинали все
заново. Почему так можно и так нельзя анализировать, какой критерий лучше
выбрать, какие характеристики данных указать в статье, какие выводы допустимы,
а какие нет. Данное пособие – не книга по теории статистики. Скорее, она о том, как
пройти статистический анализ в исследовании от начала до конца, зачем считать ту
или иную статистику, зачем выполнять те или иные действия над данными, что
означает та или иная характеристика ваших данных именно в привязке к медико-
биологическим исследованиям. Современные компьютерные статистические
пакеты очень мощны и разнообразны. Посчитать можно многое. Вопрос – зачем?
95% ваших исследований укладывается в те понятия и характеристики, которые
приведены в этой книге. За более сложными моделями данных и расчетами –
обратитесь к статистикам-специалистам.
Мы же с вами пройдем схематично весь путь вашего исследования. Некоторые
расчеты характеристик ваших данных будут приведены, некоторые достаточно
сложны, чтобы приводить их в этом пособии, большинство вам знакомы, и
рассчитываются во многих статистических пакетах, которыми вы пользуетесь.
Остается вопрос – как интерпретировать полученные расчеты, как выстроить
систему доказательств, что означает та или иная характеристика в системе ваших
доказательств.
Я надеюсь, что это пособие поможет понять, что и как надо делать, чтобы
доказать правомерность ваших выводов на основе данных вашего исследования.
Правильное проведенное и снабженное статистическими доказательствами
исследование даст цельный взгляд на поднятую в исследовании проблему.
Ремарка: Мы считаем, не для того, чтобы посчитать, мы считаем, для того, чтобы понять.
В пособии все термины, имеющие отношение к статистическому анализу
данных приводятся на русском и английском языках. Это может помочь при чтении
статей в международных журналах, чтобы понять, как проводился статистический
анализ медико-биологических данных. Более того, существует много англоязычных
книг, посвященных прикладным аспектам анализа клинических и
эпидемиологических данных в доказательной медицине. Правильно понятая
терминология позволит вам сосредоточиться на сути медицинской проблемы,
системе доказательств, а не на поиске и переводе статистических терминов.
В разделе 1 кратко изложен системный подход к построению исследования,
связанного с доказательной медициной.
В разделе 2 дана краткая характеристика типовых дизайнов исследований.
Раздел 3 знакомит с типами данных в исследовании.
Раздел 4 знакомит с основами проверки статистических гипотез.
В разделе 5 представлены общие рекомендации по сбору данных в
исследовании.
Раздел 6 кратко знакомит с хорошо изученными в статистическом анализе и
часто встречающимися в медицинских исследованиях видами распределений
случайных величин.
6
Раздел 7 знакомит с основными характеристиками выборочных
распределений и их визуализацией.
Раздел 8 объясняет принципы построения доверительных интервалов и их
интерпретацию.
В разделе 9 представлены основы анализа парных измерений.
Раздел 10 посвящен мерам ассоциации и взаимосвязи двух переменных
исследования.
В разделе 11 представлен анализ и интерпретация таблиц 2 2 .
В разделе 12 описан анализ двух групп с использованием количественных
данных.
В разделах 13 и 14 даны подходы к анализу таблиц сопряженности 2 c и
r c .
В разделе 15 кратко даны основы дисперсионного анализа.
Раздел 16 описывает линейные регрессионные модели, подходы к их
построению, анализу и интерпретации в случае количественной зависимой
переменной.
Раздел 17 описывает линейные регрессионные модели (логистическая
регрессия), подходы к их построению, анализу и интерпретации в случае бинарной
зависимой переменной.
В разделе 18 даны основы анализа выживаемости, линейная регрессионная
модель пропорциональных рисков Кокса, ее построение, анализ и интерпретация.
Раздел 19 посвящен общим принципам построения регрессионных моделей в
исследованиях.
Раздел 20 знакомит с изучением построенных моделей для прогноза.
В разделе 21 даны основы анализа повторяющихся измерений
применительно к медицинским данным.
В разделе 22 представлены методы, часто используемые в радомизированных
контролируемых лабораторных экспериментах.
Раздел 23 содержит заключительные аспекты по интерпретации результатов
исследования и краткий взгляд на клиническую важность полученных
статистических результатов.
7
1. Общий подход к построению исследования в доказательной
медицине
Как и в любой другой науке, исследования в медицине опираются на общую
методологию, общий подход. В настоящее время существует несколько основных
прикладных типов исследований в медицине. Это когортные исследования,
исследования случай-контроль, одномоментные исследования и
рандомизированные клинические испытания.
Для любых этих исследований есть несколько стадий:
1. Разработка дизайна исследования.
2. Сбор данных, предварительный обзор данных, оценка факторов и
исхода.
3. Анализ данных.
4. Интерпретация результатов анализа.
5. Экстраполяция на популяцию.
На стадии дизайна (первый шаг) исследователю необходимо сформулировать,
какой параметр пациента будет исходом, характеризовать результат; как и какие
данные о пациенте и факторах воздействия на организм пациента будут собраны;
понять и сформулировать гипотезу исследования; определить популяцию, критерии
включения и исключения пациентов в исследование; выбрать тип исследования,
метод распределения пациентов в группы; определить размер выборки, указать
ошибки I и II рода.
Второй шаг – сбор данных, измерение степени выраженности факторов и
классификация исходов наблюдений (наступление заболевания, некоторого
состояния или результатов лечения). Тут же проводится предварительный анализ,
могут быть выявлены выбросы или ошибки в данных.
Анализ данных – третий шаг, оценка параметров распределения
эмпирических данных исследования, проверка предположений, лежащих в основе
выбранных методов статистического анализа, непосредственно проведение
статистического анализа, определение статистической значимости результатов
исследования.
Выводы и заключения, касающиеся исследуемой выборки (выборка может
состоять из нескольких групп) – это четвертый шаг. На этом шаге выявляются
причинно-следственные связи, эффекты воздействий факторов и пр.
Экстраполяция – заключительный шаг исследований. Выводы, сделанные на
предыдущем шаге могут распространяться на группы и популяции, которые похожи
на исследуемые. Также могут делаться выводы о популяциях, которые отличаются
от тех, которые включены в исследования, определятся группы повышенного риска
и т.п.
Доказательная медицина – это раздел науки, который собирает факты для
доказательств или опровержений некоторых медико-биологических суждений.
Только правильное соблюдение всех шагов в исследовании может привести к
нужному результату. Неправильный дизайн порождает неправильный сбор
информации. Неправильный сбор порождает неправильную обработку и т.д. Важны
все шаги. Тогда доказательства выстроятся в четкую линию и будут убедительны.
8
2. Основные типы дизайна исследований
Прежде, чем перейти к рассмотрению особенностей различных дизайнов
исследований, рассмотрим базовые понятия эпидемиологии и доказательной
медицины, которые позже будут определять дизайн исследования, возможные
методы анализа данных, интерпретацию результатов и возможную экстраполяцию.
Исследования в медицине проводятся ради конечной цели либо снижения
риска заболевания, либо снижения риска (вероятности) неблагоприятного исхода
при заболевании. Также есть исследования, связанные со снижением стоимости
лечения, в этом случае речь идет о не увеличении рисков и неблагоприятных
исходов при снижении стоимости лечения. Согласно (Флетчер (1998)):
Фактор риска – это особенность организма или внешнее воздействие,
приводящее к увеличению риска возникновения заболевания или иному
неблагоприятному исходу.
Под исходом понимается состояние пациента (параметра пациента),
зафиксированное в процессе исследований. Основные исходы – это смерть,
заболевание, дискомфорт, инвалидизация, неудовлетворенность. Исходом также
может быть такое событие как выздоровление, когда речь идет о сравнении методов
лечения.
Прогностический фактор (предиктор) – идентифицирует группы пациентов с
одинаковым заболеванием, но различным прогнозом исхода. Такие факторы могут
быть благоприятными и неблагоприятными.
Таким образом, понятие риска включает в себя такое событие как
заболевание, в то время как прогностический фактор, как понятие, используется для
пациентов с определенным заболеванием (состоянием). Факторы риска и
прогностические факторы могут не совпадать, некоторые влияют как на риск
заболевания, так и на его прогноз, причем влиять могут по-разному.
Установление связи между фактором и исходом – важнейший аспект
медицинских исследований.
При построении дизайна исследований в эпидемиологии единицей
наблюдения является, исследуемый (пациент). В зависимости от того, будут ли
наблюдения над исследуемыми пассивны, когда испытатель не вмешивается в
распределение исследуемых на определенные группы, или принимает участие в их
распределении на группы, наблюдения делятся на пассивные (обсервационные) и
активные (рандомизированные). Обсервационные наблюдения разделяются на три
базовых типа неэкспериментального (обсервационного) исследования: когортное
(проспективное) исследование, исследование случай-контроль и одномоментное
исследование (Рис. 2–1).
Для всех типов дизайнов основной целью в исследовании является
установление связи между предполагаемыми факторами риска (прогностическими
факторами) и событиями (заболевание, смерть и т.п.). Вопрос о причинно-
следственной связи является более сложным, и в таком дизайне как одномоментное
исследование он очень спорен, поскольку фиксация определенного состояния и
уровня некоторого фактора не позволяет судить о том, явился ли фактор причиной
некоторого состояния исследуемого, или состояние вызвало определенный уровень
фактора у исследуемых, а восстановление воздействия фактора по памяти
исследуемых склонно к ошибкам. После краткого описания основных
обсервационных дизайнов исследования в медицине приведена таблица
сравнительных характеристик этих исследований (Табл. 2–1).
9
Наблюдения
Пассивные Активные
10
Популяция
(больные и небольные)
Промежуточные Промежуточн Окончательные
наблюдения ые наблюдения
наблюдения
Выборка
Заболело, фактор есть
Заболело, фактора нет
… Заболело, фактор есть
Заболело, фактора нет
(из небольных) Не заболело, фактор есть Не заболело, фактор есть
Не заболело, фактора нет Не заболело, фактора нет
Выбыло Выбыло
Начало исследования,
фиксирование
исследуемого фактора
(есть или нет, или
измерение)
11
При выявлении фактора, влияющего на исход в различных группах, влияние
других факторов должно быть представлено в равной мере во всех изучаемых
группах.
12
Начало
исследований
Популяция
(больные и небольные)
Случай Контроль
(больные) (небольные)
Выборка
Исследование, фиксирование
исследуемого фактора
(есть или нет)
Возможно обращение к
архивным данным (в прошлое
для определения воздействия
исследуемого фактора)
Окончательные
наблюдения
Окончание
исследований,
Анализ данных
13
Популяция
(больные и небольные)
Начало
исследований
Выборка
Окончательные
наблюдения
Окончание
исследований,
Анализ данных
14
всей когорты исследователь узнает об выявляются одновременно
данных по исследуемому
фактору риска
Риск или заболеваемость, а также Риск или заболеваемость Риск или заболеваемость
относительный риск измеряются нельзя оценить нельзя оценить
непосредственно непосредственно, непосредственно,
относительный риск относительный риск
воздействия можно оценить по воздействия можно
отношению шансов оценить по отношению
шансов
что случится что случилось что происходит в
настоящий момент
Регистрация испытуемых по
критериям Результат положительный (A)
вхождения/исключения Результат отрицательный (C)
Выбыло (L)
Группа лечения
Рандомизация
15
В рандомизированных клинических исследованиях групп может быть
несколько. Однако, как правило, их две: опытная и контрольная. Контрольная
группа может получать традиционное лечение, плацебо и т.п., экспериментальная
получает некоторое экспериментальное лечение.
Основные моменты, на которые обращают внимание при рандомизированных
клинических испытаниях (Флетчер (1998)):
– Соблюдение всех требований к когортным исследованиям, поскольку
клинические испытания – разновидность когортных исследований.
– Случайным ли образом разделены испытуемые на опытную и контрольную
группы, поскольку это единственный надежный способ избежать систематических
ошибок.
– Насколько “слепым” было исследование, то есть, знали ли испытуемые,
персонал и исследователь, к какой группе принадлежит каждый испытуемый.
Полностью слепое исследование позволяет избежать смещения оценок.
– Были ли равными все остальные условия, медицинские вмешательства,
кроме изучаемого.
– Анализ данных зависит от того, получали ли все испытуемые предписанное
лечение (воздействие) или данные оцениваются по факту полученного воздействия.
Во втором случае такое исследование превращается в когортное исследование.
17
консультацию в 2010 году и которым выполнялся анализ на
гормоны, однако рака молочной железы у них не выявлено. После
формирования групп по истории болезни находился анализ,
определяющий уровень исследуемого гормона для всех выбранных
случаев и контрольной группы.
Данное исследование будет исследованием случай-контроль, поскольку уже
установлен исход у исследуемой группы, значения фактора риска будет
устанавливаться для обеих групп после включения в исследование.
4. В ноябре 2010г. проводилось исследование среди студенток:
фиксировался уровень давления (систолического и
диастолического) и продолжительность кровотечений при
месячных.
Данное исследование будет одномоментным, установить, что давление
вызывает изменения в длительности или длительность вызывает изменения в
давлении, в данном исследовании не представляется возможным, однако возможна
взаимосвязь между давлением и длительностью кровотечений у молодых девушек.
Кроме обсервационных наблюдений и активных (экспериментальных)
исследований существует промежуточная группа так называемых квази-
экспериментальных исследований. Они имеют черты экспериментального
исследования, но отличаются по ключевому моменту рандомизации. Хотя может
показаться, что группы отличаются только уровнем некоторого фактора (например,
традиционное и экспериментальное лечение), но эти группы не образуются путем
рандомизации по этому фактору.
Один из классических примеров – изучение снижения смертности от аварий
после введения законов об обязательном использовании ремней безопасности. На
первый взгляд, оценить эффект от введения законов можно, сравнив уровни
смертности и инвалидизации в результате аварий на дорогах и после введения
законов. Однако, для полной оценки необходимо учесть и другие изменения,
которые произошли после введения законов. Например, были ли изменения в
скоростных режимах на дорогах?
Отсутствие рандомизации, а также неспособность контролировать уровень
воздействия изучаемого фактора и других связанных с исследованием факторов,
делают такой вид исследования менее желательным для установления причинно-
следственной связи между фактором риска и исхода. Но тем не менее, такие
исследования возникают во врачебной практике. Типичный пример – это
исследования, которые планируются не заранее, а исходя из опыта врача-
клинициста. Например, врач-психолог несколько лет ведет прием пациентов с
повышенной тревожностью. Лечение дается по стандартной методике. Исходом
является состояние пациента спустя год после начала лечения. Накопив
практический опыт, врач понимает, что методику можно улучшить. Следующие
несколько лет пациенты (новые) проходят лечение по измененной методике, также
фиксируется их состояние спустя год после начала лечения.
Фактический материал, накопленный по двум группам (стандартного и
экспериментального лечения) должен послужить доказательством, что измененная
методика дает лучшие результаты лечения.
Такой тип исследования хотелось бы назвать клиническими испытаниями
(нерандомизированными), однако, клинические испытания – это разновидность
когортных исследований, поэтому наиболее точное определение таких
исследований – это завершенные когортные исследования. Лечение по разным
методикам будет рассматриваться как фактор, влияющий на исход заболевания.
18
Исследование будет квазиэкспериментальным, и после учета всех вмешивающихся в
исследование факторов, можно будет оценить эффект от изучаемого фактора –
измененной методики лечения.
19
Абсолютный риск возникновения исхода (заболевания) среди неносителей
фактора риска (абсолютный риск группы, не находящейся под воздействием
B
фактора) ARno .
BD
Относительный риск RR
A A C
B B D
Пример
В Табл. 2–3 представлены условные данные когортного исследования.
Таблица 2–3. Данные исследования
Курение
Да Нет
Относительный риск RR
225 / 300 7 .
75 / 700
Для курящих частота возникновения рака легких в семь раз выше, чем для
некурящих.
A B
π1 , π2 .
AC BD
π1 π 1 –π 2
Относительный риск RR , отношение шансов OR 1 .
π2 π2 1 –π1
Как видно, если π 1 и π 2 достаточно малы, то отношение шансов является
хорошим приближением для оценки относительного риска (поскольку отношение
1 –π 2
очень близко к единице).
1 –π1
В исследованиях случай-контроль нельзя оценить относительный риск, но
всегда можно оценить отношение шансов, хотя иногда это может привести к
ложным заключениям, если заключение распространяется на всю популяцию.
21
Фактор риска (прогноза)
Нет Малый Большой
Есть A C E A+C+E
Заболевание
(состояние) Нет B D F B+D+F
A+B C+D E+F N
В этом случае определяется относительный риск от базового значения
фактора. Если за базовый принят столбец “Нет”, то
RR2
C C D , RR3 E E F .
A A B A A B
Далее может оценивается гомогенность (однородность) относительных
рисков, их тренды: возрастает ли относительный риск с увеличением уровня
воздействия фактора ( RR3 RR2 ), убывает ( RR3 RR2 ) или различий нет.
Для отношения шансов при нескольких уровнях фактора действия
аналогичны.
CB E B
OR2 , OR3 .
A D FA
Аналогичные рассуждения можно применить и к множественным исходам,
перейдя к таблицам, которые называются r c таблицы, таблицы сопряженности
(contingency tables). Анализ таких таблиц относится к непараметрическому анализу
(анализ таблиц сопряженности, см. раздел 14).
При исходе, который связан с количественным параметром, применяются
иные подходы, например, анализ трендов, анализ ковариаций, регрессионный и
дисперсионный анализ (хотя, по сути, задача остается все той же – определение
возрастания или убывания некоторой исследуемой переменной, которая чаще всего
связана с риском наступления исхода, при увеличении/уменьшении уровня
некоторого фактора. Часто шкалу количественной переменной разбивают на
некоторые диапазоны (например, ниже нормы, норма, выше нормы) и анализируют
подобно таблицам сопряженности.
Приведенные выше расчеты относительных рисков и отношения шансов – это
только краткое введение в оценку рисков. Далее, с помощью статистических оценок
и процедур, мы сможем доказать, что фактор действительно ассоциируется с
исходом, доказать наличие или отсутствие возрастания неблагоприятного или
благоприятного исхода при изменении фактора. Подробнее о различных
статистических процедурах анализа будет рассказано в следующих разделах.
Ремарка. Статистическая связь фактора и исхода не подразумевает ни биологическую, ни
клиническую, ни иную связь или зависимость.
Основные аспекты
Различия между обсервационными и активными наблюдениями.
Базовые типы дизайнов.
Естественная и целевая выборки, которые связаны с понятиями
относительного риска и отношения шансов и возможностью экстраполяции
результатов на всю популяцию.
Недопустимость подбора групп в дизайне “случай-контроль” по различию в
исследуемой переменной, а только в схожести неисследуемых параметров, которые
могут служить критериями включения и исключения в исследование.
Исход, как понятие дизайна в эпидемиологических исследованиях.
Различие в понятиях “фактор риска” и “фактор прогноза”.
22
3. Переменные исследования и типы данных
23
соседними значениями не может быть выражен количественно. Например, малый –
средний – выше среднего – большой – огромный. О них мы можем сказать “больше”,
“меньше”, “лучше”, “хуже”, но не можем сказать, на сколько единиц больше или во
сколько раз лучше. Их можно расположить по выраженности некоторого свойства и
присвоить ранги (натуральные числа 1, 2,…). Эти ранги будут отражать порядок
нарастания (убывания) некоторого свойства. Типичный пример – это группы риска
при лечении некоторого заболевания (standard/intermediate/high risk).
Качественные/категориальные/номинальные данные (nominal data) – это
величины, которые нельзя расположить в естественном порядке. Например,
предпочтения в еде: рыба, пирожные, картофель, мясо. Или, например, способ
лечения: хирургический, радиотерапия, обсервационный. Такие данные называют
также категориальными, поскольку их можно отнести к той или иной категории.
Качественные данные, которые могут быть отнесены только к одной из двух
категорий (наличие-отсутствие, мужчина-женщина, да-нет), называются
дихотомическими/биноминальными (dichotomous data, binominal data).
Качественные данные, которые могут быть отнесены к одной из нескольких
категорий (больше двух) называются иногда мультиноминальными, чтобы
подчеркнуть их отличие от биноминальных. Как уже было сказано, сами
качественные данные нельзя расположить в естественном порядке, но, тем не
менее, можно задать искусственный порядок, связав категории с интервалами
некоторой шкалы (порядковой или количественной). В этом случае они называются
упорядоченными категориями (ordered multinomanal data) и совпадают с
порядковыми данными. Например, есть три группы лечения – плацебо,
традиционное и экспериментальное лечение. Лечение – это качественный фактор,
однако по некоторым соображениям мы можем говорить о том, что группы лечения
могут быть упорядочены определенным образом и проследить, есть ли тренд в
эффекте от лечения в группах плацебо (1), традиционного лечения (2) и
экспериментального лечения (3).
В любом случае, каждое из наблюдений в выборке может быть отнесено
только к одной из категорий.
Мы также можем сравнивать количество объектов, принадлежащих разным
категориям (например, количество наблюдений в группе). Для этого используется
шкала целых неотрицательных чисел, на которой далее мы можем выполнять такие
действия, как сложение, умножение. Однако надо понимать, что сравнивается не два
объекта на одной шкале измерения, а две или более группы объектов по их
количеству.
Ремарка: от типа данных зависит способ их обработки и анализа. Например, вы не можете складывать
предпочтения в еде, среднее для описания выборки в таком исследовании невозможно. Также и
методы обработки наблюдаемых данных зависят от их типа.
Несмотря на то, что эти три градации полностью описывают возможные типы
данных в исследовании, необходимо заметить, что в статистическом анализе таких
данных есть свои нюансы, и выбор статистической процедуры анализа зависит
именно от них.
Количественные данные, полученные в исследовании, могут подчиняться
закону нормального распределения. Если в процессе анализа выявляется, что это не
так, то к таким данным относятся как к порядковым данным (понижение шкалы).
Например, у нас есть несколько измерений: 0,5; 2,7; 13,4; 105,1, 578,3. По форме это
количественные данные, но размах всего пяти значений от 0,5 до 578,3 не позволит
нам анализировать их как данные из нормального распределения. В этом случае
24
более правильным будет выбор процедур анализа, которые интерпретируют эти
данные как ранги 1, 2, 3, 4, 5.
Качественные данные могут иметь несколько категорий, которые могут быть
упорядочены, например, тяжесть заболевания (I, II, III, IV). В этом случае их также
можно отнести к порядковым данным.
Мультиноминальная (в частности, биноминальная) переменная представляет
собой данные, в которых в основном, содержатся некоторые события, например:
жив-умер, заболел-здоров и пр. Если исследователя интересует количество
определенных событий, наступивших в исследовании, то оно подсчитывается на
основании биноминальных данных. Для выборки, содержащей более одного
наблюдения, мы можем оценить частоту появления некоторого события. Если мы
делим количество наблюдений, когда определенные события наблюдаются
выборке, на общее число наблюдений в выборке, мы оцениваем пропорцию.
Пропорция, рассчитанная на основе естественной выборки – это точечная оценка
пропорции в популяции. Интерпретация пропорции выборки – это оценка
вероятности событий в популяции (для когортных и одномоментных
исследований). И эта вероятность не имеет нормального распределения.
Предполагается, что события распределены по биномиальному или Пуассоновскому
закону.
Биномиальное распределение используется при расчете вероятностей, когда
наблюдения независимы друг от друга, то есть результат одного наблюдения не
зависит от другого, а исход измеряется биноминальной переменной (событие
наступило/событие не наступило).
Пуассоновское распределение – это частный случай биномиального
распределения, которое используется, когда события являются редкими по
отношению ко всей выборке, поэтому для расчета используются не пропорция, а
уровень риска, интенсивность, скорость (rate). Понятие "rate" будет подробно
рассмотрено в разделе 18.
В общем случае и пропорция и интенсивность состоят из числителя и
знаменателя. Числитель – это количество событий и для интенсивности и для
пропорции. Знаменатель для пропорции – это общее количество наблюдаемых в
выборке. Знаменатель для интенсивности – рассчитывается как число человеко-лет
(person-year) наблюдения до наступления события или окончания исследования. В
открытых когортных исследованиях чаще используется интенсивность (rate),
поскольку события редкие и развиваются во времени. В остальных типах дизайна
чаще используется пропорция.
В отечественной литературе (на русском языке) часто эти два понятия
смешивают, поскольку термин “rate” имеет несколько переводов и может
переводится как “доля”. В дальнейшем по тексту будет говориться или о пропорции
или о интенсивности/уровне риска, как об отношении, характеризующим частоту
событий в выборке, в зависимости от того, какие исследования нас интересуют.
Также в англоязычной литературе кроме термина пропорция “proportion”
используется термин “fraction” – пропорция, часть, доля. Фактически они выражают
одну и ту же величину, только пропорция обычно измеряется в процентах, часть
измеряется в долях от 1.1
1
В оригинале книги Ланга (2011) ( Lang and Secic, How to Report Statistics in Medicine: Annotated Guidelines
for Authors) используются термины “proportion” и “rate”, которые в руском переводе книги звучат как
“доля” и “частота” соответственно.
25
Таким образом, для медико-биологических исследований с последующим
статистическим анализом можно выделить:
Количественные данные
– количественные переменные, распределенные по закону нормального
распределения (измеряются для каждого участника исследований);
– количественные переменные, не подчиняющиеся закону нормального
распределения (измеряются для каждого участника исследований);
Категориальные данные1
– мультиноминальные переменные – упорядоченные категории
(рассчитывается количество случаев в каждой категории по выборке);
– мультиноминальные переменные – неупорядоченные категории
(рассчитывается количество случаев в каждой категории по выборке);
– биноминальные переменные (рассчитывается пропорция по выборке);
Время до события (time-to-event) и интенсивность событий (rate)
– интенсивный показатель (rate) рассчитывается как отношение количества
событий ко времени наблюдения;
– бинарные переменные (исходы), связанные со временем наблюдения.
Заметим, что есть и многомерные исходы (т.е. исследуется сразу несколько
вариантов исхода), связанные со временем наблюдения, но в данном пособии они не
рассматриваются.
Основные аспекты
Выбор переменной, описывающий исход, необходимо осуществить до начала
исследования.
Зависимая переменная в исследовании чаще всего одна и как правило,
интерпретируется как исход.
Независимых переменных может быть несколько, и они разные по своей
природе и могут быть связаны между собой.
Скрытые переменные могут исказить результаты ваших доказательств.
Задача статистического анализа в эпидемиологических исследованиях –
найти связь, ассоциацию, зависимость между исходом и факторами,
предположительно влияющими на исход, доказать, что они действительно связаны
в статистическом смысле, если возможно, оценить степень этой связи.
Задача статистического анализа в экспериментальных исследованиях –
доказать наличие различий между контрольной и экспериментальной группой
(групп в эксперименте может быть несколько) и оценить размер эффекта (т.е.
размер различий), если это возможно.
1
Чаще такие переменные в медико-биологических исследованиях выглядят как группы/подгруппы
исследования. Тем не менее, по сути группы – это категориальная переменная исследования.
26
4. Гипотеза исследования
Гипотеза формулируется в начале исследования, для того, чтобы понять,
какие доказательства нужно собрать для ее подтверждения или опровержения,
какой дизайн исследования предпочесть. Формулирование основной гипотезы
(primary hypothesis) исследования включает формулирование нулевой гипотезы
( H 0 ), которая является “основным состоянием”, которое, как предполагают, верно, в
отсутствии убедительных доказательств, и альтернативной гипотезы ( H A ), которая
будет принята после соответствующих доказательств. Иными словами, основное
состояние будет сохраняться, до тех пор, пока не будет доказательств обратного.
Ошибки первого рода (type I errors, errors, false positives) и ошибки второго
рода (type II errors, β errors, false negatives) в математической статистике – это
ключевые понятия задач проверки статистических гипотез.
Ошибка I рода обозначается α (альфа-ошибка) и означает, что нулевая
гипотеза H 0 отвергается, что приводит к ложноположительному заключению о
наличии, как правило, некоторого эффекта между изучаемыми величинами, в то
время, когда на самом деле его не существует. Иными словами, отвергается нулевая
гипотеза H 0 , когда она истинна.
Ложноотрицательное заключение – это принятие нулевой гипотезы H 0 , в то
время как эффект существует. Иными словами, нулевая гипотеза H 0 остается в силе,
когда она ложна. Такая ошибка называется ошибкой II рода, обозначается β (бета-
ошибка).
Мощность теста (вероятность отклонения нулевой гипотезы, когда она
ложна) определяется как 1 β . Мощность 80–90% обычно является приемлемым
уровнем в исследованиях.
Заметьте, что мы говорим только о нулевой гипотезе, т.е. мы ее опровергаем,
что служит доказательством альтернативной гипотезы, или не опровергаем, что
констатирует текущее состояние исследуемого вопроса.
Ремарка: Нулевая гипотеза не доказывается, она остается неопровергнутой в отсутствии других
доказательств.
27
данные, появление которых было бы маловероятно, если бы эта гипотеза была
верна.
Уровень значимости критерия (теста) – это традиционное понятие проверки
гипотез в статистике. Он определяется, как вероятность принять решение
отклонить нулевую гипотезу H 0 , если на самом деле она верна. Процесс решения
часто опирается на величину p : если p меньше уровня значимости, то нулевая
гипотеза H 0 отвергается. Чем меньше величина p , тем более значимой называется
тестовая статистика. Чем меньше величина p , тем сильнее основания отвергнуть
нулевую гипотезу H 0 .
Уровень значимости в исследованиях – это вероятность ( p ), ниже которой
нулевая гипотеза H 0 может быть отвергнута. Большинство прикладных
исследователей в медицине принимают p 0,05 для того, чтобы отклонить нулевую
гипотезу H 0 .
Хотя статистическая значимость может быть истинной, она может быть также
искусственной из-за скрытых/вмешивающихся факторов. Статистическая
значимость не доказывает ни причинно-следственную связь, ни клиническую
значимость.
Ремарка: Уровень значимости и есть ошибка I рода (ложноположительного результата) –
вероятность отклонения нулевой гипотезы, когда она истинна.
28
Расчет значения статистики критерия, по ее значению можно делать выводы
об истинности гипотезы H 0 ;
4. Сравнение значений статистики критерия со значениями из известного
распределения вероятности (для данной статистики).
Ремарка: Когда исследуется наличие разницы в двух выборках, например по среднему значению, то
исследователь может предположить, что например, среднее контрольной группы больше, чем
среднее исследуемой группы (A>B). Тогда проверка гипотезы осуществляется по одностороннему
критерию. Если исследователь предполагает, что А отличается от В (A>B или A<B) , то это так
называемый двусторонний критерий.
5. Вывод об истинности гипотезы. Наблюдаемые значения выборки
подставляются в формулу статистики и по попаданию (или
непопаданию)статистики в критическую область выносится решение об
отклонении выдвинутой гипотезы H 0 .
6. Интерпретация результатов статистической проверки.
Особенность доказательной статистики такова, что вы можете доказать
альтернативную гипотезу, путем опровержения нулевой гипотезы, но вы не
доказываете нулевую гипотезу. Нулевая гипотеза либо опровергается в пользу
альтернативной, либо нет.
7. Расчет эффектов.
Под эффектом понимается некоторая числовая оценка различий, или связи,
или зависимости между изучаемыми переменными. Это одна из основных процедур
анализа данных, которая дает возможность рассчитать и оценить эффект, который
доказан статистически, т.е., например, исследователь доказал, что использование
некоторого нового метода послеоперационного ведения пациентов статистически
значимо уменьшает срок нахождения пациента в госпитале. Естественный вопрос -
на сколько дней в среднем сократится пребывание пациента в госпитале при
внедрении нового метода послеоперационного ведения пациентов? Оценка среднего
сокращения пребывания в днях (с расчетом доверительного интервала) и есть
размер эффекта применения нового метода.
29
– уровень значимости α – граничный уровень, ниже которого отвергают
нулевую гипотезу H 0 . Обычно это 0,05 или 0,01;
– вариацию наблюдений, например стандартное отклонение, если с исходом
связана числовая переменная;
– наименьший интересующий эффект — величина минимального эффекта,
который важен в исследовании. Часто это некоторое различие (например, разность в
средних или пропорциях). Эффект, например, может быть выражен в том, что
снизилось содержание сахара в крови на 10 ммоль/л, или снижение
постоперационных осложнений на 20%.
Поскольку вопрос о расчете объема выборки для рандомизируемых
клинических испытаний (randomized clinical trials – RCT) часто вызывает трудности у
исследователей, ниже приведены некоторые формулы для расчета объемов выборок
при различных дизайнах.
Расчет напрямую зависит от гипотезы исследования, которая выдвигается
перед началом RCT.
Основными целями RCT бывают1: доказательство различий (статистические
различия), доказательство превосходства (Superiority trials), доказательство
эквивалентности2 (Equivalence trials), доказательство полноценности (Non-inferiority
trials).
Одновыборочный дизайн
В RCT это может быть различие между повторными измерениями одной
группы (или согласованных пар – matched pairs), например данные до и после
лечения.
Различие в истинных средних между ответами на изучаемый препарат и
исходным значением есть ε μ μ0 . Аналогично, для бинарной переменной
ε π π 0 , где π 0 - истинная вероятность ответов бинарной переменной, π -
истинная вероятность ответов после лечения (воздействия). Истинные значения мы
никогда не значем, но можем оценить по выборке.
Для количественной переменной s 2 - есть оценка дисперсии (выборочная
дисперсия) разности в изучаемом параметре до и после воздействия,
1 n 1 n
xi x , где x n
2
s
2
x i - оценка среднего (выборочное средние) разности в
n 1 i 1 i 1
изучаемом параметре;
Для бинарной переменной p 1 p есть выборочная дисперсия, p -
наблюдаемая доля/пропорция ответов на лечение. p есть число в промежутке 0;1 .
Стоит заметить, что максимальная оценка дисперсии достигается при p 0,5 .
Поэтому при отсутствии априорной информации можно использовать
p 1 p 0,25.
Также при клинических испытаниях задают δ – клинически допустимый
запас (величина клинически значимых различий) по полноценности/
эквивалентности/ превосходству.
1
Математические выкладки опущены, подробнее можно прочесть в Chow S.C., Wang H., Shao J. Sample Size
Calculations in Clinical Research, — Chapman & Hall/CRC Biostatistics Series, — 2008.
2
Есть понятие биоэквивалентности (фармакокинетической эквивалентности, bioequivalece). Для таких
исследований есть специальные дизайны, вычисления и определение размеров выборок.
30
Таблица 4–2. Цели RCT и гипотезы
δ ε δ ε
доказательство 2 2
z z 1 β z z
превосходства n 1α p 1 p n 1α 1β s 2 ,δ 0
ε δ ε δ
z1α , z1α , z1β – значение стандартного нормального распределения соответствющего
2
уровня. Для α 0,05 z1α 1,64 , z1α 1,96 ; для β 0,2 (уровень мощности 80%) z1β 0,84 .
2
n – размер каждой группы, округляется до большего целого значения.
Следует заметить, что при доказательстве эквивалентности и полноценности
(как односторонней эквивалентности) разница ε может быть принята как ε 0 и
формулы упрощаются, в расчет принимается только δ – клинически допустимый
запас.
Насчет комбинации ε и δ в формулах всегда возникает много вопросов,
поэтому ориентироваться необходимо на смысл: если мы говорим о доказательстве
полноценности, то к разности ε μ μ0 ( ε π π 0 ) добавляется некоторая величина
клинически допустимого запаса δ , что увеличивает знаменатель (и уменьшает
размер выборки), чтобы продемострировать что новый препарат не дает
клинически значимого снижения по сравнению с референтным; если говорим о
31
превосходстве, т.е. ε достаточное большое, то отнимаем величину клинически
допустимого запаса, что увеличивает размер выборки, но дает нам уверенность
говорить о том, что препарат действительно превосходит референтный с учетом
клинически допустимого запаса (клинический эффект). При доказательстве
эквивалентности различие ε должно быть меньше величины клинически
допустимого запаса в большую и меньшую стороны, т.е. находится в приемлемом
интервале клинически допустимого запаса, и мы уменьшаем клинически
допустимый запас δ на абсолютную величину различий ε , и в этом случае также
увеличиваем размер выборки (по сравнению с доказательством полноценности), но
это дает нам уверенность говорить о том, что препарат попадает в интервал
клинически допустимомго запаса относительно референтного (см. раздел 11.1.4).
Двухвыборочный параллельный дизайн
Такой дизайн предполагает рандомизацию каждого испытуемого в одну из
групп – нового лечения или плацебо /активного контроля. Каждый испытуемый
имеет одно измерение результата.
Различия в истинных средних или пропорциях соответственно равно
ε μ2 μ1 , ε π 2 π 1 .
Выборочная дисперсия для количественной переменной рассчитывется как
объединенная по двум группам:
2 ni
1 1 ni
s2 xij x i ,
n1 n2 2 i 1 j 1
где xi xij -
ni i 1
оценка среднего в
соответствующей группе.
Таблица 4–4. Цели RCT и гипотезы
1
Формулы приведены для одинаковых размеров двух групп.
32
Доказательство 2 2
z1α z1β z z
различий
n 2 p 1 p p 1 p n 2 1α 2 1β s2
(статистическое ε 1 1 2 2
ε
различие)
доказательство 2 2
z z z z
полноценности n 1α 1β p1 1 p1 p2 1 p2 n 2 1α 1β s 2 ,δ 0
ε δ ε δ
доказательство 2 2
z1α z1β z z
эквивалентности
n 2 p 1 p p 1 p n 2 1α 1β 2 s2
δ ε 1 1 2 2 δ ε
доказательство 2 2
z z1β z z
превосходства n 1α p1 1 p1 p2 1 p2 n 2 1α 1β s 2 ,δ 0
ε δ ε δ
1
Формулы приведены для одинаковых размеров двух групп.
33
доказать некоторые различия. В данном случае мы можем рассчитать объем
выборки, который достаточен для доказательства статистического различия без δ –
клинически допустимого запаса. Если не интересует мощность, опустите параметр с
индексом β . Не знаете дисперсии s 2 для бинарной переменной – задайте
максимум 0,25.
Например, нам надо установить при опросе, будет ли статистически значимо
отличаться от случайного доля положительных ответов на некоторый вопрос.
Случайный ответ предполагает 50/50, т.е. p0 0,5 . Предполагаем, что p 0,7 , т.е. 70%
респондентов ответят положительно.
2
z1α z1 β
Это одновыборочное исследование, формула n 2 p 1 p .
ε
ε 0,7 0,5 0,2 . Мощность исследования не интересует. Тогда
2
1,96 0
n 0,7 1 0,7 21,2 . Округляя до большего целого, получим n 22 . Если
0,2
установим мощность исследования на уровне 80% 1 β 0.8 , то нам понадобится
n 42 респондента.
Если исследователь не имеет информации о вариации и предполагаемой
разнице в эффектах, то рассчитать требуемый размер выборки затруднительно.
Часто информацию получают из пилотных исследований, из опубликованных
результатов, из предварительных собственных результатов.
В статистических пакетах существуют модули, которые могут моделировать
зависимости изменения требуемого размера выборки от наименьшего
интересующего эффекта, уровня значимости, мощности. Однако первичную
информацию задает исследователь.
34
Что произошло с остальными – исследователь не знает. А ведь у них возможны
осложнения лечения, неэфективность и пр.
- При опросе пациент вольно или невольно стремится ответить на вопрос о
предыдущих событиях (состояниях) так, как ему удобно или приемлемо1.
Ремарка: Проверка гипотез в статистике строится на основании того, что существует только
случайная ошибка.
Оценка наблюдаемого
среднего выборки
Распрделение
наблюдений в
выборке
Систематическая ошибка
Случайная
ошибка
Общая ошибка
1
Everybody lies ( House MD ©).
35
Надежность Надежность
Валидность Валидность
36
иной переменной. Отрицательное вмешательство – наблюдаемая ассоциация
смещается в сторону отстутствия, но на самом деле эффект существует.
Модификация эффекта (Effect modification): в исследовании есть некоторый
фактор (переменная), которая по-разному (положительно и отрицательно)
изменяет изучаемый эффект. Например, влияние фактора риска на состояние
болезни для одной группы может быть благоприятным, для другой группы
неблагоприятным. В этом случае признак, по которому разделены группы, является
модификатором эффекта.
Основные аспекты
Нулевая гипотеза чаще всего констатирует текущее состояние проблемы
(проблема не изучена, следовательно, различий, трендов, разницы нет), и,
опровергая ее, вы изучаете доказательства, которые говорят об обратном.
Мощность исследования (т.е. размер выборки) надо рассчитывать, опираясь
на известные вам факты из литературы или собственных исследований. Если по
всем переменным, которые включены в исследование, у вас нет материала,
используйте хотя бы сведения о значениях факторов/показателей, по которым есть
некоторые предварительные данные.
Систематическая ошибка может быть устранена соответствующим подбором
дизайна и выполнением требований по дизайну, статистический критерий сам по
себе такие ошибки “не видит”.
Исследование должно принимать во внимание вмешивающиеся переменные,
которые могут исказить результаты.
37
5. Сбор данных
При сборе данных лучше всего использовать заранее разработанную форму
(анкету) для записи данных. Это сэкономит время и снизит количество ошибок.
Современные возможности компьютеров позволяют заносить данные в таблицы
для их непосредственного анализа.
Несколько основных принципов формирования таблиц данных для
последующего анализа.
Одна строка – один случай. В каждой строке у вас будут содержаться данные,
относящиеся к одному наблюдению (исследуемому, пациенту). В колонках
(столбцах) будут находиться факторы (переменные) исследования. Колонки
должны быть именованы. Строки – иметь уникальный идентификатор. По-
возможности избегайте записи исследуемых пациентов по фамилии. Это неэтично,
как минимум.
Набор значений переменной (фактора) в вашей выборке – это столбец. Набор
значений факторов, характеризующих каждый случай в выборке – это строка.
Ячейка на пересечении столбца и строки – это точка данных.
При записи числовых данных, имеющих единицу измерения, все измерения
должны быть записаны в одних и тех же единицах измерения. Например, рост.
Недопустима запись 165 для одного исследуемого и 1,78 для другого. Поэтому
лучше, чтобы наименование колонки содержало не только наименование фактора,
но и единицу измерения (“Рост, см”).
Разделитель целой и дробной части числа в разных компьютерах может быть
разным. Поэтому, по возможности, используйте цифровую часть клавиатуры для
ввода числовых данных.
Для биноминальных переменных, а также некоторых категориальных в
практике используются не цифры, а слова и выражения. Не все компьютерные
программы анализа “понимают” текст в ячейке данных. Иногда используются коды,
т.е запись слов и выражений числовыми кодами. Для этого создайте отдельный
лист, где будут записаны выражения и их числовые коды. Числовые коды и числа –
разные понятия, числовые коды нельзя складывать, перемножать, однако иногда
они бывают упорядоченными, например, оценки состояния пациента. Если вы
решили использовать слова, то для одного и того же состояния они должны быть
одинаковы, например, если вы проставляете значение переменной пол:
“мужской/женский”, то используйте только эти два слова, сокращения “муж”, “м”,
“M” и прочие будут рассматриваться компьютером как различные состояния.
Примеры кодов:
Состояние Баллы
Хорошее 5
Удовлетворительное 3
Неудовлетворительное 1
Пол Код
Мужчина 1
Женщина 2
Курение Код
Да 1
Нет 0
38
Ремарка: При кодировании бинарной переменной обычно “1” кодируют интересующее исследователя
состояние. Отсутствие интересующего состояния кодируется как “0”.
Работа с датами. Если данные о датах вводятся в компьютер, то нужно
использовать тот формат даты, который установлен на Вашем компьютере. Если
необходимо рассчитать длительность периода между двумя датами, то правильнее
будет ввести дату начала и дату конца наблюдений. Большинство программ,
предназначенных для анализа данных, сами рассчитают длительность, в этом случае
не будет ошибки, связанной с ручным расчетом периода.
В случае дизайна “matched pairs” исследования случай-контроль случаем
является пара. Поэтому правильнее будет записывать в таблицу пары исследуемых.
Таблица 5–1. Пример записей парного исследования
Номер Номер Номер Рост в группе Рост в группе
пары карты, карты, случай, см контроль, см
группа группа
случай контроль
1 45/2001 56/2003 156 168
2 1923/2001 2299/2000 184 172
… … … … …
2 22.01.2015 12 135
21.01.2015 9 142
1
2 22.01.2015 12 135
1 15.03.2015 8 125
1 15.06.2015 12 137
39
Округление данных. Данные каждого столбца, в котором фиксируется уровень
некоторого фактора, должны быть записаны с одинаковой точностью, т.е.
количество знаков после разделителя целой и дробной части числа должно быть
одинаковым по всем столбцу. Если некоторый фактор измеряется прибором, то
результат измерения округляется до того же десятичного разряда, которым
оканчивается округленное значение абсолютной погрешности прибора.
Прежде чем приступить к анализу данных, необходимо убедится, что данные
записаны верно. Самый простой способ – это проконтролировать минимальное и
максимальное значение в столбце, количество пустых ячеек в столбцах. Однако
ошибки ввода/записи могут быть менее заметны, поэтому нужно соблюдать
аккуратность при вводе значений.
Кроме проверки на минимальное и максимальное значение, можно и нужно
использовать и логические проверки. Например, если возраст исследуемого меньше,
чем длительность хронического заболевания, то есть основания предполагать, что в
данных ошибка. Если исследуемому пациенту 13 лет и у него есть дети, эти данные
нуждаются в проверке и т.п. Все эти проверки помогут сократить ошибки, связанные
с человеческим фактором при записи данных.
Ремарка: Тщательно проверяйте данные. Ошибка в результате неправильного ввода может привести
к неправильным результатам анализа. Исправления, которые вносятся позже, чем начат анализ,
могут внести путаницу. Поэтому, если исправления вносятся на этапе анализа, правильнее будет
повторить весь анализ на измененных данных заново.
Основные аспекты
При сборе данных желательны такие качества исследователя как
аккуратность и кропотливость, внимательность и легкая недоверчивость к самому
себе. Перепроверяйте себя. Это сэкономит время, когда данные перепроверит кто-то
другой и найдет ошибку, а вам придется переделывать весь анализ заново.
Аккуратная таблица с данными в любой момент может быть предъявлена, как
результат сбора данных. Не делайте расчеты прямо в ней. Сохраните оригинал,
работайте с копией.
40
6. Основные виды распределений
Цель статистического анализа – сделать некоторые выводы о совокупности
(популяции), используя выборку из нее. Большинство методов основано на
предположении, что используются случайные выборки. В основе выборочных
данных лежит некоторое распределение. Его идентификация по выборочным
значениям дает возможность более точного анализа, установления некоторых
характеристик выборочной совокупности и пр.
В теории статистических выводов используются величины, рассчитанные по
выборке, которые называются статистики. Это, например, выборочное (т.е.
рассчитанное по выборке) среднее, выборочная дисперсия и т.п. Часто оказывается
возможным найти распределение вероятностей данной статистики, если известно
распределение для совокупности, из которой была взята выборка. Распределение
вероятностей статистики называется выборочным распределением.
Ремарка: Прежде, чем начать анализ данных, необходимо определить вид распределения
переменных исследования.
Рассмотрим в общих чертах некоторые виды распределений.
41
Рис.6–1. Нормальное распределение с различной вариацией
95%
68%
-3 -2 -1 0 1 2 3
Среднее
Медиана
Мода
42
Симметричные распределения
В симметричном распределении среднее, медиана и мода равны между собой.
Нормальное распределение симметрично. Однако существуют и другие виды
симметричных распределений, отличных от нормального распределения. Даже если
распределение выглядит симметричным, необходимо провести оценку
соответствия данных определенному виду распределения.
Асимметричные распределения
Если в симметричном распределении среднее, медиана и мода равны между
собой, то в ассиметричном эти величины разновелики. Если среднее меньше
медианы, а медиана в свою очередь меньше моды, то распределение называют
скошенным влево или имеющим отрицательный уклон. Если медиана больше моды,
а среднее больше медианы, то распределение скошено вправо или имеет
положительный уклон(Рис.6–3).
Среднее Среднее
Медиана Медиана
Мода Мода
Ремарка: Если распределение случайной величины мультмодальное (т.е. мода не одна, а несколько,
это может быть признаком того, что или не учтен некоторый фактор в исследовании, или (что с
неопытным исследователем происходит чаще) исследование не продумано, например, произошло
слияние данных по двум подтипам заболевания, которые, возможно, различаются по этому фактору.
Логнормальное распределение
Это распределение часто встречается в медико-биологических исследованиях.
Оно имеет скошенную к одному хвосту форму (Рис. 6–4). Логнормальное
распределение ограничено нулем и имеет более длинный хвост, чем нормальное.
Это распределение связано с нормальным распределением соотношением: если x
распределено по закону логнормального распределения, то y lnx распределено
нормально.
43
Рис. 6–4. Логнормальное распределение
44
Распределение Пуассона
Распределение Пуассона моделирует случайную величину, представляющую
собой число событий, произошедших за фиксированное время, при условии, что
данные события происходят с некоторой фиксированной средней интенсивностью
λ и независимо друг от друга. Например, число госпитализаций в день типичная
переменная, отвечающая распределению Пуассона.
В выборке такие данные могут быть представлены как количество событий за
время наблюдения, или время до момента свершения события.
И в одном, и в другом случае – это распределение Пуассона, однако в первом
случае, когда количество событий есть у каждого исследуемого, такие данные могут
быть аппроксимированы нормальным распределением, при условии, что время
наблюдения одинаково у всех случаев. Если время наблюдения одинаково для всей
выборки или не играет роли в исследовании, данные представляются как
количество событий – целые числа (например, количество детей у исследуемого,
число госпитализируемых за сутки и т.п.).
χ 2 распределение
К важным выборочным распределениям, которые могут быть определены
через нормальные случайные переменные, относится распределение χ 2 (хи-
квадрат) распределение. Если z1 , z2 , , z k – независимые случайные переменные,
распределенные нормально с нулевым средним и единичной дисперсией NID0; 1 ,
то случайная переменная χ k2 z12 z22 z k2 (сумма квадратов случайных величин)
подчиняется χ 2 -распределению с k степенями свободы.
Это распределение исключительно важно, поскольку через сумму квадратов
определяется выборочная дисперсия; методы анализа таблиц сопряженности
основываются на критериях типа χ 2 .
Распределение Стьюдента
Если z и χ k2 независимые случайные переменные со стандартизированным
z
нормальным и χ 2 -распределением, то случайная величина t k подчиняется
χ k2 k
t -распределению (распределению Стьюдента) с k степенями свободы. При k
распределение переходит в стандартизированное нормальное распределение.
Таким образом, если x1 , x2 , , x n случайная выборка из N μ ; σ 2 , то t
x μ
s n
подчиняется t -распределению с n 1 степенями свободы.
На этом распределении построены критерии типа Стьюдента.
F-распределение
Если χ u2 и χ v2 – независимые случайные переменные χ 2 распределения со
χ u2 u
степенями свободы u и v соответственно, то отношение Fu ,v починяется F-
χ v2 v
распределению с u степенями числителя и v степенями знаменателя.
Это распределение играет важную роль в анализе вариаций ANOVA и других
методах анализа данных планируемых экспериментов.
Безусловно, есть и другие распределения, которые лежат в основе случайных
величин. Но без знания основных свойств вышеприведенных распределений сложно
45
понимать, как “работают” основные статистические параметрические критерии.
Непараметрические критерии отличаются от параметрических тем, что не требуют
знания распределения случайной величины при их расчете.
Основные аспекты
Свойства распределений и возможности анализа, которые они предоставляют
очень активно используются в практическом анализе. Фактически, большая часть
рассуждений в статистических критериях и выводах базируется именно на
свойствах вышеописанных распределений.
46
7. Предварительный анализ данных
Предварительный анализ данных так иногда называют унивариантым
анализом данных. В медицинской литературе наиболее распространено следующие
виды унивариантного анализа:
1. Описательное исследование, в котором исследуется одна выборка. Как правило,
анализ носит описательный характер. Цель такого анализа – учесть влияние
случая в измерениях переменной. Например, описывается серия случаев одного
заболевания, рассматриваются демографические и патофизиологические
характеристики этих пациентов. Крайне редко используется сам по себе.
2. Второй распространенный вид: выборка описывается для включения в
исследование. Например, перед рандомизацией в клиническом исследовании,
исследователь может описать общие характеристики всей выборки
исследования: средний возраст, процент женщин и мужчин и пр.
В обоих видах унивариантного анализа интерес представляют описательные
характеристики, а не значимость статистических тестов. Также часто
унивариантный анализ может использоваться как вспомогательный инструмент
при анализе отдельной переменной, для того, чтобы понять, по какому закону она
распределена, как она себя ведет в исследовании, для последующего выбора
соответствующего теста.
Прежде чем начать анализ данных, необходимо определить, какие типы
данных у переменных исследования.
Для каждого столбца вашей таблицы (переменной исследования, фактора)
необходимо найти характеристики, которые помогут взглянуть на ваши данные в
целом. Значения переменной рассматриваются как некоторое эмпирическое
распределение. Очень желательно определить закон распределения этой величины,
описать это распределение некоторыми характеристиками.
47
Есть приблизительный быстрый способ оценки того, можно ли использовать
нормальное распределение для обработки количественных данных.
Рассчитываются основные статистики – выборочное среднее, выборочное
среднеквадратическое отклонение, медиана, мода. Если мода, медиана и среднее
расположены далеко друг от друга, то маловероятно, что данные распределены
нормально. Если мода не одна, то возможно, что дизайн исследования построен
неправильно, возможно наблюдения взяты из двух и более различных
распределений.
Рассчитывается коэффициент вариации по выборке: CV s x , где s –
выборочное среднеквадратическое отклонение, x – выборочное среднее. Если
CV 1,0 , то данные нельзя обрабатывать, как нормально распределенные данные.
Однако, если CV 1,0 нужны дальнейшие исследования о нормальности данных.
Для проверки гипотезы о нормальности распределения наиболее часто
используются тест Шапиро-Уилка (если размер выборки менее 50, n 50 ; в
некоторых статистических пакетах тест рассчитывается при n 5000 ), тест
Лиллиефорса, тест Шапиро-Франсиа и др. Нулевая гипотеза, которая выдвигается
при проверке – данные согласуются с законом нормального распределения,
альтернативная – данные не согласуются с законом нормального распределения.
Если результат применения критерия имеет значимость p α , то нулевая гипотеза
не отвергается, вероятно, что данные распределены нормально.
Проверка на нормальность нужна часто не сама по себе, а как предположение,
лежащее в основе статистических тестов. Однако, прежде чем окончательно выбрать
подходящий тест (критерий) для вашего исследования, необходима проверка на
наличие выбросов.
Выбросы – это аномальные значения в выборочных наблюдениях, которые
отличаются от основной части данных и несовместимы с остальными данными.
Чтобы приблизительно оценить выбросы, используются графические
представления данных: гистограмма, “ящик с усами”, Q-Q-график и др. Графические
представления – хороший инструмент для визуального анализа данных (см. раздел
7.2).
Один из самых простых способов обнаружить выброс в значениях одной
переменной – это рассчитать интеквартильный размах IR (см.6.1.4), умножить его
на 1,5. Далее определить границы, нижнюю как L Q25 1,5 IR , верхнюю как
U Q75 1,5 IR . Точки, лежащие вне этого диапазона, могут рассматриваться как
выбросы в данных.
Например: есть данные: 2, 8, 10, 11, 14.
Q25 8 , Q75 11 , IR 3 , L 8 1,5 3 3,5 , L 11 1,5 3 15,5 .
Сравнивая имеющиеся данные с границами, получаем, что значение 2
является выбросом.
Выбросом могут считаться данные, которые отклоняются более чем на два
стандартных отклонения от среднего выборки1; не согласуются с поведением
остальных данных в выборке.
Кроме того, для анализа выбросов существуют статистические тесты и
процедуры, которые подскажут вам, какие значения переменной являются
1
Существует эмпиричесское правило “трех сигм”. σ – стандартное отколенение. Величина, отстоящая от
среднего более чем на 3σ считается крайне маловероятной (см Раздел 6.1).
48
выбросами. Анализируются обычно крайние значения упорядоченного набора
значений переменной (крайне малые и крайне большие).
Ни один из тестов не подскажет вам, что делать с такими значениями.
Если значение данных является выбросом, то исследователь может:
– скорректировать точку данных: если возможно, перепроверить значение по
исходному оригиналу (журналу анализов, карточке пациента и др., убедиться, если
использовался некоторый прибор для измерений, что он исправен; иногда, если
сохранился материал, анализ повторяют);
– исключить из анализа эту точку, однако исключение выброса из данных
должно быть сделано с особой осторожностью, если выброс исключается из данных,
весь статистический анализ данных должен быть применен к полным и урезанным
данным так, чтобы оценить эффект от исключенных наблюдений. Такое исключение
должно быть задокументировано;
– использовать эту точку данных в анализе.
По отношению к количественной переменной вы должны убедиться, что она
подчиняется или не подчиняется закону нормального распределения, чтобы в
дальнейшем использовать соответствующие критерии. Для данных, которые могут
принимать только положительные значения и не подчиняются закону нормального
распределения – может быть сделана проверка на логнормальное распределение.
Данные преобразовываются по формуле y lnx , далее выполняется
предварительный анализ на нормальность.
При записи результатов предварительного анализа нормально
распределенные данные чаще всего характеризуют размером выборки,
выборочными средним и среднеквадратичным отклонением или дисперсией,
иногда среднеквадратичной ошибкой среднего; данные, которые не распределены
нормально – размером выборки, медианой, минимальным и максимальным
значением, 25% и 75% перцентилями (квартилями).
49
7.1.4. Точечные оценки и доверительные интервалы
Среднее значение
Точечная оценка. Используется для количественных переменных,
распределенных по закону нормального распределения. Является мерой положения.
Выборочное среднее значение (т.е. оценка среднего по имеющейся выборке)
рассчитывается как:
1 n
x xi
n i 1
где n – численность выборки,
x i , i 1,2, , n – значения переменной в выборке по каждому случаю.
Доверительный интервал для среднего
Интервальная оценка. Нижняя (индекс L – lower) и верхняя (индекс U – upper)
границы доверительного интервала определяются как:
s s
x L x t γ ;n1 ; xU x t γ ;n1 ,
n n
где x – выборочное среднее;
s – выборочное среднеквадратичное отклонение;
t γ ;n1 – значение -квантиля распределения Стьюдента с n 1 степенями
свободы, γ 1 α для двустороннего интервала, т.е. для α 0,05 γ 0,975, для
2
одностороннего интервала γ 1 α ;
n – численность выборки.
Ремарка: Фактически, этот интервал покрывает 1 α % распределения исследуемого параметра
выборки. Для среднего – это распределение среднего, а не выборки, на основе которой рассчитано
среднее.
50
В литературе обычно приводятся данные о двустороннем доверительном
интервале. Говорят, что рассчитан 1 α % интервал для некоторого параметра
распределения. Например, 95% доверительный интервал для среднего. Указание в
тексте публикации значений нижней и верхней границы свидетельствует о том, что
интервал двусторонний. Как правило, в публикациях приводится в первую очередь
среднее, стандартное отклонение или стандартная ошибка среднего, доверительные
интервалы приводятся как дополнительная вспомогательная информация.
Медиана
Точечная оценка. Если значения переменной, полученной в исследовании,
упорядочить по возрастанию, то медиана – это значение переменной, которое делит
упорядоченную совокупность наблюдений пополам, так что одна половина
значений в этой совокупности лежит ниже медианы, а другая их половина – выше
медианы. Если совокупность образована нечетным числом значений наблюдаемой
переменной, то медиана равна значению переменной, являющемуся серединой
упорядоченной совокупности наблюдений. Если же совокупность образована
четным числом значений, то медиана определяется значением, лежащим
посередине между двумя значениями, находящимися в центре упорядоченной
совокупности наблюдений. Медиана – мера положения, используется, когда
переменная порядковая или количественная. Медиана нечувствительна к величине
крайних значений упорядоченной совокупности наблюдений.
Точечная оценка медианы рассчитывается следующим образом:
Пусть x1 , x2 , , x n представляют n значений переменной исследования.
Медиана – центр значений, которые упорядочены по возрастанию
x 1 , x 2 , , x n x 1 x 2 x n .
Если n – нечетное ~ x x
n1 2
x x
Если n – четное ~
x n 2 n 21 .
2
В публикациях приводится медиана, когда распределение переменной
исследования отлично от закона нормального распределения. Иногда приводится
среднее и медиана, чтобы дать понять читателям, что выборочная переменная не
подчиняется закону нормального распределения.
Доверительный интервал для медианы
Интервальная оценка. При расчете точечной оценки медианы выборка по
переменной исследования упорядочивается по возрастанию x 1 , x 2 , , x n
x x x , и каждый член ряда получает свой порядковый номер (номер
1 2 n
k
1
2
n zγ n 1 , с округлением k до меньшего целого числа,
51
При n 50 можно воспользоваться специальными таблицами или
статистическими пакетами.
Доверительные интервалы для медианы редко встречаются в медико-
биологических публикациях.
Квартили и квантили
Точечные оценки. Перцентиль – значение данных, которые больше или равны
заданному проценту от значений данных выборки. В математических терминах
p -ый перцентиль – такое значение данных, которое больше или равно p % всех
данных и меньше или равно ( 1 p )% данных. Поэтому, если значение x – p -ый
перцентиль, то p % значений в наборе данных меньше или равны x , и ( 100 p )%
значений больше или равны x . Квантиль – это тот же перцентиль, выраженный не в
процентах, а в частях ( от 0 до 1).
Квартили (25% и 75% перцентили), а также медиана (50% перцентиль),
обеспечивают разбиение упорядоченной количественной выборки на 4
подмножества равной численности. Вычисление данных показателей производится
по правилам, принятым для вычисления медианы.
Верхний квартиль ( Q75 ) представляет собой 75% перцентиль выборки.
Нижний квартиль ( Q25) представляет собой 25% перцентиль выборки.
В публикациях иногда приводятся значения Q25 и Q75 наряду с Q50 –
медианой, когда распределение изучаемой величины отлично от закона
нормального распределения. Иногда также приводится Q95 или Q97 например, для
того, чтобы использовать потом такие данные, как референтные. Например, по
группе здоровых исследуемых даны Q50 и Q97 диастолического давления. Далее
эти данные могут использоваться для того, чтобы показать, что в исследуемой
группе (пациентов с некоторым заболеванием), существует значительное
количество случаев с диастолическим давлением выше, чем Q97 .
Интерквартильный размах
Точечная оценка. Интерквартильный размах – это разность между верхним и
нижним квартилями выборки.
IR Q75 Q25.
Приводится в публикациях. Означает, что половина значений
показателя/фактора в исследуемой выборке лежит в пределах интерквартильного
размаха.
Мода
Точечная оценка. Мода – это наиболее часто встречающееся в определенной
совокупности наблюдений значение показателя/фактора. Также является мерой
положения; может использоваться в случае категориальных, порядковых и
количественных переменных.
Дисперсия
Точечная оценка. Дисперсия является мерой рассеяния. Точечная оценка по
выборке (выборочная дисперсия) рассчитывается как:
1 n
s2 x i x 2 ,
n 1 i 1
где n – численность выборки,
x i , i 1,2, , n – значения переменной в выборке.
52
x – выборочное среднее.
Эта формула выборочной оценки дисперсии получена в предположении
нормального распределения количественной переменной. Вычисленную по данной
формуле оценку допустимо применять только для нормально распределенной
количественной переменной, но не для переменных в других шкалах измерения и с
другими функциями распределения. Выборочная дисперсия измеряет рассеяние
среднего в выборке. Большая дисперсия подразумевает, что множество данных не
сгруппировано около среднего. Маленькая дисперсия подразумевает, что
большинство данных находится около среднего. На выборочную дисперсию влияют
экстремальные значения и значения, которые находятся ниже порога
чувствительности метода измерения.
Стандартное отклонение
Точечная оценка. Стандартным отклонением (среднеквадратичным
отклонением, с.к.о.) называют корень квадратный из дисперсии. Вычисление
стандартного отклонения производится по формуле:
s s2 ,
где s 2 – выборочная дисперсия.
В медико-биологических публикациях s часто обозначают как SD (standard
deviation).
Стандартная ошибка среднего
Точечная оценка. Стандартная ошибка среднего SE (standard error)
определяется по формуле:
s
SE ,
n
где s – выборочное стандартное отклонение,
n – численность выборки.
Традиционно запись, характеризующая среднее значение и его стандартную
ошибку, представляется в виде x SE .
Пропорция
Точечная оценка. Если в исследовании имеется биноминальная переменная,
которая кодируется как “1” – состояние (событие), которое интересует
исследователя, “0” – противоположное состояние, то точечная оценка пропорции по
выборке рассчитывается как:
k
πˆ , где
n
k – количество интересующих исходов в выборке,
n – численность выборки.
Дисперсия пропорции
Точечная оценка. Рассчитывается как: s 2 πˆ 1 – πˆ .
s
Соответственно s s 2 , SE .
n
53
Доверительный интервал для пропорции
Интервальная оценка. Доверительный интервал для пропорции
рассчитывается упрощенно (биноминальное распределение аппроксимируется
нормальным распределением), если k 4 и n k 4 .
1 k
k zγ2 – zγ n – k 1 zγ2
Нижняя граница: π L 2 n 4 .
n zγ
2
1 k
k zγ2 zγ n – k 1 zγ2
Верхняя граница: π U 2 n 4 .
n zγ2
k – количество интересующих исходов в выборке;
n – численность выборки;
zγ – значение -квантиля нормального распределения, γ 1 α для
2
двустороннего интервала, т.е. для α 0,05 γ 0,975, для одностороннего
интервала γ 1 α .
Большинство статистических пакетов рассчитывают доверительный
интервал для пропорции при любых условиях.
Ремарка: Вариант расчета с аппроксимацией биноминального распределения нормальным не
является единственным. Реализация расчета в статистическом пакете также может быть не
единственна.
Интенсивность
Точечная оценка. Если исследователь на протяжении времени t наблюдал
события в выборке, то точечная оценка интенсивности рассчитывается как:
k
λ̂ , где
t
k – количество интересующих исходов в выборке,
t – время наблюдения.
Пример: в когортном исследовании приняло участие 600 человек, из них 100
наблюдалось в течение года, 200 – в течении 2 лет, 300 – в течение трех лет. Тогда
количество человеко-лет наблюдения составит: t = 100 × 1 + 200 × 2 + 300 × 3 = 1400 .
Дисперсия интенсивности
Точечная оценка. Дисперсия интенсивности равна D λ̂ .
54
где χ γ2,v есть значение -квантиля 2 -распределения с v степенями свободы.
Для нижней границы γ 1 α (т.е. для 0,05 0,975 ), v 2k и для верхней
2
границы γ α , v 2k 2 .
2
Графики частот/гистограмма
Два самых известных графических метода для общего взгляда на
распределение данных – это график частот и гистограмма. И график частот, и
гистограмма основаны на одних и тех же принципах представления данных: деление
диапазона данных на интервалы, расчет количества точек, попавших в интервал, и
отображение количества точек, как высоты на столбиковой диаграмме. Однако есть
небольшие различия между гистограммой и графиком частот. На графике частот
относительная высота полос представляет относительную плотность данных. В
гистограмме площадь полосы представляет относительную плотность данных.
Различие между двумя графиками становится более заметным, когда используются
неравные размеры интервалов.
Гистограмма и график частот помогают оценить симметрию и изменчивость
(вариабельность) данных. Если
данные симметричны, то
структура графика будет
симметрична относительно
центральной точки, такой как
среднее. Гистограмма и график
Количество наблюдений
56
больше деталей для малых интервалов, или данные распределения будут выглядеть
более сглажено (Рис 7–1).
“Ящик с усами”
“Ящик с усами” (рис. 7–2) является схематичной
диаграммой, полезной для визуализации основных *
статистических характеристик (параметров) распределения
данных. Эта диаграмма полезна в ситуациях, где нет
необходимости или где невозможно изобразить все детали
распределения. “Ящик с усами” состоит центрального блока, +
разделенного вертикальной и горизонтальной линиями.
Традиционно шкала самих данных идет снизу вверх, от меньших
значений к большим. Высота центрального блока указывает
расположение большой части данных (центральные 50 %), в то
время как длина вертикальных “усов” показывает, насколько
вытянуты хвосты распределения. У ширины блока нет никакого
специфического значения; график может быть узким или
*
широким1. Выборочная медиана – горизонтальная линия,
разделяющая блок, и среднее выборки обозначается знаком ‘+’. Рис.7-2. Пример
Любые необычно малые или большие данные точки показаны '*' “ящика с усами”
на графике. “Ящик с усами” может использоваться для оценки
симметрии данных. Если распределение является
симметричным, то блок разделен на две равные половины медианой среднее будет
находиться на линии медианы, усы будут одинаковой длины и число экстремальных
точек данных будет представлено одинаково на каждом конце.
Таким образом, из графического представления может быть получена
информация о местоположении распределение (медиана, среднее), рассеяния
(центральный блок – это интерквартильный размах), интервал изменения (крайние
значения распределения), наличие выбросов, некоторая информация о форме
распределения (взаиморасположение медианы и среднего).
График квантиль-квантиль
График квантиль-квантиль (нормальный Q-Q график) используется для того,
чтобы примерно определить, насколько хорошо данные соответствует модели
нормального распределения. Присутствует практически во всех статистических
пакетах. На нем по горизонтальной оси откладываются квантили нормального
распределения(которое строится на основе расчетов среднего и стандартного
отклонения по наблюдаемым значениям), по вертикальной – квантили
наблюдаемых значений (эмпирические данные – как есть в исследовании). Если
полученный график – прямая линия, данные распределены нормально. Если график
не является прямой, уходы от прямой линии дают важную информацию о том, как
распределение данных отклоняется от нормального распределения. Если график
нормальной вероятности не линеен, график может использоваться для того, чтобы
определить степень симметрии (или асимметрии).
Если данные в верхнем хвосте ниже линии квартилей, а в нижнем хвосте –
выше линии квартилей, то на хвостах меньше данных, чем ожидалось при
нормальном распределении. Если данные в верхнем хвосте выше линии, а данные в
1
Если приводятся распределения нескольких групп на одном рисунке, то ширина “ящика с усами”может
характеризовать размер групп.
57
нижнем хвосте ниже линии квартилей, то данные на хвостах больше, чем ожидалось
бы при нормальном распределении. Q-Q график может использоваться для
идентификации потенциальных выбросов в данных. Значение данных (или
несколько значений данных) намного бóльшее или намного меньшее, чем остальные
значения данных влекут за собой эффект сжатия данных в середине графика
искажая линию (Рис.7–3).
0,01 0,05 0,25 0,50 0,75 0,90 0,99
100 0,01 0,05 0,25 0,50 0,75 0,90 0,99
70
80 60
60 50
Наблюдаемые
40
Наблюдаемые
40
30
20
20
0
10
-20
0
-40 -10
Т еоретические Теоретические
35
50
45
30
40
25
35
Количество наблюдений
Количество наблюдений
30
20
25
15
20
10 15
10
5
5
0 0
-5 0 5 10 15 20 25 30 35 40 45 50 55 60 65 -5 0 5 10 15 20 25 30 35 40 45 50 55 60 65
45
300
40
35 250
Количество наблюдений
Ко л и ч е ств о н а б л юд е н и й
30
200
25
150
20
15
100
10
50
5
0 0
0 1 2 3 4 5 6 7 8 9 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6
Пе р е ме н н н а я 1 П ерем енная 2
8 2 .6
2 .4
7 2 .2
2 .0
6
1 .8
1 .6
5
1 .4
4 1 .2
1 .0
3 0 .8
0 .6
2
0 .4
0 .2
1
0 .0
0 -0 .2
Пе р е ме н н а я 1
Норм альное распределение
Но р ма л ь н о е р а сп р е д е л е н и е Перем енная 2
1 .0 3.0
2.5
0 .8
2.0
Наблюдаем ые
1.5
На б л юд а е мо е
0 .6
1.0
0 .4 0.5
0.0
0 .2
-0.5
0 .0 -1.0
0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 -4 -3 -2 -1 0 1 2 3 4
Те о р е ти ч е ск о е Теоретическое
58
Ремарка. В некоторых статистических пакетах при построении графика нормальной вероятности по
оси Х отображается наблюдаемое распределение, по оси Y теоретическое (ожидаемое). Будьте
внимательны.
Можно построить Q-Q график не только для нормальной вероятности, но и
любого другого распределения, и посмотреть, как данные соотносятся с
теоретическим распределением. Можно также построить график по двум
переменным, приняв одну из них за основу для другой.
Примеры визуализации представлены на Рис.7–4: один и тот же набор данных
представлен в разных видах. Как видно, распределение переменной 2 скошено
вправо. Переменная 1 скорее всего распределена нормально.
Важность визуального представления данных сложно переоценить. Для
понимания этого момента можно привести следующий пример1 – квартет Анскомба
(Anscombe's quartet).
Таблица 7–1. Данные квартета Анскомба
набор 1 набор 2 набор 3 набор 4
x y x y x y x y
10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58
8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76
13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71
9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84
11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47
14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04
6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25
4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50
12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56
7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91
5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89
Это четыре набора данных (табл.7–1), которые практически не различаются в
средних, дисперсиях, корреляциях (в этом можно убедиться самостоятельно).
Однако, их визуализация дает четкое понимание, что наборы совершенно различны
(Рис.7–5).
1
F.J. Anscombe, "Graphs in Statistical Analysis," American Statistician, 27 (February 1973), 17-21.
59
7.2.2. Качественные данные
14
12
12 К1
К5
10 9 16%
24%
8 7
6
6 К2
К4
3 19%
4 8%
2 К3
0 33%
К1 К2 К3 К4 К5
Медиана,
Среднее, дисперсия, размах, квартили
интервальные оценки
номинальная переменная
Связана со Не связана
временем со временем
наблюдения наблюдения
Интенсивность, Пропорция,
доверительные доверительные
интервалы интервалы
60
Таблица 7–2. Основные характеристики описания выборки одной переменной исследования
Описательные статистики (descriptive statistics)
Переменная исследования Расчет точечных и интервальных оценок
Биноминальная (два возможных Точечная и интервальная (доверительный интервал)
результата, обычно 0 – отсутствие оценки вероятности наступления события (исхода)
события и 1 – наличие события. Подсчитывается пропорция как отношение количества
событий к размеру группы
Мультиноминальная Точечная и интервальная оценки вероятности наступления
(неупорядоченные и определенного состояния (исхода). Подсчитывается
неупорядоченные категории) количество объектов в каждой категории и размер группы.
Указывается пропорция каждой категории в выборке
События в единицу времени Точечная и интервальная оценки интенсивности
(представлены переменной наступления событий (исходов). Рассчитывается время
количество событий за промежуток наблюдения по выборке и количество событий
времени – интенсивность событий),
распределение Пуассона
Измерения на количественных Точечная и интервальная оценки медианы, квартили,
шкалах, не подчиняющиеся закону минимальное и максимальное значения
нормального распределения
(порядковые переменные)
Измерения на количественных Точечная и интервальная оценки среднего, дисперсия
шкалах (нормальное распределение)
61
Таблица 7–3. Шаблон описания переменных в исследовании
Всего в исследовании n случаев
Наименование переменной Тип Расчет оценок Примечание
Исход ( изучаемая, зависимая
переменная) ….
Переменные исследования
Переменная 1
Переменная 2
…..
Переменная k
1
Разбиение на возрастные группы зависит от целей исследования, например: трудовой/пенсионный
возраст; для детей: допубертатный период/пубертат/постпубертат и т.п.
62
7.4. Выбор переменной, связанной с исходом
Как видно из практики, одна из проблем исследования – это выбор
переменной, связанной с исходом, т.е. той переменной, которая будет
“сигнализировать” о том, насколько эффективно лечение, метод диагностики и пр.
или констатировать наступление некоторого события. Безусловно, правильно будет
определить эту переменную до начала исследования. Чаще всего используются
данные литературы для определения общепринятого исхода. Однако, бывает
необходимость перейти к другой шкале, отличной от исходной. Например,
результаты лечения оценивались по некоторому опроснику в балльной шкале от 0
до 100 баллов. Как в этом случае определить, что является благоприятным исходом,
а что нет? Во-первых, изучить внимательно эту балльную шкалу и определить
пороговое значение между состояниями “есть эффект” и “нет эффекта”. Во-вторых,
добавить “фиктивную” переменную, которая бы кодировала наличие и отсутствие
результата лечения для каждого пациента (или градации эффекта). Тем не менее,
убирать исходную количественную переменную из результатов исследования не
рекомендуется, поскольку, возможно, будут уточнятся пороговые значения
(градации), строится модель прогноза и пр.
Для переменных исхода, связанных с измерением некоторого параметра
пациента – можно найти справочники и другую литературу, в которых приведены
значения нормы у здоровых людей и на этом основании вводить фиктивную
переменную (“норма/отсутствие нормы”). Можно определить несколько градаций
такой переменной (Например: “нет улучшения/есть улучшение/выздоровел”).
Если переменная исхода является бинарной (например, “болен/здоров”), то
никаких преобразований проводить не надо.
В любом случае, если переменная связана с состоянием исследуемого
пациента, нужно четко определить процедуру выявления этого состояния. Она
должна быть обязательно описана в исследовании.
Основные аспекты
Иметь четкое представление о своих данных необходимо.
Не все дескриптивные характеристики данных включаются в публикацию
или отчет, но для понимания ваших данных лучше их иметь под рукой. Для
числовых данных иметь их графическое представление нужно, даже если оно не
будет использовано в публикации или отчете.
Умение “читать” графический материал – это первый шаг к пониманию
данных. Иногда графики красноречивее слов. 1
Выбросы в данных должны быть тщательно перепроверены,
задокументированы и принято решение, как с ними поступать в дальнейшем
анализе.
1
Доказательство известной теоремы Пифагора приводится в книге «Венец астрономического учения»
индийского математика XII в. Бхаскары. Собственно, все доказательство состоит из чертежа. В качестве
пояснения фигурирует лишь слово «Смотри!».
63
8. Унивариантный анализ: сравнение с пороговым значением,
доверительные интервалы
Для сравнения переменной исследования с пороговым значением
используются так называемые одновыборочные тесты. Они сравнивают параметр
(например, среднее, квантиль, медиану) с пороговым значением. В этом случае
пороговое значение определяется в начале исследования. Пороговое значение в
тесте с одной выборкой – неизменное фиксированное число. Например,
одновыборочный тест может определить содержат ли 95% всех измерений
давления величину ниже заданного порогового значения. Для этого примера,
переменная – процент (пропорция) и пороговое значение составляет 95% (0,95). Это
часто необходимо при изучении исхода, который может быть представлен
количественной переменной при сравнении с нормами, принятыми для здоровых,
или пациентов с определенным типом заболевания и т.п. Также может применяться
при описании фактора, когда речь идет о том, что часть пациентов в исследовании
имеет завышенные/заниженные показатели по сравнению с нормами для здоровых
и т.п. В таком анализе неважно, идет речь о зависимой или независимой переменной
– это переменная исследования.
Статистическая задача – сравнить выборочные измерения переменной
исследования с фиксированным пороговым значением.
Таблица 8–1. Критерии сравнения с пороговым значением
Сравнение с пороговым значением
Переменные исследования Критерии
Пропорция Одновыборочный тест пропорций
Точный биноминальный тест (Exact binominal
test)
Количественные измерения (не Тест знаков рангов Виолкоксона (Wilcoxon Signed
подчиняющиеся закону нормального Rank Test)
распределения)
Количественные измерения (нормальное Одновыборочный t-тест
распределение)
Доверительные интервалы
s s
x L x tγ ;n1 ; xU x tγ ;n1
n n
95% односторонние интервалы
95% двусторонний интервал
65
Вариант 1 (Рис. 8–1)
Для среднего истинное среднее меньше или равно C , H0 : μ C против
H A : μ C . Иными словами, нулевая гипотеза утверждает, что истинное среднее
лежит левее или равно C . Варианты расположения доверительных интервалов
представлены на рис. 8–1. Вертикальная линия на рисунке – это заданное пороговое
значение, вертикальные штрихи на линиях интервалов – средние по выборке x .
Выборка А: Расчеты по выборочному среднему показали, что 117 100 .
Строим 1 α односторонний доверительный интервал, вычисляем его нижнюю
границу (114,9). Нижняя граница доверительного интервала x L лежит правее
порогового значения C . Проверка одновыборочным t-тестом покажет, что p α ,
нулевая гипотеза H0 : μ 100 отклоняется. Действительно, даже нижняя граница
доверительного интервала больше чем C ; иными словами – истинное среднее
лежит правее порогового значения с доверительной вероятностью 95% ; истинное
среднее больше C 100 на уровне значимости α 0,05 .
p <0,05
Выборка А
p =0,05
Выборка Б
+Inf
p >0,05
Выборка В
С=100
66
Вариант 2 (Рис.8–2)
Для среднего H 0 : μ C против H A : μ C . Нулевая гипотеза утверждает, что
истинное среднее лежит правее или равно C .
p <0,05
Выборка Г
p =0,05 Выборка В
–Inf
p >0,05 Выборка Б
С=100
Выборка Г Выборка А
p <0,05 p <0,05
Выборка Д
p =0,05
Выборка Б
p >0,05
Выборка B
p >0,05
С=100
67
Одновременно мы коснемся ошибки второго рода β и мощности теста
(вероятность отклонения нулевой гипотезы, когда она ложна), которая
определяется как 1 β . На рисунке 8–3 для выборок Б и В нет оснований отвергнуть
нулевую гипотезу, однако, при наличии дополнительных исследований (увеличения
размера выборки), интервал уменьшится, что возможно повлечет за собой иной
вывод. С другой стороны, если мы хотим обнаружить разницу между граничным
значением C и нашим выборочным значением среднего по выборке Б не менее, чем
3 единицы, то можем рассчитать при α 0,05 и 1 β 0,8 (см. раздел 4.4):
2
z1α z1β
s2 1,96 0,84 6,32 5,49 6 .
2
n 2
ε 32
Это означает, что достаточно нашей выборки, чтобы утверждать, что разница
в 3 единицы не обнаружена при мощности 1 β 0,8 .
Еще раз вспомним, что нулевую гипотезу мы не доказываем, она остается
верна, до тех пор, пока не появились новые доказательства.
Все рассуждения и выводы можно делать аналогично для пропорций. Пусть
существует пороговое значение пропорции P .
Рассматриваются гипотезы:
вариант 1: H0 :π P против H A :π P , где π – истинная пропорция в
популяции, P – некоторое пороговое значение ;
вариант 2: H0 :π P против H A :π P ;
вариант 3: H0 : π P против H A : π P .
Расчет доверительных интервалов для пропорции осуществляется по
формулам приблизительного расчета для пропорций, в односторонних интервалах
вместо +Inf (читается как "плюс бесконечность") используется 1, вместо –Inf
(читается как "минус бесконечность") используется 0, поскольку пропорция
определяется на интервале от 0 до 1.
Медиана является 50% перцентилем выборки, поэтому могут проверяться
гипотезы как для пропорции при P 0,5 .
Пример
Исследуются дети с определенным хроническим заболеванием. Известно, что
некоторый параметр у детей изменяется с возрастом (например, размер печени,
щитовидной железы и пр.)
Исследователь предполагает, что этот параметр при изучаемом заболевании
отличается от параметра здоровых детей. Исследователь собрал данные по детям с
изучаемым заболеваниям: возраст, пол, значение изучаемого параметра.
Как показать отличия детей, страдающих от данного заболевания и не
подверженных данному заболеванию, по изучаемому параметру и есть ли они?
Шаг 1. Если у исследователя нет контрольной группы, или затраты на ее
создания велики, или есть другие причины, то необходимо найти референтные
значения, наиболее близкие к изучаемой когорте, например по Европе. Выбор
референтной группы может диктоваться климатом и уровнем жизни, расой и
спецификой питания и т.п. Все зависит от конкретных целей исследования.
Некоторые исследования дают референтные значения по своей стране, различным
68
регионам и т.п. Есть публикации World Health Organization, содержащие
референтные значения различных параметров у здоровых детей различного
возраста.
Предположим, исследователь нашел необходимую референтную группу.
Референтные значения заданы медианой и 97 перцентилем. Это означает, что
переменная исследования у здоровых детей подчиняется некоторому закону
распределения, возможно, отличен от закона нормального распределения. 97
перцентиль означает, что 97% выборочных значений лежит ниже (меньше) и только
3% выше (больше) значения 97 перцентиля (Р97).
Шаг 2. Рассмотрим данные, полученные исследователем, и сравним их с
референтными. Референтными значениями являются значения P97 некоторой
популяции1: 6 лет –4,80; 7 лет – 5,41; 8 лет – 6,44; 9 лет – 7,13; 10 лет – 7,65; 11 лет –
8,56; 12 лет – 11,31.
Например, для возраста 8 лет провели измерения у пациентов (мальчиков) с
заболеванием и получили следующие значения: 2,63; 3,56; 5,18; 6,00; 6,13; 9,58;
20,12; 20,84. Референтное значение для здоровых мальчиков в возрасте 8 лет
Р97=6,4.
Три пациента из восьми имеют размер, превышающий Р97 здоровой
референтной группы мальчиков для возраста 8 лет.
Составим таблицу, в которой отметим количество пациентов мужского пола
определенного возраста и среди них количество пациентов, у которых размер
превышает референтное значение Р97 для своего же возраста. (Пример Табл. 8–4).
Рассчитаем доверительный интервал (см. раздел 7.1.4) Последняя колонка –
значимость точного биноминального теста. Его расчет необязателен, если мы
приводим числовые данные и доверительные интервалы; в данном примере он
приведен для демонстрации вышеизложенного материала о связи уровня
значимости тестов и доверительных интервалов.
Таблица 8–4. Пример анализа данных с помощью доверительных интервалов
Возраст N (кол-во кол-во пропорция 95% ДИ для Точный
исследуемых превышений превышений пропорции биноминальный
пациентов референтного тест
определенного P97 H0 : π 0,03
возраста)
Пол мужской H A : π 0,03
Нижняя Верхняя
граница граница
6 2 0 0,00 0,0 0,842 >0,1
7 2 1 0,50 0,013 0,987 0,059
8 8 3 0,38 0,137 0,694 0,002
9 8 5 0,63 0,306 0,863 <0,001
10 15 6 0,40 0,198 0,643 <0,001
11 16 3 0,19 0,066 0,430 0,012
1
Zbigniew Szybinski, Malgorzata Trofimiuk, Monika Buziak-Bereza, Agnieszka Kieltyka, Grzegorz Sokolowski, Alicja
Hubalewska-Dydejczyk. The thyroid volume reference values for Polish children // Endocrine Abstracts (2010) 22
P849.
69
12 23 4 0,17 0,070 0,371 0,005
Как видно из Табл. 8–4, для возраста 6–7 лет у нас не хватает данных для
более точных расчетов, доверительным интервалом является практически вся
область от 0 до 1. Для возрастов 8–12 лет пропорция превышения референтного Р97
далека от 3% (колонка 4). Ни один доверительный интервал не включает в себя
значение 0,03. Если бы размеры органа у заболевших и не заболевших мальчиков не
различались, то доверительный интервал содержал значение 0,03.
Вывод: размеры пораженного органа у мальчиков с хроническим
заболеванием в возрасте 8–12 лет значимо больше, чем у здоровых детей.
Комментарии к примеру.
Аналогично может быть составлена таблица для девочек. Мы не знали закона
распределения референтной группы, однако по тому, что в литературе были
представлены медиана и Р97, можно судить о том, что закон распределения
размеров здорового органа в популяции не является законом нормального
распределения1. Тем не менее, характеристик выборки референтной группы из
литературы нам было достаточно для изучения заболевших.
Доверительные интервалы можно отобразить на графике (Рис. 8–4).
Пропорция пациентов, превышающих референтные значения P97
1
Пропорции и
0,9 доверительные интервалы
0,03
0,8
0,7
0,6
Пропорция
0,5
0,4
0,3
0,2
0,1
0
7 8 9 10 11 12 13
Возраст
1
Если выборочное распределение подчиняется закону нормального распределения, обычно
приводят среднее и стандартное отклонение SD. Отклонение на 2SD – есть 97 перцентиль нормального
распределения (см. рис.6-2).
70
Интервалы, как и критерии (тесты), бывают односторонними и
двусторонними.
По расположению интервалов можно судить о справедливости своих
предположений.
При сравнении двух средних случайных переменных мы говорим о том, что их
разность больше/меньше нуля. Наличие граничного значения 0 в доверительном
интервале для их разности сигнализирует о том, что мы не можем доказать
различия в средних на имеющихся данных.
В исследовании необходимо приводить характеристики распределения,
объем выборки. Для количественных переменных, подчиняющихся закону
нормального распределения – это среднее и стандартное отклонение (иногда
приводится ошибка среднего), для количественных переменных, не подчиняющихся
закону нормального распределения – медиана, размах, квантили, для
категориальных – размер группы, количество интересующих состояний в группе.
Указание характеристик может быть полезно не только вас, но и другим
исследователям для проведения сравнений или мета-анализа.
71
9. Унивариантный анализ пар
Существует еще один вид унивариантного анализа – это анализ парных
измерений. Разность в результатах парных измерений будет являться переменной.
Часто изменения в состоянии пациента – есть исход, который изучается в
исследовании.
72
Расчет статистики критерия: если B C 30 , то T
B C 1
2
, иначе
B C
T
B C 2 . Если T χ 2 , где χ 12α ;1 – значение 1 α -квантиля χ 2 распределения с
1α ;1
B C
одной степенью свободы, то нулевая гипотеза об отсутствии разницы отклоняется.
Пример
Предполагается, что после проведения профилактических мероприятий в
некоторой популяции снизится пропорция группы часто болеющих детей.
Необходимо оценить изменения заболеваемости до и после проведения
профилактических мероприятий.
Таблица 9–2. Данные примера
После проведения До проведения
мероприятий мероприятий
Часто Умеренный
болеющие риск
дети
Часто болеющие дети 28 7
Умеренный риск 13 27
T
7 13 1 2
25
1,25
7 13 20
χ 02,95;1 3,84 . Наша рассчитанная статистика T 1,25 меньше табличной.
Гипотеза об отсутствии разницы не опровергается.
До проведения мероприятий пропорция часто болеющих детей в выборке
была π 1 28 13 75 0,55 , после проведения π 2 28 7 75 0,47 . Пропорция
несогласованных пар π 12 π 21 7 13/75 0,27 , разность в пропорциях до и после
проведения мероприятий π 1 π 2 0,08 . Разность в пропорциях и есть размер
эффекта, который получен после проведения профилактических мероприятий.
Доверительный интервал для разности в пропорциях в парном дизайне
Рассчитывается приблизительно по формуле:
B C zγ
B C
B C 2 ,
N N N
где N A B C D , zγ – значение -квантиля стандартного нормального
распределения, для двустороннего интервала γ 1 α , α – уровень значимости.
2
Рассмотрим предыдущий пример.
73
Рассчитаем оценки разности в пропорциях для: π 1 0,47 (после мероприятий),
2 0,55 (до мероприятий), разность в пропорциях равна π 1 π 2 0,08 . Уровень
значимости α 0,05 . Приблизительный расчет доверительного интервала для
разности в пропорциях:
πL
7 13 1,96
7 13
7 13 0,08 0,12 0,04 ;
2
75 75 75
πU
7 13 1,96
7 13
7 13 0,08 0,12 0,20.
2
75 75 75
Как видно, доверительный интервал включает в себя 0, что означает, что нет
различий на уровне значимости α 0,05 . Т.е. хотя в среднем различие в пропорциях
8% снижения, однако это среднее лежит в доверительном интервале, от –4% до 20%.
Иными словами – размер эффекта снижения, который после проведения
профилактических мероприятий составил 8% , 95% доверительный интервал
4 20% , статистически незначим.
Точечная и интервальная оценки отношения шансов (Estimation of the Odds
Ratio)
Если исследователя интересует отношение шансов в парных откликах, то
используется точечная и интервальная оценки отношения шансов для зависимых
двухвходовых таблиц:
π C
OR 21
π 12 B
πL C
ORL ,π L ;
1 π L C B 1F1α ; 2B 2; 2C
2
πU
13 1 2,75 38 ,5 0,846 , OR π U
0,846
5,493 .
7 13 1 2,75 45,5
U
1 π U 0,154
При уровне значимости α 0,05 доверительный интервал (0,69; 5,49).
Поскольку интервал содержит значение 1, можно сделать вывод, что нет строгих
74
оснований считать, что после профилактических мероприятий изменились шансы
попасть в группу часто болеющих детей.
Иными словами, после проведения профилактических мероприятий шансы
попасть в группу умеренного риска выросли в 1,86 раз (или на 86%), доверительный
интервал (0,69 –5,5) раз (или от –31% до 450%).
Как видим, размер эффекта для частотных характеристик может быть
выражен как в разах, так и в процентах, однако вывод по этим результатам
одинаков.
Вывод: шансы попасть в группу группу умеренного риска после проведения
профилактических мероприятий не изменились.
Ремарка: Как для отношения шансов, так и для отношения рисков: . если доверительный интервал
попадает в область меньшую единицы – то говорят, что “шансы (риск) уменьшаются”, если в область,
большую единицы, то говорят, что “ шансы (риск) увеличиваются”.Если доверительный интервал для
них содержит 1, то нет cтатически значимых доказательств для таких утверждений. В этом случае
полагаем, что шансы (риски) одинаковы (неразличимы), и эфекта нет.
1 2 … j … c
75
Тест маргинальной гомогенности (Marginal Homogeneity Test)
Критерий маргинальной гомогенности – обобщает тест Мак-Нимара на случай
мультиноминального отклика. Нулевая гипотеза: частоты распределения событий
равны для обеих выборок. То есть вероятность попадания в одну из категорий для
каждого участника пары (парных наблюдений) одинакова. H 0 : π icase π icontrol для всех
категорий i 1, 2, , c . Иначе говоря, вероятность классификации в некоторую
категорию одинакова для первого и второго членов “matched pairs”. Альтернативная
гипотеза утверждает, что вероятности различны H A : π icase π icontrol .
Тест достаточно объемен в расчетах, присутствует в некоторых
статистических пакетах.
Тест маргинальной гомогенности для одной из категорий
Если мы убедились в том, что вероятность классификации в одну категорию
не одинакова для членов “matched pairs”, то далее можно уточнить, для какой
именно из категорий.
Для этого от таблицы c c переходят к таблице 2 2 следующим образом:
Шаг 1. Для интересующей категории j рассчитывается таблица 2 2 (Табл. 9–
4).
Таблица 9–4. Расчет данных для одной из категории в парном анализе
c
A n jj B nij n jj
i 1
c c c
C n ji n jj D nij A B C
i 1 j 1 i 1
76
лечения удовлетворительное 1 10 3
плохое 2 0 12
B 12 1 3 16 , C 120 3. Статистика T
13 12 7,58 ,
19
Tχ 2
3,84 . Вывод: через год после проведения обучающего курса состояние
0,95;1
1 c
1 niie
n i 1
где c – количество категорий,
n – общее количество пар (наблюдений),
nii – количество согласованных пар категории i ,
niie – ожидаемое количество согласованных пар категории i , рассчитывается
1 c c
как niie nij n ji .
n j 1 j 1
77
согласия), то эффект существует и размер эффекта согласия определяется точечной
и интервальной оценками.
Пример
Два специалиста на основании анализов ставят диагноз пациентам с
подозрением на некоторое заболевание с тремя степенями тяжести. Данные
приведены в Табл. 9–7.
Таблица 9–7. Данные примера
Нет 1 степень 2 степень 3 степень
заболевания
Нет заболевания 23 2 1 0
1 степень 2 14 5 0
2 степень 0 2 36 0
3 степень 0 0 3 12
1 1
e
n11 26 25 6,50 ; n22
e
18 21 3,78 ;
100 100
1 1
e
n33 45 38 17 ,10 ; n44
e
15 12 1,80 .
100 100
1
23 14 36 12 6,50 3,78 17 ,10 1,80
κ 100
1
1 6,50 3,78 17 ,10 1,8
100
1
85 29,18 0,56
100 0,79.
1 0,29 0,71
Результат расчета не дает оснований заключить, что специалисты расходятся
в диагностике данного заболевания.
В Приложении R-4 содержатся исходные данные примера и R-скрипты для
расчета каппы Коэна и доверительных интервалов.
78
Пример
Измеряется уровень гемоглобина до и после приема некоторого препарата у
группы пациентов согласно некоторому протоколу лечения. Мы хотим знать,
изменится ли уровень гемоглобина после приема препарата и как он изменится.
Данные приведены в Табл. 9–8.
Таблица 9–8. Данные примера
Номер Уровень до Уровень после Разность,
пациента приема, г/л приема, г/л г/л
1 100 130 30
2 95 110 15
3 73 120 47
4 98 115 17
5 110 105 –5
6 101 125 24
79
Мы выдвигали гипотезу H 0 : μ 10 против H A : μ 10 . Нижняя граница лежит
левее интересующего нас эффекта, т.е. доверительный интервал включает в себя
значение интересующего нас эффекта.
Таким образом, некоторый эффект существует, размер эффекта равен 21,3,
95% доверительный интервал от 3,2 до 39,5 г/л. Однако интересущий нас эффект с
10 г/л не достигается.
В Приложении R-5 содержатся исходные данные примера и R-скрипты для
расчета сдвига в среднем до и после лечения, доверительных интервалов парного
(одновыборочного) t-теста.
Приводить все способы анализа в исследовании не надо, достаточно одного,
который отражает именно ваше направление исследования, вашу систему логики и
доказательств. В данном разделе рассмотрены и доверительные интервалы, и тесты,
для того, чтобы понять, как они взаимосвязаны, как унивариантный анализ пар
может осуществляться с помощью доверительных интервалов.
Одновыборочный t-тест
Стьюдента
sign-тест,
(t-тест для зависимых
знаковый ранговый тест
переменных)
Вилкоксона
С-P
номинальная переменная
Биноминальная Мультиноминальная
80
Оценка отношения шансов и доверительных
интервалов
Каппа Коэна
Количественные измерения (разность Тест знаков (Sign Test)
не подчиняется закону нормального
распределения) Знаковый ранговый тест Вилкоксона (Wilcoxon
Signed Rank Test
Тест медианы
Количественные измерения Т-тест для двух зависимых переменных ( T-test
(нормальное распределение разности) for related Samples)
Одновыборочный t-тест
Основные аспекты
Парные наблюдения обрабатываются в статистическом анализе по своим
схемам, дизайн исследования определяет обработку данных.
Интервальные оценки в анализе пар – это статистическая оценка такого
параметра, как разность в измерениях парных случаев.
Доверительные интервалы строятся для различных статистических оценок,
не только для среднего, пропорции.
Отношение двух случайных величин также может свидетельствовать о том,
какая из величин больше или меньше. Наличие граничного значения 1 в
доверительном интервале для их отношения сигнализирует о том, что мы не можем
доказать различия этих величин.
Размер эффекта между парными измерениями может быть рассчитан и
интерпретирован.
81
10. Бивариантный анализ: взаимосвязь двух переменных
В бивариантном анализе рассматривается две переменные и их взаимосвязь.
Иногда сложно определить, какая из них зависимая, какая независимая, поскольку
изучается ассоциация между ними, а не причинно-следственные отношения. Далее
будут рассматриваться комбинации двух переменных, какой анализ они позволяют
провести, какие гипотезы могут быть выдвинуты и протестированы.
В общем случае нас интересует поведение одной переменной по отношению к
другой. Если эти переменные количественные или упорядоченные
мультиноминальные, то можно оценить, как изменяется одна переменная
исследования (возрастает или убывает) при возрастании или убывании другой
переменной. Если такая зависимость присутствует, ее называют трендом. Тренд
может быть линейным и нелинейным. Линейные тренды изучаются с помощью
линейного регрессионного анализа. Нелинейные тренды являются более сложными
моделями взаимодействия данных, и не рассматриваются в данном пособии. Сила
ассоциации двух переменных изучается корреляционным анализом (классическим и
непараметрическим). Корреляционный анализ предполагает изучение ассоциации
между случайными величинами с одновременной количественной оценкой степени
их ассоциации (совместного изменения).
Расчеты различных мер ассоциации(взаимосвязи) есть практически во всех
статистических пакетах, поэтому внимание будет сосредоточено на интерпретации
результатов.
82
r=+1
-1<r<0
r=-1
Нелинейная
монотонновозрастающая
связь
0<r<+1
r=0
83
переменной. Надо также отметить, что выводы, сделанные в корреляционном
анализе по выборке, могут распространяться на популяцию только в случае
естественной выборки.
Коэффициент корреляции Пирсона ( r ) измеряет линейную связь между
двумя переменными. Значение коэффициента корреляции, близкое к +1
(положительная корреляция) означает, что как только увеличивается одна
переменная, увеличивается и вторая, и, наоборот, коэффициент корреляции близок
к –1, когда при возрастании одной переменной вторая уменьшается. Для значения
коэффициента корреляции +1 все пары данных лежат на прямой линии с
положительным наклоном, для значения –1, с отрицательным наклоном. Значения
коэффициента корреляции, близкие к 0 показывают небольшую корреляцию между
переменными. Коэффициент корреляции не обнаруживает нелинейные связи, таким
образом, он должен использоваться только вместе с диаграммой рассеяния.
Коэффициент корреляции может значительно меняться в зависимости от
экстремальных значений, диаграмма рассеяния используется, чтобы
идентифицировать такие значения.
Основные свойства:
• r изменяется в интервале от –1 до +1.
• Знак означает, увеличивается ли одна переменная по мере того, как
увеличивается другая (положительная корреляция), или уменьшается ли одна
переменная по мере того, как увеличивается другая (отрицательная корреляция)
• Величина r указывает, как близко расположены точки к прямой линии. Если
r 0 , то линейной корреляции нет (хотя может быть нелинейное соотношение). Чем
ближе r к крайним значеням (±1), тем больше степень линейной связи.
• Квадрат коэффициента корреляции интерпретируется как доля вариации
одной переменной, которая объясняется другой переменной. Если r 0,3 , то
r 2 0,09 , что значит, что только 9% вариации одной переменной может быть
объяснено изменениями второй переменной.
Важное свойство коэффициента корреляции состоит в том, что он не
подвержен влиянию в изменении расположения данных1, и также не подвержен
изменению масштаба данных2. Таким образом, линейные преобразования (сдвиг и
масштабирование) переменных не затрагивают значения коэффициента
корреляции. Корреляция отражает степень, с которой две переменные линейно
зависимы, и степень линейности не зависит от изменений местоположения или
масштаба. Например, если бы одна из переменных температура, измеренная в
градусах Цельсия, то корреляция не должна измениться, если градусы Цельсия были
преобразованы в градусы Фаренгейта.
Таким образом, по коэффициенту корреляции Пирсона можно оценить
линейную связь, по квадрату коэффициента – долю изменчивости одной
переменной, которая обусловлена другой переменной. Не забывайте проверить
гипотезу о том, что коэффициент корреляции r отличен от нуля. Также могут быть
построены доверительные интервалы. Если интервал содержит значение 0, то
коэффициент статистически незначим, его значение может быть как
1
Операция сдвига: добавление или вычитание константы от всех измерений по одной или двум
переменным. Эта операция не изменит значения коэффициента корреляции.
2
Операция масштабирования: умножение или деление на константу для всех измерений по одной или
двум переменным. Эта операция не изменит значения коэффициента корреляции.
84
положительным, так и отрицательным, а, следовательно, мы не можем сказать,
убывает или возрастает одна переменная при убывании или возрастании другой
переменной.
85
10.2.4. Коэффициенты сопряженности
2 x 21
…
c
i x i1 x ij x ic mi x ij
j 1
r xr 1 x rj x rc
r r r c
n1 xi 1 … n j x ij … N mi n j
i 1 i 1 i 1 j 1
χ 2
r c x ij xˆ ij
2
mi n j
, где xˆ ij – оценки ожидаемых частот1.
i 1 j 1 xˆ ij N
1
80% оценок ожидаемых частот в таблице должны быть больше 5. Если это не так, то в таких таблицах
нужно сокращать размерность путем объединения строк или столбцов (не нарушая биологического или
медицинского смысла, стоящего за трактовкой объединенного столбца/строки).
86
Эта статистика асимптотически следует распределению χ 2 с r 1 c 1
степенями свободы. Если значение рассчитанной статистики χ 2 превышает
χ 21α ,r 1 c 1 , то коэффициенты значимы на уровне α .
Для коэффициентов сопряженности некоторые статистические пакеты
рассчитывают также и доверительные интервалы. Если нижняя граница
доверительного интервала равна 0, то нет оснований говорить о сопряженности
(взаимном изменении) двух переменных.
87
10.2.6. Тест Фишера-Фримана-Халтона
k ni
x xi
2
ij
i 1 j 1
R2 1 k ni
,
x x
2
ij
i 1 j 1
88
качественному биноминальному признаку. В этом случае используется
коэффициент точечно-бисериальной корреляции, который интерпретируется
аналогично коэффициенту корреляции Пирсона r в случае, когда исследуется
ассоциация биноминальной и нормально распределенной переменных, или
аналогично коэффициенту ранговой корреляции Кендалла в случае
иссдледования ассоциации биноминальной и порядковой переменных.
Точечно-бисериальная корреляция в медико-биологических исследованиях
используется редко, для оценки взаимосвязи биноминальной и количественной
переменной чаще используется анализ двух групп. Биноминальная переменная
делит значения количественной переменной на две группы и далее могут быть
использованы: тест Стьюдента, тест Уэлча для количественной переменной,
распределенной нормально; тест Манна-Уитни для количественных переменных, не
подчиняющихся закону нормального распределения.
89
корреляция 1 как Тау Кендалла
Все эти меры интерпретируются в сравнении с нулевым значением, которое
означает отсутствие ассоциации или взаимосвязи. Т.е. размер эффекта есть
точечная и интервальная оценка этих мер.
Ниже в таблице систематизировано, когда возможно употребление тех или
иных мер взаимосвязи, ассоциации, сопряженности. Это не означает, что применять
надо все и сразу, можно быстро проверить некоторые свои предположения,
используя приведенные оценки и их значимость.
После того, как вы определили все взаимосвязи между своими переменными,
можно составить вспомогательную таблицу исследования, в которой определяется,
как независимые переменные связаны с зависимой переменной и между собой.
Безусловно, если в исследовании около 10 переменных, то это будет достаточно
большая таблица. В этом случае для начала сделайте таблицу взаимосвязи
зависимой переменной (исхода) и остальных переменных. Желательно также
построить диаграммы рассеяния (зависимая и независимые переменные).
Определитесь, какие переменные никак не проявили себя по отношению к
зависимой переменной (отклику), и почему вы их включили в исследование.
Возможно, это переменные, по которым вы хотели провести стратификацию, или
переменные, которые как-то связаны с независимыми переменными. Их все равно
нельзя исключать из таблицы данных, пока он полностью не проведен.
Если вы поняли, что ваши переменные каким-то образом связаны между
собой, то далее можно проводить более глубокий анализ этой связи. В нескольких
дальнейших разделах будут рассмотрены основы более детального анализа данных.
Таблица 10–3. Анализ взаимосвязи двух переменных
Анализ взаимосвязи двух переменных
Переменная 1
Переменная 2 Биноминальная Мульти- Мультиноминальна Измерения на Измерения на
номинальная я (упорядоченные количественных количественных
(неупорядоченны категории) шкалах (не шкалах
е категории) распределены (нормальное
нормально) распределение)
Биноминальная Коэффициенты Коэффициенты Коэффициенты Сравнение двух Сравнение двух
сопряженности сопряженности сопряженности групп групп
непараметрическ параметрическими
Точный тест Goodman-Kruskal Тау Кендалла ими тестами тестами
Фишера Tau
Точный тест
Точный тест Фишера-Фримена- Непараметри- Точечно-
Фишера- Халтона ческий аналог бисериальная
Фримена- ANOVA корреляция
Халтона
Точечно-
бисериальная
корреляция
90
Tau ANOVA
Точный тест Коэффициент
Точный тест Точный тест Фишера-Фримена- детерминации
Фишера- Фишера- Халтона
Фримена- Фримена-
Халтона Халтона
Точечно-
бисериальная
корреляция
Основные аспекты
Если связи нет, то чуда не произойдет. Если, к примеру, у вас нет значимого
коэффициента корреляции между двумя переменными, то и простая линейная
регрессия не найдет зависимости между ними. Если точный тест Фишера не выявил
значимой связи признаков, то и отношение шансов также будет незначимо. Поэтому
такой быстрый анализ с помощью вышеописанных мер ассоциации, сопряженности
может уберечь вас от лишних и бесполезных дальнейших шагов в попытке доказать
то, что на ваших данных доказать невозможно.
Если тест показал, что уровень значимости связи p 0,2 , то возможно, что в
мультивариантном анализе при учете вмешивающихся переменных (конфаундеров)
уровень значимости будет меньше. Влияние конфаундеров и способы учета этого
влияния будут рассмотрены в разделе 16.1
Также необходимо обращать внимание на диаграмму рассеяния. Возможно,
связь нелинейна, и позже понадобится преобразование переменных.
1
Никто не мешает проверить поведение переменной а мультвариантном анализе и при бóльших зачениях
р. Но начните с тех, которые себя как-то проявили в бивариантном анализе.
91
11. Бивариантый анализ: биноминальная и биноминальная
переменные
Одна из распространенных задач медико-биологических исследований –
выявить факторы, влияющие на бинарный исход. Биноминальная зависимая
переменная предполагает, что исход описывается двумя состояниями, и вся выборка
данных делится на две группы согласно исходу. Как правило, общая задача
формулируется следующим образом – определить параметры независимой
переменной, ассоциированной с группами различного исхода. Это не означает, что
дизайн исследования только “случай-контроль”. Дизайн может быть любым.
Другая медико-биологическая задача – сравнить описания двух групп,
например, контрольной и экспериментальной, или мужчин и женщин в
исследовании и т.п. В данном случае биноминальная переменная не является
исходом, а скорее предпосылкой для различий в данных, однако для
статистического анализа используются те же методы.
Статистическая задача – сравнить две независимые группы.
В этом разделе будет рассмотрен более подробный анализ двух
биноминальных переменных. Если исходно эти переменные представлялись, как два
столбца данных исследования, заполненных нулями и единицами, то необходимо
перейти к таблицам 2 2 . В каждой ячейке таблицы содержится количество
наблюдений, соответствующих 4 состояниям, которые порождаются двумя
биноминальными переменными. Из четырех чисел этой таблицы можно получить
много различной информации. Таблица в общем виде выглядит следующим образом
(табл.11–1):
Таблица 11–1. Представление таблицы 2 2
Переменная 1
Да Нет
Да A B A+B
Переменная 2
Нет C D C+D
A+C B+D N
Трактовка обозначений A, B, C, D зависит от конкретной ситуации анализа.
Основные медико-биологические задачи:
– определение чувствительности и специфичности диагностического или
прогностического теста;
– оценка мер риска при изучении факторов риска;
– оценка эффективности лечения.
92
Таблица 11–2. Представление данных для анализа для бинарного диагностического теста
Фактор (Диагностический тест)
Да Нет
Да Истинно- Ложно- A+B
положительный отрицательный
результат результат
Состояние A B
(Болезнь) Нет Ложно- Истинно- C+D
положительный отрицательный
результат результат
C D
A+C B+D N
Истинно-отрицательный
Специфичность = D/(С + D)
Ложно-положительный + Истинно-отрицательный
Ложно-положительный
Доля ложно-позитивных = С/(С + D)
Ложно-положительный + Истинно-отрицательный
Ложно-отрицательный
Доля ложно-негативных = В/(A + В)
Истинно-положительный + Ложно-отрицательный
93
где z – значение -квантиля нормального распределения, γ 1 α для
2
двустороннего интервала, т.е. для α 0,05 γ 0,975 .
Специфичность (specificity) – определяется, как способность корректно
идентифицировать пациентов, которые не имеют специфического заболевания или
состояния (исхода):
Sp D C D ;
Нижняя граница 1 α доверительного интервала:
2C D Sp z γ2 z γ z γ2 4C D Sp1 Sp
Sp L ;
2 C D z γ2
верхняя граница 1 доверительного интервала:
2C D Sp z γ2 z γ z γ2 4C D Sp 1 Sp
SpU .
2 C D z γ2
Чувствительность показывает степень, с которой отрицательные результаты
исследования позволяют отвергнуть то или иное заболевание. Специфичность же
показывает, насколько можно доверять диагнозу того или иного заболевания,
установленному на основе данного показателя. Высокая чувствительность и низкая
специфичность означают, что следует придавать больше значения отрицательным
результатам (отсутствию заболевания). При низкой чувствительности и высокой
специфичности, ценны положительные результаты (распознавание заболевания).
Прогностическая ценность зависит не только от чувствительности и
специфичности, но и определяется распространенностью заболевания (истинного
состояния) в исследуемой популяции.
Если распространенность заболевания в популяции низкая, то и
прогностическая ценность положительного результата (positive prediction value,
PPV) стремится к нулю. И, наоборот, если распространенность заболевания в
популяции высокая, то прогностическая ценность отрицательного результата
(negative prediction value, NPV) стремится к нулю.
Интерпретация оценки прогностической ценности положительного
результата (PPV): вероятность наличия заболевания среди тех, кто имеет
положительный результат теста.
Интерпретация оценки прогностической ценности отрицательного
результата (NPV): вероятность отсутствия заболевания среди тех, кто имеет
отрицательный результат теста.
Чувствительность и специфичность используются в ROC-анализе (см. раздел
12). При мультивариантном анализе (использовании логистической регрессии, см.
раздел 17) и построении модели прогноза в качестве фактора может использоваться
комбинация переменных. Для таких моделей тоже может быть рассчитана
чувствительность, специфичность, PPV, NPV и другие характеристики.
94
Факторы, которые увеличивают возникновение, распространение,
заболеваемость или смертность называются факторами риска.
Фактор изначально может быть не бинарной переменной, однако часто
существует граница (уровень) до которой фактор считается безопасным (например,
вес пациента – избыточный или нет). Тогда такую переменную кодируют как
бинарную (нет/ да, т.е. ниже критичного уровня и выше критичного уровня).
Исходом также может быть изначально не бинарная переменная. Исход может
оцениваться некоторой количественной переменной (например, давление), но опять
же можно задать границу, которая является безопасным уровнем.
Переход от количественной шкалы к бинарной – это распространенный
прием, которым часто пользуются, когда количественная переменная не имеет
закона нормального распределения, или не было возможности фиксировать точные
значения этой переменной, а также во многих других случаях. Это не значит, что им
нужно пользоваться всегда, должно быть некоторое обоснование, потому что, так
называемое понижение шкалы снижает информативность, которую в себе несет
количественная переменная. Но, тем не менее, и этот подход помогает определить
некоторые характеристики исследования.
Как видно, факторы и исходы являются разными по медицинскому описанию,
однако их анализ проводится одними и теми же методами – анализ таблиц 2 2 .
Для расчета мер риска используются оценки, которые приведены в таблице
ниже. В табл.11–4 приведены международные обозначения, которые часто
встречаются в медицинской литературе:
Таблица 11–4. Расчетные характеристики для бинарного фактора риска
Experimental group/ E Control group/С
Группа под воздействием Группа без воздействия
фактора фактора
95
Относительный риск RR рассчитывается только для естественной выборки.
Целевую выборку характеризуют через отношение шансов OR .
Все характеристики определяют размер соответсвующего эффекта, исхоля
из данных может быть расчитана точечная и интервальная оценки
соответствующего эффекта ( характеристики).
Если речь идет о состоянии, которое является неблагоприятным
(заболевание, инвалидность, смерть и т.п.), и воздействие фактора – может быть
некоторым лечением, которое снижает относительный риск. В этом случае речь
идет о снижении абсолютного риска, относительного риска.
Если речь идет о неблагоприятном факторе, который вероятно увеличивает
неблагоприятный исход, то речь идет о повышении абсолютного риска,
относительного риска.
NNT – число нуждающихся в лечении, мера для оценки эффективности
лечения, сколько пациентов нужно лечить, чтобы предотвратить один плохой исход
по сравнению с контрольным лечением. Чем выше NNT, тем менее эффективно
лечение.
NNH – число индивидуумов, которых нужно подвергнуть воздействию
фактора риска, чтобы ровно у одного случился плохой исход. Чем меньше NNH, тем
опаснее фактор риска.
NNT обычно относится к терапевтическому эффекту, NNH – определяет
эффект от фактора риска.
Доверительные интервалы для отношения шансов и относительного риска
определяются через логарифмы среднеквадратичных отклонений.
Среднеквадратичное отклонение логарифма относительного риска:
1 1 1 1
slnRR
EE CE EE EN CE CN
Доверительный интервал для относительного риска:
Нижняя граница 1 α доверительного интервала для относительного риска
RRL exp lnRR z γ s lnRR
Верхняя граница 1 доверительного интервала для относительного риска
RRU exp lnRR z γ s lnRR , где z γ – значение -квантиля нормального
распределения, γ 1 αдля двустороннего интервала, т.е. для α 0,05 γ 0,975.
2
Если доверительный интервал для относительного риска содержит значения
как больше, так и меньше 1, то нет убедительных доказательств того, что
относительный риск возрастает или убывает. Если доверительный интервал
расположен правее единицы (нижняя граница больше единицы), то на уровне
значимости α принимается гипотеза о том, что риск наступления некоторого
состояния возрастает при наличии фактора. Если доверительный интервал
расположен левее единицы (верхняя граница меньше единицы), то на уровне
значимости α принимается гипотеза о том, что риск наступления некоторого
состояния снижается при наличии фактора.
Среднеквадратичное отклонение логарифма отношения шансов:
1 1 1 1
slnOR
EE CE EN CN
Доверительный интервал для отношения шансов:
96
Нижняя граница 1 α доверительного интервала для отношения шансов
OR L exp lnOR z γ s lnOR ;
Верхняя граница 1 доверительного интервала для отношения шансов
ORU exp lnOR z γ s lnOR ,
97
Как видно, для расчетов используются одни и те же формулы, одна и та же
математика, однако интерпретация полученных характеристик может быть разной
в зависимости от цели исследования.
В Приложении R-6 содержатся исходные данные двух примеров и R-скрипты
для расчетов пропорций, отношения шансов, относительных рисков и их
доверительных интервалов.
EE
тогда 1 – пропорция положительных исходов в группе 1.
EE EN
CE
2 пропорция положительных исходов в группе 2.
CE CN
Нулевая гипотеза формулируется как H 0 : 1 2 . Альтернативная гипотеза
либо как H A : 1 2 , либо H A : 1 2 , либо H A : 1 2 .
EE CN
Отношение шансов группы 1 по отношению к группе 2 OR .
CE EN
CE EN
Отношение шансов группы 2 по отношению к группе 1 OR .
EE CN
Разность в пропорциях: δ π1 – π2 .
π1
Отношение пропорций .
π2
Основные направления статистического исследования таких таблиц – это
равенство исходов, различия частоты исходов в группах, как по разности, так и по
отношению, доверительные интервалы для пропорций и отношения шансов. В
рандомизированных клинических испытаниях оценка относительного риска не
производится.
Доверительный интервал для разности в пропорциях ( δ π 1 – π 2 )
рассчитывается приближенно1:
1
Представленная формула не единственная для расчета доверительных интервалов в пропоциях.
Существуют и другие.
98
π 1 1 – π 1 π 2 1 – π 2
δ L δ – zγ ;
n1 n2
π 1 1 – π 1 π 2 1 – π 2
δ U δ zγ .
n1 n2
Разность в пропорциях и соответствующий доверительный интервал
определяют размер эффекта в результате лечения.
1
http://www.ncbi.nlm.nih.gov/pubmed/11560553
99
p <
p =
p >
Контроль 0 Исследование
Превосходство отсутствует
Превосходство отсутствует
Контроль
0 0 Исследование
100
Приемлемо
Приемлемо
Неприемлемо
Эквивалентно
Неэквивалентно
Эквивалентно
Неэквивалентно
102
Поскольку распределение χ 2 с одной степенью свободы – это квадрат
нормального распределения, то тест пропорций и χ 2 -тест Пирсона покажут
одинаковые результаты.
Доверительный интервал для разности двух пропорций
Пусть оценка разности в пропорциях оценивается как δ πˆ 1 πˆ 2 .
Тогда доверительные интервалы для оценки разности рассчитаются как:
πˆ 1 1 –πˆ 1 πˆ 2 1 –πˆ 2
δ L δ – zγ
n1 n2
πˆ 1 1 – πˆ 1 πˆ 2 1 – πˆ 2
δ U δ zγ ,
n1 n2
где n1 и n2 – размеры выборок, по которым оценивались пропорции πˆ 1 и πˆ 2 ,
zγ – значение -квантиля стандартного нормального распределения, для
двустороннего интервала γ 1 α , α – уровень значимости.
2
Пример
Клинические исследования двух препаратов.
Условные данные приведены в Табл. 11–7.
Таблица 11–7. Данные примера
Есть результат 4 10 14
Нет результата 8 2 10
Всего: 12 12 24
Результаты расчета:
πˆ 1 0,33 ;
πˆ 2 0,83;
δ πˆ 2 – πˆ 1 0,5 ;
Нулевая гипотеза: вероятности исходов равны H 0 :π 1 π 2 . Альтернативная
H A :π 1 π 2 . Точный двусторонний критерий Фишера дает уровень значимости 0,015.
Нулевая гипотеза о равенстве вероятностей отклоняется.
Расчет доверительного интервала для разности двух пропорций:
0,83 0,17 0,33 0,67
δ L 0,5 1,96 0,5 0,34 0,16 ;
12 12
δ U 0,5 0,34 0,84 .
Как видно, точечная оценка разности больше нуля, доверительный интервал
не включает 0, поэтому можно утверждать, что пропорции различаются на уровне
значимости α 0,05 ; 33% пациентов в группе А ответили на лечение в сравнении с
83% пациентов в группе В (Точный критерий Фишера p=0,015). Размер эффекта
составил 50%, 95% доверительный интервал 16%–84%.
103
Вывод: Препарат В повышает вероятность благоприятного исхода у
исследуемой группы на 50% (95% доверительный интервал 16%–84%) в сравнении
с препаратом А по результатам лечения в группах пациентов на уровне значимости
α 0,05 .
Теперь рассмотрим отношение шансов. OR 10 , 95% доверительный
интервал (1,44; 69,26). Доверительный интервал не включает в себя значение
единица (1), это свидетельствует о том, что препарат В превосходит препарат А по
эффективности исходов. Размер эффекта препрарата В в данном случае в 10 (1,44;
69,26) раз выше в сравнении с препраратом А.
Вывод: 33% пациентов в группе А ответили на лечение в сравнении с 83%
пациентов в группе В. Шансы ответа на лечение в группе В в 10 раз (95%
доверительный интервал (1,44; 69,26)) выше по отношению к шансам группы А.
В Приложении R-7 содержатся R-скрипты для расчетов данного примера:
разности пропорций, отношения шансов, и их доверительных интервалов.
Основные аспекты
Количественную переменную можно представлять как биноминальную
переменную, однако это снижает информативность вашего исследования.
В зависимости от цели исследования нужно понимать, что именно
исследуется: неблагоприятный исход; эффект лечения; фактор риска или фактор,
снижающий риск, поскольку тестом (Фишера, Пирсона) можно определить только
наличие взаимосвязи, а статистическая оценка размера эффекта для бинарных
исходов в двух группах более детально изучается с помощью разности в пропорциях,
отношений шансов, доверительных интервалов.
104
12. Бивариантый анализ: биноминальная и количественная
переменные
Биноминальная переменная разбивает количественную переменную на две
группы. По взаиморасположению графиков частот или гистограмм можно визуально
отобразить расположение двух групп. На рис. 12–1 представлены различные
варианты расположения распределений количественной переменной в двух
группах.
Группа 1 Группа 2
Группа 1 Группа 2
105
Группа 1 Группа 2
Группа 2:Доверительный
интервал для среднего
Группа 1: Доверительный
интервал для среднего
Группа 1 Группа 2
Доверительный интервал
для среднего
г) Нет разделения.
Рис.12–1. Варианты расположения двух выборочных распределений
106
Существует множество тестов, которые проверяют взаиморасположение двух
выборочных распределений.
Нулевая гипотеза утверждает, что два распределения одинаковы. Выбор
критерия зависит от типа альтернативной гипотезы. Тестируется или положение
распределения (среднее, медиана), или рассеяние (масштаб). В таблице ниже
приведена классификация тестов по тестируемым параметрам.
Параметрические тесты основываются на знании закона распределения,
оперируя с параметрами такого распределения. Предположение о законе
распределения должно быть проверено перед применением таких тестов (проверка
предположения, лежащего в основе теста о том, что данные подчиняются закону
нормального распределения, для каждой из групп). В непараметрических тестах
знания закона распределения не требуется, но такие тесты являются менее
мощными. Самый частый прием при вычислении непараметрических статистик –
это присвоение рангов числовому ряду.
В линейных ранговых тестах исходные значения измерений заменяются на
некоторые ранги, которые имеют тот же порядок (в смысле возрастания и
убывания), что и исходные данные. Ранговые тесты различаются по способу
построения такой порядковой шкалы.
Основные тесты двух групп приведены в Табл. 12–1.
Таблица 12–1. Тесты количественной переменной для двух групп
Тестируемые параметры Статистический критерий
Положение (location tests) Непараметрические тесты
Wilcoxon-Mann-Whitney Test
Siegel-Tukey Test
Mood Test
Ansari-Bradley Test
Klotz Test
Conover Test
Параметрические тесты
Fisher F-test
1
Часто можно найти название теста – критерий Зигеля-Тьюки. Sidney Siegel был американским психологом.
Правильное прочтение оставляю за читателями.
108
Тест Уэлча (Walсh test, Satterthwaite’s test)
Тест Уэлча (критиерий Велча, Крамера-Уэлча, Саттерзвайта) предназначен
для проверки нулевой гипотезы о равенстве средних значений двух нормальных
выборочных совокупностей в случае неравных неизвестных дисперсий.
109
Таблица 12–3. Шаг расчета характеристической кривой
Фактор (Диагностический тест)
Пороговое значение xi
Да Количество “да”в Количество “да”в таблице n Ai Bi
таблице при условии, что при условии, что
(постоянно, равно
количественная количественная
количеству случаев
переменная меньше или переменная больше
группы с откликом
равна пороговому порогового значения
бинарной
значению
переменной “да”)
Состояние Ai Bi
(Болезнь)
Нет Количество “нет”в Количество “нет”в таблице m C i Di
таблице при условии, что при условии, что
(постоянно, равно
количественная количественная
количеству случаев
переменная меньше или переменная больше
группы с откликом
равна пороговому порогового значения
бинарной
значению
переменной “нет”)
Ci Di
Ai C i Bi Di N nm
110
1.0
0.8
4.150 (0.714, 0.800)
0.6
Sensitivity
AUC: 0.771 (0.483–1.000)
0.4
0.2
0.0
Площадь под кривой (area under curve – AUC) – это мера прогностичности
количественной переменной, иногда называется индекс конкордации (concordance
index). В контексте конкретного исследования – это может быть качество
диагностического или прогностического фактора. AUC считают в долях, 1 –
максимально возможное значение, 0,5 – совершенно неинформативный фактор.
1 n1
AUC Sni Sni 1 Spi Spi 1 .
2 i 1
Рассчитывается стандартная ошибка
AUC 2 AUC
AUC 1 AUC n 1 AUC 2 m 1 AUC 2
SE AUC 2 AUC 1 AUC .
n m
Доверительный интервал рассчитывается как:
AUC L AUC z γ SE AUC ;
AUCU AUC z γ SE AUC ,
0,9
0,8
чувствительность
0,7
0,6
Тест A
0,5
Тест B
0,4
0,3
0,2
0,1
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
1-специфичность
– 1 2 +
– +
112
Точка 2 характеризуется:
меньшей чувствительностью;
большей долей ложно-негативных результатов;
большей специфичностью.
Чаще всего выбирают такую точку разбиения x i количественной переменной,
у которой сумма Spi Sni максимальна.
Интерпретация оценок чувстительности и спцифичности см. п.11.1.1.
В Приложении R-8 содержатся R-скрипты для расчетов данного примера,
построения графика, выбора точки разбиения.
113
Если нет доказательств, что группы могут разделяться, то и проводить ROC-
анализ не имеет смысла.
114
13. Бивариантный анализ: биноминальная и мультиноминальная
переменные (таблицы 2 c )
Исходные данные представляются таблицей 2 c (Табл.13–1).
Мультиноминальная переменная может быть упорядоченной и неупорядоченной.
Таблица 13–1. Представление данных таблицей 2 c
Фактор
Категория Категория … Категория … Категория
1 2 j с
Да x11 x 12 x1 j x 1c m1
Состояние
Нет x 21 x 22 x2 j x 2c m2
n1 n2 nj nc N
π1 π2 πj πc
1
Обзор и анализ поправок для множественных сравнений см. в книге Dmitrienko et al (2005).
115
Анализ упорядоченных биноминальных выборок
В случае упорядоченной мультиноминальной зависимой переменной мы
можем сначала воспользоваться χ 2 -тестом Пирсона (точным тестом Фишера-
Фримена-Халтона) для выявления неоднородности таблицы 2 c (с теми же
оговорками, которые были приведены выше для неупорядоченных категорий, о
пустых ячейках и ожидаемых частотах), затем проверить наличие тренда в
пропорциях, ответить на вопрос увеличивается (уменьшается) пропорция при
возрастании/убывании категориальной переменной. Иначе говоря, проверить
гипотезу о том, что c независимых выборок имеют одинаковую пропорцию против
гипотезы о том, что существует тренд в пропорциях.
Для проверки гипотезы о тренде используется тесты трендов (trend test).
Типичное биомедицинское применение – связь дозы-отклика в клинических
испытаниях или в исследованиях случай-контроль. Также в качестве упорядоченной
мультиноминальной переменной может выступать степень тяжести заболевания
или группа риска. Исследуемый бинарный фактор в этом случае не должен
принимать участия в определении степени тяжести или группы риска.
В тестах выдвигается нулевая гипотеза о равенстве пропорций против
гипотезы о тренде в пропорциях. Один из тестов приведен ниже, чтобы понять
основы расчета таких тестов.
Шаг 1. Таблица (см. табл.13–2) дополняется весами для каждой категории
w j , j 1, , c . Для линейного тренда веса определяются как w j j 1, j 1, , c , для
квадратичного тренда w j j 1 , j 1, , c и т.д. Тренд может быть нелинейным и
2
Пример весов
для
02 12 j 12 c 12
квадратичного
тренда
116
2
c m1n j 1
N N 1 w j x 1 j
2
j 1 N 2
Шаг 2. Рассчитывается статистика χ 2 .
c c
2
m1m2 N n j w 2j w j n j
j 1
j 1
1
Поправка на непрерывность в формуле используется, если веса берутся с
2
1
одинаковым шагом (для линейного тренда), иначе вместо используется 0.
2
m1n j
Ремарка: Выражение x 1 j – это разность между наблюдаемой и ожидаемой частотой. Часто
N
используется в критериях для анализа категорий.
117
(baseline), относительно нее считаются отношения шансов в остальных категориях.
Мы получаем ряд случайных величин и их стандартные ошибки. Они также могут
быть исследованы с помощью регрессии (обычно используются логарифмы
отношения шансов). Нужно заметить, что для построения регрессии нам надо иметь
хотя бы 5–8 категорий для получения статистически устойчивых утверждений. Если
категорий 2–3, то не имеет смысла обращаться к более сложному виду анализа.
Основные аспекты
Если таблица сопряженности имеет размерность 2 c , то ее можно
трактовать, как ряд пропорций, определяемый соответствующей категорией.
Пропорции можно анализировать, как биноминальные переменные (находить
оценки и доверительные интервалы).
Если категории упорядочены, то можно предположить, что есть тренд в
пропорциях и подробно исследовать его.
Выбор теста диктуется не медико-биологической сутью переменных, а
свойствами шкал измерений, распределений, лежащих в основе переменных
исследования.
118
14. Бивариантый анализ: мультиноминальная и
мультиноминальная переменные (таблицы r c )
1 x11 x 12 x1 j x 1c c
m1 x1 j
j 1
2 x 21
…
i x i1 x ij x ic c
mi x ij
j 1
…
r xr 1 x rj x rc
r … r … r c
n1 xi 1 n j x ij N mi n j
i 1 i 1 i 1 j 1
χ
2
r c x ij xˆ ij
2
119
Если значение рассчитанной статистики χ2 превышает χ 21α ,r 1c 1
χ 2
χ 21α ,r 1c 1 , где χ 21α ,r 1c 1 – 1 α квантиль χ 2 -распределения с
r 1 c 1 степенями свободы, то в таблице есть сопряженные категории.
Шаг 4. Для каждой из ячеек таблицы рассчитывается стандартизированные
x ij xˆ ij
отклонения (Standardized deviates) как Devij .
m n
xˆ ij 1 i 1
j
N N
Стандартизированные остатки подчиняются закону нормального
распределения Dev ~ NID(0;1) , поэтому Dev ij 2,0 указывают на значительное,
Devij 2,6 на очень значительное и Devij 3,3 на сверхзначительное отклонение
(Agresti (2002)).
Если одна из мультиноминальных переменных упорядочена, то таблица r c
называется одноупорядоченной таблицей. Для ее исследования используются
непараметрический аналог ANOVA (тест Краскела-Уоллиса).
Если упорядочены обе мультиноминальные переменные, то таблица r c
называется дважды упорядоченной таблицей. Для таких таблиц мы можем
использовать тест линейно-линейной ассоциации (Linear-by-linear Association Test),
тест Джонкира-Терпста (Jonckheere-Terpstra Test). Но поиск связи и ассоциаций в
таких таблицах тем не менее надо начинать с проверки наличия некой
сопряженности, связи, ассоциации, как описано в разделе 9. Переход к детальному
изучению таких таблиц возможен только после выявления статистически значимых
ассоциаций (коэффициенты сопряженности. Хи-квадрат критерий Пирсона, точный
тест Фишера-Фримена-Халтона, тау Кенделла, тау Гудмена-Краскела). Не выявив
наличия значимой ассоциации, вы можете потратить много времени на поиски того,
чего может и не быть.
Пример представления и анализа данных в таблицах сопряженности
Для описания двух групп (например, группа 1 – это группа женского пола,
группа 2 – группа мужского пола) была составлена таблица форм некоторого
гипотетического заболевания (Табл. 14–2). Расчет ожидаемых частот приведен в
таблице 14–3. Как видно, последние 4 формы заболевания имеют ожидаемые
частоты менее 5. Используем точный тест Фишера-Фримана-Халтона 1.
Таблица 14–2. Данные примера
Формы заболевания Группа 1 Группа 2
n=41(100%) n=56 (100%)
Форма А 6 (14,6) 21 (37,5)
Форма Б 9 (22,0) 12 (21,4)
Форма B 14 (34,1) 10 (17,9)
Форма Г 3 (7,3) 3 (5,4)
Форма Д 1 (2,4) 5 (8,9)
Форма E 3 (7,3) 0 (0)
Форма Ж 5 (12,2) 5(8,9)
1
Все расчеты данного примера проводились с помощью статистического пакета R (R Foundation for
Statistical Computing, Vienna, Austria; http://www.r-project.org/; Accessed August 1, 2011).
120
Таблица 14–3. Расчетные данные ожидаемых частот
Формы заболевания Группа 1 Группа 2
Форма А 11,41 15,59
Форма Б 8,88 12,12
Форма B 10,14 13,86
Форма Г 2,54 3,46
Форма Д 2,54 3,46
Форма E 1,27 1,73
Форма Ж 4,23 5,77
121
исследовании нас интересует только форма А (как отличающаяся от всех других
форм), мы можем говорить о различиях между мужчинами и женщинами по данной
форме заболевания.
Следующий вариант рассуждений: оценить, достаточен ли размер групп для
принятия решения1.
Поскольку расчеты размера выборки для таблиц сопряженности достаточно
сложны и выходят за рамки данного пособия, поступим следующим образом: оценим
размер выборки для обнаружения различий в пропорциях по одной из форм
заболевания, где выборочная разность в пропорциях наибольшая (чем меньше это
различие, тем бóльший размер выборки нам понадобится). Из таблицы 14–2
следует, что наибольшая разность в пропорциях у формы А. Используя формулу для
доказательства статистического различия из раздела 4.4 при уровне мощности
исследования 80% и α 0,05 , получим, что размер каждой группы (мужчин и
женщин) должен быть не менее 54:
2
z1α z1β
n 2 p 1 p p 1 p
ε 1 1 2 2
2
1,96 0,84
0,375 1 0,375 0,146 1 0,146 54.
0,375 0,146
.
На имеющихся наблюдениях нам не хватает мощности исследования для
принятия решения даже по форме А заболевания (размер одной из групп меньше
54). Если одновременно устанавливать различия по другим формам, данных
понадобится еще больше.
Поэтому тут только статистические методы ничего не решат. В первую
очередь надо обратиться к дизайну исследования. Это было когортное исследование
или экспериментальное? Насколько доказательство различий необходимо? Нужно
ли увеличивать размер исследований и возможно ли его увеличить? Принципиально
ли для вашего исследования найти более четкие доказательства наличия или
отсутствия различий? Если ли в литературе данные по вопросу разных форм
данного заболевания у мужчин и женщин? Решать это придется исследователю.
В качестве примера приведем наше решение. Но в иной ситуации оно могло
быть иным. Ниже дана таблица (табл.14–6), которая в результате вошла в отчет по
исследованиям и публикации. Наше исследование было когортным, по всем случаям
некоторого заболевания в нашей республике за 2000–2005 гг. Большего количества
данных у нас не было. Основной акцент исследования фокусировался не на
гендерных различиях, однако необходимо было описать характеристики пациентов
когорты. Поэтому мы справочно опубликовали таблицу и указали, что общие
различия между группами мужчин и женщин по формам заболевания находятся на
уровне p 0,063.
Таблица 14–6. Пример представления данных
Формы заболевания мужчины женщины Всего,
n=41(100%) n=56 (100%) n=97 (100%)
Форма А, n(%) 6 (14,6) 21 (37,5) 27 (27,8 )
Форма Б, n(%) 9 (22,0) 12 (21,4) 21 (21,6)
Форма B, n(%) 14 (34,1) 10 (17,9) 24 (24,8)
1
Оценка размера выборки для таблиц сопряженности описана в Chow (2008).
122
Иные формы (редкие формы) , n(%) 12 (29,3) 13 (23,2) 25 (25,8)
Форма Г 3 3 6
Форма Д 1 5 6
Форма E 3 0 3
Форма Ж 5 5 10
I II III
Наличие 54 57 14 125
Отсутствие 14 33 1 48
Всего 68 90 15 173
Пропорция 0,79 0,63 0,93
123
Вывод: локализация опухоли и наличие метастазов взаимосвязаны
(p = 0,0133).
Если исследователя не интересует более детальный анализ, можно
остановиться на таком выводе. Можно продолжить анализ для более детального
изучения нашей таблицы. Для большей наглядности можно воспользоваться
диаграммой ассоциаций (см. Рис. 14-1).
124
Не II II Всего
наличие 68 57 125
отсутствие 15 33 48
Всего 83 90 173
Пропорция π 2 0,82 π 2 0,63
126
15. Бивариантый анализ: мультиноминальная и количественная
переменные – анализ нескольких групп
Если одна из переменных представляет собой категории(группы), а вторая
переменная количественная, то наиболее подходящим анализом является
дисперсионный анализ (ANOVA – analysis of variance).
Для ANOVA необходимо выполнение нескольких предположений.
Наблюдения должны быть независимы. Обязательна проверка на
гомоскедастичность количественной переменной.
Гомоскедасичность (гомогенность) – это однородность дисперсий(рассеяния).
В противоположность этому термину существует термин гетероскедастичность
(гетерогенность) – разнородность дисперсий (рассеяния).
Независимость наблюдений обеспечивается дизайном исследования.
Тест Левена (Levene test), тест Брауна-Форсайта (Brown–Forsythe test), тест
Бартлетта (Barlett test) служат для проверки нулевой гипотезы о равенстве
дисперсий генеральных совокупностей, т.е. проверка на гомогенность дисперсий.
Первые два теста менее чувствительны к нарушению предположения о
нормальности количественной переменной.
127
Межгрупповая вариация k k 1 SS 1
SS 1 ni x i x
2
(различия между группами) MS 1
i 1 k 1
Вариация, обусловленная
эффектом
Внутригрупповая вариация k ni N k SS 2
SS 2 x ij x i MS 2
2
(различия внутри групп)
i 1 j 1
N k
Вариация ошибки
Полная вариация: сумма k ni N 1 SS
SS x ij x MS
2
вариаций SS SS 1 SS 2 N 1
i 1 j 1
n x x
2
N k i i
N k SS 1
F i 1
,
k 1 k ni
k 1 SS 2
x xi
2
ij
i 1 j 1
129
различные группы опухолей, интерес представляют группа T1–2 и Т3. Существует
еще группа Тх – группа, в которой невозможно определить, проросла опухоль или
нет. При сравнении групп T1–2 и Т3 по некоторому признаку можно опустить группу
Тх, но нельзя искусственно разделить Тх еще на некоторые подгруппы, равно как и
объединить ее с любой из групп. В этом случае не используют множественные
сравнения (поскольку фактически имеем 2 группы), но и не изменяют исследуемые
группы.
Следующее замечание: что делать, если мультиноминальная переменная
имеет упорядоченные категории? Можно воспользоваться ANOVA, в любом случае.
Однако, в случае, если мультиноминальная переменная упорядочена, мы
можем найти тренд в таких данных, т.е. определить связано ли возрастание одной
переменной с возрастанием (убыванием) другой переменной. Если количественная
переменная подчиняется закону нормального распределения, то существует класс
моделей регрессионного анализа, который оценивает величину тренда. Для
количественных переменных, не подчиняющихся закону нормального
распределения, можно использовать тест линейно-линейной ассоциации (Linear-by-
linear association test), тест Джонкира-Терпста (Jonckheere-Terpstra test). Однако, как
говорилось в предыдущем разделе, поиск связи и ассоциаций в таких таблицах надо
начинать с проверки наличия некой сопряженности, связи, ассоциации, как описано
в разделе 10, проверки на то, существует ли общее различие в группах,
образованных категориями мультиноминальной переменной.
Основные аспекты
Однородность дисперсий – важное предположение для ANOVA.
Общая вариация может быть разложена на составляющие вариации.
Попарные сравнения нескольких группах требуют специальных тестов и
коррекции уровня значимости на множественность сравнений.
Какие именно данные перед вами и как к ним относится – это ваши
предположения, которые зависит от логики вашего исследования и подтверждены
статистическими тестами.
130
Часть 2
131
Ремарка: В контексте нижеследующего изложения предиктором называется некоторый показатель
исследования, который несет некоторый биологический, клинический, эпидемиологический и др.
смысл для исследователя. Переменная – это часть модели, которая имеет некоторое математическое
описание. Иногда предиктор представляется несколькими переменными в модели, иногда
переменная сама является некоторой функцией от значений предиктора (преобразование
переменной) или нескольких предикторов.
В линейной модели предполагается, что, изменения в одной случайной
переменной приводят к пропорциональным изменениям в другой случайной
переменной, т.е. предполагается, что средние значения y лежат на линии регрессии
(линии средних). Систематический компонент модели:
E y | x 0 1 x ,
Где E y | x – ожидаемое (среднее) значение y при данном x ;
β 1 – уклон линии регрессии, который интерпретируется как изменение в
среднем значении y при изменении переменной x на одну единицу;
β 0 – пересечение, среднее значение y при x 0 .
Случайный компонент модели: предполагается, что переменная y случайна1.
Каждая пара наблюдений x i , yi выборки может быть представлена как:
yi E y | xi i 0 1 xi i , где i – номер наблюдения в выборке,
εi – ошибка.
Функция связи в данном случае – тождественна y : f y y (identity link
function)2.
Статистические предположения, лежащие в основе модели, касаются
распределения случайной величины ε . Предполагается, что i ~ N 0, 2 , т.е., что
ошибка независима, одинаково распределена и
1. Имеет нормальное распределение;
2. Имеет среднее значение 0 для любого значения x ;
3. Имеет постоянную дисперсию 2 для любого значения x ;
4. Значения ошибки статистически независимы.
Первое предположение означает, что модель "устраняет" из значений
переменной y вариацию, связанную с переменной x , а оставшаяся вариация носит
полностью случайный характер, второе предположение важно для проверки того,
что связь между зависимой переменной y и переменной-предиктором x
действительно линейна, третье предположение касается гомоскедастичности
(постоянной вариации y при любых значениях x ), четвертое – связано с
независимостью наблюдений.
132
Позже будет показано, как изменяются модели при нарушении одного из
предположений.
В простой линейной регрессии для переменной y часто выдвигается
предположение о "нормальности" ее распределения1. Для переменной-предиктора x
не делается никаких предположений о виде распределения.
Коэффициенты регрессии носят название общее название параметров
модели; β 1 – уклон (slope), коэффициент при переменной модели; β 0 – пересечение
(intersept), свободный член уравнения регрессии. Обычно о коэффициентах говорят,
как о параметрах модели. Если в линейной модели есть свободный член β 0 , то
количество параметров будет на единицу больше количества переменных. Обычно
количество переменных обозначается p , таким образом, q p 1 – это количество
параметров модели ( с учетом β 0 ).
Линия простой линейной регрессии полностью определяется этими двумя
коэффициентами (параметрами модели) и задача исследователя – найти оценки
параметров βˆ 0 и βˆ1 2. Нахождение этих оценок иначе называется подгонкой модели
(model fittng). Не вдаваясь в подробности математических подходов, можно сказать,
что для линейной модели чаще всего используется оценка (подгонка модели)
методом наименьших квадратов (Least Squares Estimation), метод минимизирует
сумму квадратов отклонений переменной y от линии регрессии.
N
x i x yi y
βˆ1 i 1
N
; βˆ 0 y βˆ1 x .
x x
2
i
i 1
i 1
y );
N N
RSS yi yˆ i yi βˆ 0 βˆ1 x i
2 2
– сумма квадратов остатков (рассеяние
i 1 i 1
переменной y относительно линии регрессии – Residual SS);
N N
MSS yˆ i y βˆ0 βˆ1 x i y
2 2
– сумма квадратов модели (Model SS)
i 1 i 1
(рассеяние оценок переменной y, полученных по уравнению регрессии
относительно среднего y );
MSS TSS RSS .
1
Это теоретический вопрос в области статистических моделей, который дискутируется по сей день.
2
Символ “^” над параметром означает его оценку по имеющемуся набору данных, расчетное значение.
133
Среднеквадратичная ошибка (mean squared error) рассчитывается как
RSS
MSE , где N – количество наблюдений, в общем случае N q – это степени
N q
свободы модели, q – количество параметров модели, обычно q p 1 , в случае
простой регрессии с одной переменной, т.е. с двумя параметрами N q N 2 .
Для исследования связи предиктора x и зависимой переменной y тестируют
нулевую гипотезу, которая гласит, что H0 : β 1 0 , т.е. нет систематической связи
между x и y . Альтернативная гипотеза утверждает, что H A : β 1 0 . Наиболее
подходящим тестом является F-критерий, который показывает, значимо ли
снижается вариация в результате использования модели; для модели с одной
MSS
переменной статистика рассчитывается как F , статистика F подчиняется
MSE
распределению Фишера с 1; N 2 степенями свободы (см. раздел 16.7).
Также для проверки гипотезы используется критерий Вальда (Wald test). Он
βˆ β 1
аналогичен t-тесту: T 1
SE βˆ1
. Поскольку нулевая гипотеза предполагает, что
βˆ1
H0 : β 1 0 , то T
SE βˆ1
. Статистика T подчиняется распределению Стьюдента с
N q N 2 степенями свободы, SE βˆ – стандартная ошибка оценки параметра βˆ ,
1 1
рассчитанная по имеющимся данным.
Доверительные интервалы для параметров рассчитываются как:
ˆ
ˆ ˆ ˆ
β 1 tγ ;N 2 SE β 1 ; SE β 1 MSE N
1 .
2
x i x
i 1
Также рассчитывается доверительный интервал для βˆ 0 :
2
ˆ ˆ ˆ 1 x ;
β 0 t γ ;N 2 SE β 0 ; SE β 0 MSE
N N
x i x 2
i 1
где t γ ;N 2 – значение γ -квантиля распределения Стьюдента с N 2
степенями свободы, γ 1α для двустороннего интервала, т.е. для
2
α 0,05 γ 0,975, для одностороннего интервала γ 1 α ;
Если доверительный интервал не содержит нуля, то истинное значение β1
отлично от нуля с доверительной вероятностью 1 α .
Если βˆ1 значимо больше нуля, то связь между y и x будет положительной,
если βˆ1 значимо меньше нуля – то отрицательной. В общем случае, уровень
значимости р критерия Вальда, и доверительные интервалы важны для понимания
статистических результатов модели, более глубоких, чем ответ на вопрос – значима
ли связь между пердиктором и зависимой переменной или нет.
Доверительный интервал (confidence limits) для точки линии регрессии равен:
134
2
1
yˆ i tγ ;N 2 MSE N i
x x .
N
x i x 2
i 1
На основе формулы для доверительного интервала строится очень
распространенный график взаимосвязи двух переменных с линией регрессии и
доверительным интервалом (см. рис.16–1).
Если мы хотим осуществить предсказание y new для нового значения x new , то:
ynew βˆ0 βˆ1 x new ;
Доверительный интервал для y new (prediction limits):
2
1 x x
βˆ 0
βˆ1 x new tγ ;N 2 MSE 1 N new
N 2
.
x i x
i 1
Рис. 16–1. Линия регрессии и доверительные интервалы для среднего и для предсказанных
значений
135
Коэффициент корреляции Пирсона между y и x (см. раздел 9) связан с β 1 как
r βˆ 1 s x s y , где s x и s y – стандартные отклонения переменной x и y . Таким
образом тестирование гипотезы H 0 : β 1 0 эквивалентно H 0 : ρ 0 , т.е. быстрая
проверка (см. раздел 9) может осуществляться без построения простой линейной
регрессии.
Квадрат коэффициента корреляции для простой линейной регрессии будет
MSS
равен коэффициенту детерминации r 2 R 2 . R 2 интерпретируется как доля
TSS
вариации, которая может быть объяснена предиктором.
R 2 не является мерой качества подгонки модели.
R 2 не является мерой величины уклона.
136
Нулевая гипотеза, которая гласит, что H 0 : β 1 0 , равнозначна гипотезе об
отсутствии различий в средних для двух групп (см. раздел 12).
I2 I3 I4 I5
ν1 0 0 0 0
ν2 1 0 0 0
v3 0 1 0 0
v4 0 0 1 0
v5 0 0 0 1
β 0 β 5 , v v5
Интерпретация коэффициентов β i – это разность в средних переменной y
между референтной категорией (группой) и i -ой категорией. Таким образом,
рассчитываются эффекты остальных групп относительно референтной.
Основные особенности такой модели:
1. Данная модель в отсутствии других предикторов полностью повторяет
однофакторную ANOVA.
2. Выбор референтной группы зависит от исследователя, многие
статистические пакеты выбирают референтную группу автоматически по
наименьшему/наибольшему номеру группы.
3. Разность средних между двумя любыми группами также определяется из
данной модели. Например – разность между средними группы v 4 и v5 определяется
как β 4 β 5 .
137
И для биноминальной переменной-предиктора, и для мультиноминального
предиктора (состоящего из нескольких переменных модели) может использоваться
критерий Вальда для проверки значимости коэффициентов.
Исследуя модель с одним мультиноминальным предиктором, мы получили
модель с несколькими переменными. Нужно заметить, что количество оцениваемых
параметров больше, чем предикторов. Т.е. для изучения количественного
предиктора использовалась модель с двумя параметрами, для изучения бинарного
предиктора – тоже. Мультиноминальный предиктор порождает модель с бóльшим
числом параметров.
138
коэффициенты регрессии βˆ js βˆ j s x j s y , где s x j и s y – выборочные стандартные
отклонения переменной x j и переменной y . Стандартизированные коэффициенты
регрессии интерпретируются как сила связи переменной (предиктора) с зависимой
переменной y в рамках построенной модели. Сравнение силы связи имеет смысл,
когда в модели несколько количественных предикторов.
Однако, для категориальных предикторов лучшей интерпретацией являются
нестандартизированные коэффициенты, которые оценивают разность в средних
переменной y между двумя или несколькими группами, при условии что остальные
переменные модели фиксированы, т.е. разность в средних между группами.
В общем случае, предикторы могут быть представлены либо количественной
переменной, либо биноминальной, мультиноминальная переменная сводится к
набору индикаторных биноминальных переменных.
F -критерий Фишера используется для проверки как общей гипотезы о
значимости модели, H0 : β 1 β 2 0 , так и для проверки частных предположений,
например: H0 : β 2 0 .
Тест Вальда (Wald) может также использоваться для поверки значимости как
каждого параметра модели, так и комбинации переменных в модели. SE βˆ i
рассчитываются сложнее, чем в случае с одной переменной, но расчет
доверительных интервалов для коэффициентов регрессии производится
аналогично модели с одной переменной, с учетом степеней свободы t-
распределения.
139
Вмешивающийся фактор (конфаундер, конфаундинг-фактор, неучтенный
фактор) — переменная, искажающая оценку влияния на зависимую
переменную(эффект, исход) изучаемого фактора из-за того, что эта переменная
одновременно имеет причинную связь с рассматриваемым заболеванием
(состоянием) и статистическую связь с изучаемым фактором. Конфаундер обычно
находится вне интересов исследования, однако его влияние приводит к
возникновению систематической ошибки.
Например, известно, что мужчины чаще, чем женщины, болеют ишемической
болезнью сердца. Однако это может быть связано не с исследуемым фактором (пол),
а с тем, что мужчины чаще курят, больше подвергаются стрессам и пр.
Есть несколько способов удалить влияние конфаундера, т.е. систематическую
ошибку еще на стадии дизайна. Первый – это сравнивать между собой наблюдения,
которые имеют одно и то же значение конфаундера, что ведет к
стратифицированному дизайну исследования, который в свою очередь требует
больших объемов наблюдений. Второй способ – сравнивать только те группы,
которые имеют одинаковые распределения конфаундера. На стадии дизайна это
называется подбор (например, “matched pairs”). Рандомизация – это еще один способ
минимизировать систематическую ошибку в исследованиях.
Включение в регрессионную модель конфаундера позволяет уточнить
влияние исследуемого фактора на исход.
В традиционных статистических приложениях такой анализ называется
ковариационным анализом (analysis of covariance), в клинико-эпидемиологических
исследованиях этот анализ часто называется контролем влияния вмешивающихся
переменных (control of confounding).
Предположим, у нас есть две группы и мы сравниваем средний вес в группах.
Однако, если в группах разный возраст, то наше сравнение будет бессмысленно,
поскольку различия в весе возможна из-за возраста. Необходимо устранить
рассогласование в возрасте прежде, чем сравнивать группы.
В ковариационном анализе присутствуют номинальные переменные и
количественные переменные. Для выполнения ковариационного анализа
выдвигаются два предположения: связь между конфаундером x и переменной y
линейна и уклоны в каждой группе одинаковы. Графически это представлено на рис.
16–3.
Рассмотрим самый простой вариант этого анализа.
Пусть биноминальная переменная обозначена z , она принимает два значения
0 и 1, ковариата (количественная переменная) обозначена как x , зависимая
переменная – как y . Статистическая задача: оценить различия между двумя
группами с учетом различий в распределениях ковариаты в группах. Без учета
конфаундера оценка разности в средних равна yˆ 1 yˆ 0 (рис. 16–3) и совпадает с
разностью в средних по группам y1 y0 .
Пусть среднее по ковариате в группе, которая закодирована как 0 равно x 0 ,
среднее по ковариате в группе с кодом 1 равно x 1 .
140
y
ŷ1
ŷ1
ŷ0
ŷ0
x0 x x1
x
Рис.16–3. Различия в средних двух групп с учетом ковариаты.
141
Раса заболевание;
Измерения состояние пациента в момент измерения;
Географическое положение заболевание и др.
С точки зрения математических основ статистических моделей – какая из
переменных является предиктором, а какая конфаундером, не имеет значения. В
модель включаются компоненты более высокого порядка, которые описывают
взаимодействие между переменными. Интерпретация зависит от проводимого
исследования.
Модель строится следующим образом:
Предположим, у нас два предиктора: x1 и x 2 . В этом случае модель
записывается как:
E y | x β 0 β 1 x 1 β 2 x 2 β 3 x1 x 2 , E y | x – среднее значение y при
определенных значениях x , x – вектор наблюдений, т.е. x1 , x2 . Такая модель носит
также название модели со взаимодействием второго порядка.
Рассмотрим модель с количественной переменной-предиктором и бинарной
переменной-предиктором.
Поскольку очень часто вмешивающимися переменными выступают возраст и
пол, рассмотрим эту модель взаимодействия на примере этих переменных: возраст и
пол.
Пусть x1 age , x2 sex , sex 0 – мужcкой пол (male), sex 1 – женский пол
(female).
Тогда интерпретация коэффициентов следующая:
E y | age 0 & sex male β 0 ;
E y | age x 1 & sex male E y | age x & sex male β 1 ;
E y | age 0 & sex female β 2 ;
E y | age x 1 & sex female E y | age x & sex female
E y | age x 1 & sex male E y | age x & sex male β 3 .
Иными словами, среднее значение y при age 0 и sex male есть β 0 ;
изменение в среднем значении y при увеличении age на 1 и sex male есть β 1 ;
среднее значение y при age 0 и sex female есть β 2 ; при увеличении age на 1
значение y изменилось для мужчин и для женщин, разность между изменениями y
есть β 3 ,т.е., β 3 – это разность в уклонах двух регрессионных уравнений: для
x 2 male и x2 female . На рис. 16–4 приведена геометрическая интерпретация
коэффициентов. Предположение о рандомизации геометрически обозначает, что
ковариата ( age ) имеет одинаковое распределение для уровней x 2 male и
x2 female .
142
y
x2 male β1
β2
β0
β 1 β 3
x2 female
1 x1 age
Рис.16–4. Геометрическая интерпертация модели со взаимодействием переменных
Если существует модель со взаимодействиям второго порядка, нужно
интерпретировать эффекты первого порядка в условиях, которые сводят эффект
взаимодействия к нулю. В нашем случае эффект взаимодействия ( β 3 x1 x 2 ) равен
нулю либо при age 0 , либо при sex male .
Какие гипотезы о параметрах имеет смысл тестировать?
H 0 : β 1 0 – означает, что ассоциируется ли возраст с переменной y для
мужчин.
H 0 : β 2 0 – ассоциируется ли пол с переменной y для возраста 0 лет.
Такие гипотезы не являются подходящими для исследования.
Представим отношения и взаимодействия в табл.16–2:
Таблица 16–2. Гипотезы при подгонке модели со взаимодействием переменных
Варианты гипотез Математическое
утверждение
Эффект пола независим от эффекта возраста H0 : β 3 0
Эффект возраста независим от эффекта пола
Пол и возраст аддитивны (нет эффекта
наложения)
Эффекты возраста для мужчин и женщин
параллельны
Возраст и пол взаимодействует друг с другом HA : β3 0
(совместный эффект)
Возраст модифицирует эффект пола
Пол модифицирует эффект возраста
Возраст не ассоциируется с y H0 : β 1 β 3 0
Возраст ассоциируется с y H A : β 1 0 или β 3 0
Возраст ассоциируется с y или для мужчин или
для женщин
Пол не ассоциируется с y H0 : β 2 β 3 0
Пол ассоциируется с y H A : β 2 0 или β 3 0
Пол ассоциируется с y для некоторых значений
143
возраста
Ни возраст ни пол не ассоциируются с y H0 : β 1 β 2 β 3 0
Или возраст или пол ассоциируются с y H A : β 1 0 или β 2 0
или β 3 0
Последний тест в таблице – тест отсутствия глобальной ассоциации
(отсутствия взаимодействия).
Геометрически отсутствие взаимодействия выглядит как показано на рис. 16–
5. Уклоны линий регрессии одинаковы, разность между ними β 3 0 . В этом случае
мы можем говорить об эффекте пола независимо от возраста, поскольку
регрессионные линии параллельны, находятся на одинаковом расстоянии друг от
друга во всей области изменения переменной x . Эффект возраста присутствует, но
не зависит от пола. Проще говоря, обе линии регрессии параллельно возрастают
(убывают) под одним углом. Модель приводится к модели ковариационного
анализа.
x2 male β1
β 1 β 3 β 1 0
β0
β2 x2 female
1 x1 age
Рис. 16–5. Геометрическая интерпретация модели с отсутствием взаимодействия
Теперь рассмотрим случай, когда оба предиктора бинарные. Предположим
некоторое гипотетическое исследование: экспериментальное лечение, которое
контролирует уровень гемоглобина в крови. Предполагается, что есть некоторая
зависимость между уровнем гемоглобина и давлением; лечение действует как на
гемоглобин, так и на давление.
В качестве бинарного предиктора может быть использована и
количественная переменная, если ее по некоторому принципу представили как
бинарную, например, давление (Presure) норма (0) и выше нормы (1). Второй
предиктор бинарный (Treatment): пациент получал плацебо (0), пациент получал
лечение (1).
E y | x β 0 β 1 Presure β 2 Treatment β 3 Presure Treatment .
Составим таблицу комбинаций бинарных предикторов и соответствующего
вида уравнения регрессии (Табл. 16–3).
Таблица 16–3. Уравнение регрессии при двух бинарных переменных
144
3 0 1 0 β0 β2
4 1 1 1 β0 β1 β2 β3
i 1
N N N
RSS yi yˆ i yi βˆ 0 yi y TSS .
2 2 2
i 1 i 1 i 1
146
Нелинейность, как правило, наиболее заметна, если построить точечный
график наблюдаемых значений в зависимости от предсказанных значений (observed
versus predicted values), а также график остатков в зависимости от предсказанных
значений (residuals versus predicted values). На первом графике точки должны быть
симметрично распределены вокруг диагональной линии, на втором – симметрично
горизонтальной линии. На рис 16–6 изображены графики, которые свидетельствуют
об отсутствии нарушения предположения о линейности.
148
преобразования переменных могут помочь в решении этих проблем. Часто проблема
с остатками связана с одним или двумя очень большими выбросами в данных. Такие
значения нужно внимательно проанализировать: являются ли они подлинными (т.е.
не являются результатом ошибок при вводе данных), объяснимы ли они с медико-
биологической точки зрения, могут ли такие наблюдения произойти в будущем, и
как они влияют на подгонку модели?
Решение принимается после анализа моделей с выбросами и с исключением
выбросов. Возможно, что крайние значения обеспечивают более реалистичную
величину ошибки прогноза, и исключать выбросы из данных будет неправильно.
Рис. 16–8. Изменения линии регрессии при различном расположении влияющих точек
На рис. 16–8 слева показано, что одно и то же значение y при различных
значениях x может влиять и не влиять на оценку коэффициента корреляции
(оценку коэффициента βˆ1 ). Точки данных, которые оказывают чрезмерное влияние
на оценки коэффициентов регрессии называют влияющими точками (influential
points). В первом случае точка, влияющая на изменение оценки коэффициента βˆ1
149
имеет крайние значения как по y , так и по x . Во втором случае точка является
влияющей, но не является выбросом ни по y , так и по x . В третьем случае точка
является выбросом как по регрессионному остатку, так и по переменной y , однако
она не оказывает влияния на βˆ1 . В четвертом – выброс по предиктору x вызвал
изменение в оценке коэффициента βˆ1 , при этом регрессионный остаток у данной
точки не самый большой. Выбросы значений предиктора x , которые потенциально
могут влиять на оценки коэффициентов регрессии называют точками сильного
воздействия (high leverage points).
Выбросы в данных, включенные в модель с относительно большими
значениями остатков могут очень сильно влиять на модель, а именно увеличивать
вариации оценок коэффициентов, что может снижать статистическую значимость
эффектов.
Причины появления выбросов различны:
1. Человеческие ошибки или ошибки приборов измерения. В этом случае надо
попытаться получить правильное значение, если это невозможно, то придется
отказаться от этой точки данных.
2. Неадекватность модели. В этом случае именно наличие выбросов будет
свидетельством неправильных предположений о связи предикторов и зависимой
переменной. Отказ от точки данных, которую посчитали выбросом, может быть
катастрофичным.
3. Если исследуемая выборка значений попала в хвост распределения, которое
считается распределением с тяжелыми хвостами. Это может означать неправильный
или неграмотный дизайн выборки. Также может означать наличие двух или более
различных групп с различной вариацией (дисперсией), которые не учитываются в
дизайне.
Различные статистические пакеты считают диагностики для изучения
остатков, выбросов, влияющих наблюдений. Внимательно читайте руководство
пользователя, чтобы понять, что именно считает тот или иной пакет. Поскольку
большинство пакетов англоязычные, ниже даны распространенные наименования
диагностик на английском языке.
Для выявления влияющих наблюдений используется следующая
диагностика: влияющие значения (Leverage Values/Hat Diag). Для i -го наблюдения
обозначается как hi , рассчитывается на основе значений предикторов набора
наблюдений.
Математическое описание этой диагностики достаточно сложно. Если в
пространстве предикторов (переменная y не участвует) найти центр, то влияние
(leverage) – это расстояние от центра до точки данных, представленной значениями
предикторов. Чем больше расстояние, тем более влияющим может быть
наблюдение. Второе название Hat Diag связано с матричным представлением
предикторов по всем наблюдениям, после определенных преобразований
диагональные элементы полученной матрицы и являются стандартизированными
расстояниями до центра пространства предикторов. Эта диагностика определяет
выбросы в независимых переменных (предикторах) регрессии.
Выбросами считаются наблюдения, для которых значение влияния (leverage)
больше, чем 2q N , где q – количество параметров модели (включая и β 0 ), N –
количество наблюдений.
150
Ремарка: Количество параметров и число предикторов модели не одинаково. Если
мультиноминальный предиктор представлен индикаторными переменными, то каждая
индикаторная переменная имеет свой параметр β , также параметром является β 0 .
Основные характеристики:
ei yi yˆ i – значение остатка i -го наблюдения.
N
e ei 0 – среднее ошибки равно нулю.
i 1
1 N 2
MSE RSS N q ei – вариация ошибки, среднеквадратичная ошибка
N q i 1
(mean squared error). Часто используется термин RMSE MSE (root mean squared
error).
ei
zi – стандартизированный остаток (standard residual), или
MSE
полустьюдентизированный остаток ( semistudentized residuals.) Если опираться на
предположения регрессии, можно ожидать, что zi взято из нормального
распределения NID0,1 .
ei
ri – стьюдентизированный остаток (studentized residuals), и
MSE 1 hi
приближенно следует распределению Стьюдента с N q степенями свободы.
Считается, что остатки распределены нормально. Свойства нормального
распределения (см. раздел 6) позволяют нормализовать (стандартизировать)
остатки и делать заключения об их величине. Напомним, что 95% значений
нормально распределенной величины попадают в интервал 2σ , 99,7% значений
попадают в интервал 3σ . Стьюдентизированный остаток подчиняется
распределению Стьюдента с N q степенями свободы. Следовательно, значение
более 3 для стандартизированного остатка i -го наблюдения для можно
рассматривать как выброс в регрессии. Некоторые источники указывают, что нужно
обращать внимание и на значения больше 2, особенно для малых выборок.
Для более внимательного изучения поведения i -го наблюдения предложено
следующее: удалить это наблюдение из набора, повторить все расчеты и
посмотреть, как изменились все параметры модели. Этот подход называется анализ
удаленных остатков (deleted residual, jackknife residual).
После удаления i -го наблюдения, строят модель (определяют параметры
модели) без этого наблюдения, и рассчитывают предсказанное значение ŷ i на
основе полученной модели, после чего рассчитывают остаток di y i yˆ i .
Также рассчитывается стандартизированный удаленный остаток (standard
deleted residual); стьюдентизированный удаленный остаток (studentized deleted
residuals, R-Student residuals). Аналогично, значения более 2–3 рассматривают как
выбросы регрессии.
Кроме стандартизированных удаленных остатков рассчитывается такая
статистика как DFFITS – мера того, как наблюдение влияет на регрессионную
yˆ i yˆ i
модель. Статистика стандартизирована: DFFITS i , где ŷi – предсказанное
MSE i hi
151
значение y для i -го наблюдения по исследуемой модели, ŷ i – предсказанное
значение y по модели с удаленным i -м наблюдением.
q
Значения более 2 рассматриваются как сильно влияющие.
N
Следующая статистика DFBETAS k ,i – мера того как i -е наблюдение влияет на
определенный k -ый параметр регрессии, рассчитывается для всех параметров.
2
Статистика стандартизирована. Значения более рассматриваются как сильно
N
влияющие. Если таких точек много (более 10–15% от всех данных), то модель
необходимо менять, возможно стратифицировать или учитывать непостоянство
дисперсии (гетероскедастичность). Также такая ситуация может свидетельствовать
о том, что имеется еще какой-то предиктор или конфаундер, который не учтен в
вашей модели.
Расстояние Кука (Cook’s Distance) – мера общего влияния наблюдения как на
коэффициенты регрессии, так и на значения регрессии. Значения расстояния Кука
4
более чем рассматриваются как сильно влияющие на модель регрессии.
N
COVRATIO – мера влияния каждого наблюдения на вариацию и стандартную
3q
ошибку коэффициентов регрессии и их ковариацию. Значения COVRATIO 1
N
рассматриваются как сильно влияющие.
Фактор падения вариации, VIF (Variance Inflation Factor) – мера того, насколько
один предиктор коррелирует с другими предикторами модели. Является
диагностикой мультиколлинеарности предикторов и рассчитывается следующим
образом: строится линейная модель зависимости j -ого предиктора от всех других,
используемых в модели, и рассчитывается коэффициент детерминации полученной
1
модели R j . Фактор падения вариации j -ого предиктора равен VIF j .
1 R 2j
Предполагается, что если бы этот предиктор не коррелировал с другими, значение
стандартной ошибки коэффициента этого предиктора была бы в VIF раз меньше.
Значения VIF более 10 для предиктора вызывает большое увеличение стандартной
ошибки из-за корреляции этого предиктора с другими.
В любом статистическом пакете эти характеристики рассчитываются
одинаково, однако предел, выше которого наблюдение является влияющим
(выбросом) может определяться по-разному.
152
Смещение
Значения количественной переменной x смещают на постоянную величину
x C . Такое преобразование не изменяет в модели никаких параметров, кроме
параметра β 0 . Служит для лучшей интерпретации результатов. Например, в модели
используется предиктор – возраст смены зубов. Традиционно в модели
E y | x β 0 β 1 x , β 0 равно оценке среднего зависимой переменной при x 0 . Но в
возрасте 0 лет зубы не меняются. Более логичным будет использование переменной
x new x 6 , тогда интерпретация параметра β 0 – оценка среднего зависимой
переменной в возрасте 6 лет.
Смещение не влияет ни на изменение остаточной ошибки, на общую
значимость модели, ни на что, кроме интерпретации параметра β 0 .
Логарифмическое преобразование
Логарифмическое ( log x или ln x ): это преобразование может быть
использовано, когда первоначальные данные взяты из логнормального
распределения, или когда распределение скошено вправо.
Логарифмическая основа (например, любой натуральный или десятичный
логарифм) должна быть одна и та же в процессе анализа. Если некоторые из
первоначальных значений являются нулем, то принято добавлять малое ненулевое
значение для того, что бы сделать значение данных ненулевым, поскольку
логарифма нуля не существует. Размер этой добавки зависит от величины
ненулевых данных и последствий потенциального неправильного вывода из
получившихся преобразованных данных. Как рабочая точка может быть выбрано
значение одной десятой от самого наименьшего ненулевого значения в данных. Не
имеет значения, используется ли натуральное (ln) или десятичное (log) основание
для преобразования, поскольку оба преобразования соотносятся как
ln x 2,303 log x , главное – использование одного и того же основания.
Интерпретация логарифмического преобразования
Сначала рассмотрим, что произойдет, если предиктор подвергся
преобразованию x transform ln x . В этом случае коэффициент регрессии
преобразованного предиктора, умноженный на ln1,01 будет интерпретироваться
как изменения в средней величине переменной y на 1% возрастания значений
предиктора. Если коэффициент умножить на ln1,05 или на ln1,1 , то он покажет
изменения в y на каждые 5% или 10% возрастания значений предиктора.
Аналогично, если значения y были логарифмированы ytransform ln y , то
ˆ
величина 100 e β 1 интерпретируется процентное возрастание средней величины
y при изменении предиктора на единицу.
Наконец, если преобразованы и предиктор x и зависимая переменная y , то
ˆ
величина 100 e β ln 1,01 1 – на сколько процентов изменится средняя величина y при
том, что предиктор изменился на 1 %.
Квадратный корень
Квадратный корень(х). Это преобразование может использоваться, когда
имеем дело с малыми целыми числами такими, как возникновение редких событий.
Предположение, лежащее в основе этого, гласит о том, исходные данные взяты из
распределения Пуассона, в котором среднее и вариация данных равны. Нужно
153
отметить, что, когда в исходных данных имеются очень малые значения и нули,
используется преобразование x 1 .
Преобразование Бокса-Кокса
Это сложное мощное преобразование, которое использует первоначальные
данные и возводит их в некоторую степень λ .
x λ 1
,λ 0
x transform λ .
lnx , λ 0
Логарифмическое преобразование является особым случаем преобразования
Бокса-Кокса. Существуют специальные модули в некоторых статистических пакетах
для определения λ , чтобы преобразованные данные имели наилучшую модель
структуры вариации, ошибка была распределена нормально и вариация была
постоянной, насколько это возможно по всем значениям. Для нахождения λ
используется метод максимального правдоподобия, чтобы остаточная ошибка от
соответствующей теоретической модели была минимизирована. Это
преобразование в зависимости от значения λ может аппроксимироваться другими
более простыми преобразованиями (табл.16–4). Поэтому на практике точное
значение λ округляется к удобному значению для облегчения в интерпретации
(например, λ 1,1 округляется к –1, так как имеется интерпретация обратно
пропорционального преобразования). Одним из недостатков преобразования Бокса-
Кокса является трудность в медико-биологической интерпретации
преобразованных данных. Однако есть и преимущество: после выполнения
преобразования статистические пакеты выдают значение λ . По этому значению
можно оценить, какое преобразование, кроме преобразования Бокса-Кокса, может
дать похожий результат.
Таблица 16–4. Соответствие значений параметра λ различным преобразованиям
λ Преобразование
x transform f trasform x
–2 1
x transform
x2
–1 1
x transform
x
–0,5 1
x transform
x
0 x transform ln x
0,5 x transform x
1 Тождественно x transform x
2 x transform x 2
В любом случае, преобразования – это сложный момент исследования и лучше
получить консультации специалистов.
Квантификация количественной переменной
Очень часто количественная переменная является биологичческой
характеристикой организма пациента и клиницистам неинтересен вывод о том, что
154
изменение данной характеристики (предиктора) на единицу измерения вызывает
изменение на β единиц зависимой переменной, практикующим врачам интересна
конечная рекомендация, например, в возрасте после 60 лет зависимая переменная
критически снижается. В этом случае количественную переменную преобразуют в
порядковую или фактор, разбивая на некоторые интервалы.
Каким образом можно провести разбиение?
Самый простой способ использовать квантили, например, разбить на 2 уровня
– ниже и выше медианы, в этом случае получаем бинарную переменную (фактор)
вместо количественной переменной. Также можно разбить на три группы (0-33
перцентиль, 34-67 перцентиль, 68-100 перцентиль) и т.п.
Также если по интересующей количественной переменной существуют
некоторые биологические (медицинские) нормы, можно использовать их: норма/не
норма; ниже нормы/норма/выше нормы. Однако часто в исследованиях такая
переменная отличается от нормы для всех наблюдений.
Один из примеров квантификации количественной переменной приведен в
п.17.9.4.
155
Модель для оценки уровня β-CTX
Рассмотрим анализ β-CTX .
Шаг 1.
Для того, что выбрать направление анализа данных, рассмотрим, как
распределен β-CTX у контрольной группы. Для этого выполним тест на соответствие
этих данных закону нормального распределения. Критерии Шапиро-Уилка, Шапиро-
Франсиа не подтвердили отклонений от нормального распределения β-CTX у
контрольной группы (р=0,15 и р= 0,24 соответственно).
156
воздействия (предиктор Group, значения control/LowDose/HighDose). Графики
представлены на рис. 16-9 и рис.16-10 соответственно.
Поведение BCTX меняется с возрастом, зависимость нелинейна, есть также
различия между девочками и мальчиками.
Поскольку зависимость от возраста нелинейна, разделим наблюдения на 4
возрастные подгруппы (Age.Group): до 10 лет, 10-14, 15-18, 18+.
Количество наблюдений (Таблица 16-6) по полу в возрастных подгруппах
однородно (Хи-квадрат критерий, p = 0,89). Однако в старшей возрастной подгруппе
средний возраст девочек значимо ниже.
Таблица 16-6. Половозрастные подгруппы исследования
Age.Group female male
Кол-во Средний Кол-во Средний
возраст возраст
до 10 12 7,5 16 7,3
10-14 10 12,5 16 12,8
15-18 10 16,3 14 16,4
18+ 9 20,1 18 22,4
Комментарии к Шагу 1.
2. Мы проверили ВСТХ на “нормальность” в первую очередь в контрольной
группе, а не во всей выборке по следующим соображениям: воздействие
(заболевание, лечение и пр.) может изменять закон распределения исследуемой
переменной. Если в норме некоторый показатель ведет себя “нормально”, то мы
можем принять это во внимание в дальнейшем анализе.
Тем не менее, рекомендуется проверить на “нормальность” и группу(ы) с
воздействием для того, чтобы выбрать направление анализа таких данных,
определить критерии, по которым могут сравниваться группы.
Тестировать на “нормальность” смешанные данные (заболевших и здоровых
наблюдаемых) можно, но результаты могут привести в недоумение неопытного
исследователя, поскольку изучаемый параметр в группе контроля и группа
пациентов, страдающих определенным заболеванием, может иметь различные
законы распределения. Смешение таких данных на гистограмме или графике
плотности вероятности может дать неинформативную или искаженную картину.
Мы проверили данные двумя тестами, поскольку существует множество
обсуждений о том, когда и при каких обстоятельствах использовать критерии
согласия. Обычно тест Шапиро-Уилка используется для групп размером до 50
наблюдений, хотя существуют его версии для бóльшего числа наблюдений.
157
Небольшие отклонения от закона нормального распределения могут и не
приниматься во внимание при построении моделей, но знать, как распределены
ваши данные – обязательно.
3. ВСТХ имеет нелинейную зависимость от возраста, поэтому мы разделили
исследуемых на подгруппы и проверили, достаточно ли сбалансированы группы.
Если бы был дисбаланс в количестве наблюдений, то нам бы пришлось каким-то
образом менять разделение на возрастные подгруппы. Проще всего при наличии
нелинейной зависимости попробовать разделить наблюдения в соответствии с
квартилями на 4 группы и группы будут содержать приблизительно одинаковое
количество наблюдений.
В нашем исследовании мы ориентировались на значения квартилей возраста
исследуемых: Q25=9,6; Q50=14,8; Q75=18,2. Это означает, что все наблюдения
поделены на 4 приблизительно равные части. Мы также проверили, что полученные
подгруппы приблизительно сбалансированы (однородны) по полу и получаемому
воздействию. В литературе возрастные подгруппы часто называют стратами.
Деление на подгруппы по квантилям возраста – не единственное решение при
нелинейной зависимости переменной от предиктора. Также могут использоваться
иные рассуждения, например – допубертатный период, пубертат, постпубертатный
период; возможно деление на пятилетние периоды и т.п. Также можно делить на
возрастные подгруппы на основании изучения графических зависимостей. Также
используют более сложные математические методы, например сплайны
(выделяются участки с равномерным возрастанием/убыванием функциональной
зависимости) и др.
4. Проверка на однородность подгрупп необходима, поскольку к примеру в
исследовании будут в одной подгруппе находится девочки только до 10 лет, а в
другой только мальчики только после 10 лет, возможно возникнет смещение
(уклон), которое мы не сможем рассчитать и скорректировать из-за
недостаточности или отсутствия данных. Смещение среднего возраста в подгруппе
+18 может стать причиной смещения оценок параметров модели. Но, исходя из
природы данных (известно из литературы, что маркеры костного метаболизма
после 25 и до 50 лет имеют постоянный уровень у человека независимо от пола), мы
пренебрегли возрастным различием в последней возрастной подгруппе.
Шаг 2.
Поскольку мы предполагаем, что уровень ВСТХ ассоциирован с некоторыми
группами (воздействия, возраста, пола), то можно воспользоваться
многофакторным дисперсионным анализом или линейной регрессионной моделью.
Выберем следующую стратегию подгонки модели: сначала построим модель
с основными эффектами предикторов (Group.Age, Sex, Group), убедимся, что они
существуют. Если есть возможность, снизим размерность модели (объединение
уровней предикторов без потери качества подгонки модели), потом построим
модель со взаимодействием всех предикторов. Следующий этап – сокращение
размерности модели путем исключения незначимых взаимодействий. Затем
проверим предположения, лежащие в основе модели.
Предварительная модель LM.0 включает в себя предикторы Age.Group (4
возрастных подгруппы) , Group (3 группы), Sex (2 группы).
Анализ квадратов отклонений (таблица ANOVA) предварительной модели
LM.0 – модели основных эффектов приведен в Таблице 16-8. Мы убедились, что
основные эффекты, связанные с возрастом, полом и группой исследования значимы.
158
Таблица 16-8. Таблица ANOVA предварительной модели LM.0
Предиктор Сумма Степени Значение p
квадратов свободы F-критерия (Pr(>F))
(Sum Sq) (Df)
Age,Group 23,48 3 32,15 <0,0001
Group 3,38 2 6,74 0,0019
Sex 3,40 1 13,97 0,0003
Residuals 23,85 98
Комментарий к Шагу 2.
1. Выбранная стратегия подгонки модели не является единственной.
Возможно построение модели с основными эффектами, ее исследование на
значимость независимых предикторов, и после – проверка значимости
взаимодействий предикторов в модели. Возможно построение модели со всеми
взаимодействиями, а после ее уменьшение за счет незначимых переменных.
Возможен выбор наилучшего подмножества из всех возможных комбинаций
предикторов и их взаимодействий.
2. Эффект воздействия некоторого бинарного/мультиноминального
предиктора – это значимый сдвиг среднего значения исследуемой (зависимой)
переменной при изменении уровня (значения) данного предиктора. Размер эффекта
определяется оценкой соответствующего коэффициента.
3. Значимость каждого из предикторов модели может определяться
критерием отношения правдоподобия, F-критерием, критерием Вальда и др.
Удобнее всего оценивать значимость предикторов модели с помощью таблиц ANOVA
– вклада в снижение вариации модели каждого предиктора.
Шаг 3.
Проверим линейную гипотезу о равенстве эффектов высокой и низкой дозы
воздействия. Тест показал, что эффекты неразличимы ( p= 0,9928). Мы имеем право
159
объединить группы с высокой и низкой дозой воздействия, перейти к исследуемой и
контрольной группам.
Также из Таблицы 16-9 значимость переменной Age.Group[10-14] p=0,46,
следовательно уровни предиктора Age.Group до 10 и 10-14 можно объединить.
Заменим предиктор Group на предиктор Expose (expose/control), который уже
есть в наборе данных, а также объединим группу до 10 лет и 10-14 в одну группу.
Введем в данных новый столбец в данных Age.Group.BCTX.
Новая предварительная модель LM.1 (Таблица 16-10) незначимо отличается
от модели LM.0 (p=0,74; F-критерий).
Таблица 16-10. Таблица ANOVA модели LM.1
Предиктор Сумма Степени Значение p
квадратов свободы F-критерия (Pr(>F))
(Sum Sq) (Df)
Age,Group,BCTX 23,43 2 48,826 <0,0001
Expose 3,25 1 13,546 0,0004
Sex 3,45 1 14,372 0,0003
Residuals 24,00 100
Комментарии к Шагу 3.
1. Мы снизили число параметров модели. Напомним, что число параметров
конкретного уравнения модели может быть не равно числу изучаемых предикторов.
Число параметров модели определяется как количеством уровней предиктора, так и
количеством взаимодействий предикторов.
2. Также мы доказали, что различия в объемах воздействия значимо не влияет
на β-CTX. Наличие химиотерапии ассоциировано со снижением уровня β-CTX в
данном исследовании.
3. Мы ввели новый столбец данных Age.Group. BCTX, поскольку у нас есть еще
один параметр костного метаболизма для исследования – остеокальцин. Возможно,
деление на 4 группы по возрасту нам пригодится при его изучении.
4. Сравнение моделей проводили с помощью F-критерия. Можно использовать
и другие тесты: критерий Вальда, критерий отношения правдоподобия. Модели,
построенные на различных наборах данных не сравниваются. Смысл сравнения
заключается в том, что модель LM.1 объясняет такую же долю вариации в зависимой
переменной y (отклика), как и модель LM.0, но при этом модель LM.1 использует
меньше параметров.
Мы не стали смотреть оценки параметров модели, хотя это можно сделать, но
сначала необходимо убедится, что в модели или нет взаимодействия предикторов,
или они присутствуют. Пока мы констатировали, что модель значимо не ухудшилась
при объединении уровней предикторов.
Шаг 4.
Теперь оценим значимость попарных взаимодействий предикторов и удалим
незначимые взаимодействия. Построим новую модель LM.interaction, в которой
учтем попарные взаимодействия предикторов. Удаление незначимых переменных
модели выполним, используя алгоритм "backward stepwise". Результаты подгонки
модели LM.interaction приведены в Таблице 16-11 и Таблице 16-12.
Таблица 16-11. Таблица ANOVA модели LM.interaction
Предиктор Сумма Степени Значение p
квадратов свободы F-критерия (Pr(>F))
160
(Sum Sq) (Df)
Age,Group, BCTX 23,43 2 50,451 <0,0001
Expose 3,25 1 13,997 0,0003
Sex 3,55 1 15,267 0,0002
Age,Group, BCTX: Expose 1,24 2 2,665 0,0747
Residuals 22,76 98
Комментарии к Шагу 4.
1. Алгоритм "backward stepwise" является пошаговым алгоритмом. На каждом
шаге он исключает предиктор из модели и одновременно проверяет, не могут ли в
модель быть включены ранее исключенные предикторы. На каждом шаге из модели
удаляются предикторы, не влияющие значимо на снижение оценки максимального
правдоподобия модели данных. Снижение оценки максимального правдоподобия
проверяется критерием отношения правдоподобия или AIC-критерием или другими
критериями.
Алгоритм не единственный, существует достаточное количество других.
Алгоритм "backward stepwise" рекомендуют на небольших наборах данных.
2. Почему мы сразу не строили модель со всеми взаимодействиями, а сначала
редуцировали уровни предикторов? Поскольку у нас не так много данных, то полная
модель с попранным взаимодействием имела бы 16 оцениваемых параметров (при
учете взаимодействий более высокого порядка – 22). При наборе данных в 105
наблюдений мы могли бы или потерять значимое взаимодействие или получить
некоторое случайно значимое взаимодействие. Наша модель имеет 7 параметров,
мы обнаружили значимое взаимодействие после того, как убедились в том, что
основные эффекты существуют.
3. Мы получили условно окончательную модель. Ее так называют, поскольку
еще не исследованы предположения, лежащие в основе модели.
Шаг 5.
Перейдем к исследованию остатков модели и возможных выбросов.
Необходимо проверить предположение о том, что регрессионные остатки
подчиняются закону нормального распределения.
Основные диагностические графики приведены на Рис.16-11. Выполним тест
Шапиро-Уилка остатков модели (р=0,02) .
161
Рис. 16-11. Основные диагностические графики модели LM.interaction
162
Рис. 16-13. Основные диагностические графики модели LM.fit
Таблица 16-13. Таблица ANOVA модели LM. fit
Предиктор Сумма Степени Значение p
квадратов свободы F-критерия (Pr(>F))
(Sum Sq) (Df)
Age,Group, BCTX 23,77 2 58,480 <0,0001
Expose 2,53 1 12,442 0,0006
Sex 3,04 1 14,951 0,0002
Age,Group, BCTX: Expose 1,12 2 2,759 0,0684
Residuals 19,71 97
Таблица 16-14. Оценка параметров модели LM.fit
Переменная Estimate Std.Error tvalue p
Комментарий к Шагу 5.
1. График на рис. 16-13 слева должен показать наличие или отсутствие
зависимости величины остатков от величины предсказанных значений.
Зависимости не наблюдается (практически линия параллельна оси абсцисс), что
означает, что предположение о линейности скорее всего не нарушено.
График на рис. 16-13 справа – это график квантилей (q-q график) остатков.
Наблюдается некоторое отклонение от закона нормального распределения.
Можно построить больше диагностических графиков, например зависимость
предсказанных значений от наблюдаемых и т.п.
163
Также интересна диаграмма влияния, в котором наблюдаются отклонения
более ±3 сигм в распределении остатков.
На данных графиках мы наблюдаем несколько выбросов.
Более подробно мы изучили выбросы с помощью тестов, выявили наиболее
значимый выброс (наблюдение 84), который относился к наблюдениям
контрольной группы. Мы приняли решение повторить подгонку модели без
наблюдения 84.
2. После удаления наблюдения 84:
(a) состав значимых переменных модели не изменился;
(б) уклоны не поменяли знак;
(в) уменьшились оценки стандартных ошибок параметров модели (сравните
Таблицу 16-12 и Таблицу 16-14).
Больше всего изменилась оценка параметра в возрастной подгруппе
Age.Group[15-18], поскольку наблюдение 84 (исключенное) принадлежало этой
подгруппе.
3. На практике отклонение более 10-15% наблюдений от модели
сигнализирует о том, что, возможно, модель не соответствует данным. В нашем
случае удаление одного наблюдения из выборки в 105 наблюдений не изменило
принципиально модель, и снизило вариацию, мы получили более узкие
интервальные оценки параметров модели данных.
Шаг 6.
“Прочтем” полученную окончательную модель (Таблица 16-14).
Уравнение модели выглядит следующим образом:
E BCTX β 0
β 1 Age.Group. BCTX[15 - 18]
β 2 Age.Group. BCTX[18 ]
β 3 Expose[exp ose]
β 4 Sex[male]
β 5 Age.Group. BCTX[15 - 18] Expose[exp ose]
β 6 Age.Group. BCTX[18 ] Expose[exp ose]
ε
Оценку случайной ошибки ε мы рассмотрели на предыдущем шаге, сейчас мы
рассматриваем систематическую часть модели.
За базовую подгруппу приняты девочки контрольной группы в возрасте до 15
лет. Среднее значение β-CTX ( E BCTX ) в этой подгруппе равно β 0 1,79 . Эффект
воздействия снижает среднее значение β-CTX на β 3 0,49 , эффект значим (р=0.0002).
Поскольку есть взаимодействие воздействия и возрастных подгрупп, то этот эффект
относится к подгруппе в возрасте до 15, т.е это означает, что в подгруппе до 15 лет у
исследуемых из группы с воздействием с значение β-CTX в среднем на 0,49 ниже,
чем в контрольной группе без воздействия.
Эффект пола (мальчики) повышает значение β-CTX в среднем на β 4 0,35 ,
эффект значим (р=0,0002). Переменная Sex не взаимодействует с другими
переменными, фактически это означает, что у мальчиков (независимо от
воздействия, а также от возраста) значение β-CTX в среднем на 0.35 выше, чем у
девочек.
164
Таким образом у девочек контрольной группы в возрасте до 15 лет среднее
значение β-CTX равно β 0 1,79 ; у мальчиков контрольной группы
β 0 β 4 1,79 0,35 2,14 . У девочек из исследуемой группы
β 0 β 3 1,79 0,49 1,30 ; у мальчиков этой же группы
β 0 β 3 β 4 1,79 0,49 0,35 1,65 .
Для возрастной подгруппы 15-18 лет:
эффект данной возрастной подгруппы составляет β 1 0,65 , эффект значим
(р=0.0002). Фактически это означает, что в возрастной подгруппе 15-18 лет у
контрольной группы (независимо от пола) идет снижение показателя β-CTX в
среднем на 0.65 по сравнению с контрольной группой возраста до 15 лет. Таким
образом в данной возрастной группе для девочек контрольной группы среднее
значение β-CTX равно β 0 β 1 1,79 0,65 1,14 ; для мальчиков контрольной группы
β 0 β 1 β 4 1,79 0,65 0,35 1,49 .
Для исследуемой группы наблюдается взаимодействие возраста и
воздействия в возрастной подгруппе 15-18 лет. Эффект равен
β 1 β 5 0.65 0.18 0.47 . Для девочек исследуемой группы в возрасте 15-18 лет
среднее значение β-CTX составит β 0 β 1 β 3 β 5 1,79 0,65 0,49 0,18 0,83 ; у
мальчиков исследуемой группы в возрастной подгруппе 15-18 лет среднее значение
β-CTX составит β 0 β 1 β 3 β 4 β 5 1,79 0,65 0,49 0,35 0,18 1,18 .
Для возрастной подгруппы после 18 лет:
эффект возрастной подгруппы 18+ составляет β 2 1,36 , эффект значим
(р<0,0001), т.е. наблюдается снижение уровня β-CTX у здоровых пациентов на 1,36 по
сравнению с подгруппой до 15 лет у здоровых (независимо от пола).
для девочек контрольной группы среднее значение β-CTX равно
β 0 β 2 1,79 1,36 0,43 ; для мальчиков контрольной группы
β 0 β 2 β 3 1,79 1,36 0,35 0,78 .
Для исследуемой группы в возрастной подгруппе 18+ в модели присутствует
эффект взаимодействия ( β 2 β 6 1,36 0,50 0,86 ) и среднее значение β-CTX
составит соответственно для девочек исследуемой группы
β 0 β 2 β 3 β 6 1,79 1,36 0,49 0,50 0,44 ; для мальчиков исследуемой группы
β 0 β 2 β 3 β 4 β 6 1,79 1,36 0,49 0,35 0,50 0,79 .
По модели рассчитаем средние и доверительные интервалы для различных
групп (см. Таблица 16-14). На рис. 16-14 представлены графики эффектов,
полученных в модели LM.fit.
165
Рис. 16-14. График эффектов модели LM.fit для BCTX
Значимость изменения уровня β-CTX для каждой возрастной подгруппы,
ассоциированную с наличием химиотерапевтического воздействия, можно
выяснить с помощью линейных гипотез для модели LM.fit. Значимость изменений
составила соответственно для подгруппы до 15 лет p<0,0001; для подгруппы 15-18
лет p=0,11; для подгруппы 18+ p=0,92.
Комментарии к Шагу 6.
1. Мы получили ответ на вопрос о том, снижает ли химиотерапевтическое
воздействие активность костного метаболизма. При разработке модели мы учли
такие конфаудеры (вмешивающиеся переменные), как возраст и пол. Их влияние в
модели было значимым. Причем изначально наблюдалась нелинейная зависимость
от возраста, и мы сформировали возрастные группы.
2. Наличие взаимодействия с одной стороны уточняет модель, с другой –
увеличивает ее размерность, из-за чего при внутригрупповых сравнениях (проверке
линейных гипотез) мы получили незначимые оценки различия в эффекте лечения в
контрольной и излеченной группах для подгруппы 15-18 лет. Фактически нам не
хватило мощности исследования для установления эффекта от
химиотерапевтического воздействия в возрастной подгруппе 15-18 лет.
Нужно очень осторожно относиться к увеличению размерности модели при
малом размере выборки.
В данном исследовании одна из задач состояла в том, чтобы доказать
значимые различия именно в возрасте активного костеобразования – до 15 лет.
Другая задача – рассчитать ориентировочные нормы для здоровых детей в возрасте
до 18 лет.
3. Если бы мы сформулировали иные цели исследования, мы бы по-другому
использовали наши данные.
Например, если бы целью было рассчитать уровень снижения маркера
костного метаболизма у детей вследствие лечения химиотерапией по сравнению с
контрольной группой, мы бы (1) ограничили бы выборку исследуемыми до 18 лет
(поскольку речь идет только о детях); убедились бы, что среднее возраста в
контрольной и исследуемой группе не различаются, равно как и нет уклона по полу
(т.е. мальчики девочки представлены в исследовании сбалансированными
группами), (2) рассчитали эффекты от применения химиотерапии и в зависимости
166
от пола исследуемых; (3) проверили предположения, лежащие в основе модели; (4)
сделали соответствующие выводы. Это можно сделать самостоятельно.
Клиническая ценность
1. У нас есть убедительные доказательства, что высокодозное и низкодозное
лечение одинаково влияют на поведение β-CTX .
2. Определен эффект, связанный с лечением. Лечение ассоциировано со
снижением β-CTX в возрасте до 15 лет, т.е. в период активного костеобразования.
После от 15 до 18 лет имеется тенденция в различиях, в более старшем возрасте
этот эффект исчезает.
3. Также определен эффект связанный с полом. Он имеет место во всех
возрастных группах.
4. По модели можно рассчитать средние и доверительные интервалы для
здоровых и излеченных пациентов в различных возрастных группах (Таблица 16-
15). Для контрольной группы данные значения могут рассматриваться как норма и
интервал нормы. Для пациентов, которые подверглись некоторому воздействию
(или заболеванию) говорят не о нормах, а определяют отклонения от нормы (в
процентах, в абсолютном выражении, в стандартизированном выражении).
Таблица 16-15. Значение β-CTX с учетом пола, возрастной подгруппы и наличия
химиотерапии
Средний β-CTX
возраст 95% Доверительные
Возраст в группе Пол Группа Среднее интервалы
до 15 male ХТ 1,66 1,47 1,85
10,0
до 15 male контроль 2,14 1,96 2,33
до 15 female ХТ 1,30 1,09 1,52
9,8
до 15 female контроль 1,79 1,60 1,98
15-18 male ХТ 1,19 0,93 1,45
16,4
15-18 male контроль 1,49 1,20 1,79
15-18 female ХТ 0,84 0,57 1,10
16,3
15-18 female контроль 1,14 0,84 1,44
18+ male ХТ 0,80 0,54 1,07
22,4
18+ male контроль 0,78 0,55 1,02
18+ female ХТ 0,45 0,16 0,73
20,1
18+ female контроль 0,43 0,17 0,69
167
Выполним следующие преобразование данных Ost.sqrt=(Osteocalcin)0.5 –
преобразование квадратного корня из значения, введем новый столбец в
исследовании: Ost.sqrt.
Проверим преобразованные данные контрольной группы на соответствие
закону нормального распределения. Теперь тест Шапиро-Уилка показал p=0,09, тест
Шапиро-Франсиа р=0,18.
В исследовании остеокальцина будем пользоваться новой зависимой
переменной Ost.sqrt. После окончания исследования проведем обратное
преобразование для средних и доверительных интервалов.
Рассмотрим поведение зависимой переменной Ost.sqrt от возраста (предиктор
age.at.measure) и пола (предиктор Sex, значения male/female); возраста и наличия
воздействия (предиктор Expose, значения control/expose); возраста и его объема
(предиктор Group, значения control/LowDose/HighDose). Графические зависимости
представлены на рис. 16-15 и рис. 16-16.
Комментарии к Шагу 1.
168
1. После проверки распределения остеокальцина в контрольной группе
пришлось использовать монотонное преобразование исследуемой переменной.
Найти подходящее преобразование – неформальная задача, но для некоторых
показателей, которые могут принимать только положительные значения – можно
попытаться использовать преобразование Бокса-Кокса. Мы нашли значение λ
преобразования Бокса-Кокса, равное 0,44. Это приблизительно соответствует
преобразованию квадратного корня из значений исследуемой переменной. Мы
искали преобразование для контрольной группы, в первую очередь, поскольку нас в
исследовании также интересовали нормы для здоровых детей1.
2. В отличие от BCTX мы наблюдаем в младшей возрастной подгруппе
нарастание Ost.sqrt с возрастом, значимо оно или нет – покажет исследование. Мы
будем использовать то же разбиение на четыре возрастные подгруппы.
Шаг 2-3.
Проверяем гипотезу о равенстве эффектов высокодозного и низкодозного
воздействия (р= 0,82).
Линейная гипотеза о неразличимости возрастных подгрупп до 10 и 10-14
имеет уровень значимости р=0,20.
1
Если бы модель, построенная на преобразованных данных, не удовлетворяла предположениям, лежащим
в основе такой модели, мы бы попытались найти другое преобразование. В данном случае оно не
понадобилось.
169
Таблица 16-17. Оценка параметров модели LM.interaction
Переменная Estimate Std.Error tvalue P
Комментарии к Шагу 4.
1. При учете взаимодействия отличия между базовой подгруппой до 10 и 10-14
стали значимы.
2. Снижение вариации модели при взаимодействии переменных Age.Group и
Expose значимо (Таблица 16-16, р=0,0180). Однако на каждом уровне
взаимодействия (Таблица 16-17) значимость p>0,05. Мы должны оставить
переменную взаимодействия в модели и учитывать оценки параметров при расчете
средних, поскольку общий вклад в снижение вариации при взаимодействии
существует.
Шаг 5.
Исследование остатков модели LM.interaction показало (Рис. 16-17), что
предположение модели о нормальном распределении остатков не нарушено (тест
Шапиро-Уилка p = 0,66).
Эту модель можно принять за окончательную.
170
Комментарий к шагу 5.
Тем не менее, в модели существуют выбросы, наиболее значимые – это
наблюдение 39 и наблюдение 84 (см. рис. 16-18).
171
Таблица 16-18. Значение остеокальцина с учетом пола, возрастной группы и наличия
химиотерапии
Остеокальцин
95% Доверительные
Возраст Пол Группа Среднее интервалы
до 10 male ХТ 75,02 61,98 89,32
7,3
до 10 male контроль 93,51 80,53 107,45
до 10 female ХТ 63,30 50,94 76,99
7,5
до 10 female контроль 80,36 67,95 93,80
10-14 male ХТ 72,76 60,23 86,47
12,8
10-14 male контроль 113,78 98,34 130,34
10-14 female ХТ 61,22 48,55 75,34
12,5
10-14 female контроль 99,22 84,84 114,72
15-18 male ХТ 54,04 43,34 65,92
16,4
15-18 male контроль 63,14 50,86 76,74
15-18 female ХТ 44,16 34,38 55,17
16,3
15-18 female контроль 52,42 40,70 65,62
18+ male ХТ 30,90 22,86 40,15
22,4
18+ male контроль 28,67 21,66 36,66
18+ female ХТ 23,55 16,14 32,37
20,1
18+ female контроль 21,61 15,09 29,31
Клиническая ценность
1. У нас есть убедительные доказательства, что высокодозное и низкодозное
химиотерапевтическое воздействие одинаково влияют на уровень остеокальцина у
пациентов исследуемой группы.
2. Определен эффект, связанный с применением химиотерапии. Это
воздействие ассоциировано со снижением остеокальцина в возрасте до 15 лет, т.е. в
период активного костеобразования. После 15 лет этот эффект исчезает.
3. Также определен эффект связанный с полом. Он имеет место во всех
возрастных группах.
4. Можно определить средние и доверительные интервалы для контрольной
и исследуемой группы в различных возрастных подгруппах (Таблица 16-18).
172
Основные аспекты
Понятие линейности в регрессии.
Понятие предиктора и зависимой переменной в регрессии.
Понятие параметра регрессии.
Количество переменных модели может отличаться от количества
исследуемых предикторов, поскольку один предиктор может порождать несколько
индикаторных переменных, комбинация нескольких предикторов может порождать
одну переменную;
Интерпретация параметров регрессии – важный момент в исследовании. На
основании параметров расчитываются различные эффекты.
Понятие конфаундера и его учет в модели.
Значимость модели и значимость параметров модели – разные понятия.
Силу влияния различных переменных на зависимую переменную можно
определять в пределах одной модели.
Сравнение моделей возможно только на одних и тех же исходных данных.
Построенная модель не всегда верна, если нарушаются предположения,
лежащие в основе модели.
Выбросы и ошибочные данные влияют на подгонку модели.
Регрессионная модель интерпретируема в пределах изменения наблюдаемых
данных.
Интерпретация не включает в себя момент причинно-следственной связи,
только констатацию наличия ассоциации между зависимой переменной и
предиктором.
173
17. Логистическая регрессия
С точки зрения компонентов модели логистическая регрессия описывается
следующим образом:
Систематический компонент – это один предиктор или линейная комбинация
нескольких предикторов; случайный компонент – исход1, который имеет
биноминальное распределение; функция связи – логистическая функция (logit)2.
Переменная исхода y может принимать два значения: 0 и 1.
Вероятность того, что y 1 при определенных значениях x обозначим как
π(x ) . Оценка π(x ) – это пропорция наблюдений в выборке: отношение количества
наблюдений, для которых исход y 1 ко всем наблюдениям в выборке.
В модели логистической регрессии предполагается, что
yi подчиняется биноминальному закону распределения;
среднее E y | x π x представляется уравнением
exp β 0 β 1 x
E y | x π x .
1 exp β 0 β 1 x
Значения переменной исхода статистически независимы.
expβ 0 β 1 x
Уравнение π x можно преобразовать как
1 expβ 0 β 1 x
π x π x
exp β 0 β 1 x . Левая часть уравнения является математической
1 π x 1 π x
записью шанса исхода в исследуемой выборке (отношение вероятности того, что
событие произойдет, к вероятности того, что событие не произойдет).
π x
Прологарифмируем обе части: log β 0 β 1 x . Полученное уравнение
1 π x
напоминает уравнение линейной регрессии, но слева находится не количественная
переменная, а некоторое преобразование бинарной переменной исхода. Выражение
π x
логарифма шанса исхода log называют логит-преобразованием
1 π x
вероятности исхода logit π x , а модель – логит-моделью.
Использование логит-преобразования – это первое важное отличие
логистической регрессии от линейной. Второе важное отличие логистических
регрессионных моделей касается условного распределения переменной исхода3. В
линейной регрессии предполагалось, что переменная исхода yi E y | x i ε i , ε i
называлось ошибкой и отражало отклонение наблюдения от условного среднего.
Самое общее предположение касалось ε i – ошибка следует нормальному
1
Исход – это зависимая переменная y . Термин “исход” (outcome) – используется в эпидемиологии, когда
зависимая переменная представляет собой некоторое событие/состояние, вероятность наступления
которого нужно оценить.
2
Другие преобразования (функции связи), равно как и логит-преобразование относятся к классу
обобщенных линейных моделей (generalized linear model). Правая часть уравнения остается линейной
комбинацией предикторов.
3
Закон распределения случайной величины y в обобщенных линейных моделях может быть различным.
174
распределению с нулевым средним и дисперсией, постоянной на любом уровне x i .
Т.е. условное распределение переменной исхода при заданном x i будет нормальным
со средним E y | x i с постоянной дисперсией. При бинарном исходе это не так.
Значение переменной исхода может быть записано как yi π x i ε i . В этом случае,
если yi 1 , то ε i 1 π x i с вероятностью π x i , при yi 0 , ошибка ε i π x i с
вероятностью 1 π x i . Условное распределение переменной исхода следует
биноминальному распределению с вероятностью, определенной условным средним
π x i .
В линейной регрессии коэффициенты оценивались на основе метода
наименьших квадратов. Находились такие оценки параметров, которые бы
минимизировали сумму квадратов отклонений наблюдаемых значений y и
ожидаемых (предсказанных по модельному уравнению). Для логистической
регрессии используется метод максимального правдоподобия, который является
более общим и включает в себя метод наименьших квадратов. Не вдаваясь в
математические подробности можно сказать, что метод максимального
правдоподобия (maximum likelihood estimator) находит значения неизвестных
параметров, которые максимизируют вероятность получения наблюдаемого набора
данных.
Интерпретация параметров модели будет рассмотрена ниже.
175
17.2. Логистическая регрессия с мультиноминальным
предиктором
Для мультиноминальной шкалы используется тот же подход, как и в разделе
16.3. Одна из категорий принимается за референтную и отношения шансов
остальных категорий определяются относительно нее. Иногда количественную
переменную разбивают на несколько уровней, и исследуют, как возрастает
отношение шансов от уровня к уровню. Однако, надо иметь ввиду, что количество
наблюдений в группах должно быть сбалансировано (приблизительно одинаковым).
На малые группы по количеству наблюдений разбивать не рекомендуется.
Выбор референтной категории также является тонким моментом, требуется,
чтобы количество наблюдений в этой категории не было малым. Если
мультиноминальная переменная упорядочена, можно исследовать тренд в
отношениях шансов.
Локализация I2 I3
1 0 0
2 1 0
3 0 1
Запишем модель:
π x
log β 0 β 2I 2 β 3I3 .
1 π x
Тест логарифма правдоподобия (оценка значимости предиктора
“локализация”) показал значимость предиктора (статистика отношения логарифмов
правдоподобия = 9,5397 , степени свободы = 2, p 0,008482 . Вывод – предиктор
является значимым в модели.
Оценки параметров в модели представлены в табл.17–2.
Таблица 17–2. Оценки параметров модели
176
Локали- Пропор- Уравнение π x E y | x π x
exp
зация ция из 1 π x exp
таблицы
1 exp
14–6
I 0,794 π x exp β 0 0,794
log
1 π x exp 1,3499
β0 3,857
Отношение шансов OR exp βˆ1 exp0,9649 2,625. Полученное значение
совпадает с отношением шансов, рассчитанным в примере раздела 14.
Расчет доверительных интервалов для отношения шансов по логистической
регрессии производится следующим образом:
Сначала строится доверительный интервал для оценки параметра:
βˆ βˆ z SE и βˆ βˆ z SE ,
L 1 γ H 1 γ
177
где zγ – значение γ -квантиля нормального распределения, γ 1 α для
2
двустороннего интервала, т.е. для α 0,05 γ 0,975 .
Затем вычисляется доверительный интервал для отношения шансов:
L
OR exp βˆ и OR exp βˆ .
L H
H
178
Для исследований "случай-контроль" мы имеем две искусственно созданные
группы. Если используется количественный предиктор, β 0 является параметром,
который "центрирует" модель относительно среднего значения предиктора1. При
бинарном и мультиноминальном предикторе β 0 соответствует логарифму
отношения шансов в референтной группе.
В дизайне "matched pairs", когда ровно на один случай приходится ровно один
контроль это соотношение равно 1. β 0 в этом случае не включается в модель.
Переменная, которая представляет интерес в исследовании в дизайне "случай-
контроль" ни в коем случае не должна влиять на выбор пациентов, включенных в
исследование "случай-контроль" (см. раздел 2), иначе мы получим систематическую
ошибку при оценке этой переменной.
Для дизайна "matched pairs" используется специальный подход к оценке
правдоподобия, называемый условное правдоподобие (conditional likelihood),
основанный на условной вероятности. Сложность компьютерных расчетов
заключается в том, что различные статистические пакеты предоставляют
различный интерфейс для моделирования логистической регрессии и расчета
условного правдоподобия в условиях дизайна "matched pairs". Необходимо получить
консультации специалиста именно по выбранному статистическому пакету, в
котором вы проводите подгонку логистической регрессии при дизайне "matched
pairs". Интерпретация результатов, однако, не отличается от вышеприведенной за
исключением того, что β 0 исключается из модели. Дизайн "matched pairs"
достаточно своеобразен и к нему никогда не следует относиться легкомысленно.
Эффективный подбор пар (в случаях, когда переменные, по которым проводится
подбор – вмешивающиеся переменные с сильным влиянием), может дать более
точные оценки связи события (заболевания/состояния) и воздействия (экспозиции
фактора). Однако, когда переменные, по которым подбирались пары, на самом деле
не обладают одновременным воздействием на изучаемую переменную и исход, то
может наблюдаться снижение точности в сравнении с непарным дизайном
исследования. Более того, в дизайне "matched pairs" соответствие критериям
"парности" (одинаковый возраст, одинаковая раса, одинаковое предыдущее лечение
и пр.) может осложнять подбор и вести к потере информативных данных.
котором осуществляется подгонка модели, и подставим это значение в полученную модельную формулу
E y | x π x
exp βˆ0 βˆ1 x
, то значение y будет равно в точности отношению количества
1 exp βˆ0 βˆ1 x
наблюдений, для которых исход y 1 к общему числу наблюдений в наборе, т.е. пропорции в выборке.
179
logit π 1, x logit π 0, x
β 0 β 1 1 β 2 x β 3 x 1 β 0 β 1 0 β 2 x β 3 x 0 β 1 β 3 x ;
Т.е lnOR β 1 β 3 x ; а OR expβ 1 β 3 x , отношение шансов исхода при
наличии и отсутствии изучаемого фактора – функция от ковариаты (конфаундера).
Гипотеза H0 : β 3 0 констатирует, что отношение шансов уровней фактора F
не зависит от конфаундера. Проверяя ее, мы либо доказываем, что эффект от
модификатора (конфаундера) существует и значим, либо не значим.
Ремарка: Напомним, что нулевая гипотеза не доказывается, она остается верной, пока не получены
новые доказательства.
Предположение о рандомизации ковариаты (модификатор эффекта) не
меняется для логистической регрессии.
Если эффект влияния существует, можно рассчитать OR exp β 1 β 3 x при
различных x x1 , x x2 , . Очень часто таким модификатором в клинико-
эпидемиологических исследованиях выступает возраст. Можно рассчитать
отношение шансов исследуемого фактора для разных возрастов с шагом 10 или 5.
Мы можем проверить, существует ли тренд в отношениях шансов для нескольких
возрастных групп, которые упорядочены.
1
Критерий гомогенной ассоциации также используется при проверке качества подгонки (goodness of fit)
логистической регрессии.
180
вероятности исхода. При проверке гипотезы может использоваться тест Кокрейна–
Мантеля–Хензеля (Cochran–Mantel–Haenszel – CMH-test).
Пусть имеем L страт (уровней конфаундера). На i -ом уровне мы можем
представить данные исхода и исследуемого предиктора как таблицу 2 2 .
Таблица 17–5 Таблицы 2 2 на каждом уровне конфаундера
Уровень i Исход
1 0
1 Ai Bi
Фактор
0 Ci Di
Ai Di
Отношение шансов рассчитывается по таблице 2 2 как ORi .
Bi C i
Ожидаемое значение в ячейке А таблицы 2 2 уровня i равно:
A Ci Ai Bi ,
E Ai i
Ni
вариация Var Ai
Ai C i Bi Di Ai Bi C i Di ,
Ni 2 Ni 1
Где Ni Ai Bi Ci Di .
Тест подсчитывает квадрат суммы отклонений ожидаемых и наблюдаемых
частот интересующего состояния ( Ai ) по всем стратам, далее сумма
стандартизируется на сумму вариаций:
2
L
Ai E Ai
CMH i 1 L .
Var Ai
i 1
AC i i Ni
ORMH i 1
L
.
B D
i 1
i i Ni
181
Если же отношения шансов различны на уровнях конфаундера, то можно
графически проследить эти изменения в отношениях шансов. Если уровни
конфаундера упорядочены, то возможно наличие тренда, который хорошо виден
визуально.
Стратифицированный анализ таблиц 2 2 , а также и другие виды
стратифицированного анализа широко используются в мета-анализе, когда
аналогичные исследования ведутся в нескольких медицинских центрах или
лабораториях и нужна обработка таких данных. Стратами выступают центры,
лаборатории и т.п. Анализ данных от нескольких центров и выводы, сделанные на
его основании, повышают точность оценок, выявляют действительно значимые
результаты, помогают уточнять методики исследований1.
1 11 43 54 32 35 67 38 15 53 47 22 69
0 6 29 35 17 26 43 7 20 27 10 13 23
Всего 17 72 89 49 61 110 45 35 80 57 35 92
Пропор-
0,65 0,60 0,65 0,57 0,84 0,43 0,82 0,63
ция
OR 1,24(0,41–3,72) 1,40(0,64–3,04) 7,24 (2,54–20,64) 2,78(1,06–7,31)
(95%
ДИ)
1
О прикладном мета-анализе подробнее см. в книге Dmitrienko et al (2005).
2
Слияние данных от разных центров может привести к парадоксу Симпсона (Simpson’s paradox)- тренд в
данных отдельных групп может стать противоположным при их слиянии. Подробнее см. Agresti(2002).
182
Для того, чтобы сравнить результаты, полученные выше и результаты
логистической регрессионной модели, выполним построение логистической
регрессии на этих же данных.
Первый центр выбран как референтная группа. Введены индикаторные
переменные I 2, I3, I 4 . Модельное уравнение имеет вид:
logit π ОДЛ , I 2, I3, I 4 β 0 β 1 ОДЛ β 2 I 2 β 3 I3 β 4 I 4
β 5 ОДЛ I 2 β 6 ОДЛ I3 β 7 ОДЛ I 4.
Протестируем переменные модели(см. Раздел 17.9) на значимость снижения
вариации по логарифму отношения правдоподобия (Табл. 17–7).
Таблица 17–7. Тест отношения правдоподобия1
LR df Р
(тест отношения (степени свободы)
правдоподобия)
ОДЛ 12,9373 1 0,0003
Параметр βˆ
SE βˆ p
Intercept
βˆ0 0,39390 0,24029 0,1012
ОДЛ
βˆ1 0,21223 0,56153 0,7055
Центр 2
βˆ2 –0,09665 0,35323 0,7844
Центр 3
βˆ3 –0,68159 0,41762 0,1027
Центр 4
βˆ 4 0,13219 0,42440 0,7554
ОДЛ х Центр 2
βˆ5 0,12304 0,68733 0,8579
1
Обратите внимание, что в таблице первой идет предиктор, который представляет интерес для
исследования, а после – конфаундер. Это принятая практика подачи результатов.
183
ОДЛ х Центр 3
βˆ 6 1,76713 0,77534 0,0227
ОДЛ х Центр 4
βˆ7 0,80924 0,74764 0,2791
184
Таблица 17–9. Измененные данные примера1
Центр 1 Центр 2 Центр 3 Центр 4
1 21 43 54 32 35 67 38 15 53 47 22 69
0 6 29 35 17 26 43 7 20 27 10 13 23
Всего 27 72 89 49 61 110 45 35 80 57 35 92
Пропор-
0,78 0,60 0,65 0,57 0,84 0,43 0,82 0,63
ция
OR 2,36(0,85–6,56) 1,40(0,64–3,04) 7,24 (2,54–20,64) 2,78(1,06–7,31)
(95%
ДИ)
1
Обратите внимание, что отношение шансов для центра 1 и центра 2 было незначимым как при исходных,
так и при измененных данных, а критерий гомогенности показал различные результаты. Критерий
гомогенности не сравнивает отношения шансов между собой. Он улавливает более тонкие изменения,
связанные с гомогенностью таблиц.
185
Рассчитаем модель без взаимодействия, учитывая вариацию, которую вносят
центры.
Таблица 17–11. Оценка параметров модели на основе измененных данных примера
Параметр βˆ SE βˆ p
Intercept
βˆ0 0,3726 0,2192 0,089
ОДЛ
βˆ1 0,9614 0,2359 <0,001
Центр 2
βˆ2 -0,3304 0,2963 0,262
Центр 3
βˆ3 -0,2031 0,3299 0,539
Центр 4
βˆ 4 0,1839 0,3336 0,539
При оценке значимости линейной модели нас интересовало MSS TSS RSS .
Общая вариация TSS состояла из двух частей: вариация относительно линии
регресии RSS (остаточная сумма квадратов) и вариация предсказанных на
основании модели значений исхода относительного среднего значения исхода
N
RSS yi yˆ i .
2
(сумма квадратов модели). Если модель не содержала
i 1
i 1 i 1 i 1
снижались при использовании модельного уравнения, содержащего независимые
переменные. Большое снижение означало значимое влияние независимой
переменной.
Для логистической регрессии поступают аналогично – сравнивают значения
наблюдаемых и ожидаемых исходов при наличии и отсутствии изучаемого
предиктора в модели.
Оценки параметров в логистической регрессии осуществляют на основании
метода максимума функции правдоподобия, т.е. находят такие оценки параметров,
которые дают максимальное правдоподобие на имеющихся данных.
186
Совместная вероятность данных (правдоподобие (likelihood)) равна:
N
N yi N
L p y i 1 p p i 1 1 p
1 y i N yi
i 1 ,
i 1
187
логарифмов L1 L βˆ и L0 L0 . Тест Вальда оценивает поведение функции
2
βˆ
логарифма правдоподобия около точки βˆ в форме . Чем больше кривизна, тем
SE
меньше стандартная ошибка, соответственно значение статистики Вальда больше.
Оценочный тест проводит касательную к кривой в точке β 0 . Чем больше наклон
касательной, тем дальше βˆ отстоит от нуля. Все три теста используют
χ 2 распределение для оценки значимости отклонений. Для малых выборок тест
отношения правдоподобия более надежен.
Этими тестами можно проверять различные гипотезы, как о значимости
отдельного предиктора, так и нескольких или всех предикторов, входящих в модель.
Lβ
L1
L0
0
β̂
188
Аналогично, можно рассчитать удаленные остатки (deleted residual),
девиацию каждого наблюдения и др. Также доступна статистика DFBETAs по
каждому предиктору.
Существуют несколько тестов, которые определяют согласие (goodness of fit)
построенной модели с имеющимися данными: тест le Cessie-van Houwelingen-Copas-
Hosmer, Hosmer-Lemeshow тест и др. Поскольку это критерии согласия, то нулевая
гипотеза о том, что данные согласуются с моделью остается верной, если уровень
pα.
Различные пакеты предоставляют различный набор диагностических
средств: графиков и тестов. Поэтому необходимо ознакомится с руководством по
конкретному пакету для выполнения соответствующих действий.
189
Для того, чтобы не давать объемные исходные данные, ниже в табл.17-12
приведены результаты разбиения на 4 группы.
Таблица 17–12. Данные примера
0,160
0,140
0,120
0,100
0,080
0,060
0,040
0,020
0,000
20 30 40 50 60 70 80
Возраст
190
0,140
0,120
0,100
0,080
0,060
0,040
0,020
0,000
0 10 20 30 40 50 60 70 80
Возраст
Рис. 17–4. График зависимости параметра от возраста после объединения двух категорий
Каждый раз, анализируя конкретную переменную, надо учитывать ее медико-
биологический смысл, ее релевантность конкретному исследованию,
целесообразность ее трансформации или разбиения.
Есть и более сложные алгоритмы анализа линейности связи бинарного исхода
и количественной переменной, но они выходят за рамки данного пособия.
191
• Логистичекая регрессия с использованием штрафной функции, чаще всего
используется смещение Ферта (Firth's bias reduction), – еще одна хорошая стратегия.
Использование смещения Ферта считается одним из идеальных решений при
полном разделении в логистической регрессии.
• Последний подход, если в модели используются только биноминальные
предикторы и только один из них представляет интерес, а остальные выступают в
роли конфаундеров – считать отношение шансов по Кокрейну-Мантелю-Хензелю,
переводя все остальные переменные в страты.
192
которые анализируются с помощью анализа категорий не менее эффективно, чем
регрессионный подход с использованием логистической регрессии.
Различные статистические пакеты определяют различные характеристики
модели, поэтому лучше консультироваться со специалистом по использованию
конкретного пакета для построения и использования логистической регрессии.
Также внимательно читайте разделы помощи, там описаны те характеристики
данных и модели, которые может рассчитывать пакет.
Не увлекайтесь логистической регрессией, она достаточно сложна в
обращении, иногда требует дополнительной коррекции (penalty function), не всегда
обладает хорошей чувствительностью и специфичностью, хотя модель может быть
значима и т.п.
Есть еще одно правило, касающееся количества предикторов и количества
оцениваемых параметров. Каждый оцениваемый параметр “весит” 8–10 наблюдений
с интересующим исследователя исходом. Это означает, что если у вас есть 100
наблюдений, но исследуемый исход наблюдался только в 10 случаях, вы можете
использовать только одну переменную. Если это количественный предиктор, то вы
можете его использовать; но использовать мультиноминальную переменную с 5
категориями в качестве предиктора – неправильно. В терминах двухвходовых
таблиц 2 c вы получите много пустых ячеек (empty cells). В случае 60 наблюдений,
из которых 30 наблюдений имеют исследуемый исход, вы можете использовать до
3–4 количественных предикторов, или 3–4 биноминальных, или один
мультиноминальный с 3–4 категориями. Если же количество интересующих исходов
составляют большую половину от всех наблюдений, то ориентироваться надо на
количество N n1 – объем выборки за минусом интересующих исходов. Иными
словами, выбирается наименьшая пропорция из двух (исход в логистической
регрессии либо 0, либо 1, соответственно, можно рассчитать пропорцию количества
0 и количества 1 в выборке), и количество наблюдений в числителе этой пропорции
определяет количество возможных предикторов модели.
Основные аспекты
Прежде чем строить модель логистической регрессии, убедитесь, что она
действительно необходима.
Анализ таблиц сопряженности для исхода и номинальных предикторов
полностью аналогичен логистической регрессии.
Логистическая регрессия с одним количественным предиктором – это аналог
ROC-анализа.
Логистическая регрессия с одним бинарным предиктором – это аналог
анализа таблиц 2 2 .
Логистическая регрессия с одним мультиноминальным предиктором – это
аналог анализа таблиц 2 c .
Логистическая регрессия специфично исследует исход при различных типах
дизайна исследования.
Количество оцениваемых параметров сопоставляется с количеством
наблюдений не всей выборки, а количеством наблюдений в наименьшей из
пропорций исходов.
193
18. Анализ выживаемости
Анализ выживаемости – это отдельный раздел статистических исследований,
главной особенностью которых является исход, наблюдаемый во времени (time-to-
event).
Данные выживаемости – это расширение данных о событиях, которое
учитывают время до наступления события или время до окончания наблюдения,
даже если событие не произошло к окончанию наблюдения. В рамках конкретного
исследования событие может наступить через период времени t , а может и не
наступить до конца наблюдения.
Поэтому особенность анализа выживаемости – наличие так называемых
“цензурированных данных”.
Поскольку в данных о времени до наступления события присутствуют
цензурированные данные, мы не можем анализировать количественный исход, как
это делалось в линейной регрессии. Данные также содержат сведения о событиях, но
мы не можем анализировать их с помощью логистической регрессии, поскольку
время наблюдения для каждого случая различно. В качестве исхода в анализе
выживаемости рассматривается время до наступления события или время
наблюдения и исход, который наступил или не наступил к указанному времени.
194
Н6
Н5
Н4 С
Н3 С
Н2 С
Н1
С Наступление события
Выбытие из под наблюдения без события
Н6
Н5
Н4
Н3 С
Н2 С
Н1
Начало время, t
наблюдения
195
Цензурирование может произойти в нескольких случаях:
пациент потерян из-под наблюдения в силу некоторых обстоятельств:
переехал, отказался участвовать в исследовании и пр. В этом случае конечным
временем выставляется дата последнего контакта с пациентом;
пациент выбыл из исследования в связи с наступлением другого события,
которое делает невозможным его дальнейшее участие в исследовании, например,
смерть от заболевания, которое не изучается в исследовании (гибель в
автомобильной аварии пациента, который принимал участие в исследовании
возникновения сопутствующих заболеваний сахарного диабета);
пациент выбыл по причине окончания сроков исследования.
Обычно, дизайн таких исследований – когортное исследование.
Необходимо очень внимательно подходить к определению момента начала
наблюдения и момента окончания наблюдения, поскольку они могут не совпадать
со сроками начала и конца исследования.
Также очень точно нужно определять, что именно является событием в вашем
исследовании и от какого момента исследования начинает отсчет времени
наблюдения.
Пример: изучается когорта пациентов, у которых установлен диагноз –
лимфобластный лейкоз. Изучаемые исходы – рецидивы , причинно-специфическая и
общая выживаемость. Расчет времен наблюдений будет различен. Для общей
выживаемости время до наступления события будет определяться с момента
постановки диагноза до момента летального исхода по любой причине. Для
причинно-специфической выживаемости время будет отсчитываться от момента
постановки диагноза до момента смерти по причине (или вследствие) лейкоза. Для
рецидивов началом отсчета будет считаться момент наступления ремиссии
пациента, окончание – момент обнаружения рецидива заболевания. И вероятность
наступления рецидива в такой когорте будет рассчитываться с учетом того, что у
некоторой части наблюдаемых ремиссия не была зафиксирована. Если бы изучалось
лечение солидной опухоли с оперативным вмешательством, момент начала отсчета
времени для безрецидивной выживаемости совпадал бы с моментом оперативного
вмешательства.
196
наступило до момента времени t , иначе говоря, вероятность того, что время
наступления события больше чем t .
Понятно, что со временем F (t ) не убывает, а S (t ) – не возрастает.
Как рассчитать вероятность S (t )? Есть несколько методик расчета. Одна из
наиболее распространенных – таблицы дожития (Life table).
Принимается, что в момент начала наблюдений S 0 1 .
Пример расчета приведен в табл.18–1. Единицей измерений интервала могут
выступать час, сутки, неделя, год и т.п. Шаг интервала постоянен и может быть
кратен единице измерения. В примере – это 5 месяцев. График зависимости S (t ) от
времени приведен на рис. 18–3.
Таблица 18–1. Пример расчета таблицы дожития
Количество наблюдений на начало
периода
периода
Пропорция
период
ni* pi
ti t i 1 ni mi di Sˆ t i Sˆ t i 1 pi 1
ni mi 2 1 di ni*
1 0 5 395 4 5 393 0,9873 Sˆ 0 1
Sˆ 5 1 0,9873
2 5 10 386 12 11 380 0,9711
0,9873
S 10 0,9873 0,9711
3 10 15 363 23 12 351,5 0,9659
0,9873
4 15 20 328 16 19 320 0,9406 0,9260
5 20 25 293 8 14 289 0,9516 0,8710
6 25 30 271 14 10 264 0,9621 0,8288
7 30 35 247 7 10 243,5 0,9589 0,7974
8 35 40 230 12 22 224 0,9018 0,7647
9 40 45 196 13 9 189,5 0,9525 0,6896
10 45 50 174 15 12 166,5 0,9279 0,6568
11 50 55 147 18 3 138 0,9783 0,6095
12 55 60 126 6 6 123 0,9512 0,5962
13 60 65 114 6 4 111,0 0,9640 0,5671
197
Рис.18–3. График зависимости S t от времени на основе таблицы дожития
Каплан и Майер предложили рассчитывать оценку функции выживаемости
nt di
как Ŝ t i , где t i – момент наступления события в наблюдаемой выборке,
t i t nt i
nt i – количество наблюдаемых на момент времени t i (т.е. исключают выбывших
до момента t i ) , di – количество событий в момент времени t i , S t 1 , если t t 1 .
Т.е. функция рассчитывается в моменты времени, когда наступает событие,
считается, что она не изменяется, когда событий не происходит, в начале
наблюдений, когда t 0 , S t 1 . Пример графика функции выживаемости с оценкой
Каплана-Майера (Kaplan–Meier estimator) приведен на рис. 18–4.
SE Vˆar Sˆ t Sˆ t
di
nt nt d .
t i t i i i
198
Sˆ t L Sˆ t z γ Vˆar Sˆ t ,
Sˆ t U Sˆ t z γ Vˆar Sˆ t
1
Фактически тестовая статистика рассчитывается на основе функции риска (см. раздел 18.4.).
199
Тест весовой коэффициент
Логранговый w 1
Gehan-Breslow wN
(обобщенный тест
Wilcoxon)
Tarone-Ware w N
Peto-Peto (Peto-Peto- w Sˆ t
Prentice)
Модифицированный N
Peto-Peto w Sˆ t
N 1
Если бы не было времен наблюдений, то эти тесты были бы аналогичны
тестам Манна-Уитни (для двух выборок), тесту Краскела-Уоллиса (для нескольких
выборок), тесту Мантеля-Хензеля и т.п. Но если мы сравним пропорции выживших
только в один момент времени, можем получить результат, который
свидетельствует об отсутствии различий (см. рис. 18–5). На рисунке можно увидеть
различия в двух группах в 20, 40, 60 месяцев, однако после 80 месяцев различия
исчезают. Логранговый тест, благодаря суммированию различий в моменты
наступления событий, “накапливает” суммарное различие на протяжении всего
времени наблюдения.
200
ht , измеряется как количество случаев на один объект наблюдения в единицу
времени, ht является аналогом моментальной скорости наступления событий в
единицу времени.
Чтобы не давать точного математического описания взаимосвязи этих
величин, рассмотрим пример.
Предположим, случайное событие наступает 1 раз в 100 лет. Разобьем весь
наш интервал наблюдения в 100 лет на k равных интервалов, например 1 год.
Вероятность того, что событие не наступит через год после начала т.е.
1
выживаемость S 1 1 0,99 .
100
Кумулятивная вероятность того, что событие не наступит через два года
равна вероятности того, что событие не наступило в первый год, умноженная на
вероятность не наступления события во второй год: S 2 S 1 1 0,01 1 0,01 .
2
201
если отношение рисков более 1, то есть основания говорить о неблагоприятном
факторе (воздействии) в группе 1,
Статистическая задача – доказать, что это отношение значимо (т.е
доверительный интервал не включает единицу, поскольку рассматриваем
отношение). Теория оценивания отношения риска такова, что нам не обязательно
знать сами функции риска групп и их изменение во времени.
Предположение, которое лежит в основе многих тестов и моделей – это
предположение о пропорциональности функций риска (proportional hazard
assumption), т.е., что HRt HR const . Тогда мы можем говорить о том, что
некоторая группа на всем протяжении времени исследования имеет более высокий
(низкий) риск, чем другая.
202
18.6. Регрессия Кокса с бинарным предиктором
Пусть предиктором является биноминальная переменная x со значениями 0
и 1. Запишем функцию риска ht | x h0 t exp β 1 x .
При x 1 , ht | x 1 h0 t expβ 1 ;
при x 0 , ht | x 0 h0 t expβ 1 0 h0 t .
ht | x 1 h0 t expβ 1
Отношение рисков HR t expβ 1 . Т.е. отношение
ht | x 0 h0 t
рисков изменяется в expβ 1 раз, если в модели учитывается бинарная переменная
(например, 2 группы лечения, пол и пр.).
Если значимо β 1 0 , expβ 1 1 , мы наблюдаем увеличение риска в expβ 1
раз при сравнении двух групп, бинарная переменная увеличивает риск исхода,
снижает выживаемость.
Если значимо β 1 0 , 0 expβ 1 1 , т.е мы наблюдаем уменьшение риска в
expβ 1 раз при сравнении двух групп, бинарная переменная снижает риск исхода,
увеличивает выживаемость.
Ремарка: Используя термин "риск" в данном контексте, мы подразумеваем, что речь
не идет о кумулятивном риске за весь период наблюдения, а именно о функции ht .
Для проверки значимости параметра β 1 тестируется нулевая гипотеза,
которая гласит, что H0 : β 1 0 , т.е. риски равны в обеих группах. Если β 1 0 ,
expβ 1 1 , мы наблюдаем равенство рисков при сравнении двух групп, что означает
– бинарная переменная не влияет на выживаемость. Эта модель аналогична
логранговому тесту, который сравнивает выживаемость в двух группах.
Если в модели линейной регрессии мы могли предсказать значение исхода по
значениям предиктора непосредственно из уравнения линейной регрессии, в
логистической регрессии мы преобразовывали линейную комбинацию предикторов
для получения предсказанной вероятности наступления события. Для того, чтобы
получить ожидаемую (прогнозируемую) функцию выживаемости на основе модели
Кокса, нужны более сложные преобразования и расчеты, которые учитывают не
только полученные параметры модели, но также все наблюдения в исследуемой
когорте. Т.е. на основании модели можно оценить отношение рисков, базовая
функция выживаемости строится на основании имеющихся данных в исследуемой
когорте, и уже потом модифицируется с учетом рисков, привносимых предикторами.
203
Отношение рисков изменяется в expβ 1 раз, если переменная x
увеличивается на 1.
Если значимо β 1 0 , expβ 1 1 , мы наблюдаем увеличение риска в expβ 1
раз при увеличении количественной переменной на единицу шкалы ее измерения,
переменная увеличивает риск исхода, снижает выживаемость.
Если значимо β 1 0 , 0 expβ 1 1 , мы наблюдаем уменьшение риска в
expβ 1 раз при увеличении количественной переменной на единицу шкалы ее
измерения, переменная снижает риск исхода, увеличивает выживаемость.
Для проверки значимости параметра β 1 тестируется нулевая гипотеза,
которая гласит, что H0 : β 1 0 , т.е. риски равны при изменениях количественной
переменной. Если β 1 0 , expβ 1 1 , т.е мы не наблюдаем изменений в риске т.е.
количественная переменная не влияет на выживаемость.
204
Рис. 18–6. Графическая диагностика предположения о пропорциональности рисков
Если работать с моделью, в которой нарушено предположение, то можно
получить модель, неадекватную имеющимся данным. На рисунке 18–7 слева –
графики Каплан-Майера по выживаемости в двух группах, для которых риски
непропорциональны, справа графики выживаемости, построенные на основе
параметров Кокс-регрессии на этих же данных (т.е. модель данных с одним
бинарным предиктором). Как видно, модель совершенно не отражает поведение
данных. Математически расчеты могут быть проведены в любом случае, оценить
результаты расчетов – это задача исследователя.
205
Рис. 18–8. Оценка Каплан-Майера и модельные оценки функции выживаемости при
соблюдении предположения о пропорциональности рисков
βˆ
2
-2
Log (t)
206
Кроме этого, рассчитывается индекс согласованности (Concordance index, c-
index), который определяет вероятность согласованности для двух случайных
наблюдений, согласованность в данном случае означает, что в паре наблюдение с
более коротким временем выживаемости имеет более высокий риск. Индекс
согласованности рассчитывается не только для оценки Кокс-регрессии, но и для
других моделей, которые включают в себя вероятность наступления события.
Если в модели есть одна количественная переменная, индекс согласованности
эквивалентен τ Кенделла. Значение индекса 1 – это полная согласованность,
значение 0,6–0,7 – это типичный результат для данных по выживаемости; 0,5 – это
означает, что согласованность имеет случайный характер; менее 0,5 – возможно, что
наблюдение с более коротким временем выживаемости имеет менее высокий риск,
т.е. необходимо понять как именно должен интерпретироваться исследуемый
фактор риска.
Вычисление проводится для всех nn 1 2 пар наблюдений в выборке. Для
данных выживаемости, однако, не все пары сравнимы. Например пара времен (5+, 8).
Первое наблюдение цензурировано, и мы не знаем, на самом деле время выживания
первого наблюдения больше или меньше, чем второго. Тем не менее, индекс
согласованности, с учетом связок (одинаковые значения времени до события или
одинаковые значения предиктора), может давать информацию о качестве подгонки
модели.
207
18.12. Основные типы выживаемости при исследовании
онкологических заболеваний
Медианная выживаемость (median survival)
Медианная выживаемость (median survival) – это мера того, как долго
пациенты будут жить с определенной болезнью или после лечения. Вероятность
остаться в живых свыше срока медианной выживаемости составляет 50%.
Определение:
Медианная выживаемость – это срок, который означает, как долго выживают
пациенты с заболеванием в общем или после соответствующего лечения. Это время
(выраженное в месяцах или годах), когда ожидается, что половина пациентов жива.
Это означает, что вероятность выжить более этого времени составляет 50%.
Пример:
Медианная выживаемость пациентов с I стадией фолликулярной лимфомы
после лечения радиационной терапией составляет 10 лет.
Для конкретного пациента это означает, что вероятность остаться в живых
свыше 10 лет равна 50%.
Общая выживаемость (overall survival, OS)
Общая выживаемость – указание пропорции наблюдаемых в пределах группы,
кто, как ожидается, выживет свыше указанного времени. Общая выживаемость
учитывает смертельный исход по любым причинам – как связанным, так и
несвязанным с исходным заболеванием.
Определение:
Общая выживаемость – характеристика, которая определяет вероятность
остаться в живых для наблюдаемых в пределах группы с некоторым заболеванием.
Общая выживаемость указывает процент наблюдаемых в группе, которые возможно
останутся живы свыше определенного времени. На базовом уровне, общая
выживаемость показывает соотношение эффективности лечения.
Пример:
5-летняя общая выживаемость для стадии IIA Ходжкинской лимфомы
составляет 80%, когда лечится с применением препарата XXX, включая
радиотерапию.
Это означает, что из всех пациентов в наблюдаемой группе со стадией IIA
Ходжкинской лимфомы 80% осталось в живых после 5 лет наблюдения.
Причинно-специфическая выживаемость (cause-specific survival, CSS)
Причинно-специфическая выживаемость – это характеристика, подобная
общей выживаемости. Он измеряет пропорцию наблюдаемых, которые умрут, как
ожидается, от рака за определенное время. Отличие от общей выживаемости в том,
что исключаются (цензурируются) случаи смерти, не связанные с раком.
Определение:
Причинно-специфическая выживаемость – характеристика, которая означает
вероятность смерти в силу (или по причине) специфических условий в
определенный момент времени. Исключаются смерти, не связанные с болезнью.
Используется в описании выживаемости в клинических и популяционных
исследованиях.
Пример:
208
''5-летняя причинно-специфическая выживаемость для стадии IIA
Ходжкинской лимфомы составляет 85%, когда лечится с применением препарата
XXX, включая радиотерапию. ''
Это означает, что 15% из этих пациентов умрет непосредственно из-за
болезни IIA Ходжкинской лимфомы в течение 5 лет. Оставшиеся 85% будут живыми
или умрут по другим несвязанным с основным заболеванием причинам.
Выживаемость, свободная от заболевания (disease-free survival, DFS)
Выживаемость, свободная от заболевания – мера пропорции между всеми
пациентами, которые лечились от рака и теми из них, кто не заболел спустя
определенное время после лечения.
DFS означает вероятность остаться свободным от заболевания после
специфического лечения для группы наблюдаемых, страдающих от рака. Это –
процент наблюдаемых в группе, кто, вероятно, свободен от заболевания после
указанного периода времени. Отношение DFS – индикатор того, насколько
эффективно определенное лечение.
Очень часто, две стратегии лечения сравниваются на основании DFS, которая
достигается в подобных группах.
DFS часто используется вместе с термином общая выживаемость при
описании исследований.
Пример: ''2-летняя DFS для стадии IIA Ходжкинской лимфомы составляет
80%, когда лечится с новой комбинацией препаратов.'' Это подразумевает это после
этого лечения, 80% из тех, кто принимал это лечение, свободен от заболевания в
течение 2 лет.
Бессобытийная выживаемость (event-free survival, EFS)
Бессобытийная выживаемость – это мера пропорции наблюдаемых в пределах
группы, у которых нет осложнений после лечения, которое разработано чтобы
предотвратить или задержать определенные осложнения.
Определение:
Бессобытийная выживаемость – характеризует возможность возникновения
специфического события (группы событий) после лечения, которое проектируется,
чтобы задержать или предотвратить эти события.
Бессобытийная выживаемость рассчитывается, когда дается определенное
лечение для предотвращения или сдерживания специфических осложнений
болезни.
Пример:
1-летняя бессобытийная выживаемость для боли в костях при лимфомах
после лечения радиотерапией составляет 50%. Это означает, что у 50% пациентов,
после лечения радиотерапией не наступит боли в костях в течение года.
Основные аспекты
При анализе выживаемости исследуется процесс, связанный со временем.
Функция риска (моментальный риск) не измеряется напрямую, интерес
представляет отношение рисков в исследуемой популяции.
Проверка допущений, лежащих в основе модели – обязательна.
Использование графического материала в анализе выживаемости очень
важно.
209
19. Выбор предикторов для модели и рекомендации по
построению регрессионных моделей
Выбор предикторов по сей день остается самой нетривиальной задачей
анализа данных. Единого алгоритма выбора не существует. Есть
последовательность шагов, которые надо проделать, чтобы получить модель,
описывающую ваши данные, но решение на каждом шаге принимает исследователь.
Конечная модель должна быть мотивированно обоснована, интерпретируема,
убедительна; предположения, лежащие в основе модели, должны соблюдаться.
Рекомендации по выбору предикторов и построению моделей
1. Переменная исхода должна быть единственная и адекватно представлять
результат исследования. Переменная, представляющая интерес для исследователя
(variable of primary interest, primary variable) – чаще всего фактор риска или
прогностический фактор, т.е. предиктор, – должна быть тщательно описана,
выявлены ее связи с переменной исхода и другими возможными предикторами,
чтобы понять их влияние на исследуемый фактор1.
2. В исследовании не должно быть более 15–20 потенциальных предикторов.
Это объясняется следующим рассуждением. Уровень значимости исследования
α 0,05 предполагает, что в одном из 20 случаев мы можем допустить ошибку.
Таким образом, наличие более чем 20 параметров исследования приводит к тому,
что некоторая связь (из более чем 20) между предполагаемым предиктором и
исходом может быть получена случайно.
3. Построению модели всегда должен предшествовать анализ связи между
предполагаемым предиктором и исходом.
4. Некоторые авторы указывают, что если для предполагаемого предиктора и
исхода установлена связь или ассоциация на уровне значимости p 0,25 , то
потенциально такой предиктор можно включать в предварительную
мультивариантную модель, поскольку возможно, что его взаимодействие с другими
переменными модели выявит его значимое влияние на исход (маскирующий эффект
вмешивающихся переменных).
5. Основная проблема обсервационных наблюдений (см. раздел 2) – это
наличие скрытых влияний, смещающих истинную оценку связи исследуемого
фактора с исходом. Поэтому конфаудеры включают в модель для снижения
эффектов искажения, исследуют их взаимодействие с изучаемым фактором и
исходом.
Общее правило:
если способ выборки объектов исследования или сбора данных ведет к
некорректной ассоциации, говорят об уклоне/смещении (bias) данных;
1
Анализ двух переменных называется бивариантным анализом (bivariate analysis), в котором нас не
интересует, какая из переменных является зависимой, мы пытаемся обнаружить связь между двумя
переменными. Модель (регрессионная) с одним предиктором называется унивариантной моделью или
унивариантным анализом (univariate analysis), который предполагает, что зависимая переменная
определяется значениями (уровнями) одной независимой переменной. В англоязычной литературе,
например, встречается следующее: если вы используете критерий Фишера таблиц 2 х 2 – это bivariate
analysis, если логистическую регрессию для тех же данных с одним предиктором – это univariate analysis, и
т.п.
210
если наблюдаемая ассоциация не корректна, поскольку имеются переменные,
ассоциированные как с потенциальными предикторами, так и с исходом, хотя и не
являются причиной исхода сами по себе, то говорят о конфаундерах;
если наблюдаемый эффект имеет место, но его величина различна для
различных групп (например мужчины и женщины), то говорят о модификации
эффекта (взаимодействии).
6. Для бинарного исхода (логистическая и Кокс-регрессия) лучше сначала
тестировать возможную нелинейность и трансформировать или категоризировать
количественную переменную до включения в предварительную мультивариантную
модель (т.е. модель с несколькими переменными и их взаимодействием).
7. Для категориальной переменной определить категории, которые возможно
объединить без потери медико-биологической информативности.
8. При построении предварительной мультивариантной модели есть
несколько подходов к ее формированию: пошаговое включение переменных в
модель, пошаговое исключение, полный перебор комбинаций переменных. Каждый
подход имеет свои преимущества и недостатки и не гарантирует, что
предположения, лежащие в основе модели будут соблюдены.
9. Не гонитесь за количеством предикторов, правило для исследования
бинарного исхода (логистическая регрессия или регрессия Кокса): не менее 10
наблюдений с исследуемым исходом на один параметр модели. Для
количественного исхода (линейная регрессия) – это не менее 6–8 наблюдений на
один параметр модели.
10. Выявление важных независимых предикторов – одна из целей построения
модели. Определение лучшей модели – это баланс между сложностью и
интерпретируемостью. Нужна большая осторожность в интерпретации слабых
ассоциаций.
11. Модели с несколькими предикторами часто страдают от
мультиколлинеарности – корреляции между предикторами, которая дает
следующий эффект: кажется, что ни одна переменная не значима, когда модель
включает мультиколлинеарные предикторы. Может казаться, что у предиктора
небольшой эффект, потому он уже "предсказывается" другими предикторами,
которые коррелируют с ним. Удаление избыточного предиктора необходимо, но
нужно определить, какой именно предиктор избыточен и решение принимает
исследователь не только на основании математических расчетов, но и на основании
медико-биологического смысла предиктора.
12. Как правило, сложная модель строится в несколько итераций. Поэтому
возможно повторение шагов изучения взаимосвязи двух переменных в наборе
данных, корректировка линейности (пропорциональности), проверка взаимосвязи
предикторов, прежде чем переменная окончательно включается в
мультивариантную модель.
13. При построении регрессии вы будете использовать некоторый
статистический пакет для расчетов. Убедитесь, что вы правильно понимаете все
расчеты, которые выдает пакет. Как правило, в пакетах есть контрольные примеры.
Найдите походящий пример и выполните сначала его.
14. Документируйте результаты как предварительных расчетов и
предварительных моделей, так и окончательных. Это поможет избежать повторов,
утвердится в правильности пути анализа.
211
20. Использование результатов моделирования для прогноза1
В линейных регрессионных моделях в первую очередь мы изучали связь
предиктора и исхода, силу этой связи, влияние вмешивающихся переменных и иные
нюансы поведения предиктора и исхода. Следующий шаг, который кажется
логичным – использовать построенную модель для предсказания результатов
нового наблюдения. Но несмотря на то, что математически вы можете это сделать,
будет ли ваш результат прогноза верным?
Очень важный момент исследований – это экстраполяция результатов
исследования на популяцию.
Выше было кратко сказано, что на основании моделей можно делать прогноз.
Но нужно быть крайне осторожным, поскольку ваша выборка имеет ограниченную
“зону влияния”.
Необходимо принимать во внимание тип дизайна исследования. При дизайне
“случай-контроль” исследуется связь и сила связи предиктора и исхода, но группы
исследования не отражают состояние распространенности заболевания в
популяции. Когортное исследование является более подходящим для построения
модели прогноза, но оно может иметь систематические ошибки, которые модель не
в состоянии устранить.
В исследовании так или иначе создаются искусственные ограничения
(включение и исключение пациентов в исследование), реальные клинические
случаи более вариативны.
Например, исследования шли в Европе, и 90% пациентов в исследовании
имели белую расу. В окончательную модель конфаундер “раса” не был включен.
Будет ли ваша модель работоспособна для пациентов другой расы?
Для того, чтобы модель могла быть экстраполирована на всю популяцию,
первый шаг – валидация модели. Валидация модели бывает внутренней и внешней
(internal and external validity).
Внутренняя валидация подразумевает, что после построения модели на
данных выборки, эти же данные определенным образом используются для
валидации. Внутренняя валидация скорее служит целям показать внутреннюю
непротиворечивость модели, отсутствие систематических ошибок.
Для внешней валидации используется другой набор данных аналогичного
исследования. В этом случае выборку, по которой строилась модель, называют
обучающей, внешняя выборка называется тестовой. Объем тестовой выборки
должен быть сравним с объемом обучающей выборки.
Существуют определенные критерии “производительности” моделей. Это
мера объясненной вариации R 2 , оценка Брира (Brier score), индекс согласованности
(concordance index, c-index) и др.
Если валидация модели показала удовлетворительные результаты, то
следующий шаг – это калибровка модели. Калибровка – это оценка разногласий
модели и реальных данных, введение поправок. Она выполняется как на обучающей
так и на тестовой выборке.
Также может быть рассчитана чувствительность и специфичность модели: ее
возможность правильно различать бинарные исходы.
1
Только для ознакомления
212
Если есть доказательства того, что линейная модель пригодна для
прогнозирования, то, благодаря линейности комбинации предикторов, может быть
построена номограмма и проведена калибровка номограммы.
В любом случае, построение модели прогноза – это сложный этап, и не всегда
построение модели является целью исследования. Чаще модели используются для
оценки влияния исследуемого фактора на исход с учетом вмешивающихся
переменных для определения истинной силы влияния исследуемого фактора.
Основные аспекты
Модели прогноза используются для практических целей, для клинической
практики, эпидемиологических служб и т.п. Поэтому кроме того, что доказана
статистическая значимость модели, надо убедится, что она пригодна к
практическому применению.
213
21. ANOVA с повторяющимися измерениями
Анализ вариаций (ANOVA) – мощный инструмент для анализа
количественных измерений, которые могут быть сгруппированы по некоторым
признакам. Зависимая переменная является количественной переменной,
группировок (категориальных переменных) может быть несколько. Основная
интерпретация такого анализа – как изменяются средние значения количественной
переменной в зависимости от того, какой группе (подгруппе) принадлежит
наблюдение и каково соотношение между ними. Интерес исследования, как правило,
связан с категориальной переменной – группами исследования, но о различии групп
мы судим по средним значениям количественной переменной.
ANOVA с повторяющимися измерениями предполагает, что одна
категориальная переменная определена особым образом и связана с дизайном
исследования. Чаще в медико-билогических исследованиях это некоторые точки
времени (timepoint, visit), в которых измерения повторяются для всех наблюдений
(для всех пациентов, включенных в исследование). Также ANOVA с повторяющимися
измерениями используется для обработки данных в дизайне, который предполагает
исследование действия различных препаратов на одну и ту же группу испытуемых.
Особенностью является то, что проводятся повторные измерения у одного и того же
пациента, и ANOVA с повторяющимися измерениями учитывает это при оценках
эффектов (различий) между группами. Группы, по возможности, должны иметь
одинаковую численность, сбалансированы по численности.
Типичная задача 1 – исследовать, как изменился некоторый параметр
(давление, уровень лейкоцитов, концентрация препарата в организме и т.п.) за
время между двумя или более точками во времени. Это может быть длительное
лечение некоторого заболевания. Исследуется несколько типов лечения. В этом
случае группы должны быть исходно однородны, т.е. не различаться по
исследуемому параметру, а также по конфаундерам, которые могут влиять на
исследуемый параметр.
Типичная задача 2 – группы изначально разделены по уровню исследуемого
параметра. Необходимо проследить динамику этого параметра в связи с одним и
тем же воздействием (например, лечением) у различных групп. Предполагается, что
группы однородны по конфаундерам.
Типичная задача 3 – взяты образцы тканей (биопсия, кровь) у различных
испытуемых, разделены на несколько частей, осуществляется несколько различных
воздействий на части каждого образца. Как вариант дизайна, в рандомизированных
клинических испытаниях исследуется несколько препаратов и испытуемый
получает все препараты в случайном порядке1. Этот дизайн относится к так
называемому полному однофакторному эксперименту. Здесь нет фактора времени,
есть различные уровни воздействия фактора на одну группу, т.е. исследуемыми
группами становятся результаты каждого воздействия на одни и те же образцы.
Задача – оценить различия в исследуемом параметре в связи с различными
уровнями воздействия фактора. Если важно исходное состояние образцов, то
добавляют еще одну группу – контроля, которая фиксирует неизменное состояние, и
после выполнения ANOVA может проводиться сравнение с контрольной группой
(критерий Даннетта/Dunnett test).
1
Это экспериментальное исследование. Полное описание этого типа дизайна не приводится. Каждое такое
исследование строго регламентировано и документ, сопровождающий такие испытания, может занимать
300-500 страниц.
214
Задачи на типы поделены условно в данном пособии. На самом деле первые
два типа задач называют моделями со смешанными эффектами, двухфакторная
ANOVA с повторяющимися измерениями (mixed effects models , 2-ways repeated
measures ANOVA). Задачи третьего типа – однофакторная ANOVA с повторяющимися
измерениями (one-way repeated measures ANOVA).
Далее рассмотрим задачи 1-2 типа, которые включают повторные измерения
во времени у нескольких групп.
Ремарка: Фармакокинетические исследования – это также повторяющиеся наблюдения, но для
обработки таких данных используется специальный математический аппарат.
215
отношение MS(GV)/MSE характеризует различия между группами в динамике
наблюдений.
Таблица 21-1. Интерпретация и визуализация расчетов ANOVA
MSG/MSP(G) MSV/MSE MS(GV)/MSE Визуализация Возможные причины1
до после
до после
1
Комментарии даны из личного опыта автора. Безусловно, варианты объяснений могут быть другими.
216
4 значимо значимо значимо Есть значимый эффект от
лечения в целом, между
группами (вариантами
лечения) значимые различия
в эффективности типов
лечения
до после Как вариант, изучалось
воздействие одного
препарата на организм.
Разделение на группы шло по
некоторому признаку,
который как
предполагалось, менял
до после эффект лечения.
5 значимо незначимо значимо Возможно, изначально
пациентов делили на группы
по уровню исследуемого
показателя, а различные
типы лечения имеют
противоположные
до после эффекты.
В первом случае также
возможно, что проводятся
испытания одного и того
же препарата, который
нормализует отклонения в
исследуемом параметре
Во втором случае возможно,
изучается некоторый
неблагоприятный фактор,
который дисбалансирует
состояние изучаемого
до после параметра.
6 значимо незначимо незначимо Группы изначально не
рандомизированны,
возможно
несбалансированны. Не
соотносите различия в
исходном состоянии с
до после различием в результатах
лечения.
7 незначимо незначимо незначимо Нет никаких эффектов.
до после
217
Например, группы разделены по уровню исследуемого
фактора, в одну группу включены мужчины с высоким
уровнем исследуемого показателя, в другую –
женщины с низким уровнем показателя, третья
группа смешана и уровень показателя средний. Т.е.
использовано два признака деления на группы вместо
одного. В этом случае фактор пола должен быть
ковариатой и его вариация должна учитываться в
составе модели.
В социологических исследованиях некоторые
мотивации дают различное воздействие на
различные социальные группы и такие
взаимодействия изучаются.
После общего анализа можно оценить средние значения в каждой группе в
каждой точке времени ( до и после). Оценка средних обычно проводится методом
наименьших квадратов ( LS means). Также можно оценить размер эффектов –
разность в средних между группами, разность в средних между точками времени,
разность между изменениями в группах. Статистические пакеты предоставляют
такую возможность с учетом поправок на множественность сравнений.
Пример
Некоторый биохимический параметр BioChem (который исходно повышен)
замерялся до начала лечения и спустя 2 недели (категориальная переменная
"timepoint" с двумя уровнями before/after. Лечение было направлено на снижение
данного параметра. Исследование изучало три типа лечения (категориальная
переменная "treatment", три уровня – A, B, C). Данные приведены в Приложении R-12.
Шаг 1.
Проверим предположения, лежащие в основе анализа вариаций.
Проверим данные до и после лечения на соответствие закону нормального
распределения в каждой из групп лечения на каждой точке времени критерием
согласия Шапиро-Уилка. ANOVA устойчива к небольшим отклонениям данных от
закона нормального распределения, но в нашем примере ни одна из подгрупп не
нарушает предположения о согласии с законом нормального распределения1.
Выполним тест на гомогенность дисперсий и убедимся, что предположение не
нарушается (р= 0,5233).
Шаг 2.
Выполним анализ.
В результате получим расчеты, приведенные в Таблице 21-2.
Таблица 21-2. Расчеты ANOVA, статистический пакет R, библиотека ez
Effect DFn DFd SSn SSd F p ges
(Intercept) 1 24 18592,67 403,00 1107,26 0,0000 0,98
treatment 2 24 72,33 403,00 2,15 0,1379 0,13
timepoint 1 24 75,85 73,22 24,86 0,0000 0,14
treatment:timepoint 2 24 68,93 73,22 11,30 0,0003 0,13
SSn – вариация соответствующего эффекта (Sum of Squares in the numerator,
a.k.a. SSeffect);
1
Это предположение не является обязательным. Более важно соблюдение предположения о гомогенности
дисперсий, а также о нормальности распределения остатков модели. Тем не менее, предпочтительнее
данные, которые изначально подчиняются закону нормального распределения.
218
SSd вариация с которой сравнивается вариация эффекта по F-критерию
(Sum of Squares in the denominator , a.k.a. SSerror);
DFn и DFd – степени свободы соответствующих вариаций;
F – значение F-критерия;
ges – оценка величины эффекта: доля вариации зависимой переменной
(BioChem), которая объясняется независимой переменной при фиксированных
значениях остальных переменных.
Таблица 21-3. Расчеты ANOVA, статистический пакет R, библиотека lme4
Effect Sum Sq Mean Sq NumDF DenDF F.value Pr(>F)
treatment 13,14 6,571 2 24 2,15 0,1379
timepoint 75,85 75,852 1 24 24,86 0,0000
treatment:timepoint 68,93 34,463 2 24 11,30 0,0003
Шаг 3.
Проверка предположений о распределении остатков модели.
На Рис.21-1 представлен график “квантиль-квантиль” остатков модели.
219
Шаг 4.
Расчет эффектов и визуализация. Разультаты оценки средних и различий в
средних по группам и лечению не приводятся.
На Рис.21-2 представлена различная визуализация результатов на основании
оценки средних.
220
эксперимент останенется статистически незначимым, т.е. мы не имеем права
экстраполировать результаты на популяцию.
При множественных попарных сравнениях одновременно проверяется
несколько гипотез.
Аналогично Таблице 4-1 мы можем составить Tаблицу 21-4.
Tаблица 21-4. Уровень ошибки при множественных сравнениях
Число верных гипотез Число неверных гипотез
(нет различий, нулевая (различия истинны)
гипотеза верна)
“Не значимо” A B
“Значимо” C D
221
Нельзя вести анализ параметра по группам пациентов отдельно, равно как и
не стоит вести его отдельно по точкам наблюдения: до, во время и после лечения.
Вы увеличиваете вероятность ошибки. Анализ должен быть общим, учитывать
особенности пациентов.
Проводя только парные сравнения без поправки, мы можем контролировать
только ошибку парного сравнения (comparisonwise error rate (CER)); используя
критерий Фишера мы можем контролировать ошибку эксперимента при гипотезе
омнибуса, см. раздел 15 (experimentwise error rate under the complete null hypothesis
(EERC)); используя поправки, мы контролируем максимальную ошибку
эксперимента (maximum experimentwise error rate under any complete or partial null
hypothesis (MEER)).
Таким образом, сила статистического вывода зависит от того, какую ошибку
мы контролируем.
222
22. Лабораторные эксперименты
Большинство лабораторных исследований на животных являются
рандомизированными контролируемыми исследованиями (randomized controlled
trials – RCT).
Эти исследования имеют три важных аспекта:
• Рандомизация (Randomization). Животные случайным образом
распределяются по группам лечения. Рандомизация важна, потому что увеличивает
вероятность того, что среди групп лечения нет различий в начале исследования, и
поэтому различия между группами в конце исследования являются результатом
лечения. Рандомизация не гарантирует, что группы лечения точно сопоставимы в
каждом исследовании, только то, что они будут сопоставимы в среднем. По-
прежнему существует вероятность того, что группы будут отличаться только
случайностью, а рандомизация позволяет измерять вероятность различий из-за
случайности.
• Контроль (Control). В исследовании сравниваются результаты для
животных, получающих интересующее лечение и конечные результаты для
животных в сравнительной группе, которая во всех отношениях одинакова, кроме
лечения. Обычно группа сравнения получает плацебо или текущий стандарт
лечения. Это необходимо, потому что часто животные могут чувствовать себя
лучше/хуже сами по себе и важно знать, как лечение влияет на них помимо того, что
произошло бы в отсутствие лечения.
• Ослепление (Blinding): экспериментатор не знает, какие животные получают
лечение. Это важно, чтобы избежать таких проблем, как обеспечение лучшего ухода
или применение разных стандартов (даже не осознавая этого) к одной из групп.
223
• Перекрестный дизайн (Crossover design): для одного и того же животного
последовательно применяют две или более обработки. Животные
рандомизированно получают лечение либо A, либо лечение B, во-первых, в случае,
если порядок, в котором лечение принимается, влияет на результат. Каждое
животное получает одно лечение в течение определенного периода времени, затем,
после периода выздоровления или “вымывания” (wash-out) без лечения, получает
второе лечение.
224
Например, “состояние 24 из 40 животных (60%) улучшились в ходе
исследования, состояние 12 животных (30%) остались неизменными, а у остальных
4 (10%) ухудшилось”.
B. Количественные данные:
Количественные данные должны описываться как мерой расположения,
которая описывает центр распределения, или типичным значением; а также мерой
дисперсии, которая описывает меру распространения данных, или как данные
соотносятся с центром распределения. Обычные меры определения
местоположения включают среднее, медиану и геометрическое среднее. Обычные
меры дисперсии включают стандартное отклонение, доверительный интервал и
интерквартильный размах (IQR). Выбор для конкретного анализа зависит от типа
обобщаемых данных (см. Раздел 7.1.5).
Счетные: Медиана и IQR
Непрерывные величны, не подчиняющиеся закону нормального распределения:
Медиана и IQR, или среднее геометрическое и доверительный интервал. Среднее
геометрическое (Сг) и доверительные интервалы для Сг часто используются для
отношений, титров и других измерений, которые лучше всего просматривать и
анализировать в логарифмической шкале.
Непрерывные величны, подчиняющиеся закону нормального распределения:
среднее и стандартное отклонение
225
Таблица 22–1. Параллельные группы, независимые данные
226
Основные аспекты
В этой главе не рассмотрено ничего нового, однако она позволяет понять, что
методы статистического оценивания и вывода применимы в различных областях
исследований независимо от объекта исследования (биологические клеточные
характеристики или пациенты, экспериментальные животные или социологические
опросы и т.д).
Кроме того, это ответ на частые вопросы о том, a) почему в “похожих”
клинических исследованиях мы используем различные критерии для оценки
различий в данных; б) почему в различных по смыслу исследованиях применяются
один и те же критерии. Смотрите в суть ваших данных и вашего дизайна. Не
пытайтесь “копировать” путь и логику другого исследования, разберитесь с вашими
данными в вашем исследовании.
227
23. Уровень значимости и доверительные интервалы:
практический подход
Красота статистической обработки данных заключается в двух основных
моментах: доказательность и интерпретируемость.
Когда исследователь заявляет, что ему нужно “провести какой-то
статистический анализ” – по моим наблюдениям, он напуган аппаратом
статистического анализа, который ему непонятен, он не понимает, как оценить свои
результаты математически. Он не соотносит анализ и медицинскую (клиническую,
биологическую) интерпретацию результатов. Когда исследователь говорит о том,
что ему нужно понять, как ведут себя данные в исследовании, например, снижает ли
новый препарат побочные эффекты, повышается ли выживаемость при изменении
лечения и т.д., то он использует статистический анализ для расчета
эффектов/воздействий и пр., интерпретации и понимания своих результатов
исследования.
Стандартный уровень значимости p 0,05 используется для заявления о том,
что некоторый статистический эффект составляет 0,05. Так или иначе, термин
“статистически значимо” стал синонимом 0,05 . Есть несколько историй о том,
почему так используется значение 0,05 , и все они корнями уходят ко всемирно
известному ученому в области статистики Р. Фишеру.
Чтобы понять значение p , нужно понять, что такое фиксированный уровень
тестирования гипотезы. Процесс исследования начинается с выдвижения нулевой
гипотезы. И нулевая гипотеза обычно говорит о нашем “незнании”, она
предполагает, что нет никаких различий. Мы предполагаем, что если данные,
которые мы соберем поведут себя определенным образом, то нулевая гипотеза
останется верной. Если же собранные данные поведут себя как-то иначе, мы сможем
рассчитать тестовую статистику – насколько собранные данные будут отклонятся
от нулевой гипотезы. Эта процедура известна как фиксированный уровень
тестирования, потому что нулевая гипотеза, тестовая статистика и ее уровень
фиксируется до сбора данных.
На сегодняшний день, когда компьютеры и статистические пакеты вошли в
повседневную практику, мы отмечаем наблюдаемый уровень значимости (или
значение p ) – самый маленький фиксированный уровень, на котором наша нулевая
гипотеза может быть отвергнута. Если ваш фиксированный уровень исследования
больше или равно значению p , вы отказываетесь от нулевой гипотезы. Если ваш
фиксированный уровень исследования меньше, чем значение p , вы не можете
отвергнуть нулевую гипотезу. Например, если значение p 0,023, результаты имеют
важное значение для всех фиксированных уровней больше, чем 0,023 (например,
0,05) и не имеют существенного значения для всех фиксированных уровней меньше,
чем 0,023 (например, 0,01). Исследователь, который использует уровень 0,05
отказался бы от нулевой гипотезы в то время как исследователь, который
использует уровень 0,01 не сможет ее опровергнуть.
Каким бы малым не было значение p , статистическую значимость
необходимо отличать от практической важности.
Рассмотрим несколько исследований по изменению уровня гемоглобина в
экспериментальной и контрольной группах (Табл. 23–1).
228
Формально, 1, 2 и 4 исследование удовлетворило требованию p 0,05 . Но
только результаты исследования 2 представляют интерес для практического
использования.
Формально, исследование 4 и 5 рапортуют о различных результатах – в
исследовании 4 есть значимые различия на уровне p 0,05 , в исследовании 5
таковых нет. Для того, чтобы сделать окончательный вывод в исследовании 4,
нужно определить мощность исследования – количество наблюдений, которое нам
понадобится, чтобы вынести окончательное решение. Но что нам мешает сделать то
же самое в исследовании 5?
Одна из известных систематических ошибок в мета-анализе носит название
“публикационное смещение” (publication bias). В публикацию отправляют
результаты, в которых найдены различия на уровне p 0,05 . Т.е. результаты
исследования 4 будут опубликованы вероятнее, чем результаты исследования 5.
Таблица 23–1. Данные условных исследований
Номер x экс x контр p 95% Интерпретация Практическая
исследования доверительный “В среднем важность
интервал содержание
гемоглобина
увеличивается
на…..”
1 2 <0,001 1÷3 на 2 ( от 1 до 3) Нет
1
Altman D.G., Bland J.M. Statistics notes: Absence of evidence is not evidence of absence, BMJ, 1995, Vol. 311, No.
7003. —, p.485.
229
Изучалось дополнительное лечение (поддерживающая химиотерапия) для
лечения пациентов с некоторой первичной формой ракового заболевания III стадии
после операционного вмешательства. Пациенты проходили лечение в одной
клинике. Данные по таким пациентам были получены с 1999 по 2010 гг. из Регистра
раковых заболеваний.
Задача исследования – оценить преимущества дополнительного лечения
(treatment benefit) на снижение риска неблагоприятного исхода в течении 5 лет
после лечения для исследуемой популяции при наличии поддерживающей
химиотерапии.
Чаще изучаются факторы риска, связанные с неблагоприятным исходом, в
данном примере показано, как один и тот же аппарат анализа используется при
различных целях исследования: мы будем изучать не фактор риска, а преимущества
лечения.
В исследование были включены 395 пациентов, которые соответствовали
критериям включения (первичная форма, III стадия, морфологическое
подтверждение диагноза и стадии, радикальное лечение). Часть пациентов
наблюдалась после радикального лечения, часть получала поддерживающее
лечение. Поддерживающее лечение назначалось нерандомизированно и состояло из
6 курсов.
В примере опущена описательная часть , касающаяся радикального лечения, а
также эпидемиологических характеристик исследуемой когорты.
Тип исследования определялся как квазиэкспериментальное, открытое
когортное историческое исследование (данные получены из записей предыдущих
лет). Сроки наблюдения пациентов различны. Неблагоприятное событие – смерть от
основного заболевания. Следовательно, мы анализируем причинно-специфическую
выживаемость (канцер-специфическую). Метод исследования – анализ
выживаемости.
Шаг 1.
В процессе анализа данных выяснилось, что часть пациентов получила не 6
курсов поддерживающей химиотерапии, а меньше.
Одним из вопросов предварительного анализа данных был вопрос о том, как
рассматривать группу пациентов, получивших неполный курс поддерживающей
химиотерапии1.
Построенный график зависимости выживаемость от количества курсов
(Рис.22–1) дал возможность предположить, что можно выделить 3 группы: 0 курсов
(Группа 0), 1–4 курса (Группа 1–4) , 5–6 курсов (Группа 5–6).
После разбиения на группы использовался общий логранговый тест для
установления различий между группами. Тест был значим на уровне p 0,028.
Дальнейшее сравнение между группами показало, что значимые различия
существуют только между группами 0 и 5–6 ( p 0,006). Между группами 0 и 1–4
различия были незначимы ( p 0,945), незначимы были различия между группами
1–4 и 5–6 ( p 0,107).
У нас не было оснований присоединять группу 1–4 к какой либо из других
групп и нас интересовал риск связанный с наличием или отсутствием
1
Все расчеты и построение графиков проводились с помощью статистического пакета R
(R Foundation for Statistical Computing, Vienna, Austria; http://www.r-project.org/; Accessed August 1, 2011) с
пакетами survival и rms.
230
поддерживающей химиотерапии, поэтому было принято решение исключить группу
1–4 из анализа риска. Оставшийся объем выборки составил 360 пациентов.
L χ2 df p
Модель без предиктора –672,40
Модель с –668,86 7,089 1 0,0078
предиктором"Наличие
химиотерапии"
βˆ 1
SE βˆ 1 Статистика
Вальда
p
Наличие химиотерапии 0,198
–0,5108 –2,58 0,00987
0
231
Второй вопрос, который надо было решить, был связан с возрастом как
типичным конфаундером в исследованиях такого рода (квазиэкспериментальные
когортные исследования). Мы должны были учесть влияние возраста на
исследуемый фактор – фактор преимущества химиотерапии.
Распределение пациентов по возрасту в когорте показано на рис. 23–2.
Медиана возраста – 62 года, Q25 53 года, Q75 68 лет.
70
60
Возраст
50
40
30
L χ2 df p
Модель без предиктора –672,40
Модель с предиктором –670,42 3,9679 1 0,04638
"возраст"
βˆ 1
SE βˆ 1
Статистика
Вальда
p
Возраст 0,017938 0,009185 1,953 0,0508
232
0.2
Ln (относительный риск)
0.0
-0.2
-0.4
-0.6 30 40 50 60 70
Возраст
LR χ2 df p
Наличие химиотерапии 4,6443 1 0,0312
Возраст 1,5232 1 0,2171
233
Таблица 23–8. Тест отношения правдоподобия для Кокс-регрессии с двумя
взаимодействующими предикторами
LR χ2 df p
Наличие химиотерапии 4,6443 1 0,0312
Возраст 1,5232 1 0,2171
Наличие химиотерапии х 2,8329 1 0,0924
Возраст
234
Рис.23–4. Изменение логарифма относительного риска с возрастом в группах с
химиотерапией и без химиотерапии
Мы рассчитали (Табл. 23–10) отношение рисков при наличии и отсутствии
химиотерапии для различных возрастов по имеющейся модели. Необходимо
обратить внимание на доверительные интервалы оценок для разных возрастов. Для
значений возраста больших медианы они содержат 1. Формально, это означает, что
для оценок отношения рисков p 0,05 .
Таблица 23–10. Отношение рисков для определенного возраста
Отношение рисков при наличии и отсутствии
Возраст, годы химиотерапии
значение Нижняя граница Верхняя граница
95% ДИ 95% ДИ
40 0,33 0,13 0,82
50 0,46 0,26 0,82
60 0,66 0,45 0,98
Q50=62 0,71 0,47 1,06
70 0,94 0,53 1,67
Нам не хватает мощности исследования, чтобы сделать окончательные
выводы по всем возрастным группам. Но, тем не менее, мы получили достаточно
полную картину, чтобы понять, что проведение поддерживающей химиотерапии в
возрасте до 60 лет статистически значимо снижает неблагоприятный исход. Этот
вывод имеет клиническую важность. Возможна разработка протокола лечения, по
которому поддерживающая химиотерапия будет обязательным этапом лечения в
возрасте до 60 лет.
Утверждение, что "отношение рисков для групп с наличием и отсутствием
химиотерапии с коррекцией на возраст (по модели с двумя предикторами без
взаимодействия) составило 0,65 (0,43÷0,97) для исследуемой когорты, т.е. снижение
235
риска на 35% (3%÷57%)", статистически значимо ( p 0,05 ), но верхняя граница
доверительного интервала близка к 1 (нижняя граница процентного интервала
близка к нулю), и практическая полезность этой информации невелика.
Примечания к примеру.
1. При изложении логики исследования опущена часть, связанная с
проверкой линейности и пропорциональности рисков для того,
чтобы не отвлекаться от основного изложения. В реальном
исследовании такая проверка была проведена, предположения
модели Кокса не были нарушены.
2. Мы видели на графике ( и можем доказать расчетами), что возраст не
влияет на относительный риск неблагоприятного исхода для группы
с отсутствием химиотерапии. Сложность заключалось в том, что
возраст играл роль в модели только при наличии химиотерапии,
редуцируя ее положительное влияние при увеличении. Если бы мы
отдельно построили 2 модели для этих двух групп (с химиотерапией
и без нее), то для группы с отсутствием химиотерапии оценка
параметра предиктора возраст была бы незначимой, в регрессионном
подходе трактуется как отсутствие связи между переменными. Таким
образом, наша задача оценки относительного риска при наличии
химиотерапии вылилась в задачу – как учесть влияние возраста,
причем, как выяснилось, только на одну из групп1. Можно еще раз
отметить, что визуализация при анализе – очень мощная поддержка
исследователю в понимании своих данных.
Данные для расчета этого примера и R-скрипты для выполнения анализа
приведены в Приложении R-13.
Основные аспекты
Если за данными, имеющимися в вашем распоряжении, видеть проблему, если
внимательно их анализировать, то вы найдете свою систему доказательств.
1
Для такого анализа могут использоваться так называемые иерархические модели, в которых учитывается
различный уклон количественных переменных на разных уровнях категориальной переменной.
236
Заключение
Пособие написано на основе многолетней работы в области статистического
анализа медико-биологических данных. Но это не справочник, который можно
открыть на любой странице. Фактически, это сквозное прохождение всех этапов
анализа в основных типах дизайнов исследования. Примеры взяты из реальных
исследований и немного адаптированы для изложения. В примерах мне хотелось
донести связь излагаемого материала – как характеристики исследования,
характеристики данных влияют на поиск решения, на обоснование статистических
доказательств. Я повторю, что с каждым исследователем мы начинали все заново,
потому что мы выстраивали систему доказательств на конкретном дизайне
исследования с учетом особенностей данных. Нет готовых решений, к решению надо
придти. Поэтому статистические пакеты – только инструмент в руках
исследователя.
Выводы – за вами!
Я очень благодарна коллегам-медикам за то, что они разрешили мне
использовать их данные в примерах, за их вопросы, которые иногда приводили к
длительным поискам по литературе и помогали мне лучше понять весь аппарат
анализа. Но главное, я благодарна им за ту работу, который они делают ежедневно –
лечат людей.
С уважением,
Ольга Красько
237
Рекомендуемая литература
Некоторые теоретические и математические аспекты статистического
анализа сложны для неподготовленных читателей, поэтому даются ссылки книги
или пособия, которые излагают этот материал без привлечения сложных разделов
математики. В некоторых случаях приводятся книги для более глубокого изучения
определенной проблемы или вида анализа. Безусловно, литературы по
статистическому анализу в медицине, биологии, эпидемиологии намного больше, но
данное пособие – не теоретическое исследование, а руководство по методам
прикладного статистического анализа с уклоном в медико-биологические данные.
Раздел 1.
Флетчер Р., Флетчер С., Вагнер Э. Клиническая эпидемиология. Основы
доказательной медицины. — М.: Медиа Сфера, —1998. — 352 с.
Richard K. Riegelman. Studying a study and testing a test: how to read the medical
evidence. – Lippincott Williams & Wilkins, — 2005. — 403p.
Раздел 2.
Флетчер Р., Флетчер С., Вагнер Э. Клиническая эпидемиология. Основы
доказательной медицины. — М. : Медиа Сфера, —1998. — 352 с.
Stewart A. Basic statistics and epidemiology. A practical guide, Oxford: Radcliffe
Publishing, — 2010. — 208 p.
Szklo, M. Nieto F.J. Epidemiology: Beyond the Basics, Boston: Jones and Bartlett, —
2007. — 490p.
Research metods in Occupational Epidemiology, edited by Brian MacMahon, Oxford
University Press, — 1989. — 344p.
ICH E9 – Statistical Principles for Clinical Trials, —EMEA, — 2006. — 37p.
ICH E10 – Choice of Control Group in Clinical Trials, —EMEA, — 2006. — 30p.
Раздел 3.
Гланц C. Медико-биологическая статистика, — М.: Практика, —1998. — 459 с.
Петри А., Сэбин К. Наглядная статистика в медицине, — М.: ГЭОТАР-МЕД, —
2003. — 144c.
Chap T. Le. Introductory biostatistics, — NY: John Wiley & Sons, —2003. — 536p.
Stewart A. Basic statistics and epidemiology. A practical guide, Oxford: Radcliffe
Publishing, — 2010. — 208 p.
Раздел 4.
Гланц C. Медико-биологическая статистика, — М.: Практика, —1998. — 459 с.
Петри А., Сэбин К. Наглядная статистика в медицине, — М.: ГЭОТАР-МЕД, —
2003. — 144c.
Chap T. Le. Introductory biostatistics, — NY: John Wiley & Sons, — 2003. — 536p.
Stewart A. Basic statistics and epidemiology. A practical guide, Oxford: Radcliffe
Publishing, — 2010. — 208 p.
Chow S.C., Wang H., Shao J. Sample Size Calculations in Clinical Research, —
Chapman & Hall/CRC Biostatistics Series, — 2008. — 466 р.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.
238
Раздел 6.
Гланц C. Медико-биологическая статистика, — М.: Практика, —1998. — 459 с.
Петри А., Сэбин К. Наглядная статистика в медицине, — М.: ГЭОТАР-МЕД, —
2003. — 144c.
Chap T. Le. Introductory biostatistics, — NY: John Wiley & Sons, —2003. — 536p.
Stewart A. Basic statistics and epidemiology. A practical guide, Oxford: Radcliffe
Publishing, — 2010. — 208 p.
Newman S. C. Biostatistical Methods in Epidemiology, NY: John Wiley & Sons, —
2001. — 382p.
Раздел 7.
Гланц C. Медико-биологическая статистика, — М.: Практика, —1998. — 459 с.
Петри А., Сэбин К. Наглядная статистика в медицине, — М.: ГЭОТАР-МЕД, —
2003. — 144c.
Chap T. Le. Introductory biostatistics, — NY: John Wiley & Sons, —2003. — 536p.
Stewart A. Basic statistics and epidemiology. A practical guide, Oxford: Radcliffe
Publishing, — 2010. — 208 p.
Newman S. C. Biostatistical Methods in Epidemiology, NY: John Wiley & Sons, —
2001. — 382p.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.
Раздел 8.
Гланц C. Медико-биологическая статистика, — М.: Практика, —1998. — 459 с.
Петри А., Сэбин К. Наглядная статистика в медицине, — М.: ГЭОТАР-МЕД, —
2003. — 144c.
Chap T. L. Introductory biostatistics, NY: John Wiley & Sons, — 2003. — 536p.
Stewart A. Basic statistics and epidemiology. A practical guide, Oxford: Radcliffe
Publishing, — 2010. — 208 p.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.
Раздел 9.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.
Agresti A. Categorical Data Analysis, — NY: John Wiley & Sons, —2002. — 734p.
Breslow N. E., Day N. E. Statistical Methods in Cancer Research. Volume I. The
analysis of case-control studies, — IARC Scientific Publications, —1984. — 338p.
Раздел 10.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.
Петри А., Сэбин К. Наглядная статистика в медицине, — М.: ГЭОТАР-МЕД, —
2003. — 144c.
Chap T. Le. Introductory biostatistics, — NY: John Wiley & Sons, —2003. — 536p.
239
Stewart A. Basic statistics and epidemiology. A practical guide, Oxford: Radcliffe
Publishing, — 2010. — 208 p.
Раздел 11.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.
Newman S. C. Biostatistical Methods in Epidemiology, — NY: John Wiley & Sons, —
2001. — 382p.
Bishop Y.M., Fienberg S.E., Holland P.W. Discrete multivariate analysis: Theory and
practice, — NY: Springer, — 2007. —558p.
Agresti A. Categorical Data Analysis, — NY: John Wiley & Sons, —2002. — 734p.
Раздел 12.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.
Bishop Y.M., Fienberg S.E., Holland P.W. Discrete multivariate analysis: Theory and
practice, — NY: Springer, — 2007. —558p.
Agresti A. Categorical Data Analysis, — NY: John Wiley & Sons, — 2002. — 734p.
Раздел 13.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.
Agresti A. Categorical Data Analysis, — NY: John Wiley & Sons, — 2002. — 734p.
Breslow N. E., Day N. E., Statistical Methods in Cancer Research. Volume II.The
Design and Analysis of Cohort Studies, — IARC Scientific Publications No. 82, — 1987. —
406p.
Dmitrienko A., Molenberghs G., Chuang-Stein C., Offen W., Analysis of Clinical Trials
Using SAS®: A Practical Guide, — Cary, NC: SAS Institute Inc. , — 2005. — 420p.
Раздел 14.
Matthews D., Farewell, V. Using and Understanding Medical Statistics, —Karger,—
2007. —322p.
Bishop Y.M., Fienberg S.E., Holland P.W. Discrete multivariate analysis: Theory and
practice, — NY: Springer, — 2007. —558p.
Agresti A. Categorical Data Analysis, — NY: John Wiley & Sons, —2002. — 734p.
Breslow N. E., Day N. E. Statistical Methods in Cancer Research. Volume II.The
Design and Analysis of Cohort Studies, — IARC Scientific Publications No. 82, — 1987. —
406p.
Dmitrienko A., Molenberghs G., Chuang-Stein C., Offen W., Analysis of Clinical Trials
Using SAS®: A Practical Guide, — Cary, NC: SAS Institute Inc. , — 2005. — 420p.
Раздел 15.
Монтгомери Д. К. Планирование эксперимента и анализ данных: Пер.—Л.:
Судостроение, 1980.—384 с.
Regression methods in biostatistics: linear, logistic, survival, and repeated measures
models / Eric Vittinghoff ... [et al.], — NY: Springer, — 2005. — 338p.
240
Dmitrienko A., Molenberghs G., Chuang-Stein C., Offen W., Analysis of Clinical Trials
Using SAS®: A Practical Guide, — Cary, NC: SAS Institute Inc. , — 2005. — 420p.
Раздел 16.
Н. Дрейпер, Г. Смит. Прикладной регрессионный анализ. В 2-х кн. – М. :
Финансы и статистика, — 1986.
Regression methods in biostatistics: linear, logistic, survival, and repeated measures
models / Eric Vittinghoff ... [et al.], — NY: Springer, — 2005. — 338p.
Раздел 17.
Agresti A. Categorical Data Analysis, — NY: John Wiley & Sons, — 2002. — 734p.
Regression methods in biostatistics: linear, logistic, survival, and repeated measures
models / Eric Vittinghoff ... [et al.], — NY: Springer, — 2005. — 338p.
Breslow N. E., Day N. E. Statistical Methods in Cancer Research. Volume II. The
Design and Analysis of Cohort Studies, — IARC Scientific Publications No. 82, — 1987. —
406p.
Hosmer D.W., Lemeshow S. Applied logistic regression. 2nd ed., — NY: John Wiley &
Sons, — 2000. — 376p.
Раздел 18.
Estève, J., Benhamou, E., Raymond, L., Statistical methods in cancer research, Volome
IV. Descriptive epidemiology, — Lyon: IARC Scientific Publications, — 1994. —302p.
Hosmer, D. W., and Lemeshow, S., Applied Survival Analysis, NY: John Wiley & Sons,
— 1999. —386p.
Cox, D. R., and Oakes, D., Analysis of Survival Data, — NY: Chapman & Hall,— 1985.
— 208p.
Selvin S., Survival Analysis for Epidemiologic and Medical Research, — Cambridge
University Press, — 2008. — 282p.
Разделы 19 – 20.
Harrell F.E. Regression modeling strategies: with applications to linear models,
logistic regression, and survival analysis. — NY: Springer , — 2001. — 568 p.
Ewout W. Steyerberg Clinical Prediction Models. A Practical Approach to
Development, Validation and Updating, — NY: Springer, — 2009. — 498p.
Раздел 21.
Монтгомери Д. К. Планирование эксперимента и анализ данных: Пер.—Л.:
Судостроение, 1980.—384 с.
Regression methods in biostatistics: linear, logistic, survival, and repeated measures
models / Eric Vittinghoff ... [et al.], — NY: Springer, — 2005. — 338p.
Раздел 22.
Монтгомери Д. К. Планирование эксперимента и анализ данных: Пер.—Л.:
Судостроение, 1980.—384 с.
Gart, J.J., Krewski, D., Lee, P.N., Tarone, R.E. and Wahrendorf, J., 1985. Statistical
methods in cancer research. Volume III-The design and analysis of long-term animal
experiments. IARC scientific publications, (79), pp.1-219.
241
Festing, M.F. and Altman, D.G., 2002. Guidelines for the design and statistical
analysis of experiments using laboratory animals. ILAR journal, 43(4), pp.244-258.
Раздел 23.
Флетчер Р., Флетчер С., Вагнер Э. Клиническая эпидемиология. Основы
доказательной медицины. — М.: Медиа Сфера, —1998. — 352 с.
242
Приложение R. Почему R?
R – это специфический проект информационного сообщества для
статистического и интеллектуального анализа данных.
Основные преимущества R:
1. Вам не нужно знать весь проект, чтобы начать его использовать. Гибкая
система библиотек (package) позволит работать только с той частью проекта,
которая нужна для анализа ваших данных.
2. Использование R допускается в высокорейтинговых международных
журналах, которые ранее разрешали только использование программного
обеспечения SAS (Statistical Analysis System) для статистических расчетов. Также R
популярен в академической среде.
3. R – бесплатен и доступен. Скачать его можно с очень большого количества
серверов, расположенных по всему миру.
4. Главное – R помогает сосредоточиться на исследовании и системе
доказательств. Обращаясь к определенной функции R, вы получаете ответ ровно на
тот "вопрос", который вы задали. Это позволяет гибко составлять свое
исследование, избегая множества характеристик, которые не нужны в вашем
исследовании и могут вас запутать. Тем самым, он заставляет продумывать ваши
"вопросы" и логически систематизировать именно ваше исследование.
5. Все этапы анализа мы можете описывать для себя вместе со скриптами, как
комментарии. Вся последовательность анализа и система доказательств будет
записана. Вы получите цельный взгляд на свое исследование. Если вы что-то
пропустили, вы всегда можете добавить пропущенную часть анализа в нужное
место.
Если вы начинающий исследователь – скачайте ядро R (http://cran.r-
project.org/), установите у себя на компьютере. Запустив программу, вы получите
следующее окно:
243
Установите библиотеку Rcmdr (Rcmdr-package, он автоматически установит и
другие библиотеки). Введите команду library(Rcmdr) на консоли. Вы получите
следующее окно.
244
Приложение R-1
library(abind)
library(e1071)
#####################################
# формирование набора данных
#####################################
######################################################
# расчет среднего и среднеквадратичного отклонения
######################################################
######################################################
# одновыборочный t-тест с различными гипотезами
######################################################
# Выборка А
t.test(Univar$sample.А, alternative='two.sided', mu=100.0, conf.level=.95)
t.test(Univar$sample.А, alternative='greater', mu=100.0, conf.level=.95)
t.test(Univar$sample.А, alternative='less', mu=100.0, conf.level=.95)
# Выборка Б
t.test(Univar$sample.Б, alternative='two.sided', mu=100.0, conf.level=.95)
t.test(Univar$sample.Б, alternative='greater', mu=100.0, conf.level=.95)
t.test(Univar$sample.Б, alternative='less', mu=100.0, conf.level=.95)
# Выборка В
t.test(Univar$sample.В, alternative='two.sided', mu=100.0, conf.level=.95)
t.test(Univar$sample.В, alternative='greater', mu=100.0, conf.level=.95)
t.test(Univar$sample.В, alternative='less', mu=100.0, conf.level=.95)
# Выборка Г
t.test(Univar$sample.Г, alternative='two.sided', mu=100.0, conf.level=.95)
t.test(Univar$sample.Г, alternative='greater', mu=100.0, conf.level=.95)
t.test(Univar$sample.Г, alternative='less', mu=100.0, conf.level=.95)
# Выборка Д
t.test(Univar$sample.Д, alternative='two.sided', mu=100.0, conf.level=.95)
t.test(Univar$sample.Д, alternative='greater', mu=100.0, conf.level=.95)
t.test(Univar$sample.Д, alternative='less', mu=100.0, conf.level=.95)
245
Приложение R-2
Перед выполнением скрипта необходимо скопировать данные, приведенные в
таблице ниже, двумя столбцами (Age, Size), сохранить в текстовом файле или файле
EXCEL, затем импортировать их в набор данных R под именем Proportions.
Age Size Age Size Age Size Age Size Age Size Age Size Age Size
6 3.23 7 18.32 8 20.12 9 12.21 10 2.6 11 8.31 12 8.62
6 4.07 7 3.5 8 6 9 25.15 10 12.45 11 11.86 12 7.47
8 2.63 9 31.61 10 5.48 11 3.81 12 5.71
8 3.56 9 5.27 10 10.3 11 8.21 12 5.22
8 5.18 9 7.66 10 2.99 11 7.44 12 6.47
8 20.84 9 6.71 10 8.29 11 3.59 12 7.79
8 9.58 9 12.42 10 3.56 11 7.78 12 21.56
8 6.13 9 4.32 10 3.51 11 5.69 12 5.29
10 9.1 11 8.13 12 8.62
10 5.21 11 4.74 12 5.99
10 9.77 11 1.98 12 9.66
10 6.37 11 10.01 12 9.52
10 7.24 11 2.74 12 4.42
10 3.6 11 5.27 12 16.19
10 9.9 11 10.96 12 5.14
11 2.62 12 5.93
12 1.37
12 45.62
12 7.9
12 13.95
12 4.65
12 4.01
12 5.92
###########################################
# одновыборочный биноминальный тест
###########################################
# расчет для группы возраста 6 лет
###############################################################
# расчет для группы возраста 7-12 лет (только точный биноминальный тест)
247
Приложение R-3
diffpropci.Wald.mp(b=7, c=13, n=75, 0.95) # ДИ Вальда для пар(Wald interval for a difference of proportions with
matched pairs)
diffpropci.mp(b=7, c=13, n=75, 0.95) # Уточненные ДИ по Вальду для пар (Adjusted Wald interval for a
difference of proportions with matched pairs)
scoreci.mp(b=7, c=13, n=75, 0.95) # Расчет ДИ по Вилсону (Wilson's confidence interval for a single proportion)
oddsratioci.mp(b=7,c=13, 0.95) # ДИ для отношения шансов в парном дизайне (Adapted binomial score
confidence interval for the subject-specific odds ratio with matched pairs)
248
Приложение R-4
library(vcd)
rownames(Agreement) <- c('Нет заболевания', '1 степень ', '2 степень ', '3 степень ')
colnames(Agreement) <- c('Нет заболевания', '1 степень ', '2 степень ', '3 степень ')
249
Приложение R-5
250
Приложение R-6
library(PropCIs)
# Пример 1
EE=25
EN=125
CE=100
CN=100
OR=(EE/EN)/(CE/CN)
CIOR <- orscoreci(EE,EE+EN,CE,CE+CN, conf.level=0.95)
cat("Отношение шансов: ", OR,"; 95% ДИ ", CIOR$conf.int[1]," – ",CIOR$conf.int[2], "\n")
EER=EE/(EE+EN)
CER=CE/(CE+CN)
RR=EER/CER
CIRR <- riskscoreci (EE,EE+EN,CE,CE+CN, conf.level=0.95)
cat("Относительный риск: ", RR,"; 95% ДИ ", CIRR$conf.int[1]," – ",CIRR$conf.int[2], "\n")
# Пример 2
EE=125
EN=25
CE=100
CN=100
OR=(EE/EN)/(CE/CN)
CIOR <- orscoreci(EE,EE+EN,CE,CE+CN, conf.level=0.95)
cat("Отношение шансов: ", OR,"; 95% ДИ ", CIOR$conf.int[1]," – ",CIOR$conf.int[2], "\n")
EER=EE/(EE+EN)
CER=CE/(CE+CN)
RR=EER/CER
CIRR <- riskscoreci (EE,EE+EN,CE,CE+CN, conf.level=0.95)
cat("Относительный риск: ", RR,"; 95% ДИ ", CIRR$conf.int[1]," – ",CIRR$conf.int[2], "\n")
251
Приложение R-7
#Пример расчета клинического исследования двух препаратов
EE=10
EN=2
CE=4
CN=8
DifP=EE/(EE+EN)-CE/(CE+CN)
OR=(EE/EN)/(CE/CN)
CIOR <- orscoreci(EE,EE+EN,CE,CE+CN, conf.level=0.95)
cat("Отношение шансов: ", OR,"; 95% ДИ: ", CIOR$conf.int[1]," – ",CIOR$conf.int[2], "\n")
252
Приложение R-8
# построение ROC-кривой
library(pROC)
ls <- c(1.0, 1.1, 1.3, 1.5, 2.8, 3.7, 4.6, 4.8, 4.9, 5.5, 5.5, 5.9)
response <- c(1,0,1,1,0,1,0,0,1,0,0,0)
roc.data <-roc(response , ls,ci=T)
print(roc.data)
#ci.auc(roc.data)
plot.roc(roc.data,print.thres='best',print.auc=TRUE, grid=TRUE, family="mono")
plot.roc(smooth(roc.data), add=TRUE, col="blue")
ci.thresholds(roc.data,boot.n=200, conf.level=0.95, stratified=FALSE,thresholds='best')
253
Приложение R-9
library(abind, pos=4)
library(vcd)
library(lattice)
######################################
# три локализации
######################################
MS <- matrix(c(54,57,14,14,33,1), 2, 3, byrow=TRUE)
rownames(MS) <- c('Наличие', 'Отсутствие')
colnames(MS) <- c('I', 'II', 'III')
names(dimnames(MS)) <- c("Metastasis","Localization")
MS # печать таблицы
colPercents(MS) # проценты
TestChiq <- chisq.test(MS, correct=FALSE) # хи-квадрат тест
round(TestChiq$expected, 2)
round(TestChiq$stdres, 2)
TestChiq
remove(TestChiq)
# создание мозаичной диаграммы рис. 14-1
trellis.device(theme="col.whitebg", family="mono")
#параметры легенды мозаичной диаграммы
q <- legend_resbased(fontsize = 10,
x = unit(1, "lines"), y = unit(0.1,"npc"),
height = unit(0.8, "npc"), width = unit(0.7, "lines"),
digits = 3, check_overlap = TRUE, text = NULL,
steps = 200, ticks = 10, pvalue = TRUE, range = NULL)
#параметры мозаичной диаграммы
gg <- shading_hcl(MS, residuals = NULL, expected = NULL, df = 2,
h = NULL, c = NULL, l = NULL, interpolate = c(1.5, 2), lty = 1,
eps = NULL, line_col = "black", p.value = NULL, level = 0.95)
# получение рисунка
assoc(MS, shade=T, xscale=0.5,margins=c(5,4,4,5),legend = q,gp = gg, ,xlab="",
main = "", labeling_args = list(1,2))
remove(MS)
# сравнение II и I
metastasis <- c( 57, 54 )
all <- c( 90, 68)
prop.test(metastasis, all, alternative='less', conf.level=.95, correct=FALSE)
# сравнение II и III
metastasis <- c( 57, 14 )
all <- c( 90, 15)
prop.test(metastasis, all, alternative='less', conf.level=.95, correct=FALSE)
# сравнение II и не-II
metastasis <- c( 68, 57 )
all <- c(83, 90)
prop.test(metastasis, all, alternative='two.sided', conf.level=.95, correct=FALSE)
254
# доверительные интервалы для II и не-II групп
prop.test(57, 90)
prop.test(68, 83)
# Разность в пропорциях
metastasis <- c( 68, 57 )
all <- c(83, 90)
t <- prop.test(metastasis, all, alternative='two.sided', conf.level=.95, correct=FALSE)
cat("разность в пропоциях=",t$estimate[1]-t$estimate[2], ", 95% ДИ", t$conf.int[1], " - ", t$conf.int[2],"\n")
library(epiR)
RR=(68/83)/(57/90)
t <- riskscoreci(68, 83, 57, 90, conf.level=0.95)
cat("относительный риск RR=",RR, ", 95% ДИ", t$conf.int[1], " - ", t$conf.int[2],"\n")
255
Приложение R-10
Исходные данные
Num age.at.measure Group Sex Osteocalcin BCTX
1 15.7 HighDose female 33.43 0.836
2 22.2 HighDose female 35.99 1.170
3 21.3 HighDose male 43.52 1.330
4 15.2 HighDose female 52.36 0.919
5 10.0 HighDose male 103.60 2.240
6 15.1 HighDose male 86.44 1.820
7 15.8 HighDose male 72.51 1.470
8 7.0 HighDose male 46.65 0.901
9 21.7 HighDose male 32.57 1.120
10 17.9 HighDose male 42.03 0.877
11 7.4 HighDose male 67.82 1.630
12 18.3 HighDose female 21.04 0.568
13 5.7 HighDose female 40.48 0.741
14 9.3 HighDose female 43.70 1.070
15 17.3 HighDose female 43.65 0.586
16 6.3 HighDose male 76.78 2.120
17 6.4 HighDose male 71.61 1.460
18 13.3 HighDose male 30.51 0.723
19 20.0 HighDose male 40.42 0.408
20 9.6 HighDose female 107.10 1.860
21 5.5 HighDose male 66.09 1.140
22 24.3 HighDose male 17.11 0.211
23 8.4 LowDose male 96.62 1.540
24 8.8 LowDose male 101.30 2.480
25 17.8 LowDose female 23.24 0.585
26 8.6 LowDose female 83.03 1.510
27 21.2 LowDose female 24.82 0.660
28 15.2 LowDose male 73.47 1.130
29 26.6 LowDose male 17.73 0.474
30 24.8 LowDose male 30.88 0.527
31 13.8 LowDose male 97.27 2.140
32 15.5 LowDose female 26.03 0.519
33 12.1 LowDose female 80.28 1.080
34 13.1 LowDose male 111.90 1.780
35 18.0 LowDose female 53.63 1.650
36 18.0 LowDose male 62.95 1.010
37 20.7 LowDose male 30.29 0.762
38 12.6 LowDose male 114.90 2.940
39 11.6 LowDose male 24.29 1.160
40 5.8 LowDose female 58.73 1.260
41 13.4 LowDose female 42.14 0.874
42 15.4 LowDose male 59.45 1.290
43 13.6 LowDose male 67.04 1.440
44 11.6 LowDose male 63.40 1.560
45 17.6 LowDose male 35.38 0.669
46 19.4 LowDose male 25.46 0.573
47 18.7 LowDose female 27.04 0.393
48 12.8 LowDose female 72.90 1.550
49 14.4 LowDose male 69.05 1.760
50 5.1 control male 103.90 2.500
51 5.3 control female 63.20 1.450
52 5.9 control female 127.90 1.880
256
53 6.4 control female 82.75 1.530
54 5.7 control male 84.94 1.920
55 6.6 control male 60.91 0.683
56 6.6 control female 93.15 1.900
57 6.8 control male 84.21 2.590
58 7.3 control male 55.58 1.640
59 7.5 control male 111.40 2.390
60 8.0 control male 69.29 1.790
61 8.7 control female 83.77 1.740
62 8.8 control female 72.53 1.650
63 9.3 control male 83.80 2.100
64 9.9 control male 152.80 3.230
65 9.3 control female 97.25 1.790
66 10.8 control female 121.10 1.990
67 10.8 control female 88.23 1.810
68 11.3 control female 87.87 2.110
69 11.6 control male 119.00 2.590
70 11.9 control female 102.00 1.450
71 12.5 control female 161.50 2.120
72 12.3 control male 110.10 2.440
73 12.3 control male 97.43 2.060
74 12.4 control male 166.80 2.890
75 13.5 control male 121.50 2.180
76 14.1 control female 70.76 1.310
77 14.1 control male 114.10 2.400
78 14.8 control male 89.88 2.100
79 14.8 control female 64.50 1.140
80 15.1 control female 44.04 1.100
81 15.0 control female 70.13 1.460
82 15.0 control male 69.11 1.830
83 15.2 control male 84.71 2.460
84 15.0 control male 130.60 3.330
85 15.8 control male 64.02 1.430
86 16.3 control female 35.15 0.649
87 16.7 control female 48.28 1.370
88 17.6 control male 32.32 0.418
89 17.7 control male 47.66 1.190
90 18.2 control female 24.81 0.464
91 18.0 control male 51.25 1.620
92 19.3 control female 25.71 0.987
93 20.3 control female 22.05 0.449
94 20.6 control female 14.46 0.262
95 20.9 control male 30.45 0.671
96 21.1 control male 33.86 1.260
97 21.1 control male 62.84 0.861
98 21.2 control male 33.90 0.793
99 21.7 control female 20.20 0.610
100 21.7 control male 21.63 0.809
101 21.8 control male 23.55 0.437
102 21.8 control male 27.28 0.562
103 23.6 control male 24.03 0.830
104 25.4 control male 24.63 0.631
105 26.5 control male 16.57 0.368
257
Скрипт R для выполнения анализа
Перед выполнением необходимо скопировать данные, сохранить в текстовом
файле или файле EXCEL и импортировать их в набор данных R под именем Markers.
library(abind)
library(nortest)
library(abind)
library(e1071)
library(class)
library(lattice)
library(grid)
library(colorspace)
library(effects)
library(car)
library(effects)
##############################################
##################################################################################
# BCTX
########################################################################
# Шаг 1 предварительные исследования зависимой переменной
########################################################################
shapiro.test(treat.BCTX$BCTX)
sf.test(treat.BCTX$BCTX)
shapiro.test(Markers$BCTX)
sf.test(Markers$BCTX)
par(family='mono')
plot(density (Markers$BCTX))
258
scatterplot(BCTX~age.at.measure | Group, reg.line=FALSE, smooth=TRUE, spread=F, boxplots='xy', cex.axis=0.8,
span=0.5, jitter=list(x=1, y=1), by.groups=TRUE, data=Markers)
# группы возраста
numSummary(Markers[,"age.at.measure"], statistics=c("mean", "sd", "quantiles"),quantiles=c(0,.25,.5,.75,1))
# Таблица 16-6
.Table <- xtabs(~Age.Group+Sex, data=Markers)
.Table
chisq.test(.Table, correct=FALSE)
# Таблица 16-7
.Table <- xtabs(~Age.Group+Expose, data=Markers)
.Table
chisq.test(.Table, correct=FALSE)
remove(.Table)
##################################
# Шаг 2 предварительная модель #
##################################
#Таблица 16-8
Anova(LM.0, test="F")
#Таблица 16-9
summary(LM.0)
########################################################################
# Шаг 3 провека линейной гипотезы о равенстве коэффициентов регрессии
# снижение количества параметров модели, сравнение моделей
########################################################################
259
Markers$Age.Group.BCTX <- factor(Markers$Age.Group.BCTX, labels=c('до 15','15-18','18+'))
#Таблица 16-10
Anova(LM.1, test="F")
# сравнение моделей
anova(LM.0, LM.1, test="F")
##################################################
# Шаг 4 провека наличия эффектов взаимодействия
##################################################
#Таблица 16-11
Anova(LM.interaction, test="F")
#Таблица 16-12
summary(LM.interaction)
##############################################
# Шаг 5 исследование остатков и выбросов
##############################################
#проверка остатков
# тест на выбросы
outlierTest(LM.interaction, cutoff=Inf)
# влияющие наблюдения
inflm <- influence.measures(LM.interaction)
summary(inflm)
##########################################################
# удаление выброса и повторение шагов подгонки модели
##########################################################
260
LM.reduce<- lm(BCTX ~ Age.Group.BCTX+Expose+Sex, data=Markers.New)
Anova(LM.reduce, test="F")
anova(LM.reduce, LM.prem, test="F")
#проверка остатков
res.LM.fit <- residuals(LM.fit)
sf.test(res.LM.fit)
shapiro.test(res.LM.fit)
##################################
# Шаг 6 окончательная модель
##################################
##########################
# прогноз
##########################
261
NewData$Means <- predict.fit$fit
LowCI <- (predict.fit$fit-1.96*predict.fit$se.fit)
HighCI <- (predict.fit$fit+1.96*predict.fit$se.fit)
NewData$LowCI <-LowCI
NewData$HighCI <-HighCI
# Таблица 16-15
NewData
##################################################################################
# Остеокальцин
##################################################################################
########################################################################
# Шаг 1 предварительные исследования зависимой переменной
########################################################################
shapiro.test(control.Ost.sqrt$Ost.sqrt)
sf.test(control.Ost.sqrt$Ost.sqrt)
##################################
# Шаг 2 предварительная модель
##################################
262
LM.0 <- lm(Ost.sqrt ~ Age.Group+Group+Sex, data=Markers)
Anova(LM.0, test="F")
summary(LM.0)
########################################################################
# Шаг 3 провека линейной гипотезы о равенстве коэффициентов регрессии
# снижение количества параметров модели, сравнение моделей
########################################################################
##################################################
# Шаг 4 провека наличия эффектов взаимодействия
##################################################
# Таблица 16-16
Anova(LM.interaction, test="F")
# Таблица 16-17
summary(LM.interaction)
##############################################
# Шаг 5 исследование остатков и выбросов
##############################################
#проверка остатков
res.LM.interaction <- residuals(LM.interaction)
sf.test(res.LM.interaction)
shapiro.test(res.LM.interaction)
outlierTest(LM.interaction, cutoff=Inf)
##################################
263
# Шаг 6 окончательная модель
##################################
Anova(LM.fit, test="F")
summary(LM.fit)
##################################
# прогноз
##################################
# Таблица 16-18
NewData
264
Приложение R-11
library(Rcmdr)
library(effects)
#################################################
# формирование набора данных на основе таблицы 17-6
#####################################################
# выбираем базовое лечение как референтную группу
# выбираем первый центр как референтную группу
#####################################################
TC$Treatment <- factor(TC$Treatment, levels=c('Basic','Advance'))
TC$Center <- factor(TC$Center, levels=c('C1','C2','C3','C4'))
xtabs(~Response+Treatment+Center, data=TC)
#####################################################
# логит-модель со взаимодействием
#####################################################
############################################
# результаты ОДЛ по центрам различаются?
############################################
linearHypothesis(LogitModel.1, "Treatment[T.Advance]:Center[T.C3] = Treatment[T.Advance]:Center[T.C4]")
linearHypothesis(LogitModel.1, "Treatment[T.Advance]:Center[T.C2] = Treatment[T.Advance]:Center[T.C4]")
linearHypothesis(LogitModel.1, "Treatment[T.Advance]:Center[T.C2] = Treatment[T.Advance]:Center[T.C3]")
265
############################################
# результаты ОЛ по центрам различаются?
############################################
linearHypothesis(LogitModel.1, "Center[T.C3] = Center[T.C4]")
linearHypothesis(LogitModel.1, "Center[T.C2] = Center[T.C4]")
linearHypothesis(LogitModel.1, "Center[T.C2] = Center[T.C3]")
#####################################################
# добавляем 10 одинаковых записей
#####################################################
newData <- matrix(rep(c('Advance','C1',1), 10), nrow=10, byrow=TRUE)
colnames(newData) <- colnames(TC)
TC<- rbind(TC, newData)
TC$Response <- as.numeric(TC$Response)
TC$Treatment <- factor(TC$Treatment, levels=c('Basic','Advance'))
TC$Center <- factor(TC$Center, levels=c('C1','C2','C3','C4'))
xtabs(~Response+Treatment+Center, data=TC)
#####################################################
# логит-модель со взаимодействием на новых данных
Anova(LogitModel.2, test="LR")
#####################################################
# логит-модель без взаимодействия на новых данных
##########################################
# графики эффектов для сравнения
trellis.device(theme="col.whitebg", family="mono")
plot(allEffects(LogitModel.1),sub="LogitModel.1", ask=FALSE)
trellis.device(theme="col.whitebg", family="mono")
plot(allEffects(LogitModel.2),sub="LogitModel.2", ask=FALSE)
trellis.device(theme="col.whitebg", family="mono")
plot(allEffects(LogitModel.3),sub="LogitModel.3", ask=FALSE)
###############################################################
# Расчет теста гомогенности и отношения шансов по Мантелю-Хензелю (пакет epiR)
library(epiR)
266
names =c('C1','C2','C3','C4'), method = "odds.ratio",
alternative = "two.sided", conf.level = 0.95)
###############################################################
# расчет теста гомогенности и отношения шансов по Мантелю-Хензелю и визуализация с помощью пакета
rmeta
library(rmeta)
a <- meta.MH(ntrt = c(17,49,45,57), nctrl = c(72,61,35,35),
ptrt = c( 11,32,38,47), pctrl = c(43,35,15,22),names =c('C1','C2','C3','C4') )
metaplot(a$logOR, a$selogOR, nn=a$selogOR^-2, a$names, summn=a$logMH,
sumse=a$selogMH, sumnn=a$selogMH^-2,logeffect=TRUE)
267
Приложение R-12
Исходные данные
Biochem1 Biochem2 treatment Number
19 19 A 1
20 20 A 2
25 21 A 3
17 17 A 4
22 21 A 5
16 15 A 6
17 20 A 7
21 19 A 8
25 25 A 9
17 18 B 15
21 21 B 16
17 15 B 17
17 12 B 18
21 23 B 19
24 22 B 20
16 14 B 21
20 18 B 22
19 20 B 23
19 14 C 24
18 13 C 25
20 15 C 26
21 19 C 27
19 10 C 28
16 12 C 29
22 12 C 30
21 12 C 31
23 22 C 32
Скрипт R для выполнения анализа
Перед выполнением необходимо скопировать данные, сохранить в текстовом
файле или файле EXCEL и импортировать их в набор данных R под именем AnovaRM.
#########################################
# ANOVA с повторяющимися измерениями
library(Rcmdr)
library(ez)
library(lattice)
library(ggplot2)
library(lme4)
library(lmerTest)
268
DD$timepoint <- factor(DD$timepoint)
# библиотека ez
model.RManova = ezANOVA(
data = DD
, dv = BioChem
, wid = Number
, within = timepoint
, between = treatment)
print(model.RManova)
# библиотека lme4
#################### Модель смешанных эффектов
model <- lmer( BioChem ~ treatment*timepoint +(1|Number), data=DD)
anova(model)
trellis.device(theme="col.whitebg", family="mono")
opar <- par(mfrow = c(1,1), oma = c(1.1, 0, 1.1, 0), las = 1)
with(DD, boxplot(BioChem ~ timepoint+ treatment, outline=T, notch=F,cex.axis=0.7))
title(main="RM-Anova")
title(ylab="BioChem")
trellis.device(theme="col.whitebg", family="mono")
opar <- par(mfrow = c(1,1), oma = c(1.1, 0, 1.1, 0), las = 1)
ezPlot(
data = DD
, dv = BioChem
, wid = Number
, within = timepoint
, between = treatment
,x=timepoint
,do_lines=T
,split=treatment
, y_lab="средние BioChem"
)+ theme_bw(base_size = 12, base_family = "mono")
269
Приложение R-13
сhemo- chemo-
Age course followUP.time censor Age course followUP.time censor
25 0 12 1 62 5 60 0
25 3 60 0 62 6 15 0
26 6 26 1 62 6 29 1
27 6 13 0 62 6 36 0
28 6 60 0 62 6 13 0
32 6 60 0 62 4 36 1
32 0 14 1 62 6 60 0
32 3 26 1 62 6 33 1
34 0 38 1 62 6 42 0
35 6 44 0 62 6 54 1
36 6 24 0 62 5 54 0
37 5 60 0 62 5 60 0
38 6 15 0 62 0 60 0
38 6 15 0 62 0 25 1
39 6 16 0 62 0 12 0
39 6 46 1 62 0 38 0
39 0 60 0 62 0 51 0
39 0 39 1 62 0 39 1
40 6 60 0 62 0 23 0
40 6 60 0 62 0 60 0
41 6 56 0 62 0 34 1
41 6 39 1 62 0 60 0
42 6 60 0 62 0 4 1
42 0 48 0 62 0 26 0
42 2 32 0 62 3 31 0
43 6 12 0 62 1 21 1
43 4 35 0 62 1 5 1
43 0 60 0 63 6 60 0
43 0 60 0 63 6 39 1
43 0 60 0 63 6 16 1
44 6 7 0 63 6 43 1
44 6 60 0 63 6 60 0
44 6 35 0 63 6 12 0
44 6 60 0 63 4 60 0
44 0 60 0 63 0 41 0
45 6 6 0 63 0 15 1
45 2 43 1 63 0 28 0
46 6 60 0 63 0 60 0
46 6 55 1 63 0 60 0
46 3 4 0 64 6 44 0
46 2 9 1 64 6 56 1
47 6 60 0 64 6 60 0
47 6 60 0 64 0 17 1
47 6 60 0 64 0 60 0
47 6 15 0 64 0 60 0
47 0 60 0 64 0 60 0
47 0 60 0 64 0 19 1
47 0 60 0 64 0 24 0
270
47 2 2 0 64 0 60 0
48 6 48 1 64 0 51 0
48 5 60 0 64 0 51 0
48 6 12 0 64 1 60 0
48 0 16 1 65 6 28 0
48 0 60 0 65 5 25 0
49 6 18 0 65 5 47 1
49 4 44 0 65 6 12 0
49 6 36 0 65 0 28 0
49 0 60 0 65 0 32 1
49 0 60 0 65 0 42 1
49 0 60 0 65 0 51 1
49 0 21 1 65 0 13 1
49 0 60 0 65 0 51 0
49 0 49 1 65 0 60 0
49 0 59 0 65 0 60 0
49 0 45 1 65 0 19 1
49 0 56 1 65 0 60 0
49 2 60 0 65 0 37 1
49 1 44 0 66 5 58 0
50 4 60 0 66 5 26 0
50 6 32 1 66 5 13 1
50 5 47 0 66 6 60 0
50 6 60 0 66 6 60 0
50 6 60 0 66 5 39 0
50 5 49 1 66 0 54 0
50 6 41 0 66 0 9 1
50 0 39 0 66 0 28 1
50 0 59 0 66 0 60 0
50 0 51 0 66 0 15 1
51 6 10 0 66 0 46 0
51 4 38 1 66 0 60 0
51 6 32 0 66 1 7 0
51 6 14 0 66 3 35 1
51 6 47 0 66 2 27 1
51 6 60 0 67 6 50 0
51 6 12 0 67 6 8 1
51 6 46 0 67 6 15 1
51 0 48 0 67 6 12 0
51 0 60 0 67 6 44 0
51 0 50 0 67 6 18 1
52 6 50 0 67 0 26 0
52 6 39 0 67 0 60 1
52 6 14 1 67 0 7 1
52 6 60 0 67 0 60 0
52 6 19 1 67 0 48 1
52 6 60 0 67 0 24 0
52 6 6 0 67 0 20 1
52 0 60 0 67 0 21 1
52 0 40 1 68 6 39 1
52 0 55 1 68 6 11 0
52 0 27 1 68 5 48 0
52 0 48 1 68 6 27 1
53 6 36 0 68 4 27 0
271
53 6 39 0 68 6 34 0
53 6 60 0 68 0 24 1
53 6 60 0 68 0 34 0
53 6 60 0 68 0 60 0
53 5 5 0 68 0 8 1
53 6 15 1 68 0 40 1
53 6 14 0 68 0 24 0
53 2 45 0 68 0 60 0
54 5 17 0 68 2 6 0
54 6 13 0 69 5 59 0
54 6 13 0 69 6 59 1
54 6 60 0 69 6 10 1
54 6 18 0 69 6 54 0
54 6 60 0 69 6 31 1
54 6 49 1 69 0 35 1
54 6 60 0 69 0 9 0
54 0 26 1 69 0 60 0
54 0 42 1 69 0 37 1
54 0 60 0 69 0 16 1
54 0 26 0 69 0 24 1
54 0 11 1 69 0 60 0
54 0 12 0 69 0 48 0
55 0 36 1 69 0 60 0
55 0 33 1 69 0 60 0
55 0 60 0 69 0 24 1
55 0 13 1 69 0 60 0
55 0 35 1 69 0 25 0
55 0 60 1 70 6 29 0
55 1 43 0 70 6 60 0
56 6 44 0 70 5 14 0
56 4 16 0 70 0 41 1
56 5 60 0 70 0 4 1
56 6 6 0 70 0 11 1
56 5 60 0 70 0 48 0
56 0 60 0 70 0 37 1
56 0 38 1 70 0 49 0
56 0 22 1 70 0 60 0
56 0 60 0 70 0 17 0
57 6 29 0 70 0 58 1
57 6 13 0 70 0 23 1
57 6 23 1 70 0 60 0
57 0 47 1 70 0 24 1
57 0 60 0 71 6 9 0
57 0 4 1 71 6 15 0
57 0 18 1 71 0 51 0
57 0 60 0 71 0 37 0
58 6 60 0 71 0 41 1
58 6 38 1 71 0 54 1
58 6 42 0 71 0 60 0
58 6 11 0 71 0 60 0
58 4 8 1 71 0 19 1
58 0 60 0 71 0 51 0
58 0 50 0 71 0 38 1
58 0 60 0 72 4 4 1
272
58 0 42 1 72 6 15 1
59 6 31 0 72 0 1 0
59 6 13 0 72 0 60 0
59 6 8 0 72 0 51 0
59 6 46 1 72 0 7 1
59 6 60 0 72 0 31 0
59 6 4 0 72 0 35 1
59 6 15 0 72 0 60 0
59 6 38 0 72 0 60 0
59 6 5 0 72 1 16 0
59 0 13 1 72 1 19 0
59 0 9 1 73 6 43 0
59 0 17 0 73 0 31 1
59 0 48 1 73 0 60 0
59 0 60 0 73 0 58 0
59 2 29 0 73 0 23 0
60 6 14 1 73 0 60 0
60 6 12 0 73 0 35 1
60 6 45 0 73 0 60 0
60 6 48 0 73 0 60 0
60 6 60 0 73 0 60 0
60 6 60 0 74 4 53 0
60 6 14 0 74 5 45 0
60 0 51 0 74 0 19 1
60 0 9 1 74 0 1 1
60 0 18 0 74 0 6 1
60 0 33 1 74 0 19 1
60 0 23 1 74 0 60 0
61 6 14 1 74 0 60 0
61 6 28 1 74 0 60 0
61 6 60 0 74 0 60 0
61 6 60 0 74 0 23 1
61 6 6 0 74 0 60 0
61 0 36 1 74 0 31 1
61 0 37 1 74 0 18 1
61 3 52 0 74 2 20 0
75 6 32 1
75 6 42 0
75 0 48 0
75 0 60 0
75 0 60 0
75 0 27 0
75 0 14 0
75 0 60 0
75 0 20 0
75 0 20 1
75 0 15 1
# Выделяем 3 группы
# модель с 2 предикторами
CoxModel.2 <- coxph(Surv(followUP.time, censor)~ chemotherapy+Age, data=ChT)
summary(CoxModel.2)
Anova(CoxModel.2, test="LR")
274
Anova(CoxModel.interaction, test="LR")
summary(CoxModel.interaction)
#сравнение моделей
anova(CoxModel.interaction, CoxModel.2)
# тест Шоенфельда
cox.zph(CoxModel.interaction)
par(mfrow=c(2,2))
plot(cox.zph(CoxModel.interaction))
par(family='mono')
scatterplot(lp~Age | chemotherapy, reg.line=lm, smooth=FALSE, spread=F, boxplots=F, span=0.5,
col=c('green','red'), pch=c("*",'+'), by.groups=T, xlab="Возраст",ylab="Ln (относительный риск)", data=ChT)
275
Приложение. Уровни доказательности в исследованиях
Уровни доказательности и градации рекомендаций, используемые в
руководствах Американского Общества Клинической Онкологии (ASCO).
Уровень Тип
доказательности доказательности
Степень Градация
276
Я просто оставлю это здесь…
277