УНИВЕРСИТЕТI
(Учебно-методическое пособие)
Семей
2015
1
МИНИСТЕРСТВО ЗДРАВООХРАНЕНИЯ И СОЦИАЛЬНОГО
РАЗВИТИЯ РЕСПУБЛИКИ КАЗАХСТАН
(Учебно-методическое пособие)
Семей
2015
2
УДК 616-07:519.2(075.8)
ББК 53.4
М95
РЕЦЕНЗЕНТЫ:
А.К. Султанов – и.о. профессора кафедры общественного
здоровья и здравоохранения КарГМУ, к.м.н.
Д.К. Алдынгуров – ассистент кафедры Хирургии и
травматологии ГМУ г.Семей, MD, PhD
УДК 616-07:519.2(075.8)
ББК 53.4
М95
Утверждено и разрешено к печати решением УМС
Государственного медицинского университета г.Семей.
Протокол № 4 от 26.03.2015 г.
© А.О. Мысаев, 2015 год.
3
Перечень сокращений
4
СОДЕРЖАНИЕ
Название Стр.
Перечень сокращений 4
1. Введение в биостатистику. Типы данных. 6
2. Вариационный ряд. Числовая характеристика 15
дискретного статистического ряда. Средние величины.
Полигон.
3. Дисперсия. Стандартное отклонение. Стандартная 21
ошибка среднего. Доверительный интервал
4. Интервальный статистический дискретный ряд 24
распределения. Числовые характеристики
интервального статистического ряда. Гистограмма.
5. Нулевая гипотеза. Альтернативная гипотеза. 27
Ошибки первого и второго рода.
6. Нормальное распределение, характеристика, 35
графическая проверка.
7. t-критерий Стьюдента. 44
8. Дисперсионный анализ. 49
9. Отношение шансов. Относительный риск. Таблица 56
сопряженности.
10. Критерий χ2 Пирсона. 64
11. Корреляционный анализ. 72
12. Анализ выживаемости. 81
Тестовые задания 86
Эталоны ответов 97
Список литературы 98
5
ТЕМА 1. ВВЕДЕНИЕ В БИОСТАТИСТИКУ. ТИПЫ ДАННЫХ
Номинальные переменные
Номинальные переменные используются только для
классификации по признаку категорий [3]. Это означает, что такие
переменные могут быть измерены только в терминах
принадлежности к различным классам. При этом исследователь не
может влиять на количество этих классов и упорядочивать их.
Измерения в этой шкале строятся только на принципе
эквивалентности. Типичные примеры номинальных переменных:
национальность, цвет, населенный пункт, профессия, и т.д.
Номинальные переменные иногда называют категорийными.
Частным случаем номинальных признаков являются бинарные
(дихотомические) признаки, представляющие собой признаки с
10
двумя градациями, например, мужской и женский пол,
вакцинированные и невакцинированные, масса тела пациента выше
среднего или ниже, симптом болезни есть или нет. Наличие или
отсутствие признака иногда кодируют цифрами: «нет» – 0, «да» – 1.
Часто начинающие исследователи ошибочно воспринимают их
как обычные числовые значения. Однако эти признаки не связаны
между собой никакими арифметическими соотношениями,
упорядочить их также нельзя. Единственный способ описания
категорийных признаков состоит в том, чтобы подсчитать число
объектов, имеющих одно и то же значение. Кроме того, можно
определить, какая доля от общего числа единиц измерения
приходится на то или иное значение. Такими данными можно
характеризовать структуру явления и представлять их в виде таблиц
или диаграмм.
Порядковые переменные
Порядковые переменные позволяют ранжировать (упорядочить)
единицы наблюдения, указав, какие из них в большей или меньшей
степени обладают качеством, соответствующим данной переменной.
Однако они не позволяют установить различие между ними (нельзя
определить, на сколько больше или меньше). Порядковые
переменные иногда называют ординальными.
Типичные примеры порядковой переменной: состояние
больного (тяжелое, средней тяжести, удовлетворительное);
выраженность боли (сильная, умеренная, слабая, отсутствие боли).
Широко известны диагностические инструменты: шкала стадий
гипертонической болезни (по Мясникову), шкала степеней сердечной
недостаточности (по Стражеско–Василенко–Лангу), шкала степени
выраженности коронарной недостаточности (по Фогельсону),
визуальная шкала боли и т.д. Все эти шкалы построены по схеме:
болезни нет; первая стадия болезни; вторая стадия; третья стадия и
т.д. Иногда стадии кодируют так: 1, 2а, 2б, 3 и т.д. Каждая стадия
имеет свойственную только ей медицинскую характеристику [4].
С градациями этой переменной нельзя производить
арифметические действия (складывать, вычитать, делить и т.д.).
Понятно, что между тяжелым состоянием одного больного и
состоянием средней тяжести другого больного есть разница, однако
между этими состояниями нельзя установить разницу, скажем, в 18%.
В данном случае градация порядковой переменной характеризуется
11
последовательностью, в то время как номинальные переменные
предназначены исключительно для различения категорий.
Порядковые переменные играют ключевую роль в оценивании.
Иногда признак (переменная) может иметь большое число градации.
В связи с этим для сокращения записи таким переменным иногда
присваивают определенный балл (от франц. Balle – шар) – условная
единица для оценки интенсивности (насыщенности) явления по
определенной шкале.
ЗАДАЧА-ЭТАЛОН
Задачи исследования:
1. Изучить распространенность различных болезней органов
пищеварения у студентов медицинского вуза.
2. Определить факторы риска возникновения БОП.
3. Разработать предложения для администрации вуза
Программа исследования:
Единица наблюдения — студент с диагнозом БОП,
обучающийся в медицинском вузе на данном факультете.
Качественные признаки: пол, диагноз, характер питания.
Количественные признаки: возраст, длительность заболевания,
интервал между приемами пищи в часах, число приемов пищи в
день.
13
Результативные признаки: наличие заболевания системы
органов пищеварения.
Факторные признаки: пол, возраст, характер питания и др.
План исследования
Объект исследования — студент медицинского вуза,
обучающиеся в данном медицинском вузе на данном факультете.
Объем статистической совокупности: достаточное число
наблюдений.
Совокупность: выборочная, репрезентативная по качеству и
количеству.
Сроки проведения исследования: 6 февраля — 6 июня текущего
года.
Методы сбора материала: анкетирование, выкопировка из
медицинских документов студенческой поликлиники.
14
ТЕМА 2. ВАРИАЦИОННЫЙ РЯД. ЧИСЛОВАЯ
ХАРАКТЕРИСТИКА ДИСКРЕТНОГО СТАТИСТИЧЕСКОГО
РЯДА. СРЕДНИЕ ВЕЛИЧИНЫ. ПОЛИГОН
Средние величины
16
Изучаемый признак (х), частота этого признака (х) обозначается m.
Сумма «m» равно объёму выборки (n), т.е. ∑ m= n. Отношение
частоты (m) к объёму выборки (n) называют относительной частотой
(P), вычисляется по формуле P= m/ n
Средняя взвешенная –
n
М взв = xi m / n
i 1
М - средняя взвешенная;
xi - варианта;
m- частота встречаемости варианты;
n - число наблюдений.
Структурные средние
¼*(n+1)
¾*(n+1)
Рисунок 4. Полигон
18
ЗАДАЧА-ЭТАЛОН
Баллы 1 2 3 4 5
Количество 6 7 3 3 1
студентов
Задание:
1. Определить среднюю
2. Определить медиану
3. Определить моду
4. Определить нижний квартиль
5. Определить верхний квартиль
6. Построить полигон
Решение:
1. Для определения средней в данном конкретном примере лучше
использовать формулу расчета средней взвешенной
М= (1*6+2*7+3*3+4*3+5*1)/(6+7+3+3+1)=46/20=2,3
20
ТЕМА 3. ДИСПЕРСИЯ. СТАНДАРТНОЕ ОТКЛОНЕНИЕ.
СТАНДАРТНАЯ ОШИБКА СРЕДНЕГО. ДОВЕРИТЕЛЬНЫЙ
ИНТЕРВАЛ
SD
SEM =
n
ЗАДАЧА-ЭТАЛОН
Х1 19 20 21 22 23
m1 2 1 6 8 2
22
Решение:
n
õ1 = x m
i 1
1 1 /n ∑m= n=19
Дb= 2 * (19 21,3) (20 21,3) 2 6 * (21 21,3) 2 8 * (22 21,3) 2 2 * (23 21,3) 2
2
=
19
10,58 1,69 0,54 2,94 5,78 21,53
1,13 Дb=1,13
19 19
Среднее квадратическое отклонение – которое характеризует
разнообразие признака.
σ - среднее квадратическое отклонение
σr =√ Дr генеральное среднее квадратическое
σb =√ Дb выборочное среднее квадратическое отклонение.
Выборочные среднее квадратическое отклонение равно
σb = Db 1,13 1,06
23
ТЕМА 4. ИНТЕРВАЛЬНЫЙ СТАТИСТИЧЕСКИЙ
ДИСКРЕТНЫЙ РЯД РАСПРЕДЕЛЕНИЯ. ЧИСЛОВЫЕ
ХАРАКТЕРИСТИКИ ИНТЕРВАЛЬНОГО
СТАТИСТИЧЕСКОГО РЯДА. ГИСТОГРАММА
24
xmax xmin 40 25
h ; Ширина h 3
k 1 5 1
ЗАДАЧА-ЭТАЛОН
Х 150- 154- 158- 162- 166- 170- 174- 178- 182-
154 158 162 166 170 174 178 182 186
m 1 2 11 23 25 22 11 3 1
p
Вычислить:
1. относительные частоты
2. Определить ширину интервала
3. Построить гистограмму относительных частот.
25
Решение:
1.
Х 150- 154- 158- 162- 166- 170- 174- 178- 182-
154 158 162 166 170 174 178 182 186
m 1 3 11 23 25 22 11 3 1
p 0,01 0,03 0,11 0,23 0,25 0,22 0,11 0,03 0,01
2. К=1+3,32 * lg(100)=1+3,32*2=1+6.644=7.664 ≈ 8
h=(Xmax – Xmin)/k = (186-150)/8 = 36/8 = 4.5
3.
26
ТЕМА 5. НУЛЕВАЯ ГИПОТЕЗА. АЛЬТЕРНАТИВНАЯ
ГИПОТЕЗА. ОШИБКИ ПЕРВОГО И ВТОРОГО РОДА.
27
1. Теоретически обоснованные – основывающиеся на теории
(модели реальности) и являющиеся прогнозами, следствиями данных
теорий.
2. Научные экспериментальные – также подтверждают (либо
опровергают) те или иные модели реальности, однако за основу
берутся не уже сформулированные теории, а интуитивные
предположения исследователя («А почему бы не так?..»).
3. Эмпирические гипотезы, сформулированные относительно
конкретного данного случая. Примеры гипотез: «на каждое
раздражение нервной системы возникает ответная реакция». После
подтверждения гипотезы в процессе эксперимента она приобретает
статус факта. Общим для всех экспериментальных гипотез является
такое свойство, как операционализируемость, то есть
формулирование гипотез в терминах конкретных экспериментальных
процедур.
В данном контексте также можно выделить три типа
гипотез:
1. гипотезы о наличии того или иного явления (тип А);
2. гипотезы о наличии связи между явлениями (тип Б);
3. гипотезы о наличии причинной связи между явлениями (тип
В).
Примеры гипотез типа А: Существует ли феномен «сдвига к
риску» (термин социальной психологии) в процессе группового
принятия решения? Есть ли жизнь на Марсе? Возможна ли передача
мыслей на расстоянии? Также сюда можно отнести периодическую
систему химических элементов Д.И. Менделеева, на основе которой
ученый предсказал существование еще не открытых на тот момент
элементов. Таким образом, к данному типу относятся все гипотезы о
фактах и явлениях.
Примеры гипотез типа Б: Все внешние проявления мозговой
деятельности могут быть сведены к мышечным движениям (И.М.
Сеченов). Экстраверты имеют большую склонность к риску, чем
интроверты. Соответственно, данный тип гипотез характеризуют те
или иные связи между явлениями.
Примеры гипотез типа В: Центробежная сила уравновешивает
тяжесть и сводит ее к нулю (К.Э. Циолковский). Развитие мелкой
моторики ребенка способствует развитию его интеллектуальных
способностей. Данный тип гипотез имеет в своей основе
28
независимую и зависимую переменные, отношения между ними, а
также уровни дополнительных переменных.
Различают научные и статистические гипотезы. Научные
гипотезы формулируются как предполагаемое решение проблемы
[14]. Статистическая гипотеза – утверждение в отношении
неизвестного параметра, сформулированное на языке математической
статистики. Любая научная гипотеза требует перевода на язык
статистики. После проведения конкретного эксперимента
проверяются многочисленные статистические гипотезы, поскольку в
каждом психологическом исследовании регистрируется не один, а
множество поведенческих параметров.
Научные гипотезы. Экспериментальная гипотеза служит для
организации эксперимента, а статистическая – для организации
процедуры сравнения регистрируемых параметров.
Процесс выдвижения и опровержения гипотез можно считать
основным и наиболее творческим этапом деятельности
исследователя. Установлено, что количество и качество гипотез
определяется общей креативностью (общей творческой
способностью) исследователя – «генератора идей». Гипотеза может
отвергаться, но никогда не может быть окончательно принятой.
Статистические гипотезы.
29
1. Нулевая гипотеза формулируется как гипотеза об отсутствии
различий.
2. Альтернативная противоположна по смыслу нулевой. Она
утверждает наличие отличий в выборках и параметрах их
распределения.
30
проверки. Это должно быть достаточно малое число α∈(0,1). На
практике часто полагают α=0,05.
4. На множестве допустимых значений статистики выделяется
критическое множество наименее вероятных её значений,
соответствующее тому, что нулевая гипотеза должна быть
отвергнута. Остальная часть множества значений является
допустимой, т.е. не опровергает нулевую гипотезу.
5. Проверяется, куда попадает значение статистики. Если в
допустимое множество, то принимается нулевая гипотеза. Если в
критическое, то нулевая гипотеза отвергается.
31
Принятие неправильного решения
Возможно неправильное решение, когда отвергают/не отвергают
нулевую гипотезу, потому что есть только выборочная информация
(таблица 2) [15].
H0 верна и H0 неверна, но
принята принята
Принимается
(Решение (Ошибка
Результат верное) второго рода)
применения
критерия H0 верна, но H0 не верна и
отвергнута отвергнута
Отвергается
(Ошибка первого (Решение
рода) верное)
32
Следовательно, мощность — это вероятность отклонения
нулевой гипотезы, когда она ложна, т.е. это шанс (обычно
выраженный в процентах) обнаружить реальный эффект лечения, в
выборке данного объема, как статистически значимый.
В идеале хотелось бы, чтобы мощность критерия составляла
100%; однако это невозможно, так как всегда остается шанс, хотя и
незначительный, допустить ошибку 2-го рода.
ЗАДАЧА-ЭТАЛОН
РЕШЕНИЕ
34
ТЕМА 6. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ,
ХАРАКТЕРИСТИКА, ГРАФИЧЕСКАЯ ПРОВЕРКА.
35
а
Значение
Важное значение нормального распределения во многих областях
науки (например, в математической статистике и статистической
физике) вытекает из центральной предельной теоремы теории
вероятностей. Если результат наблюдения является суммой многих
случайных слабо взаимозависимых величин, каждая из которых
вносит малый вклад относительно общей суммы, то при увеличении
36
числа слагаемых распределение центрированного и нормированного
результата стремится к нормальному. Этот закон теории
вероятностей имеет следствием широкое распространение
нормального распределения, что и стало одной из причин его
наименования.
Нормальное распределение в природе и приложениях
Нормальное распределение часто встречается в природе.
Например, следующие случайные величины хорошо моделируются
нормальным распределением:
отклонение при стрельбе.
погрешности измерений (однако, погрешности некоторых
измерительных приборов имеют распределения, отличающееся от
нормального).
некоторые характеристики живых организмов в популяции.
37
Отклонение параметра от его средней арифметической в
пределах σ расценивается как норма, субнормальным считается
отклонение в пределах ± 2σ и патологическим - сверх этого предела,
т.е. > ± 2σ [17]
38
2
39
Рисунок 12. Схема и пример ассиметричного распределения
(правосторонняя ассиметрия) количественной переменной сресса
(SRSS), оцененного при помощи шкалы Хомса-Раге
(М=276; Ме=238; Мо=167 баллов)
40
Проверка на нормальность распределения количественной
переменной
Визуальный метод
График вероятности
Критерий Колмогорова-Смирнова (K-S d). Используется
когда выборка более 50 [18,19].
Если K-S d>0,0895, распределение не соответствует
нормальному на уровне значимости 0,05.
Критерий Шапиро-Уилка. Используется когда выборка
менее 50 [20].
Совпадение значений средней и медианы
Равенство нулю показателей асимметрии и эксцесса
(таблицы критических значений для заданной выборки)
Нормальное распределение - фундаментальный закон природы.
Однако мировая практика показывает, что нормальное распределение
20-25% от всех распределений.
41
Рисунок 15. Q-Q диаграмма нормального распределения (претест)
и распределения, отличающегося от нормального (SRSS)
42
ЗАДАЧА-ЭТАЛОН
Эмперические 6 13 38 74 106 85 30 14
частоты
Теоретические 3 14 42 82 99 76 37 13
частоты
(n n1 ) 2
Вычисляем по формуле: Х2
n1
43
ТЕМА 7. t-КРИТЕРИЙ СТЬЮДЕНТА
44
Этот метод позволяет проверить гипотезу о том, что средние
значения двух генеральных совокупностей, из которых извлечены
сравниваемые зависимые выборки, отличаются друг от друга.
Зависимая выборка – когда определенные признак измерен на одной
и той же выборке дважды, например, до и после воздействия, лечения
и т.п.
Исходные предположения – 1) каждому представителю одной
выборки поставлен в соответствие представитель другой выборки; 2)
данные двух выборок положительно коррелируют; 3) распределение
признака в обеих выборках приблизительно соответствует
нормальному
Критерий t-Стьюдента для независимых выборок
Данный метод сравнения позволяет проверить гипотезу о том, что
средние значения двух генеральных совокупностей, из которых
извлечены сравниваемые независимые выборки, отличаются друг от
друга.
Исходные предположения – 1) одна выборка извлекается из одной
генеральной совокупности, а другая выборка, независимая от первой,
извлекается из другой генеральной совокупности; 2) распределение
признака в обеих выборках приблизительно соответствует
нормальному; 3) дисперсии признака в 2-х выборках примерно
одинаковы (гомогенны).
4. Как рассчитать t-критерий Стьюдента?
Для сравнения средних величин t-критерий Стьюдента
рассчитывается по следующей формуле (выборка более 30 человек):
f = (n1 + n2) – 2
ЗАДАЧА-ЭТАЛОН
Пример расчета t-критерия Стьюдента [22]
Для изучения эффективности нового препарата железа были
выбраны две группы пациентов с анемией. В первой группе пациенты
в течение двух недель получали новый препарат, а во второй группе -
получали плацебо. После этого было проведено измерение уровня
гемоглобина в периферической крови. В первой группе средний
уровень гемоглобина составил 115,4±1,2 г/л, а во второй - 103,7±2,3
г/л (данные представлены в формате M±m), сравниваемые
совокупности имеют нормальное распределение. При этом
численность первой группы составила 34, а второй - 40 пациентов.
46
Необходимо сделать вывод о статистической значимости полученных
различий и эффективности нового препарата железа.
Решение: Для оценки значимости различий используем t-
критерий Стьюдента, рассчитываемый как разность средних
значений, поделенная на сумму квадратов ошибок:
х 68 70 72 75 78 80 90
m 2 2 3 5 1 1 1
∑ m = n =15
X в = 68 * 2 70 * 2 72 * 3 75 * 5 78 80 90 74,3 уд / мин
15
У 60 65 68 70 72 75
m 1 3 5 3 2 1
47
∑ m = n =15
У в = 60 65 * 3 68 5 70 3 72 * 2 75 68,3 уд / мин
15
D х=
= 28,5
Dy =
= 12,2
48
ТЕМА 8. ДИСПЕРСИОННЫЙ АНАЛИЗ
ЗАДАЧА-ЭТАЛОН
№ Уровень фактора А
испытания А1 А2 А3
1 30 35 40
2 32 39 38
3 34 38 44
4 28 36 42
Ха 31 37 41
X
i 1
2
j
(R / q) (i 1 R) 2 /( Lq)
2 L
2
S фак i 1
L 1
51
(20) 2 / 4 4 /(3 * 4) 400 / 4 16 / 12 100 1,3 98,7
2
2
S фак 49,35
1
3 1 2 2 2
42 / 4 4 / 12 16 / 4 16 / 12 4 1,3 2,7
2
Sфак2
2
1,35
3 1 2 2 2
202 / 4 4 / 12 400 / 4 16 / 12 100 1,3 98,7
2
2
Sфак 49,35
3 1 2 2 2
Sфвк
2
49,35 49,35 1,35 100
Fэкс = 18,02
Fкрит = 4,26
52
Таблица 3. Формулы для проведения дисперсионного анализа
Общий N-1
№ Уровень фактора А
испытания А1 А2 А3
1 30 35 40
2 32 39 38
3 34 38 44
4 28 36 42
Ма М1=31 М2=37 М3=41
Мобщ Мобщ=36,3
53
Для вычисления SSE необходимо провести дополнительные расчеты.
Уровень фактора А
№
А1 (А1-М1) (А1-М1)2 А2 (А2-М2) (А2-М2)2 А3 (А3-М3) (А3-М3)2
(35-37) (40-41)
1 30 (30-31) = -1 1 35 4 40 1
=-2 =-1
(39-37) (38-41)
2 32 (32-31) = 1 1 39 4 38 9
=2 =-3
(38-37) (44-41)
3 34 (34-31) = 3 9 38 1 44 9
=1 =3
(36-37) (42-41)
4 28 (28-31) = -3 9 36 1 42 1
=-1 =1
М1 = М2 = М3 =
Ма
31 37 41
сум
20 10 20
ма
SSE=20+10+20 = 50
54
Показатель силы влияния (η2) факторного признака на результат
определяется долей факториальной дисперсии (Dфакт.) в общей
дисперсии (Doбщ.), η2(эта) — показывает какую долю занимает
влияние изучаемого фактора среди всех других факторов.
55
ТЕМА 9. ОТНОШЕНИЕ ШАНСОВ. ОТНОСИТЕЛЬНЫЙ РИСК.
ТАБЛИЦА СОПРЯЖЕННОСТИ.
ОТНОШЕНИЕ ШАНСОВ
Отношение шансов – статистический показатель (на русском его
название принято сокращать как ОШ, а на английском - OR от "odds
ratio"), один из основных способов описать в численном выражении
то, насколько отсутствие или наличие определённого исхода связано
с присутствием или отсутствием определённого фактора в
конкретной статистической группе [26].
Термин "шанс" пришел из теории азартных игр, где при помощи
данного понятия обозначали отношение выигрышных позиций к
проигрышным. В научной медицинской литературе показатель
отношения шансов был впервые упомянут в 1951 году в работе Дж.
Корнфилда. В последствие данным исследователем были
опубликованы работы, в которых отмечалась необходимость расчета
95% доверительного интервала для отношения шансов [27].
Отношение шансов позволяет оценить связь между
определенным исходом и фактором риска.
Отношение шансов позволяет сравнить группы исследуемых по
частоте выявления определенного фактора риска. Важно, что
результатом применения отношения шансов является не только
определение статистической значимости связи между фактором и
исходом, но и ее количественная оценка.
Условия и ограничения применения отношения шансов:
1. Результативные и факторные показатели должны быть
измерены в номинальной шкале. Например, результативный признак -
наличие или отсутствие врожденного порока развития у плода,
изучаемый фактор - курение матери (курит или не курит).
2. Данный метод позволяет проводить анализ только
четырехпольных таблиц, когда и фактор, и исход являются
бинарными (дихотомическими) переменными, то есть имеют только
два возможных значения (например, пол - мужской или женский,
артериальная гипертония - наличие или отсутствие, исход
заболевания - с улучшением или без улучшения...).
3. Сопоставляемые группы должны быть независимыми, то есть
показатель отношения шансов не подходит для сравнения
наблюдений "до - после".
56
4. Показатель отношения шансов используется в исследованиях
по типу "случай-контроль"(например, первая группа - больные
гипертонической болезнью, вторая - относительно здоровые люди).
Для проспективных исследований, когда группы формируются по
признаку наличия или отсутствия фактора риска (например, первая
группа - курящие, вторая группа - некурящие), обычно
рассчитывается относительный риск.
Отношение шансов – это значение дроби, в числителе которой,
находятся шансы определённого события для первой группы, а в
знаменателе шансы того же события для второй группы.
Шансом является отношение числа исследуемых, имеющих
определенный признак (исход или фактор), к числу исследуемых, у
которых данный признак отсутствует.
Например, была отобрана группа пациентов, прооперированных
по поводу панкреонекроза, число которых составило 100 человек.
Через 5 лет из их числа в живых осталось 80 человек.
Соответственно, шанс выжить составил 80 к 20, или 4,0.
Удобным способом является расчёт отношения шансов со
сведением данных в таблицу 2х2:
58
отсутствии статистической значимости связи между фактором и
исходом при уровне значимости p>0,05.
ЗАДАЧА-ЭТАЛОН
Представим две группы: первая состояла из 200 женщин, у
которых был диагностирован врожденный порок развития
плода (Исход+) [28]. Из них курили во время
беременности (Фактор+) - 50 человек (А), являлись
некурящими (Фактор-) - 150 человек (С).
Вторую группу составили 100 женщин без признаков ВПР плода
(Исход -) среди которых курили во время беременности (Фактор+)
10 человек (B), не курили (Фактор-) - 90 человек (D).
1. Составим четырехпольную таблицу сопряженности:
59
статистически значимой, так как 95% CI не включает 1, значения его
нижней и верхней границ больше 1.
ОТНОСИТЕЛЬНЫЙ РИСК
Риск – это вероятность появления определенного исхода,
например, болезни или травмы. Риск может принимать значения от 0
(вероятность наступления исхода отсутствует) до 1 (во всех случаях
ожидается неблагоприятный исход). В медицинской статистике, как
правило, изучаются изменения риска наступления исхода в
зависимости от какого-либо фактора. Пациенты условно разделяются
на 2 группы, на одну из которых фактор влияет, на другую – нет.
Относительный риск – это отношение частоты исходов среди
исследуемых, на которых оказывал влияние изучаемый фактор, к
частоте исходов среди исследуемых, не подвергавшихся влиянию
этого фактора. В научной литературе часто используют сокращенное
название показателя - ОР или RR (от англ. "relative risk").
1. История разработки показателя относительного риска
Расчет относительного риска заимствован медицинской
статистикой из экономики. Правильная оценка влияния
политических, экономических и социальных факторов на
востребованность товара или услуги может привести к успеху, а
недооценка этих факторов - к финансовым неудачам и банкротству
предприятия.
2. Для чего используется относительный риск?
Относительный риск используется для сравнения вероятности
исхода в зависимости от наличия фактора риска. Например, при
оценке влияния курения на частоту гипертонической болезни, при
изучении зависимости частоты рака молочной железы от приема
оральных контрацептивов и др. Относительный риск - важнейший
показатель в назначении определенных методов лечения или
проведении исследований с возможными побочными эффектами.
3. Условия и ограничения применения относительного риска
1. Показатели фактора и исхода должны быть измерены
в номинальной шкале (например, пол пациента - мужской или
женский, артериальная гипертония - есть или нет).
2. Данный метод позволяет проводить анализ только
четырехпольных таблиц, когда и фактор, и исход
являются бинарными переменными, то есть имеют только два
60
возможных значения (например, возраст младше или старше 50 лет,
наличие или отсутствие определенного заболевания в анамнезе).
3. Относительный риск применяется при проспективных
исследованиях, когда исследуемые группы формируются по признаку
наличия или отсутствия фактора риска. При исследованиях по
принципу "случай-контроль" вместо относительного риска должен
использоваться показатель отношения шансов.
4. Как рассчитать относительный риск?
Для расчета относительного риска необходимо:
1. Строим четырехпольную таблицу сопряженности, исходя из
количества исследуемых, имеющих определенные значения
факторного и результативного признаков:
61
Формула расчета верхней границы:
63
ТЕМА 10. КРИТЕРИЙ χ2 ПИРСОНА.
64
Таблица 6. Распределение курения среди лиц с артериальной
гипертензией и без
Артериальная Артериальной
гипертония есть гипертонии нет Всего
(1) (0)
Курящие (1) 40 30 70
Некурящие (0) 32 48 80
Всего 72 78 150
Артериальная
Артериальной
гипертония есть Всего
гипертонии нет (0)
(1)
Курящие (1) 40 30 70
Некурящие (0) 32 48 80
Всего 72 78 150
Артериальная Артериальной
Всего
гипертония есть (1) гипертонии нет (0)
Курящие (1) (70*72)/150 = 33.6 (70*78)/150 = 36.4 70
Некурящие
(80*72)/150 = 38.4 (80*78)/150 = 41.6 80
(0)
Всего 72 78 150
(29)
Но для таблицы 2х2 более точные результаты дает критерий с
поправкой Йетса
68
Если χ2выч < χ2 крит., то Н(0) принимается, в случае χ2выч ≥ χ2 крит.,
принимается Н(1).
По таблице сопряженности можно вычислить меру связи между
двумя качественными признаками – ею является коэффициент
ассоциации Юла Q (аналог коэффициента корреляции)
ЗАДАЧА-ЭТАЛОН
69
Группы Чило культур Всего
Давшие мутации Не давшие мутации
Факт. Ожид. Факт. Ожид.
частота частота частота частота
С
357 338 2399 2418 2756
подкормкой
Без
80 99 725 706 805
подкормкой
всего 437 3121 3561
Метод №1
Определяем ожидаемую частоту:
1. 3561 – 437
437 2756
2756 – Х Х 338 ;
3561
2. 3561 – 3124
3124 2756
2756 – Х Х 2418 ;
3561
3. 3561 – 437
437 805
805 – Х Х 99;
3561
4. 3561 – 3124
3124 805
805 – Х Х 706
3561
На основании сопоставления таблиц сопряженности и ожидания
определяем отклонение фактических частот от ожидаемых
Степень согласия фактических данных с ожидаемым данными
определяем с помощью критерий согласия Х2.
1. Определяем 2 - степень согласия фактических данных с
ожидаемыми.
70
Oi – фактическое количество наблюдений в ячейке, Ei – ожидаемое
число наблюдений в ячейке.
(357 338) 2 (2399 2418) 2 (80 99) 2 (725 706) 2 (19) 2 (19) 2 (19) 2 (19) 2
2
338 2418 99 706 338 2418 99 706
361 361 361 361
1,07 0,15 3,65 0,51 5,38
338 2418 99 706
Метод №2.
Критерий хи-квадрат Пирсона вычисляется по формуле
f=(2-1)*(2-1)=1
71
ТЕМА 11. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
73
г) полученные отклонения перемножить (dx*dy) и
просуммировать (∑dx*dy)
д) каждое отклонение возвести в квадрат и просуммировать по
каждому ряду (∑dx2 и ∑ dy2); е) подставить полученные значения в
формулу расчёта коэффициента корреляции:
2) Ранговый метод
а) составить два ряда из парных сопоставляемых признаков,
обозначив первый и второй ряд, соответственно х и у. При этом
представить первый ряд признака в убывающем или возрастающем
порядке, а числовые значения второго ряда расположить напротив
того значения первого ряда, которым они соответствуют;
б) величину признака в каждом из сравниваемых рядов заменить
порядковым номером (рангом). Рангами, или номерами, обозначают
места показателей (значения) первого и второго рядов. При этом
числовым значениям второго признака ранги должны присваиваться
в том же порядке, какой был принят при раздаче их величинам
первого признака. При одинаковых величинах признака в ряду ранги
следует определять как среднее число из суммы порядковых номеров
этих величин;
в) определить разность рангов между х и у (d): d = х — у;
г) возвести полученную разность рангов в квадрат (d2);
д) получить сумму квадратов разности (∑d2) и подставить
полученные значения в формулу:
74
Таблица 9. Сила корреляционной связи
ЗАДАЧА-ЭТАЛОН
РЕШЕНИЕ ЗАДАЧИ
Последовательность расчетов изложена в тексте, результаты
представлены таблице 10.
76
Таблица 10. Пример расчета коэффициента ранговой корреляции
Спирмена
77
5.Произвести расчет коэффициента ранговой корреляции
Спирмена по формуле:
ρху = 1–((6×38,5)/5(52-1))=1-325/5(25-1)=1-325/120=1-1,92=-0.92
Решение.
78
Последовательность расчетов изложена в тексте, результаты
представлены в таблице 11. Построив ряды из парных
сопоставляемых признаков, обозначить их через х (жесткость воды в
градусах) и через у (количество кальция в воде в мг/л).
Количество
Жесткость
кальция в
воды dх dу dх*dу dx2 dy2
воде
(в градусах)
(в мг/л)
4 28 -16 -114 1824 256 12996
8 56 -12 -86 1032 144 7396
11 77 -9 -66 594 81 4356
27 191 +7 +48 336 49 2304
34 241 +14 +98 1372 196 9604
37 262 +16 +120 1920 256 14400
Мх=Σ х / n = Му=Σ у / n = Σ dх*dу = Σ dх2= Σ dy2=
120/6=20 852/6=142 7078 982 51056
80
ТЕМА 12. АНАЛИЗ ВЫЖИВАЕМОСТИ
Цензурированные данные.
Наблюдения,которые содержат неполные данные об исследуемым
явлении называется цензурированными данными [35]: например,
«пациент A был жив, по крайней мере, 4 месяца после операции,
затем он был переведён в другую клинику и контакт с ним был
потерян».
81
для всех наблюдаемых известно время окончания наблюдения,
а также изучаемый исход (умер, выбыл, не умер)
выбор наблюдаемых произведён случайно
Функция выживания
Функция, показывающая вероятность, того , что объект проживает
время больше t. Эту вероятность обычно называют выживаемостью
или функцией выживаемости [36].
Кривая выживаемости
Кривая выживаемости отражает вероятность пережить любой из
моментов врмени t после некоторого начального события С
помощью этой кривой можно изучать продолжительность жизни,
эффективность лечения заболевания ( в данном случае исход - это
ремиссия).
82
В начальной момент выживаемость равна 1(все субъекты живы и
находятся под наблюдением),затем кривая постепенно понижается и
приближается к 0.
Время ,до которого доживает половина совокупности, называется
медианой выживаемости. Для этого необходимо найти точку ,в
которой кривая выживаемости опускается ниже 0.5
Моментальный метод
S (t ) П (1 dti / nti )
• Для учета смертности в данный момент, используют
моментальный метод. который вычисляется по формуле;
• Где - dti число умерших в момент ti
• nti - число наблюдавших к моменту ti
• П - момент времени, когда произошла хотябы одна смерть
Доверительный интервал
s(t ) z .s(t )
A. Коэффициент асимметрии
B. Коэффициент эксцесса
C. Дисперсия
D. Средняя
E. Стандартное отклонение
7. Охарактеризуйте график
некой переменной
A. Асимметричный эксцесс
B. Асимметрия положительная
C. Асимметрия отрицательная
D. Асимметрия нулевая
E. Слабая асимметрия
Х1 1 2 3 4
m 20 15 10 5
A. 20
B. 25
C. 50
D. 10
E. 5
A. 2,5
B. 7,25
C. 10
D. 5
E. 8
88
11. Какое математическое выражение верно для графика вопроса
10?
А. М>Ме>Мо
В. М<Ме<Мо
С. Ме≥М>Мо
D. М=Ме=Мо
Е. М≠Ме≠Мо
A. 2
B. 3
C. 4
D. 5
E. 3,5
89
14. Охарактеризуйте распределение переменной BMI (индекс
массы тела) с помощью Q-Q диаграммы
A. Правостороннее
B. Нормальное распределение
C. Левостороннее
D. Асимметрия отрицательна
E. Нельзя предположить
90
B. шансы обнаружить фактор риска больше во второй группе.
Т.е. фактор имеет обратную связь с вероятностью наступления
исхода или это «фактор агрессии»
C. шансы обнаружить фактор риска в сравниваемых группах
одинакова. Соответственно, фактор не оказывает никакого
воздействия на вероятность исхода.
D. шансы обнаружить фактор риска больше в группе с
наличием исхода. Т.е. фактор имеет прямую связь с вероятностью
наступления исхода или это «фактор агрессии».
E. шансы обнаружить фактор риска больше в группе с
наличием исхода. Т.е. фактор имеет прямую связь с вероятностью
наступления исхода или это «фактор защиты».
91
Употребляли алкоголь Не употребляли алкоголь Всего
Парни 170 130 300
Девушки 35 265 300
Всего 205 395 600
92
Наличие Срок Ожидаемые Срок Ожидаемые всего
кабинета в постановки частоты постановки частоты
поликлинике диагноза диагноза
менее 15 более 15
дней дней
Есть кабинет 54 X 19 Z 73
Кабинета нет 7 Y 14 W 21
всего 61 33 94
Рассчитайте значение X
A. 47,4
B. 25,6
C. 13,6
D. 7,4
E. 4,4
A. Нейтральная
B. Понижающаяся
C. Отрицательная
D. Положительная
E. Отсутствие взаимосвязи
94
27. Имеются ежемесячные данные наблюдений за температурой
окружающей среды и посещаемостью парков. Корреляция между
температурой окружающей среды и посещаемостью парка rху=0,97.
Что означает данный коэффициент корреляции?
A. В теплую погоду парки посещаются больше, так как
коэффициент корреляции показывает, что связь обратная, сильная.
B. В холодную погоду парки посещаются меньше, так как
коэффициент корреляции показывает, что связь обратная, слабая.
C. В теплую погоду посещаемость парка намного выше, так
как коэффициент корреляции показывает, что связь прямая, сильная.
D. В холодную погоду парки посещаются меньше, так как
коэффициент корреляции показывает, что связь обратная, средняя.
Е. Взаимосвязи между температурой окружающей среды и
посещаемостью парка нет, так как коэффициент корреляции
показывает, что любая связь между этими явлениями случайна
95
D. уменьшение количества коек этого профиля больных в
больнице
E. количество использованных доз препарата
A. ЛТ
B. ЛТ+хирургия
C. Только
хирургия
D. Нельзя сказать
однозначно
E. Разницы нет
96
Эталон ответов
97
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
Тема 1.
1. http://bono-esse.ru/blizzard/Medstat/Statan/stat_org.html
2. Описательная статистика: учебно-методическое пособие для
студентов всех факультетов медицинских вузов, аспирантов,
магистрантов, соискателей и преподавателей / Ж. А. Чубуков, Т. С.
Угольник. — Гомель: учреждение образования «Гомельский
государственный медицинский университет», 2012. - 28 с.
3. Рубан А.И., Кузнецов А.В. Учебно-методическое обеспечение
самостоятельной работы студентов по курсу «Методы обработки
экспериментальных данных» / Красноярск, 2008 г. http://ikit.edu.sfu-
kras.ru/files/17/sam/sam.pdf
4. Трущелев С.А. Общие вопросы методологии статистического
анализа: типы данных и алгоритм подбора методов // Российский
психиатрический журнал. - 2014. - №1. - с. 68-73.
5. Прикладная математика. Справочник математических формул.
Электронный ресурс. http://www.pm298.ru/shkala3.php (доступен
15.01.2015г.)
Тема 2.
6. Виды распределения. Электронный ресурс.
http://studopedia.info/5-81481.html (доступен 14.01.2015 г.)
7. http://medstatistic.ru/theory/var_series.html
8. http://www.grandars.ru/student/statistika/ryady-raspredeleniya.html
Тема 3.
9. Эпидемиологический словарь. Под редакцией Джано М. Ласта.
– Москва, 2009, - 316с.
http://www.biometrica.tomsk.ru/lib/books/epid_dict.pdf
10. Пилипенко А.И. Эконометрика: Учебно-методический
комплекс. - М.: РУДН, 2009. - с.82
Тема 4.
11. http://www.grandars.ru/student/statistika/gruppirovka-
statisticheskih-dannyh.html
12. http://univer-nn.ru/zadachi-po-statistike-primeri/gruppirovka-
formula-sterdzhessa/
Тема 5.
13. http://wikien.xyz/obrazovanie/nauka/59283-primery-gipotez-
primery-nauchnyh-gipotez.html
14. http://lib.znate.ru/docs/index-95958.html
98
15. http://profitraders.com/Math/StatHypoTest.html
Тема 6.
16. Рубанов Д.Н., Лепихина З.П. Параметры статистического
распределения. - Томск, 2015. - с.15
17. http://medstatistica.com/articles0110101.html
18. Kolmogoroff A.N. Sulla determinazione empirica di una legge
di distribuzione // Giornale dell` Istituto Italiano degly Attuari. -
1933. - Vol. 4. - № 1. - P. 83-91.
19. Lilliefors H.W. On the Kolmogorov-Smirnov test for normality
with mean and variance unknown // J. Am. Statist. Assoc. - 1967. -
V.62. - P. 399-402.
20. Shapiro S. S., Wilk M. B. An analysis of variance test for
normality. // Biometrika. – 1965. – Vol.52. - №3. - p. 591-611.
21. http://statistica.ru/theory/normalnoe-raspredelenie/
Тема 7
22. Электронный ресурс. http://medstatistic.ru/theory/t_cryteria.html
(доступен 10.01.2015 г.)
23. Лобоцкая Н.Л. и др. Высшая математика: учебник для вузов /
Н.Л. Лобоцкая, Ю.В. Морозов, А.А.Дунаев. - Мн.:
Выш.шк.,1987. - 319 с.
Тема 8
24. Маркун Т.А. Дисперсионный анализ. Электронный ресурс:
http://bono-esse.ru/blizzard/Medstat/Statan/stat_da.html (доступен
10.01.2015 г.)
25. Lisa M. Sullivan. Essentials of Biostatistics in Public health.
Second edition. - 2012. - 313 p.
Тема 9
26. Электронный ресурс. http://medstatistic.ru/theory/odds_ratio.html
(доступен 10.01.2015 г.)
27. Cornfield, J. A Method for Estimating Comparative Rates from
Clinical Data. Applications to Cancer of the Lung, Breast, and
Cervix // Journal of the National Cancer Institute. - 1951. - N.11. -
P.1269–1275.
28. Мильчаков К. Представление результатов исследования типа
«случай-контроль». Электронный ресурс https://lit-review.ru/wp-
content/uploads/2014/01/odds_risks.pdf (доступен 21.01.2015 г.)
Тема 10
29. Электронный ресурс. http://medstatistic.ru/theory/hi_kvadrat.html
(доступен 10.01.2015 г.)
99
30. Электронный ресурс.
http://psychologylib.ru/books/item/f00/s00/z0000053/st074.shtml
(доступен 10.01.2015 г.)
Тема 11
31. Кучеренко В.З. Применение методов статистического анализа
для изучения общественного здоровья и здравоохранения.
Учебное пособие для ВУЗов. - 4 изд., перераб и доп. - М.,
Геотар-Медиа, 2007. - 256 с.
32. Электронный ресурс. http://bono-
esse.ru/blizzard/Medstat/Statan/stat_ka.html (доступен 10.01.2015
г.)
33. Корреляционный анализ. Использование MS Excel для расчета
коэффициента корреляции. - Уч. мет. пособие, Казань, 2011. –
18 с. Доступно на http://medstatistic.ru/articles/correlacia.pdf
(12.12.2014 г.)
34. Галанина О. Коэффициент корреляции Пирсона. Пример. –
электронный ресурс https://www.youtube.com/watch?v=a_qpWdy-
Gxo (доступен 15.12.2014 г.)
Тема 12
35. Электронный ресурс.
http://statistica.ru/glossary/general/tsenzurirovannye-dannye-
nepolnye-dannye/ (доступен 10.01.2015 г.)
36. Румянцев П.О., Саенко В.А., Румянцева У.В., Чекин С.Ю.
Статистические методы анализа в клинической практике. –
Электронный ресурс
https://www.kantiana.ru/medicinal/help/StatMethodsInClinics.pdf
(доступен 10.01.2015 г.).
37. Анализ выживаемости. Электронный ресурс.
http://statsoft.ru/home/textbook/modules/stsurvan.html (доступен
10.01.2015 г.).
100
Учебно-методическое пособие
Биостатистика для медицинского ВУЗа
Мысаев Аян Оралханович
101