Вы находитесь на странице: 1из 81

Койчубеков Б.К., Сорокина М.А.

,
Букеева А.С., Такуадина А.И.

БИОСТАТИСТИКА
в примерах и задачах
Учебно-методическое пособие
МИНИСТЕРСТВО ЗДРАВООХРАНЕНИЯ РЕСПУБЛИКИ КАЗАХСТАН

I
КАРАГАНДИНСКИЙ ГОСУДАРСТВЕННЫЙ МЕДИЦИНСКИЙ 5
УНИВЕРСИТЕТ
5
1

5
8
3
7
7

9
Койчубеков Б.К., Сорокина М.А., Букеева А.С., Такуадина А.И.
О
2
3
8
БИОСТАТИСТИКА в примерах и задачах 4
8

Учебно-методическое пособие II
>6
Ю
57
58

59
70
70

72

73
77
78
80

Алматы, 2012
e w b i v y i -д

£ -C 3
У Д К 6 1 6 - 0 7 : 5 1 9 .2
Б Б К 5 3 .4
Б 63

Рецензенты : А дибаев Б.К. - д.ф.-м.н., профессор кафедры медбиофизики,


информатики и биостатистики КазНМУ им. С.Д. Асфендиярова
Кулов Д.Б. - д.м.н., зав. кафедрой общ ественного здравоохра­
нения с курсом гигиены и эпидемиологии ФНПР КГМУ
Султанов А.К. - к.м.н., зав. кафедрой социальной медицины и
организации здравоохранения КГМУ

А вторы : Койчубеков Б.К.,


Сорокина М .А.,
Букеева А.С.,
Такуадина А.И.

БИОСТАТИСТИКА в примерах и задачах: Учебно-метод. пособие/ -


Алматы ТОО «Эверо», 2012. - 80 с.:

ISBN 978-601-240-194-3

Учебно-методическое пособие является руководством к практическим


занятиям по дисциплине «Биологическая статистика». Краткое изложение
статистических методов сопровождается разбором конкретных медицинских
задач и ситуаций. В конце каждого раздела приведены задания для
самостоятельного решения и тесты для самоконтроля. П особие предназначено
для преподавателей и студентов медицинских высших учебны х заведений.

У Д К 616-07:519.2
ББК53.4
Утверждено Методическим советом
Протокол № 10 от 09.06.2010
Утверждено Ученым советом КГМУ
Протокол № 11 от 01.07.2010

ISBN 978-601-240-194-3
© Койчубеков Б.К.,
Сорокина М .А.,
Букеева А.С.,
Такуадина А .И ., 2012 ж.

© ТОО «Эверо», 2012 ж.


СОДЕРЖАНИЕ

Основные понятия и определения биостатистики.......................................................... 4


В ведение..........................................................................................................................................5
Тема 1. Анализ медико-биологических данных на основе их графического
представления................................................................................................................................ 6
Тема 2. Числовые характеристики случайной величины ........................................... 11
Тема 3. Проверка гипотезы о нормальности распределения случайной
величины........................................................................................................................................ 16
Тема 4. t-критерий Стьюдента для анализа биомедицинских данны х................... 18
Тема 5. Оценка относительных величин в биостатистике..........................................23
Тема 6. Доверительный интервал........................................................................................ 27
6.1 Доверительный интервал генеральной средней...................................... 27
6.2 Доверительный интервал для разности генеральных средних двух
независимых групп............................................................................................................... 29
6.3 Доверительный интервал для разности генеральных средних двух
зависимых групп.................................................................................................................... 30
6.4 Доверительный интервал относительных показателей........................32
Тема 7. Непараметрические критерии проверки статистических гипотез............33
1 Тема 8. Анализ качественных признаков. Таблицы сопряж енности..................... 38
<? Тема 9. Корреляционный анализ..........................................................................................44
J Тема 10. Линейная регрессия ............................................................................................... 48
Ч Тема 11. Дисперсионный анализ. Метод однофакторного дисперсионного
анализа...........................................................................................................................................51
Тема 12. Метод стандартизованных показателей...........................................................56
Тема 13. М етод анализа выживаемости............................................................................ 60
Приложение 1. Критические значения коэффициента асимметрии A s ................ 67
Приложение 2. Критические точки двустороннего t-критерия Стьюдента......... 68
Приложение 3. Критические значения U -критерия Манна-Уитни, а = 0,01.
Двусторонний критерий......................................................................................................... 69
Приложение 4. Критические значения парного Т-критерия Уилкоксона............70
Приложение 5. Критические значения у 2 ........................................................................70
Приложение 6. Таблица критических значений коэффициента корреляции
рангов С пирмена........................................................................................................................72
Приложение 7. Критические значения F-критерия Фишера для а = 0,05
(обычный шрифт) и а = 0,01 (жирный шрифт)............................................................... 73
Приложение 8. Таблица статистических критериев.....................................................77
Приложение 9. Примерный вариант рубежного контроля.........................................78
ЛИТЕРАТУРА.............................................................................................................................80

3
О сн овн ы е понятия и оп редел ен и я би остати стик и

Биостат ист ика - отрасль знаний о статистическом анализе


групповых свойств и массовых явлений в биологии и медицине
Случайной величиной называется величина, которая в результа­
те опыта может в определенных пределах принять то или иное значе­
ние, неизвестно заранее — какое именно
Генеральная совокупность (популяция)- множество всех об­
следуемых объектов, объединенных общими свойствами
Выборка - часть генеральной совокупности, по результатам
анализа которой делается вывод обо всей генеральной совокупности
Независимые выборки - выборки, состоящие из разных объек­
тов, при этом значение случайной величины в одной выборке не за­
висит от ее значений в другой выборке.
Зависимые выборки - выборки, состоящие из одних и тех же
объектов, обследованных до и после воздействия.
Под термином «распределение случайной величины» пони­
мается функция, показывающая вероятность (частоту встречаемости)
всех возможных значений этой случайной величины
Доверит ельны й инт ервал - интервал, в котором с некоторой
вероятностью находится истинное (генеральное) значение числовой
характеристики случайной величины
Уровень значимости а - максимально допустимая вероятность
ошибки, которую может себе позволить исследователь, отвергая ну­
левую гипотезу (принимая альтернативную).
Уровень достоверности р - реальная вероятность ошибки в
случае принятия альтернативной гипотезы
Термин корреляция означает взаимосвязь между двумя случай­
ными величинами, когда изменение одной приводит к изменению в
среднем другой величины.
Регрессия - метод анализа, позволяющий получить математиче­
скую модель (функцию) взаимосвязи зависимой величины с одной
или несколькими независимыми величинами.

4
В веден и е

В настоящее время Казахстан реально находится в рыночной


экономике, поэтому есть насущная необходимость экономить ресур­
сы, как человеческие, так и материальные. Одна из наиболее затрат­
ных статей бюджета страны - это расходы на здравоохранение. Одна­
ко возможности государства в целом и отдельно взятого гражданина
не безграничны, и сегодня остро встает вопрос об эффективности ис­
пользуемых диагностических и лечебных инструментов. Требуются
строгие доказательства обоснованности их применения, а также
необходимо показать, какому проценту больных они помогут и в ка­
кой степени. Но эти данные невозможно получить без помощи стати­
стических методов анализа. Это обусловлено естественным разнооб­
разием биологических объектов, когда фактически невозможно
встретить два одинаковых организма, а также влиянием психологиче­
ских факторов на функциональное состояние, субъективизмом врача-
исследователя в оценке таких состояний и т.д.
Надо отметить, что сегодня ни один серьезный медицинский
журнал не примет статью без статистической обработки данных, без
использования алгоритмов доказательной медицины. Однако, среди
множества статистических методов врачу сложно выбрать наиболее
адекватный, соответствующий конкретно им набранному материалу.
Неправильный подбор методов приводит к неверным выводам, что в
свою очередь чревато ошибкой диагностики и лечения.
Отдельно стоит вопрос интерпретации результатов статистиче­
ской обработки. Наличие большого количества компьютерных про­
грамм по статистике позволяет проводить обработку данных с ис­
пользованием различных многофакторных, многомерных математи­
ко-статистических методов - дисперсионного, регрессионного, кла­
стерного и др. Но анализ результатов этих расчетов задача нетриви­
альная, требующая знаний как по статистике, так из области решае­
мых с ее помощью проблем.
Данное пособие направлено на выработку навыков применения
статистических методов при решении различных медицинских задач.
Надеемся, что оно будет способствовать пониманию целей и задач
биостатистики и явится своеобразным навигатором для тех, кто ре­
шил руководствоваться в своей деятельности принципом доказатель­
ности.

5
Тема 1. Анализ медико-биологических данных на основе их
графического представления.

Одним из способов представления и анализа случайных величин


является построение гистограмм распределения. Гистограмма пока­
зывает, как часто встречаются те или иные значения случайной вели­
чины, по ней можно качественно оценить функцию плотности рас­
пределения.
Рассмотрим правило построения гистограмм на конкретном
примере.
Пусть дана случайная величина X (х/, дс2, ..., x j - значения
артериального давления у 25 испытуемых
108, 115, 133, 102, 110, 118, 118, 120, 120, 127, 127, 127, 110, 100,
105, 120, 120, 130, 135, 140, 135, 146, 145, 160, 155
Необходимо выполнить следующие шаги:
1. Элементы выборки объемом л=25 расположить в ранжиро­
ванный ряд (по возрастанию или убыванию)
100; 102; 105; 108; 110; 110; 115; 118; 118; 120; 120; 120; 120;
127; 127; 127; 130; 133; 135; 135; 140; 145;146; 155; 160
2. Вычислить размах R (разность между минимальным и макси­
мальным значением случайной величины):
3.
К = ХтаХ-Хт,„=160-100=60 мм.рт.ст.

4. Разбить вариационный ряд на к непересекающихся интерва­


лов. к вычисляют по формуле Стерднесса, предусматривающей выде­
ление оптимального числа интервалов:

&=l+3.3221g(n) (округлить до целого)

Можно воспользоваться следующими рекомендациями

Объем выборки Число интервалов


25-40 5-6
41-60 6-8
61-100 7-10
101-200 8-12
Более 200 10-15

6
Т.к. в нашем случае объем выборки равен 25, то выберем к=6.
5. Определить длину одного интервала

b=R/k=60/6=10 мм.рт.ст.

6. Определить границы каждого интервала


7. Определить частоты - количество п, элементов выборки, по­
павших в й интервал (элемент, совпадающий с правой границей ин­
тервала, относится к последующему интервалу)
Наряду с частотами одновременно подсчитываются также отно­
сительные частоты^- и процент случаев ^-xioo%.
П П
Полученные результаты сводятся в таблицу, называемую табли­
цей частот группированной выборки .

Номер ин­ Относит, частота


Границы ин­ Частота, Процент
тервала, Oj.
тервала п, случаев
» п
1 100-110 4 0,16 16
2 110-120 5 0,20 20
3 120-130 7 0,28 28
4 130-140 4 0,16 16
5 140-150 3 0,12 12
6 150-160 2 0,08 8
ИТОГО 1=25 1=1 1=100%

8. Далее строится гистограмма (рисунок 1).

м м .р т .с т

Рисунок 1 - Гистограмма распределения

7
По оси абсцисс откладываются интервалы, по оси ординат могут
откладываться абсолютная частота встречаемости, или относительная
частота встречаемости, или же процент относительно общего объема
выборки.

Какую информацию дает нам этот график:


•£амое низкое значение артериального давления лежит в преде­
лах 1О0-110 мм.рт.ст (Хт,„)
•Самое высокое давление - в пределах 150-160 мм.рт.ст. (Хтах)
•Люди с высоким и низким значениями давления встречаются
реже, чем люди с нормальными значениями. Так, АД в пределах 100-
110 мм.рт.мт. встречается в 16% случаев, давление 140-150 мм.рт.ст.
встречается в 12% случаев, а 150-160 мм.рт.ст. - в 8% случаев.
•Наиболее часто встречается давление от 120 до 130 мм.рт.ст.
(28% случаев)
•В основном значение артериального давления у людей лежит в
пределах от 110 до 140 мм.рт.ст. Лица с таким давлением составляют
64% всех обследованных.
Огибающая гистограммы дает нам качественное представление
о ф ункции плот ност и распределения случайной величины (иногда
просто говорят распределение). Эта функция характеризует вероят­
ность того, что случайная величина примет то или иное значение.
Существует множество различных функций плотности распределе­
ния. Наиболее распространенным является нормальное распределе­
ние - оно имеет симметричный колоколообразный вид.

Самостоятельная работа:
Задание 1. По приведенным ниже данным построить гисто­
грамму.

167 177 165 195 181 194 178 177 191 175
Рост, см
155 175 165 170 161 178 178 176 178 185

• Укажите, в каких пределах лежит минимальное и макси­


мальное значения анализируемой величины,
• Определите, какие значения анализируемой величины
встречаются наиболее часто и как часто (процент случаев)
• Укажите, какие значения анализируемой величины встре­
чаются наиболее редко, определите процент случаев
8
• В каких пределах в основном лежит анализируемая вели­
чина, сколько процентов случаев включают эти пределы.
• Дайте качественную оценку функции плотности распреде­
ления данной случайной величины (нормальное или отличное от
нормального). •

Задание 2. Опишите гистограмму (рисунок 2)


• определите общее количество обследованных лиц
• учитывая, что норма составляет 60-80 уд/мин, определите
процент лиц имеющих пульс выше нормы и ниже нормы.
• какой пульс встречается наиболее часто и наиболее редко,
в скольких процентов случаев это происходит

50 60 70 80 90 100 110
Частота пульса, уд/мин

Рисунок 2 - Распределение частоты пульса

Тесты для самоконтроля:


1.
Какую информацию несет гистограмма?
A. о корреляционной связи между случайными величинами
B. о зависимости между случайными величинами
C. о частоте встречаемости тех или иных значений случайной
величина
D. об относительном разбросе значений случайной величины
9
Е. об эффективности диагностических методов исследования
2.
Чему соответствует высота столбика на гистограмме?
A. объему выборки;
B. интервалу разбиения выборки на классы;
C. частоте соответствующего признака в выборке;
D. среднему значению в исследуемой выборке;
E. значению дисперсии выборки относительно среднего.
3.
Чему соответствует ширина столбика гистограммы частот?
A. объему выборки;
B. интервалу разбиения выборки на классы;
C. частоте соответствующего признака в выборке;
D. среднему значению в исследуемой выборке;
E. значению дисперсии выборки относительно среднего.
4.
По данным таблицы определите в скольких процентов случаев
встречается минимальное значение случайной величины

Значение случайной величины Частота встречаемости


3 5
4 4
7 1

А. 10%
В. 25%
С. 16%
D. 50%
Е. 5%
5.
Сколько интервалов содержит гистограмма, если объем выборки
составляет 55 объектов
A. 3
B. 7
C. 12
D. 25
E. 55

I Ответы | 1C | 2С | ЗВ | 4D | 5В [

10
Т ем а 2. Ч и с л о в ы е х а р а к т е р и с т и к и сл у ч а й н о й в ел и ч и н ы

Для описания случайной величины используется целый ряд чис­


ловых характеристик. Если эти характеристики определены по вы­
борке, то они называются выборочными. Необходимо помнить, что
выборочные характеристики являются лишь оценкой (приближением)
генеральных характеристик, т.е. отражают их с некоторой ошибкой.
Учитывая, что в основном, исследователь имеет дело с выборкой, в
дальнейшем мы будем опускать слово «выборочный».
К выборочным характеристикам случайных величин относятся:
Среднее значение (лг)~ характеристика положения значений
случайной величины на оси измерений

Дисперсия (D) - характеристика разброса значений случайной


величины относительно среднего значения

>2
Л= -------
л-1

Среднеквадратичное отклонение (стандартное отклонение SD)


- также является характеристикой разброса, введена для того, чтобы
избавиться от квадрата единицы измерения s = VZ>
Так как среднее значение, как правило, определяется по ограни­
ченной выборке, а не по генеральной совокупности, то оно отличает­
ся от истинной (генеральной) средней, то есть имеет определенную
ошибку, называемой ошибкой средней (стандартная ошибка SE)

Мода (Л/о) —наиболее часто встречающееся значение случайной


величины. Для того, чтобы определить моду все значения выборки
выстраиваются в ранжированный ряд (по возрастанию или по убыва­
нию). Может быть несколько значений моды.
11
По ранжированному ряду находим и медиану (Me) - это значе­
ние случайной величины, которое делит выборку на две равные ча­
сти. Если число объектов выборки четное, то медиана равна среднему
двух соседних значений.
Нижний квартиль Q2s - это значение случайной величины,
ниже которого находится 25% выборки.
В ранжированном ряду нижний квартиль находится под номе­
ром, определяемым по формуле:

Верхний квартиль Q 75 — это значение случайной величины,


выше которого находится 25% выборки.
В ранжированном ряду верхний квартиль находится под номе­
ром, определяемым по формуле:

Межквартильный (интерквартильный) размах - это разница


d Q = Q 7 5 - 0.25‘
50 % данных лежит в пределах от нижнего до верхнего кварти­
лей.
В настоящее время существует большое количество компьютер­
ных программ для расчета перечисленных характеристик. Если же
расчеты проводятся на калькуляторе, то удобно свести все расчеты в
приведенную ниже таблицу.
Пример. Пусть дана случайная величина X (xh х 2, х п) - рост
мальчиков. Объем выборки и=11. Результаты расчета числовых ха­
рактеристик сведены в таблицу.

Рост, см Х -х , СХ - х ,)2 Ранж. ряд


X, 184 -9,4 88,36 164
Х2 178 -3,4 11,56 168
Хз 164 10,6 112,36 170
Х4 170 4,6 21,16 170
X} 168 6,6 43,56 170
12
Хб 172 2,6 6,76 172
X? 182 -7,4 54,76 175
Xs 175 -0,4 0,16 178
х9 170 4,6 21,16 182
' Х ,о 188 -13,4 179,56 184
Хц 170 4,6 21,16 188
С умма Е=1921 £ = 56 0 ,5 6 M e =172
X = 174,6 £>*=56,06 М о= П 0
/их=2,27 **=7,49 0 25= 170
Q ? s= 178

Аналогично проведем расчеты по данным о росте девочек

/7=11 У/ У2 Уз У4 V. Уб У’ Vv Уя Ую Ун
Рост
165 168 164 163 165 160 165 166 169 167 168
девоч., см
У =165,5 D V=6,6S s v= 2,58 оту=0,78
Л/о=165 M e =165 Q.25= 165 0 /5 = 1 6 7 0.75-0.25=2

Полученные результаты наглядно можно представить в виде


графика, так называемого «ящика с усами - whiskers box» (рисунок ).
На графике отмечены минимальное и максимальное значение, сред­
нее и медиана, нижний и верхний квартили.

□ Медиана I 125%-75% I Мин-Макс

Рисунок 3 - Графическое представление данных

13
Анализ результатов:
1. Мальчики более рослые, чем девочки - об этом свидетель­
ствуют средние значения и положение выборок на числовой оси -
выборка девочек расположена ниже, т.е. в области меньших значений
роста.
2. Дисперсия роста мальчиков, больше дисперсии роста девочек.
Т.е. разброс значений роста у мальчиков больше - среди них встре­
чаются низкорослые, среднего роста и высокие. У девочек группа бо­
лее однородная, т.е. они не сильно различаются по росту.
3.У мальчиков наиболее часто встречается рост 170 см, об этом
свидетельствует мода Мо. Половина мальчиков имеет рост меньше
172 см, на это указывает Me. Т.е. в целом мальчики невысокие.
4. У девочек наиболее часто встречается рост 165 см, об этом
свидетельствует мода Мо. Половина девочек имеет рост меньше 165
см, на это указывает Me. Т.е. в целом девочки также невысокие.

Самостоятельная работа
Задание 1. По данным из таблицы вычислить среднюю, диспер­
сию, стандартное отклонение, ошибку средней, моду, медиану, ниж­
ний и верхний квартиль, интерквартильный размах. Представить дан­
ные в графическом виде.

Объем
плазмы, 45 36 37 38 41 42 26 31 35 40 43 36 37 36 30 26 44 30 40
мл\кг

Задание 2. В таблице приведены результаты расчета основных


статистических характеристик показателя гематокрита у жителей
экологически неблагоприятного района (опытная группа) и жителей,
проживающих в нормальных условиях (контрольная группа):

п Среднее Медиана Мода минимум максимум S


Опытная группа 20 0,23 0,24 0,22 0,10 0,33 0,07
Контрольная группа 20 0,29 0,29 0,29 0,12 0,49 0,10

По данным из таблицы:
1. Определите, в какой группе показатель гематокрита выше
(какой статистический параметр указывает на это);
2. Определите, в какой группе разброс значений показателя ге­
матокрита выше (укажите статистический параметр);
14
3. Определите наиболее часто встречающееся значение показа­
теля гематокрита в группах (укажите статистический параметр).

Тесты для самоконтроля:


1.
Как изменяется среднеквадратическая (стандартная) ошибка при
увеличении числа объектов в выборке?
A. увеличивается
B. уменьшается
C. не изменяется
D. сначала увеличивается, затем падает
E. сначала уменьшается, затем возрастает

2.
Как называется значение случайной величины, которое делит
вариационный ряд на две части, равные по числу элементов выборки?
А. модой
В. квартилем
С. медианой
D. выборочной средней
Е. коэффициентом вариации

3.
Как называется значение случайной величины, которое имеет
наибольшую частоту встречаемости?
A. модой
B. медианой
C. квартилем
D. выборочной средней
E. коэффициентом вариации
4.
Что показывает дисперсия наблюдаемой величины?
A. разброс относительно среднего по выборке;
B. разброс относительно нуля;
C. плотность распределения;
D. наиболее часто встречающиеся величины;
E. уровень значимости критерия.

15
5.
Измерение частоты сердечных сокращений у студентов 1го кур­
са (ударов/мин). 73, 73, 62, 67, 81, 63, 83, 64, 66, 67, 67, 66, 71, 68, 71,
76, 63 ,66. Чему равен размах?
A. 20
B. 11
C. 12
D. 0
E. 21

Ответы I 1 2С i ЗА I 4А~ 5Ё

Тема 3. Проверка гипотезы о нормальности распределения


случайной величины.

Для проверки нормальности распределения случайной величины


можно использовать коэффициент ассиметрии и коэффициент экс­
цесса.
Коэффициент ассиметрии As - показатель отклонения кривой
распределения от симметричности.

±(х,-ху
ns

Отрицательный коэффициент ассиметрии означает, что кривая


распределения скошена влево от центра, положительный - вправо.
При нормальном распределении As близок к нулю.
Коэффициент эксцесса Ех характеризует степень заостренно­
сти кривой распределения (отрицательный коэффициент свидетель­
ствует о об более острой вершине, положительный - о более поло­
гой).

£*=-=I 3
ns

Для нормального распределения эти коэффициенты должны


быть близки нулю. Но, поскольку они являются выборочными, то на
практике точное равенство нулю почти не встречается. Поэтому для
16
проверки нормальности распределения рекомендуется использовать
соответствующие таблицы {Приложение 1), в которых указаны кри­
тические точки для этих коэффициентов при различных уровнях зна­
чимости и объемах выборки. Если рассчитанное значение для асси-
метрии и эксцесса превосходят эти критические точки, гипотеза о
нормальности распределения отвергается.
Пример. Проверить на нормальность распределения систоличе­
ского артериального давления по выборке из 25 значений.

108, 115, 133, 102, 110, 118,118, 120,120, 127, 127, 127, 110, 100,
105, 120, 120, 130, 135, 140, 135, 146, 145, 160, 155

Н(0): распределение систолического давления соответствует


нормальному распределению

п Ех=-
А" = 125,04 5=15,9 A s= 0,424 а=0,05 /Ц,™ =0,711 £*«ртт=0,869
=25 0,655

Поскольку вычисленные значения коэффициентов меньше соот­


ветствующих табличных (Приложение 1 ), то принимается нулевая
гипотеза.
По гистограмме, построенной для данной выборки, также видно,
что анализируемая величина имеет приближенно нормальное распре­
деление (рисунок 1).

Самостоятельная работа.
Задание 1. По данным из таблицы построить гистограмму рас­
пределения, провести эмпирическую кривую распределения, вычис­
лить коэффициенты ассиметрии и эксцесса, проверить гипотезу о
нормальности распределения.

Объем циркулирующей 45 36 37 38 41 42 26 31 35 40 43 36 37
крови, мл/кг______ 36 30 26 44 30 40 31 38 43 40 35 36 36

Задание 2. По данным из таблицы проверить нулевую гипотезу


о нормальности распределения случайной величины

п =50 X = 4,43 s=l,25 а=0,05 1As=0,655 | £х=-0,901

17 КММУ К1ТАПХАНАСЫ
100008 , Караганды кь> • э|
Гоголь кешас! Л‘>
Тема 4. t-критерий Стьюдента для анализа биомедицинских
данных

При исследовании какого-либо признака в различных группах


объектов часто встает задача сравнения. Оценить отличаются ли зна­
чения признака в этих группах можно путем сопоставления их сред­
них значений. При этом неправильно было бы просто сопоставить
средние значения, вычисленные по выборкам, поскольку они отра­
жают истинные (генеральные) средние с некоторой ошибкой. Поэто­
му, мы можем лишь с некоторой долей вероятности утверждать о ра­
венстве или неравенстве генеральных средних. Предварительно вы­
двигаются две гипотезы:
Нулевая гипотеза Н(0): две генеральные средние равны или,
другими словами, две сравниваемые выборки принадлежат одной и
той же генеральной совокупности.
Альтернативная Н(1): две генеральные средние неравны или две
сравниваемые выборки принадлежат разным генеральным совокуп­
ностям.
Для принятия той или иной гипотезы можно использовать кри­
терий Стьюдента, или t-критерий. Этот критерий является пара­
метрическим, условием для его применения является нормальное
распределение исследуемой величины и равенство двух генераль­
ных дисперсий.

СЛУЧАИ 1. Выборки независимы.


Проверяемый /-критерий выражается в виде отношения разно­
сти соответствующих выборочных средних к ошибке такой разности,
т.е.

где тп\, т 2 — стандартные ошибки средних значений сравнива­


емых выборок.
Для проверки критерия знак разности средних значений не игра­
ет роли, поэтому в формуле для расчета тестовой статистики берется
модуль разности. Однако знак разности важен для интерпретации ре­
зультатов сравнения.

18
По таблице (Приложение 2) для заданного а и числа степеней
свободы / =Иу + п2 - 2 находится tKpum Если альтернативная гипотеза
не уточняет, в какую сторону направлены различия - в меньшую или
большую, то используется двусторонний критерий. В некоторых
более редких случаях можно использовать односторонний критерий
для гипотезы Н(1), в котором направление эффекта задано (например,
две средние не просто отличаются, а первая генеральная средняя
больше второй).

Если | и ыч | < tKpum то Н(0)

Если | t , U 4 1> t^um то Н(1) и делается заключение о наличии


статистически значимых различий между генеральными средними
значениями.
Пример. По данным из таблицы определить, отличается ли при
себорреи содержание связанного холестерина крови (мг%) от нормы,
если известно, что концентрация холестерина имеет нормальное рас­
пределение

норма 58,9 53,1 64,1 59,3 69 62 53,3 61,1 58,3


себоррея 105,3 83,7 122,2 110,6 101,1 96,8 114,5 113

Решение:
Вычислим средние значения для двух выборок:

X, = 59,9
X, = 105,9

Несмотря на то, что две выборочные средние разнятся, не ис­


ключена возможность, что генеральные средние равны. Поэтому вы­
двинем гипотезы:
Н(0): среднее значение связанного холестерина в крови обеих
группах одинаково
Н(1): среднее значение связанного холестерина в крови обеих
группах разное
Гипотезы будем проверять на уровне значимости а=0,05.
Для последующих вычислений составим таблицу

19
*1/ Х21 X, - х и ( X ,- x j 2 Х2 х 21 (Х 2 - х 2, ) 2
58,9 105,3 -1 1 -0,6 0,36
53,1 83,7 -6,8 46,24 -22,2 492,84
64,1 122,2 4,2 17,64 16,3 265,69
59,3 110,6 -0,6 0,36 4,7 22,09
69 101,1 9,1 82,81 -4,8 23,04
62 96,8 2,1 4,41 -9,1 82,81
' 53,3 114,5 -6,6 43,56 8,6 73,96
61J1 ИЗ 1,2 1,44 7,1 50,41
58,3 -1,6 2,56
X = 2 0 0 ,0 2 I =1011,2

Вычислим среднее квадратическое (стандартное) отклонение


для выборок:
j, = 5,0
s2 = 1 2,02
Найдем стандартные ошибки:
т1 = 1,67
тг = 4,25
Рассчитаем ^-критерий:

t 5 9 ,9 -1 0 5 ,9
■yj mf +ml Vl,672+4,252

Определим tKpumдля а=0,05 и числа степеней свободы в двух


группах
f - n i +П2-2 =9+8-2=15
Из таблицы {Приложение 2) получаем tKpum=2,26
т.к. |teb>41> tKpum (10,1 > 2,26)-следовательно, принимается аль­
тернативная гипотеза.
Вы вод: Содержание связанного холестерина в крови при
себорреи статистически значимо отличается от нормы с
вероятностью не менее 95%.
Сведем результаты расчетов в таблицу и представим графически

группа п X (мг%) s (мг%2) /-критерий р-уровень


норма 9 59,9 5,0
-10,1 р < 0,05
себоррея 8 105,9 12,02

20
о ср.знач I 0,95 ДИ

Рисунок 4 - Содержание связанного холестерина в группах

СЛУЧАЙ 2. Выборки зависимы.


Для сравнения двух зависимых выборок или выборок с по­
парно связанными вариантами проверяют гипотезу о равенстве
нулю среднего значения их попарных разностей. Такая задача воз­
никает, когда имеются данные об изменении интересующего призна­
ка у каждого пациента. Например, если группа пациентов получала
изучаемый метод лечения и у каждого пациента измерялось значение
признака до и после лечения. В данном случае предстоит проверить
нулевую гипотезу о равенстве нулю изменений этого признака в ре­
зультате получения терапии.
При подобных исследованиях все наблюдения можно предста­
вить в виде и-пар измерений (например, до и после)
Для каждой пары вычисляется разность d„ где i= l, п
Для полученного ряда вычисляется среднее d и среднеквадра­
тичное отклонение sd
Далее вычисляется значение критерия Стьюдента

Проверка гипотезы производится по таблицам распределения


Стьюдента (Приложение 2) для выбранного уровня значимости и
числа степеней свободы/ = п -1.
ЕСЛИ [ t t u 4 I <~ t Крит TO Н ( 0 )

21
Если | 4 ЫЧ|> tKpum то Н(1) и делается заключение о наличии
статистически значимых различий между генеральными средними
значениями «до» и «после».
Пример. В группе из 6 человек изучалось влияние пробежки на
ЧСС (уд/мин). В результате опыта получилось 2 вариационных ряда
ЧСС: первый - до пробежки, второй - после пробежки:

Д о пробежки, уд/мин. 65 75 68 80 75 62
П осле пробежки, уд/мин. 77 82 65 90 85 75

Изменяется ли ЧСС после пробежки? Достоверны ли


полученные результаты, если известно, что ЧСС имеет нормальное
распределение?
Для наглядности представим данные в следующей таблице:

■Х7,(до пробежки) х 2, (после пробежки) d, (разница ЧСС)


65 77 12
75 82 7
68 65 -3
80 90 10
75 85 10
62 75 13 ^
Ср. знач =70,8 Ср. знач.=79 Ср. знач.=/#,2 ^

Несмотря на то, что средние значения ЧСС до и после пробежки


отличаются, не исключена возможность, что в генеральной
совокупности пробежка не повлияет на ЧСС.
Поэтому выдвигаем гипотезы:
Н(0): после пробежки ЧСС в среднем не изменилась
Щ 1): после пробежки ЧСС изменилась
Гипотезы будем проверять на уровне значимости а=0,05.
Для разностей ЧСС вычислим:
J = 8,2
sd = 5,3
md = 2,18
Определим tm
8,2
= 3,75
2,18

22
Определим по таблице Стьюдента (Приложение 2) для а=0,05 и
числа степеней свободы/=и-1=5 tKpuт= 2,57.
tвыч > tKpum- следовательно принимается Н(1).
Вывод, изменение ЧСС после пробежки статистически значимо
с вероятностью не менее 95%.
Сведем результаты расчетов в таблицу

X d Sd /- Р-
группа п
(уд/мин) (уд/мин) (уд/мин2) критерий уровень
до пробежки 70,8
после про­ 6 79 8,2 5,3 3,75 р < 0,05
бежки

Самостоятельная работа:
Задание 1. Проверить гипотезу о равенстве двух генеральных
средних с использованием критерия Стьюдента. Сформулировать ну­
левую и альтернативную гипотезы. Сделать выводы на уровне значи­
мости а=0,05. Представить данные в графическом виде.

Калий мочи (г/сутки).


Норма 2,1 2 1,9 1,8 2,2 2,2 2 1,8 2,1 с , = 0,154
легочная недостаточность 0,8 2 0,9 0,8 0,7 0,7 1 0,9 2,1 а 2 = 0,548

Задание 2. Среднее значение нормально распределенной ЧСС


в одной выборке составило 75 уд/мин (л/=50), в другой - 82 уд/мин
{п2- 50). При очевидности того, что ЧСС во второй выборке больше,
исследователями было проведено сравнение средних с использовани­
ем теории статистических гипотез. Была ли в этом необходимость?
Какая гипотеза была выдвинута? Сделайте вывод, если известно что
a tKpUm 2,7

Тема 5. Оценка относительных величин в биостатистике

При анализе качественных признаков исследователя интересует


относительная частота встречаемости того или иного признака -
т.е. доля объектов с данным признаком среди всех обследуемых объ­
ектов. Относительная частотар определяется следующим образом:

23
к
р = — (может быть в %), где к - число случаев интересующего
п
признака, п —объем выборки.
Поскольку р определяется по выборке, она отражает генераль­
ную долю с некоторой ошибкой

Сравнение относительной частоты встречаемости признака в


различных независимых совокупностях - одна из наиболее часто ре­
шаемых задач медицинских исследований. Нулевой гипотезой при
этом является предположение о равенстве двух генеральных долей.
Для проверки можно использовать критерий Стьюдента:

/ = \Р,~Р 2

Критическое значение t-критерия находится по таблице для за­


данного уровня значимости и числа степеней свободы / = rtj + п 2 - 2
(Приложение 2).
Если tebl4 > tKpum , то принимается альтернативная гипотеза, если
‘выч < Крит-то нулевая.
Пример. Анализируется качественный показатель успеваемости
(процент хорошистов и отличников) среди студентов двух специаль­
ностей. С этой целью проведено выборочное исследование.

№ гр. Специальность Число студентов Число хорошистов и отличников


1 Л ечебное дело 140 82
2 Педиатрия 248 123

Н(0): качественный показатель успеваемости студентов специ­


альности «лечебное дело» не отличается от показателей студентов
специальности «педиатрия»..
Относительная частота встречаемости хорошистов и отличников
среди студентов - «лечебников»:

р,= 82/140=0,59 (59%)

24
с ошибкой (4,1%)
'V 140

Качественный показатель будущих педиаторов:

p f= \23/248=0,48 (48%)

с ошибкой т = 1° ’ 4 8 х ( 1 =0,032 (3,2%)


'V 248

I - , °»59~ М 8 = 2,1
V0,0412 + 0 ,0 3 2 !

Крит ~ 1,96 (для а -0 ,0 5 и числа степеней свободы /=«/+ «г


2 - 140+248-2=386), следовательно принимается тернативная гипотеза.
Вывод: качественный показатель успеваемости зависит от спе­
циальности, по которой учатся студенты.
Сведем результаты в таблицу

Число
группа п отличи. р (% ) т (%) /-критерий /ьуровень
и хорош.
Лечебное дело 140 82 59 4,1
2,1 р < 0,05
Педиатрия 248 123 48 3,2

Самостоятельная работа.
Задача 1. Выяснить отличается ли доля больных сердечно­
сосудистыми заболеваниями в возрастных группах 65-69 и 70-75 лет.

65-69 л ет 70-75 лет


болеют 59 69
не болеют 16 9

Задача 2. Выборочное анкетирование 52 незамужних и 76 за­


мужних женщин показало, что среди первых доля курящих составила
22%, а среди вторых - 16%. Определить, достоверна ли эта разница.

25
Тесты для самоконтроля:
1.
В каких случаях используются непараметрические критерии
проверки статистических гипотез?
A. только для зависимых выборок
B. только для независимых выборок
C. в случае нормально распределенных выборок
D. при неизвестном распределении
E. при вычислении коэффициента корреляции
2.
При проверке статистической гипотезы о равенстве средних
двух выборок используется t-критерий Стьюдента. В каком случае
нулевая гипотеза отвергается?
A . t3KCn > ^крит>

В- ^ЭКСП ' ' ^крит>


C. ^ЭКСП- О»
D. tKpmr=0;
3.
Среднее значение пульса у 40 испытуемых до проведения степ-
теста составило 66±3, после теста 78±3. Сформулируйте нулевую ги­
потезу о влиянии степ-теста на ЧП
A. ЧП после теста не зависит от ЧП до теста
B. ЧП после теста зависит от ЧП до теста
C. средние значения пульса до и после проведения теста рав­
ны
D. среднее значение пульса после теста достоверно увеличи­
лось
E. распределение частоты пульса соответствует нормальному
4.
По данным таблицы сделайте вывод:

t выч ^крит а

13,2 5,8 3,22 2,06 0,05

A. две генеральные средние равны с вероятностью 0,05


B. две генеральные средние равны с вероятностью 0,95
C. две генеральные средние отличаются с вероятностью 0,05
D. две генеральные средние отличаются с вероятностью 0,95
26
Е. применение t-критерия не корректно

5.
При проверке статистической гипотезы исследователь задался
уровнем значимости а=0,05. По результатам расчетов оказалось, что
р=0,06. Какую гипотезу (Н0или Н,) должен принять исследователь
A. исследователь примет нулевую гипотезу
B. исследователь примет альтернативную гипотезу
C. исследователь не может принять ни одну из гипотез
D. недостаточно данных для принятия той или иной гипотезы

| Ответы 1 1D | 2А | ЗС | 4D | 5А

Тема 6. Доверительный интервал

При изучении тех или иных массовых явлений или свойств (что
и является основной задачей статистики) нас интересует, как они
проявляются в популяции в целом (в генеральной совокупности). Од­
нако на практике исследователь имеет дело с выборкой и выбороч­
ными данными. Одни и те же числовые характеристики случайной
величины (среднее, мода, дисперсия и т.д.) посчитанные по разным
выборкам из одной генеральной совокупности могут отличаться от
истинных (генеральных) показателей и отличаться между собой, по­
скольку имею различную ошибку. Т.е. нам редко удается вычислить
генеральные параметры, но по выборочным данным мы можем ука­
зать интервал, в котором с некоторой долей вероятности лежит этот
параметр. Этот интервал называется доверительным интервалом
(ДИ), а вероятность называется доверительной вероятностью.

6.1 Доверительный интервал генеральной средней


Генеральная средняя с вероятностью (1- а) лежит в пределах

от X - /о х тх до X + 1а х тх,

где X - выборочная средняя,


тх - ошибка средней,
ta —критическое значение двустороннего /-критерия Стьюдента
для заданного а и п -1 степеней свободы.
27
Доверительный интервал зависит от выбранного уровня значи­
мости. Если а=0,05, то получим (1-а)=0,95 или 95 процентный дове­
рительный интервал. Можно, например, рассчитать 99 % ДИ.
Интерпретация.
• Широкий доверительный интервал показывает, что выбо­
рочная средняя неточно отражает генеральную среднюю. Малень­
кие выборки дают большую ошибку среднего и, соответственно,
более широкий ДИ.
• Верхние и нижние пределы дают оценку, будут ли резуль­
таты клинически значимы.
• Можно проверить, ложится ли вероятное значение пара­
метра в популяции в пределы ДИ. Если да, то результаты согласу­
ются с этим вероятным значением.
Пример 1. Исследователи задались вопросом не отстают ли в
росте от своих сверстников мальчики, перенесшие некое инфекцион­
ное заболевание. Чтобы выяснить это из этих детей была набрана
группа в 10 человек. Измерения дали следующие результаты

Рост, см 124 140 135 120 130 128 142 146 128 132

Ниже приведены расчеты доверительного интервала для средне­


го и нормативы роста детей в возрасте 10 лет.

нижний верхний нормативы


п X предел предел S средний ниже
95% ДИ 95% ДИ низкий
рост среднего
10 132,5 126,6 138,4 8,2 133-142 129,4-133 126,3-129,4

Из этих расчетов следует, что выборочный средний рост маль­


чиков 10 лет, перенесших некое инфекционное заболевание, близок к
норме (132,5 см). Однако нижний предел доверительного интервала
(126,6 см) свидетельствует о наличии 95% вероятности того, что ис­
тинный средний рост этих детей соответствует понятию «низкий
рост», т.е. эти дети отстают в росте.
Пример 2. Стандартный щелочной раствор имеет рН= 7,0. Мож­
но ли считать некоторый исследуемый раствор щелочным, если во­
семь его проб дали следующие значения pH:
6,9 7,7 7,3 7,1 7,3 7,2 7,6 6,9

28
Находим среднее значение и ошибку средней: pH -7,25, т=0,\4
to,os=2,37 (для/=8-1=7).
95% доверительный интервал среднего 7,25±2,37*0,14, т.е. от
6,92 до 7,58
Поскольку значение p H стандарта входит в этот интервал, ис­
следуемый раствор можно считать щелочным.

Самостоятельная работа.
Задание 1. Известно, что температура тела у здорового человека
составляет 36,6 градусов. Однако, она может изменяться под дей­
ствием некоторых факторов. По выборочным данным, используя до­
верительный интервал, проверить соответствует ли средняя темпера­
тура тела после тяжелой физической нагрузки этому значению.

6.2 Доверительный интервал для разности генеральных


средних двух независимых групп
При проверке гипотезы о равенстве двух генеральных средних
по независимым выборкам, мы оцениваем разность между двумя вы­
борочными средними. Эта разность также является случайной вели­
чиной и имеет ошибку. Чтобы найти доверительный интервал для ге­
неральной разности сначала надо вычислить объединенное средне-
квадратичное отклонение:

(и, - 1) XS,2 + (п2 - 1 ) х


л, +п2 - 2

Тогда доверительный интервал составляет

От ( X , - X 2) - t ax s x -+
rt, П2

где ta - критическое значение двустороннего /-критерия


Стьюдента для заданного а и (nj+ п2- \) степеней свободы.

Интерпретация.
• Если доверительный интервал для разности средних включает
в себя ноль, то принимается нулевая гипотеза о равенстве двух гене­
ральных средних.
29
• Верхний и нижний предел доверительного интервала для раз­
ности может быть использован для клинической оценки разности
двух средних.
Пример. При сравнении систолического артериального давле­
ния (мм.рт.ст.) в двух группах были получены следующие данные

нижний верхний
Х\ »i иг- si S предел предел
95% ДИ 95% ДИ
119,1 122,5 143 190 13,9 16,3 15,3 -6,7 -0,1

95% доверительный интервал находится в пределах от -6,7 до -


0,1 мм.рт.ст. Поскольку ДИ не включает ноль, различия между сред­
ними САД можно считать значимыми с р<0,05. Однако, поскольку
нижний предел разницы составляет всего лишь 0,1 мм.рт.ст., ее вряд
ли можно считать клинически значимой.

Самостоятельная работа.
Задание 1. Используя доверительные интервалы проверить из­
меняется ли содержание адренокортикотропного гормона (мл.ед.) при
беременности.

Норма 32,1 33,0 28,2 29,5 35,7 31,8 37,5 26,4 St = 3 ,7 1 6

Беременность 98,6 120,3 73,6 96,1 104,3 113,1 100,3 68,1 71,1 s2 = 18,839

6.3 Доверительный интервал для разности генеральных


средних двух зависимых групп
При проверке гипотезы о равенстве генеральных средних двух
зависимых групп («до» и «после») оценивается средняя разность
d между «до» и «после» и среднеквадратичное отклонение этих раз­
ностей Sj .т
Доверительный интервал средней разности составляет

от d-t. y. ^f = до d + t„x-y=
■Jn -Jn

где ta - критическое значение двустороннего /-критерия


Стьюдента для заданного а и (л-1) степеней свободы.
30
Интерпретация.
• Если доверительный интервал для средней разности включает
в себя ноль, то принимается нулевая гипотеза о равенстве двух гене­
ральных средних.
• Верхний и нижний предел доверительного интервала для раз­
ности может быть использован для клинической оценки разности
двух средних.
Пример. В группе из 6 человек изучалось влияние пробежки на
ЧСС (уд/мин). В результате опыта получилось 2 вариационных ряда
ЧСС: первый - до пробежки, второй - после пробежки:

Д о пробежки, уд/мин. 65 75 68 80 75 62
После пробежки, уд/мин, мм.рт.ст. 77 82 65 90 85 75
Разница 12 7 -3 10 10 13

Изменяется ли ЧСС после пробежки? Достоверны ли


полученные результаты, если известно, что ЧСС имеет нормальное
распределение?
Для наглядности представим данные в следующей таблице:

h ,0 5 нижний предел верхний предел


d sd п
95% ДИ 95% ДИ
70,8 79 8,2 5,3 6 2,57 2,6 13,8

Поскольку доверительный интервал не включает ноль, с 95%


вероятностью принимается альтернативная гипотеза о значимости
изменений пульса после пробежки. Однако, нижний предел генераль­
ной разности средних равен 2,6 и такое изменение нельзя считать фи­
зиологически значимым. Возможно, это связано с маленьким объе­
мом выборки (и =6) и исследование необходимо повторить на боль­
шем количестве испытуемых.

Самостоятельная работа.
Задание 1. Используя доверительный интервал проверить, из­
менилось ли содержание норадреналина (мкг/сутки) в моче после ле­
чения грудной жабы. Каков клинический эффект лечения.

д о лечения 36,9 38,2 36,1 33,5 34,8 37 35,1 40 38,5 38,3


1 после лечения 40,5 43,8 56,7 49,8 50,4 45,4 39,9 38,7 40,3 51,6 o d =7,45

31
6.4 Доверительный интервал относительных показателей
От носительная частота р встречаемости того или иного при­
знака - т.е. доля объектов с данным признаком среди всех обследуе­
мых объектов, найденная по выборке объемом п отражает генераль­
ную долю с некоторой ошибкой. Доверительный интервал для доли
лежит в пределах

Доверительный интервал разности двух генеральных долей име­


ет следующее выражение

где ta - критическое значение двустороннего /-критерия


Стьюдента для заданного а и (и/+ п2-\) степеней свободы.

Интерпретация. ДИ доли можно использовать для статистиче­


ской или клинической значимости оценок и различий.
Пример. Необходимо по результатам выборочного исследова­
ния успеваемости студентов двух специальностей медицинского вуза
определить зависит ли качественный показатель успеваемости (доля
хорошистов и отличников) от специальности, по которой учатся сту­
денты.

нижний верхний
№ качеств, по­ разность
Специальность п предел предел
гр. казатель долей
95% ДИ 95% ДИ
1 Лечебное дел о 140 59%
11% 0,7% 21%
2 Педиатрия 248 48%

Т.к. доверительный интервал не включает ноль, принимается


альтернативная гипотеза. Вывод: качественный показатель успевае­
мости зависит от специальности, по которой учатся студенты.
95% ДИ лежит в пределах от 0,7% до 21%, что свидетельствует
о неточной оценке генеральной разности.

32
Самостоятельная работа.
Задание 1. По выборочным данным, используя 95% довери­
тельный интервал разности долей, оценить влияние курения на риск
развития рака легкого. Какова практическая значимость такого ис­
следования?

больные здоровые
курят 28 22
не курят 16 57

Тема 7. Непараметрические критерии проверки


статистических гипотез

В случае если распределение случайной величины неизвестно, а


также если изучаемые признаки являются качественными ординаль­
ными, то для проверки гипотезы о принадлежности двух сравнивае­
мых выборок одной генеральной совокупности может применяться и
целый ряд непараметрических критериев, среди которых важное ме­
сто занимают так называемые ранговые критерии. Применение этих
критериев основано на ранжировании членов сравниваемых групп.
При этом сравниваются не сами члены ранжированного ряда, а их
порядковые номера или ранги.

СЛУЧАЙ 1. Выборки независимы.


Расчет U-критерия Манна-Уитни проводится по следующему
алгоритму
• Объединим все значения обеих выборок в один ранжирован­
ный ряд
• Каждому элементу этого ряда присвоим номер (ранг)
• Если несколько элементов ряда совпадают по величине, то
каждому присваивается ранг, равный среднему арифметическому их
номеров
• Для каждой выборки находятся суммы рангов R и рассчиты­
ваются статистики:

где /=1,2 номера выборок

33
• В качестве тестовой статистики выбирают минимальную ве­
личину U и сравнивают ее с табличным значением для принятого
уровня значимости и объемов выборок nj, п2.
• Нулевая гипотеза принимается, и различия считаются недо­
стоверными, если рассчитанное значение больше соответствующего
табличного. В противном случае принимается альтернативная гипо­
теза.
Пример. По данным из таблицы проверим отличается ли содер­
жание вещества S в крови испытуемых двух групп.

Содержание вещества S в крови, моль\л

1 группа 23 33 28 36 27 30 33 32 П/=8
2 группа 38 41 23 33 42 39 35 44 37 п2= 9

НО: Содержание вещества S в крови испытуемых обеих групп


одинаково.
Проверку гипотезы осуществим с уровнем значимости а=0,01.
Для расчета U-критерия Манна-Уитни расположим значения
сравниваемых выборок в порядке возрастания в один обобщенный
ряд и присвоим им ранги от 1 до и/ + п2. Ниже приведены результаты
- первая строка представляет собой ранжированный ряд первой вы­
борки, вторая — второй выборки, третья - соответствующие ранги в
обобщенном ряду :

1гр. 23 27 28 30 32 33 33 36
2 гр. 23 33 35 37 38 39 41 42 44
ранги 1,5 1,5 3 4 5 6 8 8 8 10,5 10,5 12 13 14 15 16 17

Надо обратить внимание, что если имеются одинаковые значе­


ния исследуемой величины, им присваивается средний ранг.
Отдельно для каждой выборки рассчитываем суммы рангов R] и
R-2 - В нашем случае:

R ,= 1,5+3+4+5+6+8+8+10,5=46
R 2= l, 5+8+10,5+12+13+14+15+16+17=107
Вычислим U] = 46 - 8 * 9/2 =10
Uj= 107 -9*10/2 = 62

34
В качестве критерия выбираем наименьшую из двух сумм и выч =
10 и сравниваем ее с табличным значением для п/ =8 , п2 = 9 и уровня
значимости а=0,01 UKpum = 11 (Приложение 3). Так как вычисленное
значение критерия меньше табличного, нулевая гипотеза отвергается
на выбранном уровне значимости, и различия между выборками при­
знаются статистически значимыми.
Сведем полученные результаты в таблицу

группа п R ^-Манна-Уитни р-уровень


1 группа 8 46
10 /КО,01
2 группа 9 107

СЛУЧАЙ 2. Выборки зависимые


В случае попарно связанных выборок применяется Т-
критерий Уилкоксона. При этом:
• Вычисляются попарные разницы значений «до» и «после»
• Попарные разницы, кроме нулевых, без учета знака ранжи­
руются в один ряд
• Разницам, кроме нулевых, присваиваются ранги, при чем оди­
наковым по модулю величинам присваивают одинаковый ранг
• Отдельно вычисляют сумму рангов положительных (Т+) и от­
рицательных разностей (Т-),
• Меньшую из двух таких сумм без учета знака выбирают в ка­
честве критерия
• Нулевую гипотезу принимают на данном уровне значимости,
если вычисленное значение критерия превзойдет табличное значение.

Пример. Стояла задача определить влияет ли новый препарат на


содержание холестерина в плазме крови. С этой целью препарат был
испытан на десяти кроликах. В результате получены следующие дан­
ные
Концентрация холестерина
«До», ммоль/л 6,3 7 6,8 5,6 4,8 7,2 6,2 5 8,1 7,9
«После», ммоль/л 4,8 4,6 3,3 5,6 6,3 5,1 4,7 6,3 5,5 6,2
Разница, ммоль/л 1,5 2,4 3,5 0 -1,5 2,1 1,5 -1,3 2,6 1,7

Ранжир, ряд 0 -1,3 -1,4 1,5 -1,5 1,5 1,7 2,4 2,6 3,5
Ранги 1 2 3 3 3 4 5 6 7
Т+ 28
Т- 6
35
Выдвигаем нулевую гипотезу:
• Содержание холестерина в плазме крови после приема препа­
рата не изменилось
• или «препарат не влияет на содержание холестерина в плазме
крови»
• или «две выборки извлечены из одной генеральной совокуп­
ности»
В качестве критерия выбираем меньшее значение Твыч = 6
Табличное значение для уровня значимости а = 0,05 и числа пар
наблюдений п= 10 (Приложение 4):
1Ткрит = 11 0
v

Т.к. вычисленное значение критерия меньше табличного, то при­


нимается альтернативная гипотеза.
Вывод: Содержание холестерина в плазме крови после приема
препарата снизилось.

Сведем результаты в таблицу


п т+ Т- Г-Уилкоксона р-уровень
10 28 6 6 р < 0,05

Самостоятельная работа:
Задание 1. Проверить гипотезу о принадлежности двух выборок
одной генеральной совокупности с использованием непараметриче­
ских критериев. Сформулировать нулевую и альтернативную гипоте­
зы. Сделать выводы на уровне значимости а=0,05.

Содержание адренокортикотропного гормона (мл.ед).

Норма 32,1 33,0 28,2 29,5 35,7 31,8 37,5 26,4


Беременность 98,6 120,3 73,6 96,1 104,3 113,1 100,3 68,1 71,1

Задание 2. В таблице представлены результаты сравнения


частоты дыхания у студентов до и после занятия по физкультуре:

Анализируемая вели­ Вычисленное значение


Группы п X
чина критерия
Частота дыхания, Д о занятия 16
17 Т=0
дых/мин После занятия 30

36
По данным из таблицы:
1. Сформулируйте нулевую и альтернативную гипотезы.
2. Определите, какой критерий был использован для проверки
гипотезы.
3. Сделайте полный и обоснованный вывод о результатах срав­
нения.

Тесты для самоконтроля


1.
Какое статистическое понятие обозначается символом а (аль­
фа)?
A. ошибка среднего
B. статистическая ошибка
C. среднее квадратическое отклонение
D. уровень значимости
E. дисперсия
2.
У пятерых спортсменов измерили пульс до и после пробежки.
Какой критерий можно использовать для проверки гипотезы о влия­
нии бега на пульс?
A. t-критерий Стьюдента
B. U-критерий Манна-Уитни
C. Т-критерий Уилкоксона
D. Хи-квадрат критерий Макнимара
E. F-критерий Фишера
3.
Какой из перечисленных критериев позволяет выяснить, отно­
сятся ли две зависимые выборки к одной генеральной совокупности
A. U-критерий Манна-Уитни
B. Т-критерий Уилкоксона
C. Хи-квадрат критерий Макнимара
D. Хи-квадрат критерий Пирсона
E. F-критерий Фишера
4.
Какой из перечисленных критериев позволяет выяснить, отно­
сятся ли две независимые выборки к одной генеральной совокупно­
сти
A. U-критерий Манна-Уитни
B. Т-критерий Уилкоксона
37
C. Хи-квадрат критерий Макнимара
D. Хи-квадрат критерий Пирсона
E. F-критерий Фишера
5.
Сформулируйте нулевую гипотезу в случае применения для ее
доказательства Т-критерия Уилкоксона
A. две генеральные средние равны
B. две генеральные средние не равны
C. случайная величина в одной выборке не зависит от случай­
ной величины в другой выборке
D. воздействие не влияет на случайную величину
E. две выборки принадлежат разным генеральным совокупно­
стям

Ответы ID 2С ЗВ 4А 5D

Тема 8. Анализ качественных признаков. Таблицы


сопряженности

Существует множество признаков, различных явлений и вещей,


измерение которых затруднено или вовсе невозможно. Например, как
измерить признак «профессия» или «вид патологии», а как сравнить
эти признаки для получения статистического представления о про­
фессиональной заболеваемости?
В этих случаях изучается распространенность признаков, часто­
та встречаемости признаков в различных выборках, оценивается вза­
имосвязь частоты встречаемости одного признака с частотой встреча­
емости другого признака.
Для этого используются таблицы сопряженности. Столбцы этой
таблицы обозначают градации одного признака, строки - градации
другого признака. В каждой ячейке записывается число случаев с со­
пряженными признаками.
Наиболее простой случай таблица 2x2 (исследуется частота сов­
местного распространения двух признака, каждый из которых имеет
две градации).
В общем случае нулевая гипотеза формулируется следующим
образом:

38
Н(0): частота встречаемости одного признака не зависит от ча­
стоты встречаемости другого признака или какой-либо фактор на
влияет на частоту встречаемости признака (признаков)

СЛУЧАЙ 1. Выборки независимые


Предположим, что у нас есть два качественных признака, харак­
теризующие обследованных лиц. Занесем эти данные в таблицу со­
пряженности

Первая признак Первый признак Всего


(первая градация) (вторая градация)
Второй признак Частота встречае­ Частота встреча­
(первая градация) мости емости а +Ь
а Ь
Второй признак Частота встречае­ Частота вст реча­
(вторая градация) мости емости c+d
с d
п ,= а + с n2= b + d п =a+ b+ c+ d

Критерием для проверки нулевой гипотезы является хи-квадрат


Пирсона
2 (a d - b c ) 2n
^ (а + b)(c + d )(a + c){b + d )

Его критическое значение находится для заданного уровня зна­


чимости а и числа степеней свободы f= 1 {Приложение 5).
2 2
Если Хвыч < Хкрит то Н(0) принимается,
2 2
В случае Хвыч —Хкрит принимается Н(1)
Можно вычислить меру связи между двумя признаками - ею яв­
ляется коэффициент ассоциации Юла Q (аналог коэффициента кор­
реляции)

ad+ cb

Q лежит в пределах от 0 до 1. Близкий к единице коэффициент


свидетельствует о сильной связи между признаками. При равенстве
его нулю —связь отсутствует.

39
Пример. По данным об исходах лечения острых гнойных де­
струкций легких в виде гнойных и гангренозных абсцессов необхо­
димо выявить есть ли зависимость летальности от формы заболева­
ния.

№ гр. Форма заболевания Число больных Число летальных исходов

1 гнойный абсцесс 140 4

2 гангренозный абсцесс 48 11

Зададим уровень значимости а=0,05


Сформулируем
Н(0): летальность не зависит от формы заболевания.
Н(1): летальность различна при различных формах заболевания
Занесем результаты испытания в таблицу.

Число случаев
№гр. Всего больных
летальных исходов выздоровления
1 4 136 140
2 11 37 48
15 173 188

Посчитаем значение критерия хи-квадрат


X 2 = 1 9 ,6 2
Коэффициент Юла
4x37-11x136
Q= = 0,88
4x37 + 11x136

Мы задали 5% -ный уровень значимости а = 0,05. Тогда крити­


ческое значение = 3,84 (по таблице для/=1, Приложение 5). Получен­
ное значение ^ = 1 9 ,6 2 больше, чем критическое, следовательно, мы
отвергаем гипотезу о том, что летальность не зависит от формы. Мы
можем утверждать с вероятностью не мене 95%, что летальность при
острых гнойных деструкциях зависит от формы заболевания. Коэф­
фициент Юла показывает, что связь эта сильная.

СЛУЧАЙ 2. Выборки зависимые

40
Над одними и теми же объектами проводятся два наблюдения:
«до» и после, (прием лекарства, обучение, внушение и т.д.)
Подсчитывается сколько раз данное свойство встречается:
• и «до» и «после», (+,+)
• только «до» (+,-)
• только «после» (-,+)
• ни «до» ни «после» (-,-)

Признак «после»

Признак «до» Вторая градация «по­ Первая градация «после»


сле» (-) (+)
а с
Первая градация «до» Число изменений от (+) Число сохранивших (+)
(+) к (-)
Ь d
Вторая градация «до»
Число сохранивших (-) Число изменений от (- )
(-) к (+)

Н(0) -частота встречаемости градаций признака после воз­


действия фактора не изменилось
Критерием для проверки нулевой гипотезы является хи-квадрат
Макнимара

(М Н У
a +d

Если z L < zlP„„, т0 ЩО) принимается,

Если x L —zU , то принимаем Н(1)

Пример. Было проведено сравнение двух методов определения ка­


риеса зубов - визуального и радиографического. С этой целью дантист
оценил состояние зубов у 100 пациентов с применением обеих методов.
Сформулируем
Н(0): два метода выявляют одинаковый процент зубов с кариесом.
Н(1): два метода различаются по эффективности
Зададим уровень значимости а=0,01

41
В результате исследования был посчитан процент зубов, в которых
обнаружены полости с помощью двух этих методов.

Радиограф ическая диагностика


В изуальная ди агн о ­ Полости не обнару­ Полости обнаруж е­ Ит ого
стика ж ены (-) ны (+)
Полости обнаруж ены
4% (+,-) 45% (+,+) 49%
(+ )
Полости не обнару­
34% (-,-) 17% (-,+) 51%
ж ены (-)
Ит ого 38% 62% 100%

X 2= 6,86
Мы задали 1% -ный уровень значимости а = 0,01 . Тогда крити­
ческое значение = 6,64 (по таблице для f= 1, Приложение 5). Получен­
ное значение X =6,86 больше, чем критическое, следовательно, мы от­
вергаем нулевую гипотезу и принимаем альтернативную.
Вывод: радиографический метод мене эффективен, поскольку поз­
волил обнаружить на 51-38=13 % меньше больных зубов.

Самостоятельная работа.
Задание 1. На предприятии химической промышленности забо­
леваемость составила 37%, в то время как в целом в данном регионе
она регистрируется на уровне 23%. Влияют ли условия- предприятия
на заболеваемость? Сформулируйте нулевую гипотезу. Сделайте вы­
вод на уровне значимости 0,05.

Задание 2. Данные социологического исследования показали,


что среди молодежи спортом занимаются 42 человека из 200 опро­
шенных, среди лиц старшего возраста - 55 из 325 опрошенных.
Определите, есть ли зависимость увлеченности спортом от возраста.
Сформулируйте нулевую гипотезу. Сделайте вывод на уровне значи­
мости 0,05.

Тесты для самоконтроля


1.
Укажите условие принятия нулевой гипотезы при исследовании
таблицы сопряженности
42
А. X выч> X крит
В. X ВЫЧ< X крит
С. X ВЫЧК X крит
D. по соотношению X вычи X кртнельзя сделать вывод

2.
До применения нового препарата соотношение между больными
и здоровыми составляло 2:3, после его применения стало 1:3. Сфор­
мулируйте нулевую гипотезу о влиянии препарата
A. количество больных влияет на количество здоровых
B. количество больных не влияет на количество здоровых
C. соотношение больных и здоровых после применения пре­
парата не изменилось
D. соотношение больных и здоровых после применения пре­
парата изменилось
E. соотношение 2:3 меньше, чем соотношение 1:3

3.
При анализе соотношения ожидаемых и наблюдаемых частот
для независимых выборок было получено, что критерий хи-квадрат
больше критического его значения. Какой вывод можно сделать от­
носительно нулевой гипотезы?
A. нулевая гипотеза принимается
B. нулевая гипотеза отвергается
C. нулевая гипотеза не может быть ни принята, ниотвергнута
D. хи-квадрат критерий не может быть использован для дан­
ной задачи
E. недостаточно данных для формулировки выводов
4.
Какой критерий используется при анализе соотношения ожида­
емых и наблюдаемых частот в независимых выборках?
A. U-критерий Манна-Уитни
B. Т-критерий Уилкоксона
C. Хи-квадрат критерий Макнимара
D. Хи-квадрат критерий Пирсона
E. F-критерий Фишера
5.
Какой критерий используется при анализе соотношения ожида­
емых и наблюдаемых частот в зависимых выборках?
A. U-критерий Манна-Уитни
B. Т-критерий Уилкоксона
C. Хи-квадрат критерий Макнимара
D. Хи-квадрат критерий Пирсона
E. F-критерий Фишера

| Ответы | 1В | 2С | ЗВ | 4D | 5С 1

Тема 9. Корреляционный анализ

Степень выраженности связи между вариационными рядами от­


ражает понятие корреляция. Связь может быть слабой, средней,
сильной. Связь может и отсутствовать. Количественно взаимосвязь
между случайными величинами определяет коэффициент корреля­
ции - г
• Коэффициент корреляции лежит в пределах -1 < г< 1.
• Если г < 0, то это означает, что с увеличением величины Xj со­
ответствующие им значения Х2 второго вариационного ряда в среднем
также уменьшаются.
• Если г> 0, то с увеличением значений одной величины другая
также в среднем возрастает.
• Если г =0, то это означает, что случайные величины Xi и Х 2 аб­
солютно независимы.
• При г = 1 между параметрами существует прямо пропорцио­
нальная функциональная зависимость (в медико-биологических иссле­
дованиях крайне редкий случай).

Коэффициент корреляции Пирсона


• Для двух количественных случайных величин X j и Х 2 (п -
объем каждой выборки), если они нормально распределены, их ли­
нейную взаимосвязь можно вычислить по формуле

£ ( * 1/ - Х 2)

44
Одной из задач корреляционного анализа является проверка ко­
эффициента корреляции на значимость. Дело в том, что выборочный
коэффициент корреляции отличается от генерального, т.е. имеет
определенную ошибку. При этом не исключена возможность, что
взаимосвязь между величинами вовсе отсутствует. Поэтому требует­
ся проверка нулевой гипотезы о равенстве нулю генерального коэф­
фициента корреляции

Н(0): г=О

Проверяется гипотеза по критерию Стьюдента:

г хл/и-2

Критическое значение критерия находится по таблице для задан­


ного уровня значимости а и числа степеней свободы/=п-2 (.Приложение
2 ).
Если | !выч | > tKpum то принимается Н(1) и делается вывод, что
между величинами существует значимая корреляция.
Если | tebl41< tKpum то принимается Н(0) и делается вывод о не­
зависимости исследуемых величин (коэффициент корреляции незна­
чим).
Полезно также вычислять величину г2 (в %). Она показывает, ка­
кая доля изменчивости одной величины объясняется влиянием другой
величины.

Коэффициент корреляции рангов К Спирмена


Если
• закон распределения случайной величины неизвестен или он
не соответствует нормальному
• имеем дело с неколичественными данными (например, но­
минальными величинами)
• выборка мала
то используется коэффициент корреляции рангов К. Спирмена

45
6х£ Х
rs = 1 М -------
их (и - 1 )

где di — разность между рангами сопряженных признаков, п —


число парных членов ряда.
При расстановке рангов необходимо учитывать, что равным по
значению величинам присваивается ранг равный среднему арифметиче­
скому их номеров в ранжированном ряду.
При полной связи ранги признаков совпадут, и разность между
ними будет равна 0, соответственно коэффициент корреляции будет ра­
вен 1. Если же признаки варьируются независимо, коэффициент корре­
ляции получится равным О
Для проверки гипотезы о значимости коэффициента корреляции
Спирмена можно воспользоваться таблицей критических значений
(Приложение б). Если вычисленный коэффициент корреляции превы­
шает табличное значение, то связь между величинами признается до­
стоверной.
Пример. Определить есть ли взаимосвязь между температурой
воздуха в помещениях и количеством простудных заболеваний.
В результате проведенных исследований были получены следу­
ющие данные:

Т ем пература в
отдельны х очень очень
жарко холодно прохладно тепло тепло
пом ещ ениях холодно жарко

Ранги 6 2 3 4,5 1 7 4,5


К ол. заболев. 2 8 7 4 9 4 6
ра н ги 1 6 5 2,5 7 2,5 4
di -5 4 2 -2 6 -4,5 -0,5
df 25 16 4 4 36 20,25 0,25

2Г</, =105,5

7(49-1)

46
Проверим гипотезу о значимости коэффициента корреляции по
критерию Стъюдента: согласно таблице (Приложение 6) для п -1 кри­
тическое значение равно 0,714. Т.к. вычисленное значение больше
критического с уровнем значимости 0,05, следовательно, между тем­
пературой в помещениях и числом заболеваний ОРЗ имеется сильная
обратная связь - чем ниже температура, тем больше количество бо­
леющих.

Самостоятельная работа.
Задание 1.
При исследовании взаимосвязи между содержанием андросте-
ронов (мг/сут) в моче и возрастом (лет) был получен коэффициент
корреляции -0,53. Опишите характер этой связи. Какая доля изменчи­
вости концентрации гормона объясняется возрастным фактором?

Задание 2. Опишите, каким образом изменяется вероятность


аварийности в зависимости от концентрации алкоголя в крови. Какая
эта связь - линейная, нелинейная, прямая, обратная, сильная, слабая?

к о н ц е нт р а ц и я алкоголя

Тесты для самоконтроля:

1.
Какова величина коэффициента корреляции между двумя
признаками на рисунке а)?

47

ф
* X * X

A. больше, чем на рисунке б)


B. является такой же, что и на рисунке б)
C. меньше, чем на рисунке б)
D. не может быть определена
2.
При исследовании взаимосвязи между ростом (см) и объемом
циркулируемой крови (л) был получен коэффициент корреляции г =
0,6. Опишите характер этой связи:
A. обратная, пропорциональная
B. прямая, сильная
C. отсутствует
D. прямая, средняя
E. обратная, средняя

Тема 10. Линейная регрессия

Регрессия - это функция, связывающая зависимую величину у с


независимой величиной х. Она показывает, как в среднем изменяется
у при изменениях х.
Уравнение линейной регрессии имеет вид
у = Ь0 + Ь,х, где у - зависимая переменная, х - независимая пере­
менная, Z>o и bj —постоянные коэффициенты

Ь, =

b0 = Y - b , X

48
Пример. По данным из таблицы вывести уравнение регрессии.
Нанести на график исходные данные и линию регрессии. По уравне­
нию регрессии определить каков в среднем вес людей с ростом 180
кг.

X Рост, см 170 162 165 178 182 159 175 188 167 175
У В ес, кг 75 65 70 82 75 63 80 90 66 60

Результаты расчета сведем в таблицу

/ Xi У, х ,- Х у - у (X i- X X H -Y ) (Xt - X f
1 164 52 -10,9 -21,8 237,62 118,81
2 177 65 2,1 -8,8 -18,48 4,41
3 165 70 -9,9 -3,8 37,62 98,01
4 178 82 3,1 8,2 25,42 9,61
5 182 75 7,1 1,2 8,52 50,41
6 185 88 10,1 14,2 143,42 102,01
7 175 80 0,1 6,2 0,62 0,01
8 188 90 13,1 16,2 212,22 171,61
9 160 64 -14,9 -9,8 146,02 222,01
10 175 72 0,1 -1,8 -0,18 0,01
*<1

00
U)

Х = 174,9 Е=792,8 £= 776,9


1 II

Ь, = 1,02 Ь0 = - 104,7

Таким образом, уравнение имеет вид: у = \ ,02х - 104,7


При росте 180 см вес в среднем составляет
7=1,02*180-104,7=79 кг

49
Рисунок 5 - График линейной регрессии
Самостоятельная работа
Задание. По данным из таблицы вывести уравнение регрессии.
Нанести на график исходные данные и линию регрессии.

С одержание андростеро- Определите концен­


0,82 0,90 0,98 1,06 1,20 1,29
нов в моче (мг/сутки) трацию гормона в
моче у лиц возраста
Возраст (лет) 82 82 75 65 55 45
70 лет

Тесты для самоконтроля


1.
Какой метод используется для вычисления коэффициентов в
уравнении регрессии?
А. неопределенных множителей
В. наименьших квадратов
С. условной средней
D. оптимизации
Е. Рунге-Кутта
2.
Уравнением регрессии называется уравнение, устанавливающее
зависимость между значениями переменных у по х. Какой перемен­
ной является jc, а какой переменной у?
50
A. зависимой, независимой
B. условной, независимой
C. независимой, зависимой
D. средней, зависимой
E. условной,средней
3.
Было проведено исследование о наличии взаимосвязи между
двумя параметрами: возрастом (в годах) и площадью поражения ар­
терий таза (в %) и построено уравнение регрессии. В данном случае,
какой переменной является возраст?
A. независимой переменной;
B. зависимой переменной;
C. в уравнении регрессии учитываться не может;
D. ни зависимой, ни независимой переменной не является;
E. постоянным коэффициентом.

4.
Уравнение регрессии имеет вид{у = b0-bix). Чем является Ь/ ?
A. коэффициентом регрессии;
B. зависимой переменной;
C. независимой переменной;
D. ф ункцией;
E. табличным значением.
5.
Уравнение регрессии имеет вид (у = bo-b/х). Чем является Ь0?
A. зависимой переменной;
B. независимой переменной;
C. функцией;
D. табличным значением.
E. постоянным коэффициентом

| Ответы | IB j 2С | ЗА 1 4А | 5Е

Тема 11. Дисперсионный анализ. Метод однофакторного


дисперсионного анализа

51
Чтобы оценить влияние многоуровневого фактора на какой-то
признак, необходимо вычислить отношение межгрупповой дисперсии
к внутригрупповой дисперсии
• Межгрупповая дисперсия вносится изучаемым фактором
Внутригрупповая дисперсия вносится какими-то другими
(неучтенными) факторами
i
Внутригрупповая дисперсия
к
I д
Dанутригр = —

Где D, - дисперсия показателя в каждой из к групп


Межгрупповая дисперсия вычисляется по средним значе­
ниям в группах

t n x x - x j
Dмежгруп =-*=*------------
к ~\

И/ -количество объектов в / -той группе


Х т - общая средняя
• Выдвигаем Н(0) - фактор не влияет на изучаемый
признак
• Задаемся уровнем значимости а
• Вычисляем критерий Фишера
тр Dмежгр
внутргр

• Сравниваем с Fitii для заданного а и числа степеней сво­


боды (Приложение 7)
f межгр — к — \ f тутргр — П —к
к -ч и с л о групп, «-общее количество объектов обследования

52
• Если вычисленное значение критерия Фишера меньше кри­
тического, то Н(0) принимается и делается вывод, что фактор не вли­
яет на исследуемый показатель.
• В противном случае принимается Н(1)

Пример. По данным из таблицы определить зависит ли срок ле­


чения в стационаре от тяжести состояния (легкая, средняя, тяжелая)
при поступлении в больницу.
Выдвинем гипотезы:
Н(0): срок лечения в стационаре не зависит от тяжести пациента
при госпитализации.
Н(1): срок лечения в стационаре зависит от тяжести пациента
при госпитализации

Тяжесть
легкая средняя тяжелая к=3
состояния
Срок лечения, дни
1 43 58 96
2 48 64 120
3 28 78 100
4 41 64 98
5 35 49 82
П; 5 5 5 п=15
х, 39 62,6 99,2 Хш = 66>9
D, 59,5 1 11,8 185,2 £ = 3 5 6 ,5

D = 356^5 = 1 18 8
внутригр ^

> = 5(39 ~ 6 6 ,9 ) 2 + 5 (6 2 ,6 - 6 6 ,9 ) 2 + 5 (9 9 ,2 - 6 6 ,9 ) 2 =
м еж гр уп "3 1 *

D F ВЫ
Ч f а F крит
Межгрупповая дисперсия 4600,5 38,7 2 0,05 3,88
Внутригрупповая дисперсия 118,8 12

Т.к. Febl4> FKpum принимаем Н(1).


Вывод: с вероятностью не менее 95% можно утверждать, что
тяжесть состояния при госпитализации влияет на срок лечения в ста­
ционаре.
53
П р едстав и м п олуч ен н ы е результаты в виде графика на рисун к е

тяжесть состояния

Рисунок 6 - График среднего значения и 95% доверительного интервала


Самостоятельная работа:
Задание 1. Используя факторный дисперсионный анализ опре­
делить, изменяется ли количество тромбоцитов с возрастом.

Ч исло тром боц и тов Дети д о года Дети д о 3 лет


С реднее Л/ 196 221
Д исперсия/),- 359 340
Число обследованных и,- 31 13

Задание 2,Определить влияет ли фактор на случайную величину

Число уровней количество объек­


тов исследования Вмемсгр ^внутр
фактора
4 28 1224 37,8

Тесты для самоконтроля


1.
В каких задачах используется дисперсионный анализ?
A. в задачах сравнения двух средних
B. в задачах сравнения долей

54
C. в задачах определения взаимосвязи двух случайных
величин
D. в задачах определения влияния многоуровнего фактора
E. в задачах построения регрессионной модели
2.
Сформулируйте альтернативную гипотезу при проведении
факторного дисперсионного анализа
A. Случайная величина имеет нормальное распределение
B. Уровни фактора независимы
C. Дисперсия фактора равна дисперсии случайной величины
D. Средние во всех изучаемых группах равны
E. По крайней мере две средние в изучаемых группах не
равны
3.
Результаты дисперсионного анализа определяются по критерию
Фишера. При каком условии нулевая гипотеза отвергается?
-А Рвыч^ FlCpHT
В- F Bb,4< Ркрит
C. F B„ 4~ F KpHT
D. по соотношению FBbl4и FKpiIXнельзя сделать вывод
4.
Каково соотношение между внутригрупповой и межгрупповой
дисперсиями? если известно, что многоуровневый фактор не
оказывает действия на случайную величину?
A. внутригрупповая дисперсия больше межгрупповой
B. внутригрупповая дисперсия меньше межгрупповой
C. внутригрупповая дисперсия равна межгрупповой
D. соотношение между дисперсиями не имеет значения
E. сумма дисперсий равна нулю
5.
Чему равна внутригрупповая дисперсия, если дисперсия первой
группы равна 27, второй 14, а третей 10?
A. 22
B. 17
C. 18
D. 16
E. 23

1 Ответы | 1D | 2Е 1 ЗА | 4А ] 5В
55
Т е м а 12. М е т о д с т а н д а р т и з о в а н н ы х п о к а за т е л е й

Метод стандартизованных показателей позволяет устранить


(элиминировать) возможное влияние различий в составе совокупно­
стей по какому-либо признаку на величину сравниваемых интен­
сивных показателей. Стандартизованные показатели свидетельству­
ют о том, каковы были бы значения сравниваемых интенсивных по­
казателей, если бы были исключены различия в составах совокуп­
ностей.

Этапы расчета стандартизованных показателей


I этап. Расчет общих и частных интенсивных показателей:
общих — по совокупностям в целом; частных — по признаку разли­
чия (полу, возрасту, стажу работы и т.д.).
II этап. Определение стандарта, т.е. выбор одинакового чис­
ленного состава среды по данному признаку (по возрасту, полу и т.д.)
для сравниваемых совокупностей. Как правило, за стандарт принима­
ется сумма или полусумма численностей составов соответствующих
групп. В то же время стандартом может стать состав любой из сравни­
ваемых совокупностей, а также состав по аналогичному признаку ка­
кой-либо другой совокупности. Например, при сравнении летально­
сти в конкретной больнице по двум отделениям скорой помощи за
стандарт может быть выбран состав больных любой другой больницы
скорой помощи. Таким образом, так или иначе уравниваются условия
среды, что дает возможность провести расчеты новых чисел явления,
называемых «ожидаемыми величинами».
III этап. Вычисление ожидаемых абсолютных величин явления в
группах стандарта на основе групповых интенсивных показателей,
рассчитанных на I этапе. Итоговые числа по сравниваемым совокуп­
ностям являются суммой ожидаемых величин в группах.
IV этап. Вычисление стандартизованных показателей для срав­
ниваемых совокупностей, используя итоговые ожидаемые величины в
группах и новую среду-стандарт.
V этап. Сопоставление соотношений стандартизованных и ин­
тенсивных показателей, формулировка вывода.
Пример (из книги «Применение методов статистического
анализа для изучения общественного здоровья и здравоохранения:
Учеб. пособие/Под ред. В.З. Кучеренко.-.- М.: ГЭОТАР-Медиа,
2005.-193с.»)
56
Проведите сравнительный анализ летальности в больницах А. и
Б., используя метод стандартизации. Сделайте выводы.

В озраст больны х Б ольница А. Б ольница Б.


(в г о д а х )- число выбывших из них число выбывших из них
больных умерло больных умерло
Д о 40 600 12 1400 42
От 40 до 59 200 8 200 10

От 60 и старше 1200 60 400 24

Всего: 2000 80 2000 76

Этапы расчета стандартизованных показателей:


I этап. Сначала определяют общие показатели летальности в
больницах А. и Б.
Больница А.: 80*100/2000 = 4 на 100 выбывших больных;
Больница Б.: 76 * 100/2000 = 3,8 на 100 выбывших больных.
Затем находят показатели летальности в зависимости от воз­
раста больных (частные показатели). Например, в больнице А. у
больных в возрасте до 40 лет летальность составляет
12 * 100/600 = 2%,
а в больнице Б., соответственно, 42 * 100/1400 = 3%.
Аналогично проводят расчеты и в других возрастных группах (см.
сводную таблицу - 1 этап).
II этап. За стандарт принимают сумму выбывших больных по
каждой возрастной группе в обеих больницах.

Возраст больных (в годах) Число больных в больницах А. и Б. Стандарт


Д о 40 600 + 1400 2000
От 40 д о 59 200 +200 400
От 60 и старше 1200 + 400 1600
Всего: 2000 + 2000 4000

Ш этап. Определяют ожидаемое число умерших в стандарте


по каждой возрастной группе в больницах А. и Б., с учетом соот­
ветствующих показателей летальности:
Возраст до 40 лет:
Больница А. 1 00- 2
2000 - х х = 2 * 2000/100 = 40
57
Больница Б. 100-3
2 0 0 0 -х х = 3 * 2000/100 = 60
Возраст от 40 до 59 лет:
Больница А. 100-4
400-х х = 4 *400/100= 16
Больница Б. 100-5
400-х х = 5 *400/100 = 20
Возраст 60 лет и старше:
Больница А. 100- 5
1600 - х х = 5 * 1600/100 = 80
Больница Б. 100-6
1600 - х х = 6 * 1600/100 = 96
Находят сумму ожидаемых чисел умерших в стандарте в боль­
нице А. (40 + 16 + 80 = 136) и больнице Б. (60 + 20 + 96 = 176).
IV этап. Определяют общие стандартизованные показатели
травматизма в больницах А. и Б.
Больница А. 136* 100/4000 = 3,4на 100 выбывших больных;
Больница Б. 176* 100/4000 = 4,4на 100 выбывших больных.
Результаты поэтапного расчета стандартизованных показателей
летальности оформляют в виде таблицы:

Сводная таблица

Больница А. Больница Б. I этап 11 этапIII этап


Ожидаемое
Выбыло больных
Выбыло больных

Летальность на стандарт число


Из них умерло

Из них умерло

Возраст 100 выбывших (сумма умерших в


бальных больных составов стандарте
(в годах) больных
обеих
Б-ца б-ца б-ца
Б-ца Б больниц)
А А. Б.

Д о 40 600 12 1400 42 2 3 2000 40 60


От 40
200 8 200 10 4 5 400 16 20
до 59
60 и
1200 60 400 24 5 6 1600 80 96
старше
Всего: 2000 80 2000 76 4,0 3,8 4000 136 176
IV этап Определение стандар-
100 34 4,4
тизованных показателей
58
V этап. Сопоставление соотношения интенсивных и стан­
дартных показателей летальности в больницах А. и Б.

С оотн ош ен и е А.
П ок азател и Б ол ьни ца Л. Б ол ьни ца Б.
и Б.
Интенсивные 4,0 3,8 А>Б
Стандартизованные 3,4 4,4 А<Б

Выводы:

1. Уровень летальности в больнице А. выше, чем в больнице


Б.
2. Однако если бы возрастной состав выбывших больных в этих
больницах был одинаков, то летальность была бы выше в больнице
Б.
3.Следовательно, на различия в уровнях летальности (в част­
ности, на «завышение» ее в больнице А. и «занижение» в больни­
це Б.) оказала влияние неоднородность возрастного состава боль­
ных, а именно, преобладание в больнице А. пожилых пациентов (60
лет и более) с относительно высоким показателем летальности, и
наоборот, в больнице Б. — больных в возрасте до 40 лет, имеющих
низкие показатели летальности.

Самостоятельная работа

Задача 1. При изучении летальности в детских инфекцион­


ных больницах № 1 и № 2 были получены следующие данные:

Показатели Больница № 1 Б ольница № 2


Интенсивные 3,0% 5,0%
Стандартизованные 4,5% 2,5%

Состав госпитализированных больных отличался по срокам


госпитализации от начала заболевания.
1. С какой целью в данной ситуации был применен метод
стандартизации?
2. В какой из больниц летальность выше?
3. Почему в указанной вами больнице летальность выше?
59
Задача 2. При изучении заболеваемости населения двух районов
города гепатитом В были получены следующие показатели: в районе
А. — 3,5%, в районе Б. — 1,8%.
Для суждения о влиянии уровня вакцинаций на показатель за­
болеваемости врач счел необходимым использовать метод стандар­
тизации.
1. Какой этап метода стандартизации позволит врачу поставить
два района в равные условия по охвату вакцинацией?
2.Можно ли на этом этапе сделать окончательный вывод о
различиях в показателях заболеваемости населения в двух районах
и влияющем на эти различия факторе?

Тема 13. Метод анализа выживаемости

Выживаемость S(t) - это вероятность прожить время большее t с


момента начала наблюдения. График функции S(t) называется кривой
выживаемости.
Если все наблюдения начались одновременно и закончились од­
новременно, то
_ число переж ивших момент t
общее число наблюдений

Важной характеристикой выживаемости является медиана вы­


живаемости Me - это время, до которого доживет половина обследо­
ванных.
Как правило, не все наблюдения начинаются одновременно, и не
все заканчиваются одновременно, по разным причинам. Случается,
что больной покидает больницу досрочно и его дальнейшая судьба
неизвестна. Т.е. мы имеем дело с неполными (цензурированными)
данными. Для построения кривой выживаемости по цензурирован­
ным данным используется метод Каплана-Майера.

60
Пример. У 10 больных лейкемией после лечения наступила ре­
миссия. Мы будем изучать продолжительность времени ремиссии, а
событием (конечной точкой) будет рецидив. Пациенты по фамилии
А,Б,В,Ж ,3,Е,К достигли ремиссии на 1,1,2,6,6,8,12 месяцы исследо­
вания соответственно и у них случился рецидив через 7,12,7,8,9,6,2
месяца соответственно. Приведенные данные представлены на гра­
фике (рис.7А).

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
время, месяцы

Рисунок 7 - Цензурированные данные

А
Б
В
Г
Д
Е
Ж
3
И
К
Т 1 1 1 1 1 1 1 1 1 1 1 1 1 1 I

(!) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
время, месяцы

Рисунок 8. Время наблюдений

61
Пациенты Г, И достигли ремиссии на 3 и 8 месяце исследова­
ния, и по окончании исследования оставались в ремиссии и не дали
рецидива. Пациент Д достиг ремиссии на 3 месяце и через 11 месяцев
выписался (уехал), про него не известно, был ли рецидив. Всех их бу­
дем считать выбывшими.
Начало горизонтальной линии обозначает начало ремиссии, за­
крашенный кружок на конце линии - время наступления рецидива.
Если нет информации о времени наступления рецидива - кружок
прозрачный.
Представим данные таким образом, как будто ремиссия у всех
началась одновременно в t =0 (рис. Б). Теперь на шкале времени не
астрономические время, а время наблюдения. Такое представление
данных облегчит нам дальнейшие расчеты.
Результаты расчета выживаемости занесем в сводную таблицу.
Первый рецидив наступил у пациента К через 2 месяца. Наблю­
дались в это время все 10 пациентов. Значит, вероятность рецидива через
2 месяца - я ^ г=1/10=0,1. Соответственно, вероятность рецидива через 2
месяца:
1 -^ - = 1- — = — = 0,900
п2 ю ю

Следующий рецидив случился на 6 месяце у пациента Е. К это­


му времени в ремиссии были 9 пациентов. Вероятность рецидива че­
рез 6 месяцев составляет - d6 /пб - 1/9 = 0,111, а вероятность не
наступления рецидива через 6 месяцев 1- 0,111=0,889
Теперь мы можем оценить вероятность прожить без рецидивов
более 6 месяцев, то есть S(6). Прожить без рецидивов более 6 месяцев
— это значит не иметь рецидив через 2 месяца и через 6 месяцев. То
есть, по правилу умножения вероятностей:

S(6) = 0,900 * 0,889 = 0,800.

Перейдем к следующему печальному событию. На 7 месяце ре­


цидив случился сразу у 2 пациентов А и В. К этому времени в ремис­
сии было 8 человек. Имеем

И тогда 8(7) = 0,900 * 0,889 * 0,750 = 0,600.

62
На 8 месяце рецидив у пациента Ж. В ремиссии к этому времени
5 человек (у 4-х рецидив, 1 выбыл: 1 0 - 4 - 1 = 5 ) .
п, J J

S(8) = 0,900 * 0,889 * 0,750 * 0,800 = 0,480.

В таблице расчет выживаемости приведен полностью.

Число реци­ Доля пережив­


Наблюдалось к
Пациент Время дивов в мо­ ших момент t без Выживаемость
моменту t
мент t рецидива
/ nt d, а - 4ni) S(t)
К 2 10 1 0,900 0,900
Е 6 9 1 0,889 0,800
А иВ 7 8 2 0,750 0,600
И 7+ - -

Ж 8 5 1 0,800 0,480
3 9 4 1 0,750 0,360
Д ' 11 + - -

Б 12 2 1 0,500 0,180
Г 12+ - -
Теперь мы можем представить результаты исследования выжи­
ваемости в виде графика (рис.9). Точки на графике соответствуют
моментам, когда рецидив случился хотя бы у одного из наблюдав­
шихся. Эти точки обычно соединяют ступенчатой линией.

время, месяцы

Рисунок 9 - Кривая выживаемости


63
В момент времени 0 выживаемость составляет 1,0, затем посте­
пенно снижается. В данном случае рецидив был не у всех наблюдав­
шихся — поэтому нуля линия не достигает. Медиана выживаемости
{Me) равна 8 месяцам.

Самостоятельная работа.
Задача 1. Сравнить две кривые выживаемости. Сделать выводы.

Т аблица. Продолжительность жизни после трансплантации костного мозга-


Ауготранспланта Аллотранспланта
(1-я группа, п = 33) (2-я группа, п = 21)
Месяцы после Число смертей Месяцы после Число смертей
пересадки или выбытий пересадки или выбытий
1 3 1 1
2 2 2 1
3 1 3 1
4 1 4 1
5 1 6 1
6 1 7 1
7 1 12 1
8 15+ 1
10 1 20+ 1
12 21+ 1
14 1 24 1
17 1 30+ 1
20+ 1 60+ 1
27 85+
28 1 86+ 1
30 87+ 1
36 1 90+ 1
38+ 1 100+ 1
40+ 1 119+ 1
45+ 1 132+ 1
50 3
63+ 1
132+ 2

Тесты для самоконтроля:


1.

64
При построении кривой выживаемости возникает ряд сложно­
стей относительно выборочной совокупности. Как называются полу­
ченные при этом данные?
A. искаженные данные
B. цензурированные данные
C. качественные данные
D. порядковые данные
E. последовательные данные

■ I..... »"... 1
3 5 8 10 12 14
По кривой выживаемости определите процент выживших к кон­
цу данного исследования?
а. 0,5
Ь. 50
с. 1
d. 100
е. 0

По кривой выживаемости (см. 2-ой вопрос) определите сколько


времени длилось исследование (t, час)?
А. 3
В. 0,5
С. 0,8
D. 10
Е. 14

65
По кривой выживаемости (см. 2-ой вопрос) определите медиану
выживаемости
А. 3
В. 0,5
С. 0,8
D. 10
Е. 14
5.
Найти медиану выживаемости

t, дни 1 2 5 8 12 18 25
S(t) 0,96 0,89 0,75 0,6 0,45 0,31 0,15

А. 3
В. 0,5
С. 8
D. 10
Е. 12

Ответы 1 IB 1 2Е | ЗЕ [ 4D 1 5Е

66
Приложение 1. К р и ти ч еск и е зн а ч е н и я к о эф ф и ц и е н т а
асимметрии As
Объем выборки Уровень значимости Объем выборки Уровень значимости
п а п а
0,05 0,01 0,05 0,01
25 0,711 1,061 250 0,251 0,360
30 0,661 0,982 300 0,230 0,329
35 0,621 0,921 350 0,213 0,305
40 0,587 0,869 400 0,200 0,285
45 0,558 0,825 450 0,188 0,269
50 0,533 0,787 500 0,179 0,255
60 0,492 0,723 550 0,171 0,243
70 0,459 0,673 600 0,163 0,233
80 0,432 0,631 650 0,157 0,224
90 0,409 0,596 700 0,151 0,215
100 0,389 0,567 750 0,146 0,208
125 0,350 0,508 800 0,142 0,202
150 0,321 0,464 850 0,138 0,196
175 0,298 0,430 900 0,134 0,190
200 0,280 0,403 950 0,130 0,185

Критические значения коэффициента эксцесса Ех


Уровень значимости а
Объем выборки п
0,10 0,05 0,01
11 0,890 0,907 0,936
16 0,873 0,888 0,914
21 0,863 0,877 0,900
26 0,857 0,869 0,890
31 0,851 0,863 0,883
36 0,847 0,858 0,877
41 0,844 0,854 0,872
46 0,841 0,851 0,868
51 0,839 0,848 0,865
61 0,835 0,843 0,859
71 0,832 0,840 0,855
81 0,830 0,838 0,852
91 0,828 0,835 0,848
101 0,826 0,834 0,846
201 0,818 0,823 0,832
301 0,814 0,818 0,826
401 0,812 0,816 0,822
501 0,810 0,814 0,820

67
Приложение 2. К ри ти ческ и е точки двусторон н его t-
к ри тер и я С тью ден та

Число степеней а Число степеней а


свободы / 0,05 0,01 0,05 свободы / 0,05 0,01 0,05
1 12,71 63,66 64,60 18 2,10 2,88 3,92
2 4,30 9,92 31,60 19 2,09 2,86 3,88
3 3,18 5,84 12,92 20 2,09 2,85 3,85
4 2,78 4,60 8,61 21 2,08 2,83 3,82
5 2,57 4,03 6,87 22 2,07 2,82 3,79
6 2,45 3,71 5,96 23 2,07 2,81 3,77
? 2,37 3,50 5,41 24 2,06 2,80 3,75
8 2,31 3,36 5,04 25 2,06 2,79 3,73
9 2,26 3,25 4,78 26 2,06 2,78 3,71
10 2,23 3,17 4,59 27 2,05 2,77 3,69
11 2,20 3,11 4,44 28 2,05 2,76 3,67
12 2,18 3,05 4,32 29 2,05 2,76 3,66
13 2,16 3,01 4,22 30 2,04 2,75 3,65
14 2,14 2,98 4,14 40 2,02 2,70 3,55
15 2,13 2,95 4,07 60 2,00 2,66 3,46
16 2,12 2,92 4,02 120 1,98 2,62 3,37
17 2,11 2,90 3,97 00 1,96 2,58 3,29

68
П рилож ение 3. Критические значения U-критерия М анна-Уитни, а = 0,01. Двусторонний
критерий

п /п , 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
5 0 0 0
6 0 0 1 2
7 0 0 1 3 4
8 0 1 2 4 6 1
9 0 1 3 5 7 9 11
10 0 О 4 6 9 11 13 16
и 0 2 5 7 10 13 16 19 21
12 1 3 6 9 12 15 18 21 24 23
13 1 4 7 10 13 17 20 24 27 31 34
14 1 4 7 11 15 18 22 26 30 34 38 42
15 2 5 8 12 16 20 25 29 33 37 42 46 51
16 2 5 9 13 18 22 27 31 36 41 46 50 55 60
17 2 6 10 15 19 24 29 34 39 44 49 54 60 65 70
18 2 6 11 16 21 26 31 37 42 47 53 59 64 70 75 77 81
19 3 7 12 17 22 28 34 39 45 51 57 63 69 75 81 87 93
20 3 8 13 18 24 30 36 42 48 54 60 67 73 79 86 92 99 105
21 3 8 14 19 25 32 38 44 51 58 64 71 78 84 91 98 105 112
22 4 9 14 21 27 34 40 47 54 61 68 75 82 89 97 104 111 118
23 4 9 15 22 29 36 43 50 57 64 72 79 87 94 102 109 117 125
24 4 10 16 23 30 37 45 52 60 68 76 83 91 99 107 115 123 131
25 5 10 17 24 32 39 47 55 63 71 79 88 96 104 113 121 129 138
П рилож ение 4. Критические значения парного Т-критерия
Уилкоксоиа

Односторонний критерий
Число пар­ Число пар­
ных наблю­ Уровни значимости а ных наблю­ Уровни значимости а
дений и дений п
0,05 0,01 0,05 0,01
5 0 —. 14 25 16
б 2 0 15 30 19
7 3 0 16 35 23
8 5 1 17 41 28
9 8 3 18 47 33
10 10 5 19 53 38
и 13 7 20 60 42
12 17 10 21 67 50
13 21 12 22 74 56

Двусторонний критерий
Число
парных Число парных
Уровни значимости а Уровни значимости а
наблюде­ наблюдений п
ний п
0,05 0,01 0,05 0,01
6 1 16 31 21
7 3 — 17 36 24
8 5 1 18 41 29
9 7 3 19 47 33
10 9 4 20 53 39
11 12 6 21 60 44
12 15 8 22 67 50
13 18 11 23 74 56
14 22 14 24 82 62
15 26 17 25 90 69

П рилож ение 5. Критические значения

Уровень значимости
/ 0 J0 0J5 0,10 0,05 0,025 0,01 0,005 0,001
1 0,455 1323 2,706 3,841 5,024 6,635 7,879 10,828
2 1386 2,773 4,605 5,991 7378 9,210 10,597 13,816
3 2,366 4,108 6,251 7,815 9348 11345 12,838 16,266
70
4 3,357 5385 7,779 9,488 11,143 13,277 14,860 18,467
5 4351 6,626 9,236 11,070 12,833 15,086 16,750 20,515
6 5,348 7,841 10,645 12392 14,449 16,812 18,548 22,458
7 6,346 9,037 12,017 14,067 16,013 18,475 20,278 24,322
8 7,344 10,219 13362 15,507 17,535 20,090 21,955 26,124
9 8,343 11389 14,684 16,919 19,023 21,666 23,589 27,877
10 9342 12,549 15,987 18307 20,483 23,209 25,188 29,588
11 10341 13,701 17,275 19,675 21,920 24,725 26,757 31,264
12 11340 14,845 18,549 21,026 23,337 26,217 28,300 32,909
13 12340 15,984 19,812 22,362 24,736 27,688 29,819 34328
14 13,339 17,117 21,064 23,685 26,119 29,141 31,319 36,123
.15 14,339 18,245 22,307 24,9% 27,488 30,578 32,801 37,697
16 15,338 19369 23,542 26,296 28,845 32,000 34,267 39,252
17 16,338 20,489 24,769 27,587 30,191 33,409 35,718 40,790
18 17338 21,605 25,989 28,869 31,526 34,805 37,156 42,312
19 18,338 22,718 27,204 30,144 32,852 36,191 38,582 43,820
20 19,337 23,828 28,412 31,410 34,170 37,566 39,997 45315
21 20,337 24,935 29,615 32,671 35,479 38,932 41,401 46,797
22 21,337 26,039 30,813 33,924 36,781 40,289 42,7% 48,268
23 22,337 27,141 32,007 35,172 38,076 41,638 44,181 49,728
24 23,337 28,241 33,196 36,415 39,364 42,980 45,559 51,179
25 24,337 29,339 34382 37,652 40,646 44,314 46,928 52,620
26 25336 30,435 35363 38,885 41,923 45,642 48,290 54,052
27 26,336 31,528 36,741 40,113 43,195 46,%3 49,645 55,476
28 27,336 32,020 37,916 41337 44,461 48,278 50,993 56,892
29 28,336 33,711 39,087 42,557 45,722 49,588 52336 58301
30 29,336 34,800 40,256 43,773 46,979 50,892 53,672 59,703
31 30,336 35,887 41,422 44,985 48,232 52,191 55,003 61,098
32 31,336 36,973 42,585 46,194 49,480 53,486 56,328 62,487
33 32,336 38,058 43,745 47,400 50,725 54,776 57,648 63,870
34 33,336 39,141 44,903 48,602 51,966 56,061 58,964 65,247
35 34,336 40,223 46,059 49,802 53,203 57,342 60,275 66,619
36 35,336 41304 47,212 50,998 54,437 58,619 61,581 67,985
37 36,336 42,383 48363 52,192 55,668 59,893 62,883 69346
38 37,335 43,462 49,513 53,384 56,8% 61,162 64,181 70,703
39 38,335 44,539 50,660 54,572 58,120 62,428 65,476 72,055
40 39,335 45,616 51.805 55,758 59342 63,691 66,766 73,402
41 40,335 46,692 52,949 56,942 60,561 64,950 68,053 74,745
42 41,335 47,766 54,090 58,124 61,777 66,206 69,336 76,084
43 42,335 48.840 55,230 59,304 62,990 67,459 70,616 77,419
44 43,335 49,913 56,369 60,481 64,201 68,710 71,893 78,750
45 44,335 50,985 57,505 61,656 65,410 69,957 73,166 80,077
46 45,335 52,056 58,641 62,830 66,617 71,201 74,437 81,400
71
47 46,335 53,127 59,774 64,001 67,821 72,443 75,704 82,720
48 47,335 54,196 60,907 65,171 69,023 73,683 76,969 84,037
49 48,335 55,265 62,038 66,339 70,222 74,919 78,231 85,351
50 49,335 56,334 63,167 67,505 71,420 76,154 79,490 86,661

П рилож ение 6. Таблица критических значений


коэффициента корреляции рангов Спирмена

Уровень значим. Уровень значим.


Число пар Число пар
0,05 0,01 0,05 0,01
4 1 16 0,425 0,601
5 0,9 1 18 0,399 0,564
6 0,829 0,943 20 0,377 0,534
7 0,714 0,893 22 0,359 0,508
8 0,643 0,833 24 0,343 0,485
9 0,6 0,783 26 0,329 0,465
10 0,564 0,746 28 0,317 0,448
12 0,506 0,712 30 0,306 0,432

72
I °s

i 13,6^
19,47
©

252
6302

5,70

9,24

7,09
3,32

2,8d
k/>

2,67^ 2,64
00 VO

8,58

3,75

3,80
<N

Приложение 7. Критические значения F-критерия Фишера для а = 0,05 (обычный шрифт) и а

3,03
©

4, Ц
Tf 00 ©^ in VN
OS 40 •r" Tf CN CN
ON fN

j
1
▼H

5,11
251

3,77

3,34

3,05

2,53

2,42
00 40^ ГЧ 00 «Л 1"Ц 00

I 40
*N ON ON oo" 40" irT РП oC 1Л CN
40 rH rn
Os СЧ
4^) l"- CN © О 00 f'i 00

6261
© ©

250

3,38

2,86
3,08
40^ °°r, »n n °C« ГЧ ГЧ 4 •O A
\ з о
ON OS oo" 40 »o rn rf" ON rn »/T 1Л CN CN rn CN
OS ГЧ
<JS T 40 © rn I'' I'' 00

5,77

3,12
<N ©

2,90
3,41

2,61
*П VO 40 •n 00 n © n ? © »о
24

<N fN Os o s oo" 4C n
VO rn ON rn VO CN CN
ON ГЧ
06 0s ‘— > <4 si) »/> 4D

9,77 9,68 1 9,55

7,52 7,39
©
248

8,69 1 8,66

3,52 3,49 3,44


©

4,41
2,93

2,65
2 ,7 i

2,54
Ф 4 40 OO^ о «П 00 ГП 00
20

ГЧ OS V© »n* -r so m"
40 O n ON гч
rn
Os

2,70l
1 14,15
b ©
99,44

26,92 26,83

5,48

4,52
246

3,96 3,92
19,42 19,43

4,64 4,60

2 ,8 2
2,9 8

2,60
40 °°„ n CN Ss
16

40 VO 40 rn ТГ
ГЧ Г1 T—* yt\

4,60|
© 40 ©
245

3,10 I 3,07 3,0 2


&

2,94 2,9l| 2 ,8 6

2 ,8 2 2 ,7 9 2 ,7 4
3,31 3,281 3,23
4t <4 40 n ©
14

n
40 Os' oo" «o' ■*r 40 >rT CN
ON rH
vO ГЧ h- 00 9,89 гЧ 1—(
8,74

3,60 __ 3,57
244

Cn

4,00

6,54 6,47

5,74 5,67
©
5,91

5,18 5,11
о Tf О v°„ 40
12

*-4 oC Os 'T t^4


40 CN
OS <s
ГЧ © »Л <S> Os
8,76

4,7S
9,96
243

4,03
5,93

2,72
ОС
о 4
40 ON aa ss r"
гч
l>
40 O n ©
14,54

10,05

3,01 2,95 2,9d 2,8(3


pfi 6,62 b ГЧ

5,21 5,06 4,99 4,8a


vO
242

8,78

5,96

4,74

4,15 4,10 4,06

3,79 3,73 3,6^ 3,63

3,34

3,021 2,9 7
3,13

2,76
«Л rn <4 00 00 4
10

! о O n" a s
40 r- «лГ in -t
ON ГЧ
On О 40 1—
« ON кЛ ©
6022

7,98

o0
19,38

6,19 1 6,03 5,91


241

©N n 00 n CD vO rn n VO 00
OS oo" Г' 40 О VO ГП m" ITi CN
as ГЧ rH
3,29 !. 3.231

y—
i I ' I" On © c4 Os
5,62 5,47
3 ,0 ^
©
239

8,84

2,85
00 m n rf О 00 OC ГЧ 00
ОО Os on" as 40" тг о oo" 40 m
ON ГЧ тН
(Л 40 l> CN 00 ob l/i 00
8,26

© © rr
8,88
237

2,92
ГЧ m n 40 О Os^ oo CN © OC
CN ON ON К 40" rr" © m" m"
ir< ON ГЧ
CN 1-H b 00 On ©
9,28 9 ,1 2 9,01 8,94

3,3^
6,37

1 5,39
3,87

3,58

3,09
19 ,1Й 19,25 19,30 19,33

L 3 ,2 2

3,00
21б|. 225 23 d L 2 3 4

40
1Г)
00
ГП
oC
°\ ГЧ ON VO CN
40" ir7 © rf" OC
°°r,
•лГ
©
IT) ON ГЧ
© ч+ <4 b кЛ © гЧ
6,63)
6,59 6 ,3 9 6,26
5403 5625] 5764

40 ГП
: 4.3^

3 ,9 7

3 ,6 9

3 ,4 »
5,19 5,05

n <4 *n Osr 4 © rn vo CN п
«о Os 00 *r, © 00 t> so" rn ir7 ГП rn
ON ГЧ
1Л кЛ m ГЧ CO O n 46 ь <C>
16,69 15,9Й
99,17 199,25|

3,84

Os m
J .ll
29,46 28,71

tH ос © vo ЧГ On rn vo CN
= 0,01 (жирный шрифт)

> n as m" 40" rn »лГ m" it7 m"


•-H <0 <L> oe i/j O- O n ch гЧ Os
4,35

о <o 00^ % •л гч
*п »n ГЧ ■*? oT 00 m" vo" rn 40 rn NO m"
Ь i/, 40 © 40 00 © 00
SS‘6
18,00
4999

99,00

5,79

5,99 5,14

5,59 4,74

4,46
2oq

6,94
30,82
i9 ,o q

13,74 10,9 i
9,55

П VO CN S 41 ON гч 00
m 00 00 rT rn l^4 rn
rH

A
21,2Й

40 40
16,2«
98,49
4052

34,12
10,13
18,51

5 ,^

VO n ON 0 0© 40
2 tH о оГ
40" ГЧ

—< vH
a 0 <N
4 <N > *0 VO Oo Os
4
73
9,33 6,93 5,95 5,41 5,06 4,82 4,65 4,50 4,39 4,30 4,22 4,16 4,05 3,98 3,86 3,78 3,70 3,61 3,56
4,67 3,80 3,41 3,18 3,02 2,92 2,84 2,77 2,72 2,67 2,63 2,60 2,55 2,51 2,46 2,42 2,38 2,34 2,32
13
9,07 6,70 5,74 5,20 4,86 4,62 4,44 4,30 4,19 4,10 4,02 3,96 3,85 3,78 3,67 3,59 3,51 3,42 3,37
4,60 3,74 3,34 3,11 2,96 2,85 2,77 2,70 2,65 2,60 2,56 2,53 2,48 2,44 2,39 2,35 2,31 2,27 2,24
14
8,86 6,51 5,56 5,03 4,69 4,46 4,28 4,14 4,03 3,94 3,86 3,80 3,70 3,62 3,51 3,43 3,34 3,26 3,21
4,54 3,68 3,29 3,06 2,90 2,79 2,70 2,64 2.59 2,55 2,51 2,48 2,43 2 ,3 9 2,33 2,291 2,25 2,21 2,18
15
8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,73 3,67 3,56 3,48 3,36 3,29 3,20 3,12 3,07
4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,45 2,42 2,37 2,33 2,28 2,24] 2,20 2,16 2,13
16
8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,61 3,55 3,45 3,37 3,25 3,18 3,10 3,01 2,96
4,45 3,59 3,20 2,96 2,81 2,70 2,62 2,55 2,50 2,45 2,41 2,38 2,33 2 ,2 9 2,23 2,19 2,15 2,11 2,08
17
8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,52 3,45 3,35 3,27 3,16 3,08 3,00 2,92 2,86
18 4,41 3,55 3,16 2,93 2,77 3,66 2,58 2,51 2,46 2,41 2,37 2,34 2,29 2,25 2,19 2,15 2,11 2,07 2,04
8,28 6,01 5,09 4,58 4,25 4,01 3,85 3,71 3,60 3,51 3,441 3,37 3,27 3,19 3,07 3,00 2,91 2,83 2,78
4,38 3,52 3,13 2,90 2,74 2,63 2,55 2,48 2,43 2,38 2,34 2,31 2,26 2,21 2,15 2,11 2,07 2,02 2,00
19
8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,36 3,30 3,19 3?12 3,00 2,92 2,84 2,76 2,70
4,35 3,49 3,10 2,87 2,71 2,60 2,52 2,45 2,40 2,35 2,31 2,28 2,23 2,18 2,12 2,08 2,04 1,99 1,96
20
8,10 5,85 4,94j 4,43 4,Ш 3,87 3,71 3,56 3,45 3,37 3,30 3,23 3,13, 3,05 2,94 2,86 2,77 2,69 2,63
4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,28 2,25 2,20 2,15 2,09 2,05 2,00 1,96 1,93
21
8,02 5,78 4,87 4,37 4,04 3,81 3,65 3,51 3,40 3,31 3,24 3,17 3,07 2,99 2,88 2,80 2,72 2,63 2,58
4,30 3,44 3,05 2,82 2,66 2,55 2,47 2,40 2,35 2,30 2,26 2,23 2,18 2,13 2,07 2,03 1,98 1,93 1,91
22
7,94 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,18j 3,12 3,02 2,94 2,83 2,75 2,67 2,58 2,53
4,28 3,42 3,03 2,80 2,64 2,53 2,45 2,38 2,32 2,28 2,24 2,20 2,14 2 , id 2,04 2,00 1,96 1,91 1,88
23
7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,14 3,07 2,97 2,89 2,78 2,70 2,62 2,53 2,48
4,26 3,40 3,01 2,78 2,62 2,51 2,43 2,36 2,30 2,26 2,22 2,18 2,13 2,09 2,02 1,98 1,94 1,89 1,86
24
7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,25 3,17 3,09 3,03 2,93 2,85 2,74 2,66 2,58 2,49 2,44
4,24 3,38 2,99 2,76 2,601 2,49 2,41 2,34 2,28 2,24 2,20 2,16 2,11 2,06 2,00 1,96 1.92 1,87 1,84
25
7,77 5,57 4,68 4,18 3,86 3,63 3,46 3,32 3,21 3,13 3,05 2,99 2,89 2,81 2,70 2,62 2,54 2,45 2,40
26 4,22 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,18 2,15 2,10 2,05 1,99 1,95 1,90 1,85 1,82

т
7,17 5,06 4,20 3,72 3,41 3,18 3,02 2,88 2,78 2,70 2,62 2,56 2,46 2,39 2,26 2,18 2,10 2,00 1,94
4,00 3,15 2,76 2,52 2,37 2,25 2,17 2,10 2,04 1,99 1,95 1,92 1,86 1,81 1,75 1,70 1,65 1,59 1,56
60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,56 2,50 2,40 2,32 2,20 2,12 2,03 1,93 1,87
3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 2,01 1,97 1,93 1,89 1,84 1,79 1,72 1,67 1,62 1,56 1,53
70 7,01 4,92 4,08 3,60 3,29 3,07 2,91 2,77 2,67 2,59 2,51 2,49 2,35 2,28 2,15 2,07 1,98 1,88 1,82
3,96 3,11 2,72 2,48 2,33 2,21 2,12 2,05 1,99 1,9$ 1,91 1,88 1,82 1,77 1,70 1,65 1,60 1,54 1,51
80 3,04 2,87 2,74 2,64 2,55 2,48 2,41 2,32 2,24 2,11 2,03 1,94 1,84 1,78
6,96 4,88 4,04 3,56 3,25
3,94 3,09 2,70 2,46 2,30 2,19 2,10 2,03 1,97 1,92 1,88 1,85 1,79 1,75 1,68 1,63 1,57 1,51 1,48
100 6,90 4,82 3,98 3,51 3,20 2,99 2,82 2,69 2,59 2,51 2,43 ■ 2,36 2,26 2,19 2,06 1,98 1,89 1,79 1,73
3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,87 1,84 1,78 1,73 1,66 1,61 1,56 1,50 1,46
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,40 2,34 2,23 2,15 2,03 1,95 1,86 1,76 1,70
3,84 2,99 2,60 2,37 2,21 2,09 2,01 1,94 1,88 1,83 1,79 1,75 1,69 1,64 1,57 1,52 1,46 1,40 1,35
GO
6,63 4,60 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,24 2,18 2,07 1,99 1,87 1,79 1,69 1,59 1,52
Приложение 8. Т а б л и ц а с т а т и с т и ч е с к и х к р и т е р и е в

Одна груп­
Более двух не­ па, связан­
Две независимые
Признак зависимых ные изме­
группы
групп рения (до и
после)

П арам ет ри чески е крит ерии


• количественный • Критерий Стью- критерий
признак дента для независи­ Стьюдента
Дисперсионный
• нормальное рас­ мых выборок для зависи­
анализ
пределение • дисперсионный мых выбо­
• выборка >30 анализ рок

• Критерий Стью-
1Доля качественного
дента для оценки
признака
разности долей
Н епарам ет рические крит ерии
• количественный
признак, распределе­
ние отличается от нор-
{/-критерий Манна- Г-критерий
| мального или неиз-
Уитни Уилкоксона
j вестно
• ординальный при­
знак
М ет оды сравнения част от ы (доли; вст речаем ост и
Критерий х2
Качественный Критерий х2 Пирсона Мак-
Нимара
М ет оды исследования взаим освязи м еж ду двумя разли чны м и признакам и
• Количественный
признак
Коэффициент корреляции Пирсона
• Нормальное рас­
Простой линейный регрессионный анализ
пределение
• Связь линейная
• Качественный
Коэффициент корреляции Спирмена
признак

77
П рилож ение 9. Примерный вариант рубежного контроля

►Блок 1.
Использую гистограмму, укажите:
• Общее количество обследованных
• Какой максимальный вес имеют дети возраста 3-4 года, и в
скольких процентах случаев этот вес встречается
(за полный и правильный ответ 15%)

Вес детей возраста 3-4 года

5,0 7,5 10,0 12,5 15,0 17,5 20,0 22,5


вес, кг

► Блок 2.
В таблице приведены результаты расчета основных статистиче­
ских характеристик показателя гематокрита у жителей экологически
неблагоприятного района (опытная группа) и жителей, проживающих
в нормальных условиях (контрольная группа):

N Среднее Медиана М ода минимум максимум а


Опытная группа 20 0,23 0,24 0,22 0,10 0,33 0,07
Контрольн.
20 0,29 0,29 0,29 0,12 0,49 0,10
группа

По данным из таблицы:
1. Определите, в какой группе показатель гематокрита выше
(какой статистический параметр указывает на это);
2. Определите, в какой группе разброс значений показателя ге­
матокрита выше (укажите статистический параметр);
78
3. Определите наиболее часто встречающееся значение показа­
теля гематокрита в группах (укажите статистический параметр).
(За полный и правильный ответ 20%).

► Блок 3. При проверке статистической гипотезы исследова­


тель задался уровнем значимости а=0,05. По результатам расчетов
оказалось, что р=0,06. Какую гипотезу (Н0 или Hj) должен принять
исследователь. Обоснуйте свой ответ.
(За полный и правильный ответ 20%)

► Блок 4..
Определить влияет ли фактор на случайную величину

Число уровней фактора количество объектов исследования ^межгр Овнутр


5 35 0,480 1,233
(За полный и правильный ответ 15%)

► Блок 5. На рисунке представлены графики зависимости


успеваемости студентов от затрачиваемого времени на самоподготов­
ку в 2 группах. В какой группе коэффициент линейной корреляции
выше. Обоснуйте свой ответ.
О
Y

в * •*
* * *
X
О б)
(За полный и правильный ответ 15%)

► Блок 6. Определите медиану выживаемости

t, дни 1 2 5 8 12 18 25
S(t) 0,96 0,89 0,75 0,6 0,45 0,31 0,15

(За полный и правильный ответ 15%)

79
ЛИТЕРАТУРА

1. Петри, Авива. Наглядная статистика в медицине: Учеб.


пособие/ А. Петри, К. Сэбин; Пер. с англ.- М.: ГЭОТАР-МЕД, 2009,-
144с.:ил.
2.Вуколов Э. А. Основы статистического анализа: Практикум по
статистическим методам и исследованию операций с
использованием пакетов Statistica и EXCEL. - М.: ФОРУМ: ИНФРА-
М, 2004.-464с
3 .Применение методов статистического анализа для изучения
общественного здоровья и здравоохранения: Учеб. пособие / Под ред.
В.З. Кучеренко.- 2- е изд.,стереотип.- М.: ГЭОТАР-Медиа, 2005.-193
с.
4.Ж ижин К. С. М едицинская статистика: Учеб. пос. - Ростов
н/Д: Феникс, 2007.-151с.
5.Гланц Стентон. Медико-биологическая статистика: Пер.с
англ. - М.: Практика, 1999.-459с.
6.Сергиенко В.И., Бондарева И.Б. Математическая статистика в
клинических исследованиях. - М.: ГЭОТАР-МЕД, 2001.-256 с.
7. Ю нкеров В.И., Григорьев С.Г. Математико-статистическая
обработка данных медицинских исследований. —СПб: ВМедА, 2002.
- 2 6 6 с.

80
Койчубеков Б.К., Сорокина М .А., Букеева А.С., Такуадина А.И.

БИОСТАТИСТИКА в примерах и задачах

Учебно-методическое пособие

Бумага офсетная Формат 60x80/32


Плотность 80гр/см. Белизна 95%. Печать РИЗО
Усл.печ.80 Объем 2.5 стр.

Отпечатано в типографии ТОО “Эверо”


РК, Алматы, ул. Байтурсынова, 22
Тел.: 8 (727) 2 33 83 61,2 33 83 89, тел./факс: 2 33 83 43
e-mail: evero08@mail.ru