Вы находитесь на странице: 1из 101

МИНИСТЕРСТВО ЗДРАВООХРАНЕНИЯ И СОЦИАЛЬНОГО

РАЗВИТИЯ РЕСПУБЛИКИ КАЗАХСТАН

ГОСУДАРСТВЕННЫЙ МЕДИЦИНСКИЙ УНИВЕРСИТЕТ г.


СЕМЕЙ

УНИВЕРСИТЕТI

МЫСАЕВ АЯН ОРАЛХАНОВИЧ

БИОСТАТИСТИКА ДЛЯ МЕДИЦИНСКОГО ВУЗа

(Учебно-методическое пособие)

Семей
2015
1
МИНИСТЕРСТВО ЗДРАВООХРАНЕНИЯ И СОЦИАЛЬНОГО
РАЗВИТИЯ РЕСПУБЛИКИ КАЗАХСТАН

ГОСУДАРСТВЕННЫЙ МЕДИЦИНСКИЙ УНИВЕРСИТЕТ


г.СЕМЕЙ

МЫСАЕВ АЯН ОРАЛХАНОВИЧ

БИОСТАТИСТИКА ДЛЯ МЕДИЦИНСКОГО ВУЗа

(Учебно-методическое пособие)

Семей
2015

2
УДК 616-07:519.2(075.8)
ББК 53.4
М95

РЕЦЕНЗЕНТЫ:
А.К. Султанов – и.о. профессора кафедры общественного
здоровья и здравоохранения КарГМУ, к.м.н.
Д.К. Алдынгуров – ассистент кафедры Хирургии и
травматологии ГМУ г.Семей, MD, PhD

М95 Мысаев А.О. Биостатистика для медицинского ВУЗа. –


Учебно-методическое пособие. – г. Семей. – 2015 год. – 101 с.

Биостатистика является важной дисциплиной в развитии научных


компетенций обучающихся медицинских вузов. В пособии собран
информационно-дидактической блок 12 наиболее важных тем
биостатистики. Данное пособие будет полезным студентам
бакалавриата следующих специальностей: общая медицина,
общественное здравоохранение, стоматология, медико-
профилактическое дело. Автор постарался представить
квинтэссенцию информации по данным темам. По каждой теме
представлены задачи с подробным их решением.

УДК 616-07:519.2(075.8)
ББК 53.4
М95
Утверждено и разрешено к печати решением УМС
Государственного медицинского университета г.Семей.
Протокол № 4 от 26.03.2015 г.
© А.О. Мысаев, 2015 год.

3
Перечень сокращений

ОШ (OR) – отношение шансов


ОР (RR) – относительный риск
СО (SD) – стандартное отклонение (standard deviation)
СО (SE) – стандартная ошибка (standard error)
ДИ (CI) – доверительный интервал (confidence interval)
М – средняя (mean)
Mo - мода (moda)
Me – медиана (median)
Q1- нижний (первый) квартиль
Q3 – верхний (третий) квартиль

4
СОДЕРЖАНИЕ

Название Стр.
Перечень сокращений 4
1. Введение в биостатистику. Типы данных. 6
2. Вариационный ряд. Числовая характеристика 15
дискретного статистического ряда. Средние величины.
Полигон.
3. Дисперсия. Стандартное отклонение. Стандартная 21
ошибка среднего. Доверительный интервал
4. Интервальный статистический дискретный ряд 24
распределения. Числовые характеристики
интервального статистического ряда. Гистограмма.
5. Нулевая гипотеза. Альтернативная гипотеза. 27
Ошибки первого и второго рода.
6. Нормальное распределение, характеристика, 35
графическая проверка.
7. t-критерий Стьюдента. 44
8. Дисперсионный анализ. 49
9. Отношение шансов. Относительный риск. Таблица 56
сопряженности.
10. Критерий χ2 Пирсона. 64
11. Корреляционный анализ. 72
12. Анализ выживаемости. 81
Тестовые задания 86
Эталоны ответов 97
Список литературы 98

5
ТЕМА 1. ВВЕДЕНИЕ В БИОСТАТИСТИКУ. ТИПЫ ДАННЫХ

Биостатистика (Biostatistics) - научная отрасль, связанная с


разработкой и использованием статистических методов в научных
исследованиях в медицине, здравоохранении и эпидемиологии.

Чтобы понять место биостатистики в научном исследовании, надо


изучить этапы научного исследования (рисунок 1) [1].

Рисунок 1. Этапы статистического исследования

I этап статистического исследования – составление программы и


плана исследования
Программа статистического исследования предусматривает
решение следующих вопросов:
1. Определение единицы наблюдения и составление
программы сбора материала;
Единица наблюдения — каждый первичный элемент
статистической совокупности. Единица наблюдения наделена
признаками сходства и различия, которые подлежат учету и
дальнейшему наблюдению, поэтому эти признаки называются
учитываемыми (учетными).
Учитываемые признаки — признаки, по которым различаются
элементы единицы наблюдения в статистической совокупности.
6
Статистическая совокупность — это группа, состоящая из
относительно однородных элементов, взятых вместе в известных
границах времени и пространства в соответствии с поставленной
целью. Структура статистической совокупности: статистическая
совокупность состоит из единиц наблюдения (рисунок 2).

Рисунок 2. Структура статистической совокупности

На примере нашего исследования — статистическая


совокупность — это студенты, обучающиеся в данном вузе на
протяжении всего периода обучения.
Различают два вида совокупности — генеральная и выборочная.
Генеральная совокупность — это группа, состоящая из всех
относительно однородных элементов в соответствии с поставленной
целью.
Выборочная совокупность — отобранная для исследования
часть генеральной совокупности и предназначенная для
характеристики всей генеральной совокупности. Она должна быть
репрезентативна (представительна) по количеству и качеству по
отношению к генеральной совокупности.
Репрезентативность количественная основана на законе
больших чисел и означает достаточную численность элементов
7
выборочной совокупности, рассчитываемую по специальным
формулам и таблицам.
Репрезентативность качественная основана на законе
вероятности и означает соответствие (однотипность) признаков,
характеризующих элементы выборочной совокупности по
отношению к генеральной.
В нашем примере генеральной совокупностью являются все
студенты медицинского вуза; выборочной совокупностью — часть
студентов каждого курса и факультета данного вуза.
Как правило, основной задачей любого эксперимента является
получение информации об изучаемых объектах и/или явлениях [2].
Саму суть понятия «информация» достаточно сложно
сформулировать, хотя бы из-за того, что любое определение данного
понятия будет являться тавтологией по своей сути. Кроме того, еще
А. Н. Колмогоров, стоявший у истоков создания теории информации,
задавался вопросом о том, существует ли информация независимо от
ее восприятия или определяется индивидуальными особенностями
исследователя. Таким образом, возникает противоречие, которое
можно лишь отчасти разрешить, если описывать информацию как
потенциальное свойство.
Информация — это потенциальные свойства некого объекта или
системы, которые доступны для хранения, передачи, преобразования
и выявления при изучении разумным существом.
Данные — это информация, представленная в формализованном
виде.
Формализация данных может достигаться различными методами.
Тип данных — это метод формализации, который определяется
сущностью изучаемого параметра.
Переменная — это совокупность первичных данных, содержащая
данные определенного типа, доступные для изменения.
Прежде чем перейти к анализу собранных данных, надо понять,
какого они типа. Так же как знание пищевых предпочтений рыбы
говорит рыбаку, на какую наживку ловить разные виды, знание типа
данных подскажет нам выбор измерительного инструмента.
Первая попытка классификации переменных в статистике,
сохранившая своё значение до настоящего времени, была
предпринята в 1946 г. Стэнли Смитом Стивенсом (Stanley Smith
Stevens). Схема классификации была основана на типах операций,
допустимых для данной переменной. Например, для переменных,
8
обозначающих пол или религию допустимы только сравнения типа
равно – не равно, а сравнения типа больше – меньше или
арифметические операции не допустимы; как следствие, для этих
переменных может быть определена такая статистика, как мода
(наиболее вероятное значение), и не может быть определено
математическое ожидание (среднее значение). В порядке
возрастания числа допустимых операций Стивенс ввёл следующие
уровни классификации переменных: номинальный (nominal),
порядковый (ordinal) и непрерывный (continuous), причём последний
делился на подуровни интервальный (interval) и относительный
(ratio).
Важность понимания различий типов данных обусловлена
потребностью исследователя в их анализе и последующем
осмыслении результатов. Различия в типах данных являются
отправной точкой для выбора математических методов, которые
должны применяться для анализа результатов эксперимента или
наблюдения, а также для правомочности использования того или
иного способа представления данных (рисунок 3).
ДАННЫЕ
ДАТЫ
КАТЕГОРИАЛЬНЫЕ
КОЛИЧЕСТВЕННЫЕ

НОМИНАЛЬНЫЕ ПОРЯДКОВЫЕ НЕПРЕРЫВНЫЕ ДИСКРЕТНЫЕ

ДИХОТОМИЧЕСКИЕ ИНТЕРВАЛЬНЫЕ ОТНОСИТЕЛЬНЫЕ

Рисунок 3. Различные типы данных

Все переменные и результирующие показатели можно


подразделить на два типа: категориальные и количественные. Дата и
время представляют собой не абсолютно формализованную, но
необходимую информацию, которая в зависимости от масштабов
оценки может служить источником переменных различных типов.
Поэтому в структуре типов данных дата и время будут располагаться
вне рассматриваемой классификации.
Категориальные (качественные) данные встречаются, когда
объект изучения может принадлежать лишь к одной из
взаимоисключающих (альтернативных) категорий.
9
 Порядковые данные — это категориальные данные,
поддающиеся логическому упорядочению.
 Номинальные данные — это категориальные данные, не
поддающиеся логическому упорядочению.
а) Бинарные данные — это номинальные данные, которые можно
описать с использованием одной из двух альтернативных
категорий.
Количественные данные — это данные, которые можно
описать с использованием числового значения.
 Дискретные данные — это количественные данные, которые
можно описать с идеальной точностью.
 Непрерывные данные — это количественные данные, которые
можно описать с точностью, которая была достигнута при
измерении на непрерывной шкале.
а) Интервальные данные — это непрерывные данные о
величинах, имеющих физический смысл.
б) Относительные данные — это непрерывные данные о
безразмерных величинах.
Следует отметить, что определение типов данных для
переменных следует проводить до начала сбора информации об
изучаемых системах, объектах или явлениях. Это позволяет улучшить
дизайн исследования, что значительно снижает вероятность
возникновения систематических ошибок. Кроме того, при разработке
и внедрении масштабных медицинских технологий, работа
осуществляется с гигантскими массивами данных, хранение и анализ
которых требуют значительных вычислительных

Номинальные переменные
Номинальные переменные используются только для
классификации по признаку категорий [3]. Это означает, что такие
переменные могут быть измерены только в терминах
принадлежности к различным классам. При этом исследователь не
может влиять на количество этих классов и упорядочивать их.
Измерения в этой шкале строятся только на принципе
эквивалентности. Типичные примеры номинальных переменных:
национальность, цвет, населенный пункт, профессия, и т.д.
Номинальные переменные иногда называют категорийными.
Частным случаем номинальных признаков являются бинарные
(дихотомические) признаки, представляющие собой признаки с
10
двумя градациями, например, мужской и женский пол,
вакцинированные и невакцинированные, масса тела пациента выше
среднего или ниже, симптом болезни есть или нет. Наличие или
отсутствие признака иногда кодируют цифрами: «нет» – 0, «да» – 1.
Часто начинающие исследователи ошибочно воспринимают их
как обычные числовые значения. Однако эти признаки не связаны
между собой никакими арифметическими соотношениями,
упорядочить их также нельзя. Единственный способ описания
категорийных признаков состоит в том, чтобы подсчитать число
объектов, имеющих одно и то же значение. Кроме того, можно
определить, какая доля от общего числа единиц измерения
приходится на то или иное значение. Такими данными можно
характеризовать структуру явления и представлять их в виде таблиц
или диаграмм.

Порядковые переменные
Порядковые переменные позволяют ранжировать (упорядочить)
единицы наблюдения, указав, какие из них в большей или меньшей
степени обладают качеством, соответствующим данной переменной.
Однако они не позволяют установить различие между ними (нельзя
определить, на сколько больше или меньше). Порядковые
переменные иногда называют ординальными.
Типичные примеры порядковой переменной: состояние
больного (тяжелое, средней тяжести, удовлетворительное);
выраженность боли (сильная, умеренная, слабая, отсутствие боли).
Широко известны диагностические инструменты: шкала стадий
гипертонической болезни (по Мясникову), шкала степеней сердечной
недостаточности (по Стражеско–Василенко–Лангу), шкала степени
выраженности коронарной недостаточности (по Фогельсону),
визуальная шкала боли и т.д. Все эти шкалы построены по схеме:
болезни нет; первая стадия болезни; вторая стадия; третья стадия и
т.д. Иногда стадии кодируют так: 1, 2а, 2б, 3 и т.д. Каждая стадия
имеет свойственную только ей медицинскую характеристику [4].
С градациями этой переменной нельзя производить
арифметические действия (складывать, вычитать, делить и т.д.).
Понятно, что между тяжелым состоянием одного больного и
состоянием средней тяжести другого больного есть разница, однако
между этими состояниями нельзя установить разницу, скажем, в 18%.
В данном случае градация порядковой переменной характеризуется
11
последовательностью, в то время как номинальные переменные
предназначены исключительно для различения категорий.
Порядковые переменные играют ключевую роль в оценивании.
Иногда признак (переменная) может иметь большое число градации.
В связи с этим для сокращения записи таким переменным иногда
присваивают определенный балл (от франц. Balle – шар) – условная
единица для оценки интенсивности (насыщенности) явления по
определенной шкале.

Количественные данные. Интервальные переменные


Интервальная переменная — тип непрерывной или дискретной
переменной с количественным значением, которую используют для
обозначения интервальных показателей [4]. Интервалы дискретной
интервальной переменной определены. За единицу измерения
интервальной переменной принимается одна и та же величина, равная
интервалу между 2 соседними значениями переменной. К такому
типу переменных относят, например, показатели артериального
давления, пульса, концентрации того или иного вещества и т.п. По
значениям интервальных переменных можно не только ранжировать
измеряемые признаки по порядку, но и представлять их в
количественной форме, а также сравнивать величины разностей
между ними. Обычно в связи с этим приводят примеры об измерении
температуры в градусах Цельсия. Исследователь исходя из свойств
интервальной переменной в пределах ее значений может установить,
что температура тела больного утром была 38,2 °С, а вечером 40,0 °С,
т.е. повышение произошло на 1,8 °С. В этом контексте нельзя
использовать показатель отношений: температура стала в 1,05 раза
выше.
Другие примеры переменных, измеренных в интервальной
шкале: время, высота местности над уровнем моря.
Интервальные переменные бывают непрерывными (когда
теоретически между любыми 2 категориями может находиться еще
одна категория) и дискретными (когда между значениями классов
существуют промежутки). Так, температурная шкала рассматривается
как непрерывная, а вот количество детей, родившихся у женщины, –
величина дискретная. В интервальной шкале за нуль может быть
принята любая точка отсчета. Вместе с тем из-за отсутствия
фиксированной (абсолютной) точки отсчета единиц измерения
интервальных переменных невозможно сравнение отношений этих
12
переменных. Другими словами, измерения в интервальной шкале
можно сравнивать через определение разности между значениями,
однако анализ результатов отношения этих значений не имеет
смысла.
Дискретная - это такая переменная, которая может принимать
значения только из некоторого списка определенных чисел.
Примерами дискретной переменной являются число детей в семье;
число вызовов "скорой помощи", поступающих в больницу; число
отказов изделия; число клиентов, обратившихся в фирму за
определенный промежуток времени, и т. д. [5].

ЗАДАЧА-ЭТАЛОН

Для разработки комплексного плана оздоровительных мероприятий


для студентов медицинского вуза главным врачом студенческой
поликлиники совместно с представителями студенческого
профсоюзного комитета ВУЗа проведено изучение влияние факторов
риска на распространенность болезней органов пищеварения (БОП) у
студентов.
Задание: определить цель исследования, задачи, программу и план
исследования.
РЕШЕНИЕ
Цель исследования: разработать мероприятия по снижению
болезней органов пищеварения у студентов медицинского вуза.

Задачи исследования:
1. Изучить распространенность различных болезней органов
пищеварения у студентов медицинского вуза.
2. Определить факторы риска возникновения БОП.
3. Разработать предложения для администрации вуза

Программа исследования:
Единица наблюдения — студент с диагнозом БОП,
обучающийся в медицинском вузе на данном факультете.
Качественные признаки: пол, диагноз, характер питания.
Количественные признаки: возраст, длительность заболевания,
интервал между приемами пищи в часах, число приемов пищи в
день.

13
Результативные признаки: наличие заболевания системы
органов пищеварения.
Факторные признаки: пол, возраст, характер питания и др.

План исследования
Объект исследования — студент медицинского вуза,
обучающиеся в данном медицинском вузе на данном факультете.
Объем статистической совокупности: достаточное число
наблюдений.
Совокупность: выборочная, репрезентативная по качеству и
количеству.
Сроки проведения исследования: 6 февраля — 6 июня текущего
года.
Методы сбора материала: анкетирование, выкопировка из
медицинских документов студенческой поликлиники.

14
ТЕМА 2. ВАРИАЦИОННЫЙ РЯД. ЧИСЛОВАЯ
ХАРАКТЕРИСТИКА ДИСКРЕТНОГО СТАТИСТИЧЕСКОГО
РЯДА. СРЕДНИЕ ВЕЛИЧИНЫ. ПОЛИГОН

Ряд распределения – это последовательность качественых,


количественных значений признака и частоты его встречаемости.
Ряд, составленного на основе качественного признака – называется
атрибутивным рядом, количественного признака – вариационный
ряд.
Числовой ряд:
13, 18, 13, 14, 13, 16, 14, 21, 13,18
Вариационный ряд (frequency table) - ранжированный ряд
распределения по величине какого-либо признака [6]. Этот признак
носит название варьирующего, а его отдельные числовые значения
называются вариантами и обозначаются через "х". Число,
показывающее, сколько раз данная варианта встречается в
вариационном ряду, называется частотой и обозначается через "р".
Вариационный ряд (цифры расставлены по возрастающей, так
сказать проведено ранжирование по возрастанию):
13, 13, 13, 13, 14, 14, 16, 18, 18, 21
Вариационный ряд можно разбивать на отдельные (по
возможности равные) части, которые называются квантилями
(quantile). Наиболее часто употребляемые квантили представлены в
таблице 1.

Таблица 1. Часто употребляемые квантили

Название квантилей Число частей, на которые


разбивается ряд
Медиана(Ме) 2
Терциль 3
Квартиль (Q1, Q3) 4
Дециль 10
Процентиль 100

Виды вариационных рядов [7]:


1. В зависимости от вида случайной величины :
- дискретный;
15
- непрерывный .
2. В зависимости от группировки вариант:
- несгруппированный;
- сгруппированный (интервальный):
3. В зависимости от частоты, с которой каждая варианта встречается
в вариационном ряду:
- простой (р =1);
- взвешенный ( р >1).

Основные характеристики вариационного ряда:

1). Показатели, характеризующие центральную тенденцию (central


tendency) или уровень ряда: средние величины или меры
расположения (собственно средние и структурные средние).
2). Показатели, характеризующие разнообразие (рассеяние,
вариацию, разброс) (spread) признака: стандартное отклонение,
дисперсия, размах.

Средние величины

Средняя величина - обобщающий коэффициент, который


характеризует наиболее типичный размер определенного признака в
целом для совокупности или для отдельных ее частей. Расчет средних
величин имеет смысл только для качественно однородной
совокупности, в связи с этим в одной совокупности может быть
столько средних, на сколько однородных групп она может быть
разбита.

Виды средних величин

Средняя арифметическая (M, mean) - применяется, если варианты


возрастают (убывают) в арифметической прогрессии.
М ариф = ( Х 1  Х 2  Х 3...  Хn) / n
М - средняя арифметическая;
Х1,Х2,Х3 и т.д. - варианта;
n - число наблюдений.
В нашем случае, (13+18+13+14+13+16+14+21+13+18)/10=153 /
10=15,3, т.е. М=15,3

16
Изучаемый признак (х), частота этого признака (х) обозначается m.
Сумма «m» равно объёму выборки (n), т.е. ∑ m= n. Отношение
частоты (m) к объёму выборки (n) называют относительной частотой
(P), вычисляется по формуле P= m/ n

Средняя взвешенная –
n
М взв =  xi m / n
i 1

М - средняя взвешенная;
xi - варианта;
m- частота встречаемости варианты;
n - число наблюдений.

В нашем случае, (13*4 + 14*2 + 16*1 + 18*2 + 21*1) /10=153 /


10=15,3, т.е. М=15,3

Структурные средние

- Мода (Мо) (mode)- наиболее часто встречающаяся в


вариационном ряду варианта. Мода используется при малом числе
наблюдений, когда велико влияние состава совокупности на среднюю
или для характеристики центральной тенденции при ассиметричных
распределениях, когда велико влияние на среднюю крайних вариант.
В нашем случае Мо=13, так как число 13 встречается наибольшее
количество раз в вариационном ряду.
- Медиана (Me)(median) - варианта, которая делит вариационный
ряд на две равные части. Медиана используется для описания
характеристики центральной тенденции при ассиметричных
распределениях. Распределения в зависимости от количества мод
подразделяются на мономодальные (один локальный максимум) и
мультимодальные (несколько локальных максимумов) [2].
Формула для вычисления позиции медианы в вариационном
ряду: (n+1)/2
Если в вариационном ряду четное количество вариант, то
позиция всегда получается не целым, а десятичным. Например,
вариационный ряд состоит из 10 вариант (пример вариационного
ряда смотри выше), то, рассчитав позицию медианы, вы получите 5,5.
Это означает, что медиана расположена между 5 и 6 вариантой в
вариационном ряду. В данном случае медиану можно рассчитать, как
17
средняя между вариантой с 5 и 6 позицией (в примере, (14+14)/2=14,
т.е. Ме=14).
Если количество вариант в вариационном ряду нечетное, то
позиция медианы будет целым числом. И медиана будет равна числу,
находящийся на вычисленной позиции в вариационном ряду.
Квартили: различают нижний (первый) квартиль и верхний
(третий) квартили. Обозначают как Q1 и Q3. Также есть второй
квартиль Q2, но по сути своей это Медиана. Q1 делит вариационный
ряд на две части: ¼ и ¾ , т.е. ¼ вариант меньше показателя Q1, а ¾
вариант больше. Q3 делит на вариационный ряд в пропорции ¾ и ¼,
т.е. ¾ вариант меньше показателя Q3, а 1/4 вариант больше.
Формула для вычисления позиции Q1 в вариационном ряду:

¼*(n+1)

Формула для вычисления позиции Q3 в вариационном ряду:

¾*(n+1)

Для графического изображения статического распределения


используются полигоны и гистограммы [8]. Полигон обычно
используются в случае небольшого количества вариант. Полигон
(многоугольник) частот - график ряда, представленный ломаной
линией, точки (вершины) которой соответствуют серединам интервалов,
а высота точки над горизонталью пропорциональна частоте.
По оси 0х – откладывают значение вариант х, на оси 0у – значение
частот или относительных частот (рисунок 4)

Рисунок 4. Полигон

18
ЗАДАЧА-ЭТАЛОН

В рамках НИРС проводилось исследование уровня депрессии у


студентов ГМУ г. Семей. Результаты 20 студентов представлены
ниже. Единица измерения – баллы.

Баллы 1 2 3 4 5
Количество 6 7 3 3 1
студентов

Задание:
1. Определить среднюю
2. Определить медиану
3. Определить моду
4. Определить нижний квартиль
5. Определить верхний квартиль
6. Построить полигон

Решение:
1. Для определения средней в данном конкретном примере лучше
использовать формулу расчета средней взвешенной

М= (1*6+2*7+3*3+4*3+5*1)/(6+7+3+3+1)=46/20=2,3

2. Для определения медианы (Ме) необходимо записать


результаты в виде вариационного ряда:
11111122222223334445

Количество студентов 20. Вычисляем позицию медианы в


вариационном ряду: (20+1)/2 = 10,5. Т.е. медиана занимает позицию
между 10 и 11 вариантой, а это 2 и 2. Средняя между вариантой 10 и
11 равно (2+2)/2=2. Следовательно, Ме=2.

3. Мо=2, так как депрессия в 2 балла встречалась в 7 студентов


(наибольшее количество раз).

4. По формуле вычисляем позицию Q1: ¼*(20+1)=5,25, т.е.


нижний квартиль находится между 5 и 6 вариантой. Он
вычисляется как среднее 5 и 6 варианты = (1+1)/2=1, т.е. Q1=1
19
5. По формуле вычисляем позицию Q1: ¾*(20+1)=15,75, т.е.
верхний квартиль находится между 15 и 16 вариантой. Он
вычисляется как среднее 15 и 16 варианты = (3+3)/2=3, т.е. Q3=3

6. Полигон представлен на рисунке 5.

Рисунок 5 – Полигон (задача)

20
ТЕМА 3. ДИСПЕРСИЯ. СТАНДАРТНОЕ ОТКЛОНЕНИЕ.
СТАНДАРТНАЯ ОШИБКА СРЕДНЕГО. ДОВЕРИТЕЛЬНЫЙ
ИНТЕРВАЛ

Дисперсия (variance) - мера рассеяния, полученная


суммированием квадратов индивидуальных отклонений с последующим
делением суммы на объем совокупности [9].
Дисперсия генеральной совокупности обозначается σ2
(выборочной s2 ) и вычисляется по формуле:
σ2= ( X 1  М )  ( X 2  М ) 2  ...  ( Xn  М ) 2
2
, где
N
М - средняя,
Х1, Х2, …Хn – варианта
N – объем выборки

Стандартное отклонение (standard deviation,) отражает


изменчивость (разброс, вариацию) значений переменной и оценивает
степень их отличия от среднего.
Стандартное (среднее квадратическое) отклонение - мера
рассеяния равная корню квадратному из дисперсии [10]. Оно
рассчитывается на основании вычисленного показателя рассеяния
данных, называемого дисперсией (variance), путем извлечения из него
квадратного корня, в связи с чем в отечественной литературе его
также называют «среднеквадратичным отклонением». Стандартное
отклонение генеральной совокупности обозначается символом σ
(сигма), а SD выборочной совокупности( s ) и вычисляется по формуле:
  2 s  s2

Стандартное отклонение может меняться непредсказуемо, т.е.


расти или уменьшаться с увеличением размера выборки, однако
обычно не слишком сильно. В статистике есть понятие «правила трех
сигма». Оно гласит, что практически все наблюдения укладываются в
интервал «среднее ± 3σ». Действительно, в интервал «± 3σ» попадают
99,7% наблюдений, ± 1,96σ включает 95,4%, а ± 1σ – всего 68,3% всех
наблюдений. Это правило подходит для расширенны рукописный
вариант различных распределений, включая нормальное.
Стандартная ошибка (среднего) (англ. standard error, SE, иногда
standard error mean, SEM) является оценкой возможного отличия
между значением среднего в анализируемой выборке, и истинным
21
средним для всей популяции (которое на самом деле не может быть
определено без анализа бесконечно большого числа наблюдений).
Стандартная ошибка рассчитывается путем деления стандартного
отклонения на квадратный корень из числа наблюдений в выборке и,
следовательно, ее значение уменьшается с ростом размера выборки.

SD
SEM =
n

Это уменьшение является естественным, поскольку, чем больше


имеется наблюдений, тем больше вероятность, что рассчитанное
среднее приближается к истинному среднему.
Доверительный интервал (англ. confidence interval, CI) – диапазон
значений, область, в которой с определенным уровнем надежности
(или доверия) содержится истинное значение параметра (например,
среднего). 90%-ный доверительный интервал означает, что истинное
значение величины попадет в рассчитанный интервал с вероятностью
90%.
В биомедицинских исследованиях доверительный интервал
среднего обычно устанавливается на уровне 95% и определяется как
±1,96 стандартной ошибки (коэффициент 1,96 вытекает из
предположения о нормальности распределения значения переменной
при условии, что выборка достаточно велика). Для примера, если
значение среднего систолического давления в исследованной группе
составляет 125 мм.рт.ст., а стандартная ошибка 5 мм рт.ст., то при
95% доверительном интервале границы диапазона значений среднего
систолического давления будут 115,2 и 134,8 мм.рт.ст. (что
составляет ± 9,8 (5 х 1,96) мм рт.ст. в обе стороны от значения
среднего).

ЗАДАЧА-ЭТАЛОН

Х1 19 20 21 22 23
m1 2 1 6 8 2

Найдите выборочную дисперсию, среднее квадратическое


отклонение.

22
Решение:
n
õ1 = x m
i 1
1 1 /n ∑m= n=19

= 19  2  20  1  21  6  22  8  23  2 = 406 = 21,3 ; =21,3


19 19

Чтобы определить рассеянность значений количественного признака


(х) генеральной совокупности вокруг своего среднего значения
вводят характеристику генеральная дисперсия.
1. Генеральная дисперсия Дr
n
Дr = 1  ( x1  xr ) 2
N i 1

2. Для характеристики количественного признака вокруг выборки,


вокруг своего среднего значения выводят характеристику выборочная
дисперсия Дb
2
1 n
Дb=  ( x1  xb ) =Хb=21,3
n i 1

Дb= 2 * (19  21,3)  (20  21,3) 2  6 * (21  21,3) 2  8 * (22  21,3) 2  2 * (23  21,3) 2
2
=
19
10,58  1,69  0,54  2,94  5,78 21,53
   1,13 Дb=1,13
19 19
Среднее квадратическое отклонение – которое характеризует
разнообразие признака.
σ - среднее квадратическое отклонение
σr =√ Дr генеральное среднее квадратическое
σb =√ Дb выборочное среднее квадратическое отклонение.
Выборочные среднее квадратическое отклонение равно
σb = Db  1,13  1,06

23
ТЕМА 4. ИНТЕРВАЛЬНЫЙ СТАТИСТИЧЕСКИЙ
ДИСКРЕТНЫЙ РЯД РАСПРЕДЕЛЕНИЯ. ЧИСЛОВЫЕ
ХАРАКТЕРИСТИКИ ИНТЕРВАЛЬНОГО
СТАТИСТИЧЕСКОГО РЯДА. ГИСТОГРАММА

Для признака, имеющего непрерывное изменение строится


интервальный дискретный ряд. Для проведения группировки
сначала выбирается группировочный признак — признак, по
которому проводится разбивка единиц совокупности на отдельные
группы. Затем определяют количество групп, на которые надо
разбить исследуемую совокупность. Для определения числа групп
можно использовать формулу Стерджесса [11]

где n – численность единиц (объем) изучаемой совокупности; k –


число образуемых групп.
После определения числа групп следует определить интервалы
группировки. Интервал — это значения варьирующего признака,
лежащие в определенных границах. Каждый интервал имеет свою
величину (h), верхнюю и нижнюю границы или хотя бы одну из них.
Величина интервала вычисляется по формуле:

Полученную величину округляют. Она является шагом


интервала.

Объём выборки, n Рекомендуемое


число интервалов, k
25-40 5-6
40-60 6-8
60-100 7-10
100-200 8-10
Более 200 10-15

24
xmax  xmin 40  25
h ; Ширина h  3
k 1 5 1

Интервальный статистический ряд можно изобразить


графически. Для этого по оси абсцисс откладывают интервалы
значений признака и на каждом из них, как на основании, строят
прямоугольник с высотой, равной относительной частоте.
Полученная столбцовая диаграмма называется гистограммой.
Гистограмма – совокупность прилегающих друг к другу
прямоугольников.

Рисунок 6 – Пример гистограммы

ЗАДАЧА-ЭТАЛОН
Х 150- 154- 158- 162- 166- 170- 174- 178- 182-
154 158 162 166 170 174 178 182 186
m 1 2 11 23 25 22 11 3 1
p

Вычислить:
1. относительные частоты
2. Определить ширину интервала
3. Построить гистограмму относительных частот.

25
Решение:
1.
Х 150- 154- 158- 162- 166- 170- 174- 178- 182-
154 158 162 166 170 174 178 182 186
m 1 3 11 23 25 22 11 3 1
p 0,01 0,03 0,11 0,23 0,25 0,22 0,11 0,03 0,01

2. К=1+3,32 * lg(100)=1+3,32*2=1+6.644=7.664 ≈ 8
h=(Xmax – Xmin)/k = (186-150)/8 = 36/8 = 4.5

3.

26
ТЕМА 5. НУЛЕВАЯ ГИПОТЕЗА. АЛЬТЕРНАТИВНАЯ
ГИПОТЕЗА. ОШИБКИ ПЕРВОГО И ВТОРОГО РОДА.

Гипотеза – научное предположение в виде высказывания,


истинность или ложность которого неизвестны, но могут быть
проверены опытным путем (эмпирически).
Нулевая гипотеза (Но)– в самом общем виде она
формулируется как гипотеза об отсутствии отличий в выборках,
отсутствии в условиях экспериментов, о сходстве двух распределений
(т.е. об отсутствии различий между нами) и т.д.
Альтернативная гипотеза (Н1)– статистическая гипотеза о
наличии различий (в выборках и условиях экспериментов, отличие
меры связи от нуля, различие двух распределений и т.д.).
Мощность критерия – его способность выявлять различия,
если они есть.
Ошибка 1 рода (α-ошибка) – ошибка, состоящая в том, что мы
отклонили нулевую гипотезу, в то время как она верна. Обычно в
биомедицинских исследованиях α=0,05, т.е. исследователи допускают
ошибку своих выводов в 5% случаях, а в 95% случаях они будут
правы.
Ошибка 2 рода (β-ошибка) – ошибка, состоящая в том, что мы
приняли нулевую гипотезу, в то время как она неверна.
Понятие гипотезы (греч. ὑπόθεσις – "основа, предположение")
представляет собой научное предположение, истинность которого
еще не подтверждена. Гипотеза может выступать как метод развития
научного знания (выдвижение и экспериментальная проверка
предположений), а также как элемент структуры научной теории.
Создание гипотетической системы в процессе осуществления тех или
иных мыслительных операций позволяет человеку делать доступным
для обсуждения и видимого преобразования предполагаемое
устройство определенных объектов. Процесс прогнозирования по
отношению к данным объектам приобретает более конкретный и
обоснованный характер.

Основные свойства гипотезы


В. Н. Дружинин выделяет три типа гипотез с точки зрения их
происхождения [13]:

27
1. Теоретически обоснованные – основывающиеся на теории
(модели реальности) и являющиеся прогнозами, следствиями данных
теорий.
2. Научные экспериментальные – также подтверждают (либо
опровергают) те или иные модели реальности, однако за основу
берутся не уже сформулированные теории, а интуитивные
предположения исследователя («А почему бы не так?..»).
3. Эмпирические гипотезы, сформулированные относительно
конкретного данного случая. Примеры гипотез: «на каждое
раздражение нервной системы возникает ответная реакция». После
подтверждения гипотезы в процессе эксперимента она приобретает
статус факта. Общим для всех экспериментальных гипотез является
такое свойство, как операционализируемость, то есть
формулирование гипотез в терминах конкретных экспериментальных
процедур.
В данном контексте также можно выделить три типа
гипотез:
1. гипотезы о наличии того или иного явления (тип А);
2. гипотезы о наличии связи между явлениями (тип Б);
3. гипотезы о наличии причинной связи между явлениями (тип
В).
Примеры гипотез типа А: Существует ли феномен «сдвига к
риску» (термин социальной психологии) в процессе группового
принятия решения? Есть ли жизнь на Марсе? Возможна ли передача
мыслей на расстоянии? Также сюда можно отнести периодическую
систему химических элементов Д.И. Менделеева, на основе которой
ученый предсказал существование еще не открытых на тот момент
элементов. Таким образом, к данному типу относятся все гипотезы о
фактах и явлениях.
Примеры гипотез типа Б: Все внешние проявления мозговой
деятельности могут быть сведены к мышечным движениям (И.М.
Сеченов). Экстраверты имеют большую склонность к риску, чем
интроверты. Соответственно, данный тип гипотез характеризуют те
или иные связи между явлениями.
Примеры гипотез типа В: Центробежная сила уравновешивает
тяжесть и сводит ее к нулю (К.Э. Циолковский). Развитие мелкой
моторики ребенка способствует развитию его интеллектуальных
способностей. Данный тип гипотез имеет в своей основе

28
независимую и зависимую переменные, отношения между ними, а
также уровни дополнительных переменных.
Различают научные и статистические гипотезы. Научные
гипотезы формулируются как предполагаемое решение проблемы
[14]. Статистическая гипотеза – утверждение в отношении
неизвестного параметра, сформулированное на языке математической
статистики. Любая научная гипотеза требует перевода на язык
статистики. После проведения конкретного эксперимента
проверяются многочисленные статистические гипотезы, поскольку в
каждом психологическом исследовании регистрируется не один, а
множество поведенческих параметров.
Научные гипотезы. Экспериментальная гипотеза служит для
организации эксперимента, а статистическая – для организации
процедуры сравнения регистрируемых параметров.
Процесс выдвижения и опровержения гипотез можно считать
основным и наиболее творческим этапом деятельности
исследователя. Установлено, что количество и качество гипотез
определяется общей креативностью (общей творческой
способностью) исследователя – «генератора идей». Гипотеза может
отвергаться, но никогда не может быть окончательно принятой.

Статистические гипотезы.

Гипотезой называется предположение, имеющее вероятностный


характер и обладающее неопределённостью в отношении своей
истинности. Гипотеза формулируется для того, чтобы представить в
чётком и лаконичном виде представления автора о том или ином
факте и его причинах. Выделяют два вида гипотез: нулевую и
альтернативную.

29
1. Нулевая гипотеза формулируется как гипотеза об отсутствии
различий.
2. Альтернативная противоположна по смыслу нулевой. Она
утверждает наличие отличий в выборках и параметрах их
распределения.

Нулевая и альтернативная гипотезы образуют полную


группу несовместимых событий.
Если принимается одна, то отклоняется другая. Обычно
исследование проводится для проверки гипотезы, которая является
следствием теоретических представлений. Эта гипотеза содержит
утверждение о связи абстрактных категорий, относящихся к
свойствам более или менее широкой совокупности объектов —
генеральной совокупности.
Предположение, которое проверяется с применением научного
метода, будем называть научной гипотезой.
Любое исследование сводится к выявлению связи между
переменными. Связь эта может выражаться в величине и направлении
различий между сравниваемыми группами или в знаке и величине
коэффициента корреляции. То есть связь характеризуется своей
силой и направлением. Однако есть еще одна не менее важная
характеристика связи — ее надежность, «истинность».
Надежность связи непосредственно связана с
репрезентативностью выборки, с тем, насколько уверенно статистики
выборки позволяют судить о соответствующих параметрах
генеральной совокупности. Ведь связь, обнаруженная в выборке,
интересует исследователя лишь в той мере, в какой она позволяет
судить о связи, которая существует в генеральной совокупности.
Обобщённая методика проверки статистических гипотез
1. Формулируется нулевая гипотеза H0, которую мы хотим
опровергнуть, и, возможно, альтернативная гипотеза H1. Если
альтернативная гипотеза явно не формулируется, то подразумевается,
что она соответствует утверждению “нулевая гипотеза не верна”, т.е.
“не H0”. Иногда рассматривают сразу несколько альтернатив.
2. Задаётся некоторая статистика, т.е. функция выборки.
3. Фиксируется уровень значимости – допустимая для данной
задачи вероятность ошибки первого рода, т.е. того, что нулевая
гипотеза на самом деле верна, но будет отвергнута процедурой

30
проверки. Это должно быть достаточно малое число α∈(0,1). На
практике часто полагают α=0,05.
4. На множестве допустимых значений статистики выделяется
критическое множество наименее вероятных её значений,
соответствующее тому, что нулевая гипотеза должна быть
отвергнута. Остальная часть множества значений является
допустимой, т.е. не опровергает нулевую гипотезу.
5. Проверяется, куда попадает значение статистики. Если в
допустимое множество, то принимается нулевая гипотеза. Если в
критическое, то нулевая гипотеза отвергается.

Большинство проверяемых гипотез сравнивают между собой


группы объектов, которые испытывают влияние различных
факторов.
Например, можно сравнить эффективность двух видов лечения,
чтобы сократить 5-летнюю смертность от рака молочной железы. Для
данного исхода (например, смерть) сравнение, представляющее
интерес (например, различные показатели смертности через 5 лет),
называют эффектом или, если уместно, эффектом лечения.
Нулевую гипотезу выражают как отсутствие эффекта (например,
5-летняя смертность от рака молочной железы одинаковая в двух
группах, получающих разное лечение); двусторонняя альтернативная
гипотеза будет означать, что различие эффектов не равно нулю, т.е
одно лечение будет более эффективнее, чем другое.
Критериальная проверка гипотезы дает возможность определить,
достаточно ли аргументов, чтобы отвергнуть нулевую гипотезу.
Можно принять только одно из двух решений:
1. Отвергнуть нулевую гипотезу и принять альтернативную
гипотезу
2. Остаться в рамках нулевой гипотезы
Важно: В литературе достаточно часто встречается понятие
"принять нулевую гипотезу". Со статистической точки зрения
принять нулевую гипотезу невозможно, т.к. нулевая гипотеза
представляет собой достаточно строгое утверждение (например,
средние значения в сравниваемых группах равны).
Поэтому фразу о принятии нулевой гипотезы следует понимать
как то, что мы просто остаемся в рамках гипотезы.

31
Принятие неправильного решения
Возможно неправильное решение, когда отвергают/не отвергают
нулевую гипотезу, потому что есть только выборочная информация
(таблица 2) [15].

Таблица 2. Принятие неправильного решения

Гипотеза Н0 Верна Не верна

H0 верна и H0 неверна, но
принята принята
Принимается
(Решение (Ошибка
Результат верное) второго рода)
применения
критерия H0 верна, но H0 не верна и
отвергнута отвергнута
Отвергается
(Ошибка первого (Решение
рода) верное)

Ошибка 1-го рода: нулевую гипотезу отвергают, когда она


истинна, и делают вывод, что имеется эффект, когда в
действительности его нет.
Ошибка 2-го рода: не отвергают нулевую гипотезу, когда она
ложна, и делают вывод, что нет эффекта, тогда как в
действительности он существует.
Вероятность ошибки первого рода называют уровнем
значимости (significance level) и обозначают греческой буквой α.
Вероятность ошибки второго рода обозначается греческой
буквой β.
Разность (1−β) называется мощностью критерия (Power of the
test).
По смыслу это вероятность не совершить ошибку второго рода,
т.е. вероятность принять альтернативную гипотезу при условии, что
она истинна.
Таким образом, чем выше мощность, тем меньше вероятность
совершить ошибку второго рода.

32
Следовательно, мощность — это вероятность отклонения
нулевой гипотезы, когда она ложна, т.е. это шанс (обычно
выраженный в процентах) обнаружить реальный эффект лечения, в
выборке данного объема, как статистически значимый.
В идеале хотелось бы, чтобы мощность критерия составляла
100%; однако это невозможно, так как всегда остается шанс, хотя и
незначительный, допустить ошибку 2-го рода.

ЗАДАЧА-ЭТАЛОН

Ученые разработали тест, который улавливает в крови


генетические маркеры любой вирусной инфекции. Тест позволяет
отличить любую вирусную инфекцию от бактериальной. Когда
человек заболевает с симптомами ОРЗ — острого респираторного
заболевания, то распознать сразу источник инфекции (вирус или
бактерия) практически невозможно. Между тем, очевидно, что
лечение в этих двух случаях должно быть абсолютно разным.
В результате проведения теста на обнаружение вируса результаты
могут быть как истинными, так и есть вероятность ложного прогноза.
Определите, каким результатам теста соответствуют типы
решений и возможных ошибок.

Результат теста Вид решения


ложно положительный
ложно отрицательный
истинно отрицательный
истинно положительный

РЕШЕНИЕ

Результат теста Вид решения


ложно положительный Ошибка 1 рода (когда человек на
самом деле здоров)
ложно отрицательный Ошибка 2 рода (тест не обнаружил
признаков заболевания, когда
человек на самом деле болен)
истинно отрицательный Медицинский тест правильно
диагностировал отсутствие
заболевания (верно принята нулевая
гипотеза)
33
истинно положительный Если медицинский тест правильно
диагностировал наличие заболевания
(верно принята альтернативная
гипотеза)

Если тест обнаружил заболевание, когда человек на самом деле


здоров (ошибка первого рода), то такой результат называется ложно
положительным (false-positive, FP).
Обратная ситуация: тест не обнаружил признаков заболевания,
когда человек на самом деле болен (ошибка второго рода); такой
результат называется ложно отрицательным (false-negative, FN).
Остальные два возможных случая: если медицинский тест
правильно диагностировал отсутствие заболевания (верно принята
нулевая гипотеза), то такой результат называют истинно
отрицательным (true-negative,TN); наконец, если медицинский тест
правильно диагностировал наличие заболевания (верно принята
альтернативная гипотеза), то такой результат называют истинно
положительным (true-positive, TP).

34
ТЕМА 6. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ,
ХАРАКТЕРИСТИКА, ГРАФИЧЕСКАЯ ПРОВЕРКА.

Нормальное (гауссово, симметричное, колоколообразное)


распределение - распределение вероятностей, которое в одномерном
случае задаётся функцией плотности вероятности, совпадающей
с функцией Гаусса [16]:

где параметр μ — математическое ожидание (среднее значение),


медиана и мода распределения, а параметр σ —среднеквадратическое
отклонение (σ ² — дисперсия) распределения.

Нормальное распределение проверяется только у количественных


переменных, у качественных переменных оно не определяется
Стандартным нормальным распределением называется
нормальное распределение с математическим ожиданием μ = 0 и
стандартным отклонением σ = 1.
Встречается в природе наиболее часто, за что и получило
название «нормального». Характеризует распределение непрерывных
случайных величин (рисунок 7,8)

Рисунок 7. График нормального распределения


х - значения случайной величины;
р - вероятность (частота) появления данного значения в
совокупности

35
а

Рисунок 8. а) График нормального распределения роста женщин


и мужчин, представленных в виде «пирамиды»
б) нормальное распределение переменной «память» у студентов

Значение
Важное значение нормального распределения во многих областях
науки (например, в математической статистике и статистической
физике) вытекает из центральной предельной теоремы теории
вероятностей. Если результат наблюдения является суммой многих
случайных слабо взаимозависимых величин, каждая из которых
вносит малый вклад относительно общей суммы, то при увеличении
36
числа слагаемых распределение центрированного и нормированного
результата стремится к нормальному. Этот закон теории
вероятностей имеет следствием широкое распространение
нормального распределения, что и стало одной из причин его
наименования.
Нормальное распределение в природе и приложениях
Нормальное распределение часто встречается в природе.
Например, следующие случайные величины хорошо моделируются
нормальным распределением:
 отклонение при стрельбе.
 погрешности измерений (однако, погрешности некоторых
измерительных приборов имеют распределения, отличающееся от
нормального).
 некоторые характеристики живых организмов в популяции.

Характеристика нормального распределения


 Полностью определяется двумя параметрами средней (µ) и
дисперсией (σ2)
 Колоколообразная (унимодальная)
 Симметричная относительно среднего
 Сдвигается вправо, если средняя увеличивается, и влево
если средняя уменьшается (при постоянной дисперсии)
 Сплющивается, если дисперсия увеличивается, но
становится более остроконечной, если дисперсия уменьшается (для
постоянного среднего)
Дополнительные свойства
 Среднее и медиана нормального распределения равны
между собой
 Вероятность того, что нормально распределенная
случайная переменная х со средним µ , и стандартным отклонением
σ, находятся между
(µ - σ) и (µ + σ) равна 0,68
(µ - 1,96 σ) и (µ + 1,96 σ) равна 0,95
(µ - 2,58 σ) и (µ + 2,58 σ) равна 0,99

37
Отклонение параметра от его средней арифметической в
пределах σ расценивается как норма, субнормальным считается
отклонение в пределах ± 2σ и патологическим - сверх этого предела,
т.е. > ± 2σ [17]

Рисунок 9. Разделение на квантили

Рисунок 10. Правило «трех сигм» (SD - стандартное отклонение)

Для оценки «крутизны» (островершинности) распределения


пользуются характеристикой – эксцессом.

38
2

Рисунок 11. Островершинность распеределения

Островершинность – признак разнообразия вариант в выборке.


Если вариабельность (разнообразие) признаков большая, то
дисперсия будет большая, а на графике будет туповершинное
распределение (№1 на рисунке 11). Если же разнообразие признака
слабое, то распределение будет похоже на №2 на рисунке 11, т.е.
остроконечным. Таким образом, по графическому изображению мы
можем предположить разнообразие признаков в двух совокупностях
и можем сравнить их.

Асимметрия положительна (As>0), если длинная часть кривой


распределения расположена справа от моды (Мо). В этом случае
соотношение между средней, медианой и модой нарушено:

39
Рисунок 12. Схема и пример ассиметричного распределения
(правосторонняя ассиметрия) количественной переменной сресса
(SRSS), оцененного при помощи шкалы Хомса-Раге
(М=276; Ме=238; Мо=167 баллов)

Асимметрия отрицательна (As<0), если длинная часть кривой


распределения расположена слева от моды (Мо).

Рисунок 13. Ассиметричное распределение (левосторонняя


ассиметрия)

40
Проверка на нормальность распределения количественной
переменной
 Визуальный метод
 График вероятности
 Критерий Колмогорова-Смирнова (K-S d). Используется
когда выборка более 50 [18,19].
Если K-S d>0,0895, распределение не соответствует
нормальному на уровне значимости 0,05.
 Критерий Шапиро-Уилка. Используется когда выборка
менее 50 [20].
 Совпадение значений средней и медианы
 Равенство нулю показателей асимметрии и эксцесса
(таблицы критических значений для заданной выборки)
Нормальное распределение - фундаментальный закон природы.
Однако мировая практика показывает, что нормальное распределение
20-25% от всех распределений.

Рисунок 14. Гистограмма нормального распределения [21]

Проверка на нормальность с помощью графика вероятности

41
Рисунок 15. Q-Q диаграмма нормального распределения (претест)
и распределения, отличающегося от нормального (SRSS)

42
ЗАДАЧА-ЭТАЛОН

Критерии Колмогорова – Смирнова


Этот критерий применяется для проверки простой гипотезы F(x), о
том что независимые одинаково распределенные случайные
величины Х1, Х2 . . . Х n имеют заданную непрерывную функцию
распределения F(x)
Задачи:
При уровне значимости 0,05, проверить гипотезу о нормальном
распределении генеральной совокупности, если эмперические и
теоретические частоты известны.

Эмперические 6 13 38 74 106 85 30 14
частоты
Теоретические 3 14 42 82 99 76 37 13
частоты

(n  n1 ) 2
Вычисляем по формуле: Х2 
n1

і n n1 n- n1 (n- n1)2 (n- n1)2/n1


1 6 3 3 9 3
2 13 14 -1 1 0,07
3 38 42 -4 16 0,38
4 74 82 -8 64 0,78
5 106 99 7 49 0,49
6 85 76 9 81 1,07
7 30 37 -7 49 1,32
8 14 13 1 1 0,08
Х  7,19
2
0

Найдем число степеней свободы, что число различных вариантов


m=8 имеем k=8-3=5 При уровне значимости Р=0,05, степеней
свободы 5, по таблице находим Х2 , Х2= 11,1 так как Х о2 < Х2 → Но
гипотезу принимаем, т.е. генеральная совокупность имеет
нормальное распределение.

43
ТЕМА 7. t-КРИТЕРИЙ СТЬЮДЕНТА

t-критерий Стьюдента – общее название для класса методов


статистической проверки гипотез (статистических критериев),
основанных на распределении Стьюдента. Наиболее частые случаи
применения t-критерия связаны с
проверкой равенства средних значений в
двух выборках [22].

История разработки t-критерия


Данный критерий был разработан
Уильямом Госсетом для оценки качества
пива в компании Гиннесс. В связи с
обязательствами перед компанией по
неразглашению коммерческой тайны,
статья Госсета вышла в 1908 году в
журнале «Биометрика» под псевдонимом У. Госсет – автор критерия
«Student» (Студент). Стьюдента

Для чего используется t-критерий Стьюдента? t-критерий


Стьюдента используется для определения статистической значимости
различий средних величин. Может применяться как в случаях
сравнения независимых выборок (например, группы больных
сахарным диабетом и группы здоровых), так и при сравнении
связанных совокупностей (например, средняя частота пульса у одних
и тех же пациентов до и после приема антиаритмического
препарата).
В каких случаях можно использовать t-критерий Стьюдента? Для
применения t-критерия Стьюдента необходимо, чтобы исходные
данные имели нормальное распределение.
Критерий t-Стьюдента для одной выборки
Данный метод позволяет проверить гипотезу о том, что среднее
значение изучаемого признака отличается от некоторого известного
значения.
Таким образом, в ходе данной методики будет доказано, достоверно
выше или достоверно ниже нормы, а также возможно и не отличается
от среднего уровня развития исследуемого свойства.
Критерий t-Стьюдента для зависимых выборок

44
Этот метод позволяет проверить гипотезу о том, что средние
значения двух генеральных совокупностей, из которых извлечены
сравниваемые зависимые выборки, отличаются друг от друга.
Зависимая выборка – когда определенные признак измерен на одной
и той же выборке дважды, например, до и после воздействия, лечения
и т.п.
Исходные предположения – 1) каждому представителю одной
выборки поставлен в соответствие представитель другой выборки; 2)
данные двух выборок положительно коррелируют; 3) распределение
признака в обеих выборках приблизительно соответствует
нормальному
Критерий t-Стьюдента для независимых выборок
Данный метод сравнения позволяет проверить гипотезу о том, что
средние значения двух генеральных совокупностей, из которых
извлечены сравниваемые независимые выборки, отличаются друг от
друга.
Исходные предположения – 1) одна выборка извлекается из одной
генеральной совокупности, а другая выборка, независимая от первой,
извлекается из другой генеральной совокупности; 2) распределение
признака в обеих выборках приблизительно соответствует
нормальному; 3) дисперсии признака в 2-х выборках примерно
одинаковы (гомогенны).
4. Как рассчитать t-критерий Стьюдента?
Для сравнения средних величин t-критерий Стьюдента
рассчитывается по следующей формуле (выборка более 30 человек):

где М1 - средняя арифметическая первой сравниваемой


совокупности (группы), М2 - средняя арифметическая второй
сравниваемой совокупности (группы), m1 - средняя ошибка первой
средней арифметической, m2 - средняя ошибка второй средней
арифметической.
Если выборка маленькая (менее или равно 30 человек), то
используют следующую формулу. По результатам выборочных
наблюдений находят выборочное среднее Хв, Ув и дисперсию, а затем
вычисляют экспериментальное значение критерий tэкс по формуле
(выборка менее или равно 30):
45
Х в Ув n x  n y n x  n y  2
tэкс = 
(n x  1) s 2  (n y  1) s 2 nx  n y

nx, nу -объём выборок величин Xв и Ув соответственно [23]

5. Как интерпретировать значение t-критерия Стьюдента?


Полученное значение t-критерия Стьюдента необходимо
правильно интерпретировать. Для этого нам необходимо знать
количество исследуемых в каждой группе (n1 и n2). Находим число
степеней свободы f по следующей формуле:

f = (n1 + n2) – 2

После этого определяем критическое значение t-критерия


Стьюдента для требуемого уровня значимости (например, p=0,05) и
при данном числе степеней свободы f по таблице (Приложение 1).
Сравниваем критическое и рассчитанное значения критерия:
 Если рассчитанное значение t-критерия Стьюдента равно или
больше критического, найденного по таблице, делаем вывод о
статистической значимости различий между сравниваемыми
величинами.
 Если значение рассчитанного t-критерия
Стьюдента меньше табличного, значит различия сравниваемых
величин статистически не значимы.

ЗАДАЧА-ЭТАЛОН
Пример расчета t-критерия Стьюдента [22]
Для изучения эффективности нового препарата железа были
выбраны две группы пациентов с анемией. В первой группе пациенты
в течение двух недель получали новый препарат, а во второй группе -
получали плацебо. После этого было проведено измерение уровня
гемоглобина в периферической крови. В первой группе средний
уровень гемоглобина составил 115,4±1,2 г/л, а во второй - 103,7±2,3
г/л (данные представлены в формате M±m), сравниваемые
совокупности имеют нормальное распределение. При этом
численность первой группы составила 34, а второй - 40 пациентов.

46
Необходимо сделать вывод о статистической значимости полученных
различий и эффективности нового препарата железа.
Решение: Для оценки значимости различий используем t-
критерий Стьюдента, рассчитываемый как разность средних
значений, поделенная на сумму квадратов ошибок:

После выполнения расчетов, значение t-критерия оказалось


равным 4,51. Находим число степеней свободы как (34 + 40) - 2 = 72.
Сравниваем полученное значение t-критерия Стьюдента 4,51 с
критическим при р=0,05 значением, указанным в таблице
(приложение 1): 1,993. Так как рассчитанное значение критерия
больше критического, делаем вывод о том, что наблюдаемые
различия статистически значимы (уровень значимости р<0,05).

Пример 2. Измерение пульса после определенной процедуры у


15 больных и 15 человек контрольной группы, которым данная
процедура не проводилась. Задание: определите есть ли
статистическая разница в средних значениях пульса в этих двух
группах. Другими словами изучаемая процедура увеличивает ли
частоту пульса или нет?

Решение: Измерение пульса 15 больных, после определенной


процедуры.

х 68 70 72 75 78 80 90
m 2 2 3 5 1 1 1

∑ m = n =15
X в = 68 * 2  70 * 2  72 * 3  75 * 5  78  80  90  74,3 уд / мин
15

Измерение пульса у 15 больных контрольной группы

У 60 65 68 70 72 75
m 1 3 5 3 2 1
47
∑ m = n =15
У в = 60  65 * 3  68  5  70  3  72 * 2  75  68,3 уд / мин
15

D х=
= 28,5

Dy =
= 12,2

Так как количество человек в обоих группах равно 30, то мы для


расчета используем вторую формулу.

f = (n1 + n2) – 2 = 15+15-2=28

по таблице находим tкр = 2,048

tэкс>tкр= Н0 гипотезу отвергаем, так как 3,64 >2,048, т.е. разница в


частоте пульса статистически значима – процедура вызывает
учащение пульса.

48
ТЕМА 8. ДИСПЕРСИОННЫЙ АНАЛИЗ

Для сравнения генеральных средних нескольких нормально


распределенных совокупностей (двух и более) с одинаковыми
дисперсиями по результатам наблюдений применяется
дисперсионный анализ.
Дисперсионный анализ –это статистический метод оценки связи
между факторным и результативным признаками в различных
группах [24]. Эти группы формируются случайным образом,
основанные на определении различий (разнообразия) значений
признаков. В основе дисперсионного анализа лежит анализ
отклонений всех единиц исследуемой совокупности от среднего
арифметического. Мерой отклонения берется дисперсия.
При проведении однофакторного дисперсионного анализа
рекомендуется (необходимое условие применения);
-нормальное распределение анализируемой количественной
переменной;
-независимость (не связанность) распределения наблюдений в
группах;
-наличие частоты (повторность) наблюдений.
В зависимости от количества изучаемых факторов различают
однофакторный и многофакторный дисперсионный анализ.
Однофакторный дисперсионный анализ изучает действие
некоторого фактора А, имеющий L постоянных уровней на
нормально распределенную количественную величину Х. В основе
однофакторного дисперсионного анализа лежит тесная связь между
различием в групповых средних Х и соотношения между двумя
видами дисперсии.
Общая дисперсия = остаточный (внутригрупповая) + факторный
(межгрупповая).

D oбщ. = D факт + D ост.,

где D oбщ. - общая дисперсия наблюдаемых значений (вариант),


характеризуется разбросом вариант от общего среднего. Измеряет
вариацию признака во всей совокупности под влиянием всех
факторов, обусловивших эту вариацию.
D факт - факторная (межгрупповая) дисперсия, характеризуется
различием средних в каждой группе и зависит от влияния
49
исследуемого фактора, по которому дифференцируется каждая
группа. Например, в группах различных по этиологическому фактору
клинического течения пневмонии средний уровень проведенного
койко-дня неодинаков — наблюдается межгрупповое разнообразие.
D ост. - остаточная (внутригрупповая) дисперсия, которая
характеризует рассеяние вариант внутри групп. Отражает случайную
вариацию, т.е. часть вариации, происходящую под влиянием
неуточненных факторов и не зависящую от признака — фактора,
положенного в основание группировки. Вариация изучаемого
признака зависит от силы влияния каких-то неучтенных случайных
факторов, как от организованных (заданных исследователем), так и от
случайных (неизвестных) факторов.
Факторная дисперсия характеризует влияние фактора А, на
величину Х, остаточная - влияние случайных причин. Если значение
факторной дисперсии существенно выше значения остаточной
дисперсии, то считается фактор оказывае влияние на результативный
признак.
Двухфакторный дисперсионный анализ – влияние двух
одновременно действующих факторов А и В на формирование
значении нормально распределенной случайной величины Х.

ЗАДАЧА-ЭТАЛОН

При уровне значимости р= 0,05, проверить значимость различий


между групповыми средними значениями масс (граммах)
экспериментальных животных, которые были подвергнуты
воздействию некоторого физического фактора [23, с.226].

№ Уровень фактора А
испытания А1 А2 А3
1 30 35 40
2 32 39 38
3 34 38 44
4 28 36 42
Ха 31 37 41

1. Определяем среднюю выборочную Х=∑ Хi/q


30  32  34  28
Х1   31 Х1 = 31
4
50
35  39  38  36
Х2   37 Х2 = 37
4
40  38  44  42
Х3   41 Х3 = 41
4
Х – случайные величины
q – число наблюдений, испытаний

2. Определить из всех значении средних Х1, Х2, Х3 групповое


среднее Хгр=∑ Х1/L, где L-количество уровней фактора (в нашем
случае из 3: А1, А2 и А3)
31  37  41
Х гр   36
3
Далее вычисляем разницу между каждым показателем (Х) и средней
групповой Х гр.

Номер Уровень фактора А


испытания А1 А2 А3
1 -6 -1 4
2 -4 3 2
3 -2 2 8
4 -8 0 6

3. Вычисляем сумму значений величины (Х) на уровне Аj


q
R1   X i
i 1

R1= (-6) + (-4) +(-2) + (-8)= - 20


R2= (-1)+3+2+0=4
R3= 4+2+8+6=20

4. Определяем сумма квадратов значений величины (Х) на уровне Аj


q

X
i 1
2
j

Р1= (-6)2 + (4)2 + (-2)2 + (-8)2 =120


Р2= (-1)2 + (3)2 + (2) 2 + (0)2 =14
Р3= (4)2 + (2)2 + (8) 2 + (6)2 =120

5. Определяем S2 остаточную и S2 факторную дисперсии.


L

 (R / q)  (i 1 R) 2 /( Lq)
2 L

2
S фак  i 1

L 1
51
(20) 2 / 4  4 /(3 * 4) 400 / 4  16 / 12 100  1,3 98,7
2
2
S фак      49,35
1
3 1 2 2 2
42 / 4  4 / 12 16 / 4  16 / 12 4  1,3 2,7
2
Sфак2 
2
    1,35
3 1 2 2 2
202 / 4  4 / 12 400 / 4  16 / 12 100  1,3 98,7
2
2
Sфак      49,35
3 1 2 2 2
 Sфвк
2
 49,35  49,35  1,35  100

6. Вычисляем S2 остаточную дисперсию

120  (20) 2 / 4 120  100 20


2
S ост     2,22
1
3  (4  1) 9 9
14  (4) 2 / 4 14  4 10
2
S ост     1,11
2
3  (4  1) 9 9
120  (20) 2 / 4 120  100 20
2
S ост     2,22
3
3  (4  1) 9 9
S 2
общ  2,22  1,11  2,22  5,55

Fэкс = S2ф / S2ост Fэкс = 100  18,02


5,55
Fкрит.[p, L-1, L(q-1)] = F крит. [0.05; 2; 9] = 4.26
(по таблице Фишера – Снедекора – приложение 2, где столбцы V1=L-
1, а строки V2=L(q-1))

Fэкс = 18,02
Fкрит = 4,26

Вывод, Fэкс > Fкрит → H0 гипотезу отклоняем.

На вес животных рассматриваемый физический фактор оказывает


существенное влияние.

Второй вариант решения данной задачи представляется более


простым. Здесь используют формулы в упрошенном виде (таблица 3)
[25].

52
Таблица 3. Формулы для проведения дисперсионного анализа

Вид Сумма квадратов Степ Средняя F


вариаци ень квадратов
и своб
оды
Между k-1 MSB = F = MSB /
группам SSB/(k-1) MSE
и
Ошибка N-k MSE =SSB/(N-
k)

Общий N-1

k-количество факторов, N- количество результатов (выборка), Mj –


средняя по группам (М1, М2 или М3), Mобщ – средняя общая, X –
значение переменной.

Таким образом, в нашей задаче: к=3 (А1, А2 и А3), N=12

№ Уровень фактора А
испытания А1 А2 А3
1 30 35 40
2 32 39 38
3 34 38 44
4 28 36 42
Ма М1=31 М2=37 М3=41
Мобщ Мобщ=36,3

SSB = 4*(31-36,3)2+4(37-36,3)2+4*(41-36,3)2 = 112,36+1,96+88,36 =


202,68

53
Для вычисления SSE необходимо провести дополнительные расчеты.

Уровень фактора А

А1 (А1-М1) (А1-М1)2 А2 (А2-М2) (А2-М2)2 А3 (А3-М3) (А3-М3)2
(35-37) (40-41)
1 30 (30-31) = -1 1 35 4 40 1
=-2 =-1
(39-37) (38-41)
2 32 (32-31) = 1 1 39 4 38 9
=2 =-3
(38-37) (44-41)
3 34 (34-31) = 3 9 38 1 44 9
=1 =3
(36-37) (42-41)
4 28 (28-31) = -3 9 36 1 42 1
=-1 =1
М1 = М2 = М3 =
Ма
31 37 41
сум
20 10 20
ма

SSE=20+10+20 = 50

MSB = SSB/(k-1) = 202,68 / (3-1)=202,68/2=101,34

MSE =SSB/(N-k) = 50 / (12-3) = 50/9 = 5,56

F = MSB / MSE = 101,34/ 5,56 = 18,23

Fкрит.[p, df1, df2] = F крит. [0.05; 2; 9] = 4.26


(по таблице Фишера – Снедекора – приложение 2, где столбцы df1=к-
1, а строки df2=N-k)

Fэкс = 18,23 (разница от результата расчета при помощи первой


формулы происходит за счет множественного округления)
Fкрит = 4,26

Вывод, Fэкс > Fкрит → также как и в первом случае, H0 гипотезу


отклоняем.
На вес животных рассматриваемый физический фактор оказывает
существенное влияние.

Можно оценить силу влияние фактора на исход (η2) при помощи


формулы [24]:

54
Показатель силы влияния (η2) факторного признака на результат
определяется долей факториальной дисперсии (Dфакт.) в общей
дисперсии (Doбщ.), η2(эта) — показывает какую долю занимает
влияние изучаемого фактора среди всех других факторов.

η2 = 100/105.5 *100% = 94.8%

Влияние изучаемого физического фактора на вес масс (граммах)


экспериментальных животных составляет 94,8%.

55
ТЕМА 9. ОТНОШЕНИЕ ШАНСОВ. ОТНОСИТЕЛЬНЫЙ РИСК.
ТАБЛИЦА СОПРЯЖЕННОСТИ.

ОТНОШЕНИЕ ШАНСОВ
Отношение шансов – статистический показатель (на русском его
название принято сокращать как ОШ, а на английском - OR от "odds
ratio"), один из основных способов описать в численном выражении
то, насколько отсутствие или наличие определённого исхода связано
с присутствием или отсутствием определённого фактора в
конкретной статистической группе [26].
Термин "шанс" пришел из теории азартных игр, где при помощи
данного понятия обозначали отношение выигрышных позиций к
проигрышным. В научной медицинской литературе показатель
отношения шансов был впервые упомянут в 1951 году в работе Дж.
Корнфилда. В последствие данным исследователем были
опубликованы работы, в которых отмечалась необходимость расчета
95% доверительного интервала для отношения шансов [27].
Отношение шансов позволяет оценить связь между
определенным исходом и фактором риска.
Отношение шансов позволяет сравнить группы исследуемых по
частоте выявления определенного фактора риска. Важно, что
результатом применения отношения шансов является не только
определение статистической значимости связи между фактором и
исходом, но и ее количественная оценка.
Условия и ограничения применения отношения шансов:
1. Результативные и факторные показатели должны быть
измерены в номинальной шкале. Например, результативный признак -
наличие или отсутствие врожденного порока развития у плода,
изучаемый фактор - курение матери (курит или не курит).
2. Данный метод позволяет проводить анализ только
четырехпольных таблиц, когда и фактор, и исход являются
бинарными (дихотомическими) переменными, то есть имеют только
два возможных значения (например, пол - мужской или женский,
артериальная гипертония - наличие или отсутствие, исход
заболевания - с улучшением или без улучшения...).
3. Сопоставляемые группы должны быть независимыми, то есть
показатель отношения шансов не подходит для сравнения
наблюдений "до - после".

56
4. Показатель отношения шансов используется в исследованиях
по типу "случай-контроль"(например, первая группа - больные
гипертонической болезнью, вторая - относительно здоровые люди).
Для проспективных исследований, когда группы формируются по
признаку наличия или отсутствия фактора риска (например, первая
группа - курящие, вторая группа - некурящие), обычно
рассчитывается относительный риск.
Отношение шансов – это значение дроби, в числителе которой,
находятся шансы определённого события для первой группы, а в
знаменателе шансы того же события для второй группы.
Шансом является отношение числа исследуемых, имеющих
определенный признак (исход или фактор), к числу исследуемых, у
которых данный признак отсутствует.
Например, была отобрана группа пациентов, прооперированных
по поводу панкреонекроза, число которых составило 100 человек.
Через 5 лет из их числа в живых осталось 80 человек.
Соответственно, шанс выжить составил 80 к 20, или 4,0.
Удобным способом является расчёт отношения шансов со
сведением данных в таблицу 2х2:

Таблица 4. Классическая четырехпольная таблица (таблица 2х2)

Исход есть (1) Исхода нет (0) Всего


Фактор риска
A B A+B
есть (1)
Фактор риска
C D C+D
отсутствует (0)
Всего A+C B+D A+B+C+D

Для данной таблицы отношение шансов рассчитывается по


следующей формуле:

Очень важно оценить статистическую значимость выявленной связи


между исходом и фактором риска. Связано это с тем, что даже при
невысоких значениях отношения шансов, близких к единице, связь,
57
тем не менее, может оказаться существенной и должна учитываться
в статистических выводах. И наоборот, при больших значениях OR,
показатель оказывается статистически незначимым, и,
следовательно, выявленной связью можно пренебречь.
Для оценки значимости отношения шансов рассчитываются
границы 95% доверительного интервала (используется аббревиатура
95% ДИ или 95% CI от англ. "confidence interval").
Формула для нахождения значения верхней границы 95% CI:

Формула для нахождения значения нижней границы 95% CI:

Интерпретация значения отношения шансов:


 Если отношение шансов и его 95% ДИ превышает 1, то это
означает, что шансы обнаружить фактор риска больше в группе с
наличием исхода. Т.е. фактор имеет прямую связь с вероятностью
наступления исхода или это «фактор агрессии». В данном случае
значение р<0,05
 Отношение шансов и его 95% ДИ, имеющее значение меньше
1, свидетельствует о том, что шансы обнаружить фактор риска
больше во второй группе. Т.е. фактор имеет обратную связь с
вероятностью наступления исхода или это «фактор защиты». В
данном случае значение р<0,05
 При отношении шансов, равном единице, шансы обнаружить
фактор риска в сравниваемых группах одинакова. Соответственно,
фактор не оказывает никакого воздействия на вероятность исхода. В
данном случае значение р>0,05
Дополнительно в каждом случае обязательно оценивается
статистическая значимость отношения шансов исходя из значений
95% доверительного интервала.
 Если 95% ДИ ОШ не включает 1, т.е. оба значения границ или
выше, или ниже 1, делается вывод о статистической значимости
выявленной связи между фактором и исходом при уровне значимости
p<0,05.
 Если доверительный интервал включает 1, т.е. его верхняя
граница больше 1, а нижняя - меньше 1, делается вывод об

58
отсутствии статистической значимости связи между фактором и
исходом при уровне значимости p>0,05.

ЗАДАЧА-ЭТАЛОН
Представим две группы: первая состояла из 200 женщин, у
которых был диагностирован врожденный порок развития
плода (Исход+) [28]. Из них курили во время
беременности (Фактор+) - 50 человек (А), являлись
некурящими (Фактор-) - 150 человек (С).
Вторую группу составили 100 женщин без признаков ВПР плода
(Исход -) среди которых курили во время беременности (Фактор+)
10 человек (B), не курили (Фактор-) - 90 человек (D).
1. Составим четырехпольную таблицу сопряженности:

ВПР плода ВПР плода


Всего
диагностирован отсутствует
Курящие 50 (А) 10 (В) 60
Некурящие 150 (С) 90 (D) 240
Всего 200 100 300

2. Рассчитаем значение отношения шансов:


OR = (A * D) / (B * C) = (50 * 90) / (150 * 10) = 3.

3. Найдем границы 95% CI. Значение нижней границы,


рассчитанной по указанной выше формуле составило 1,45, а верхней
- 6,21.

Интерпретация результатов (1 и 2 интерпретация равнозначны):


1. Исследование показало, что шансы встретить курящую
женщину среди пациенток с диагностированным ВПР плода в 3 раза
выше, чем среди женщин без признаков ВПР плода. Наблюдаемая
зависимость является статистически значимой, так как 95% CI не
включает 1, значения его нижней и верхней границ больше 1.
2. Шансы встретить курящую женщину среди пациенток с
диагностированным ВПР плода на 200% выше, чем среди женщин без
признаков ВПР плода. Наблюдаемая зависимость является

59
статистически значимой, так как 95% CI не включает 1, значения его
нижней и верхней границ больше 1.

ОТНОСИТЕЛЬНЫЙ РИСК
Риск – это вероятность появления определенного исхода,
например, болезни или травмы. Риск может принимать значения от 0
(вероятность наступления исхода отсутствует) до 1 (во всех случаях
ожидается неблагоприятный исход). В медицинской статистике, как
правило, изучаются изменения риска наступления исхода в
зависимости от какого-либо фактора. Пациенты условно разделяются
на 2 группы, на одну из которых фактор влияет, на другую – нет.
Относительный риск – это отношение частоты исходов среди
исследуемых, на которых оказывал влияние изучаемый фактор, к
частоте исходов среди исследуемых, не подвергавшихся влиянию
этого фактора. В научной литературе часто используют сокращенное
название показателя - ОР или RR (от англ. "relative risk").
1. История разработки показателя относительного риска
Расчет относительного риска заимствован медицинской
статистикой из экономики. Правильная оценка влияния
политических, экономических и социальных факторов на
востребованность товара или услуги может привести к успеху, а
недооценка этих факторов - к финансовым неудачам и банкротству
предприятия.
2. Для чего используется относительный риск?
Относительный риск используется для сравнения вероятности
исхода в зависимости от наличия фактора риска. Например, при
оценке влияния курения на частоту гипертонической болезни, при
изучении зависимости частоты рака молочной железы от приема
оральных контрацептивов и др. Относительный риск - важнейший
показатель в назначении определенных методов лечения или
проведении исследований с возможными побочными эффектами.
3. Условия и ограничения применения относительного риска
1. Показатели фактора и исхода должны быть измерены
в номинальной шкале (например, пол пациента - мужской или
женский, артериальная гипертония - есть или нет).
2. Данный метод позволяет проводить анализ только
четырехпольных таблиц, когда и фактор, и исход
являются бинарными переменными, то есть имеют только два

60
возможных значения (например, возраст младше или старше 50 лет,
наличие или отсутствие определенного заболевания в анамнезе).
3. Относительный риск применяется при проспективных
исследованиях, когда исследуемые группы формируются по признаку
наличия или отсутствия фактора риска. При исследованиях по
принципу "случай-контроль" вместо относительного риска должен
использоваться показатель отношения шансов.
4. Как рассчитать относительный риск?
Для расчета относительного риска необходимо:
1. Строим четырехпольную таблицу сопряженности, исходя из
количества исследуемых, имеющих определенные значения
факторного и результативного признаков:

Таблица 5. Четырехпольная таблица (таблица 2х2)

Исход есть (1) Исхода нет (0) Всего


Фактор риска
A B A+B
есть (1)
Фактор риска
отсутствует C D C+D
(0)
Всего A+C B+D A+B+C+D

2. Находим значение относительного риска по следующей


формуле:

где A, B, C, D – количество наблюдений в ячейках таблицы


сопряженности.

3. Находим значения границ доверительного интервала - 95%


ДИ (или 95% CI - от англ. "confidence interval").

61
Формула расчета верхней границы:

Формула расчета нижней границы доверительного интервала:

4. Сравниваем значения относительного риска и границ


доверительного интервала с единицей.

Интерпретация значения относительного риска:


Показатель относительного риска сравнивается с 1 для того,
чтобы определить характер связи фактора и исхода:
 Если ОР равен 1, можно сделать вывод, что исследуемый фактор
не влияет на вероятность исхода (отсутствие связи между фактором и
исходом).
 При значениях более 1 делается вывод о том, что фактор
повышает частоту исходов (прямая связь) – фактор агрессии
 При значениях менее 1 - о снижении вероятности исхода при
воздействии фактора (обратная связь) – фактор защиты
Также обязательно оцениваются значения границ 95%
доверительного интервала. Если оба значения - и нижней, и верхней
границы - находятся по одну сторону от 1, или, другими словами,
доверительный интервал не включает 1, то делается вывод о
статистической значимости выявленной связи между фактором и
исходом с вероятностью ошибки p<0,05.
Если нижняя граница 95% ДИ меньше 1, а верхняя - больше, то
делается вывод об отсутствии статистической значимости влияния
фактора на частоту исхода, независимо от величины показателя ОР
(p>0,05).
ЗАДАЧА-ЭТАЛОН

В 1999 году в Оклахоме проводились исследования заболеваемости


мужчин язвой желудка [28]. В качестве влияющего фактора было
выбрано регулярное потребление фастфуда. В первой группе
находились 500 мужчин, постоянно питающихся быстрой пищей,
среди которых язву желудка диагностировали у 96 человек. Во
62
вторую группу были отобраны 500 сторонников здорового питания,
среди которых язва желудка была диагностирована в 31 случае.
Исходя из полученных данных была построена следующая таблица
сопряженности:

Больные язвой Язва желудка


Всего
желудка (1) отсутствует (0)
Фастфуд (1) 96 404 500
Здоровое
31 469 500
питание (0)
Всего 127 873 1000

1. Рассчитываем значение относительного риска:

2. Находим значения верхней и нижней границ 95%


доверительного интервала по указанным выше формулам. Значение
верхней границы составляет 4.55, нижней - 2.11.
3. Сравниваем полученные значения ОР и его 95% ДИ с 1.
Показатель относительного риска свидетельствует о наличии прямой
связи между употреблением фастфуда и вероятностью развития язвы
желудка. У мужчин, употребляющих картошку фри и хотдоги, язва
желудка наблюдается в 3,1 раза чаще, чем среди придерживающихся
здорового питания. Уровень значимости данной взаимосвязи
соответствует p<0.05, так как 95% ДИ не включает в себя единицу.

63
ТЕМА 10. КРИТЕРИЙ χ2 ПИРСОНА.

Критерий χ2 Пирсона – это непараметрический метод, который


позволяет оценить значимость различий между фактическим
(выявленным в результате исследования) количеством исходов или
качественных характеристик выборки, попадающих в каждую
категорию, и теоретическим количеством, которое можно ожидать в
изучаемых группах при справедливости нулевой гипотезы [29].
Выражаясь проще, метод позволяет оценить статистическую
значимость различий двух или нескольких относительных
показателей (частот, долей).
1. История разработки критерия χ2
Критерий хи-квадрат для анализа таблиц сопряженности был
разработан и предложен в 1900 году английским математиком,
статистиком, биологом и философом, основателем математической
статистики и одним из основоположников биометрики Карлом
Пирсоном (1857-1936).
2. Для чего используется критерий χ2 Пирсона?
Критерий хи-квадрат может применяться при анализе таблиц
сопряженности, содержащих сведения о частоте исходов в
зависимости от наличия фактора риска. Например, проводится
исследование влияния курения на риск развития артериальной
гипертонии. Для этого были отобраны две группы исследуемых - в
первую вошли 70 человек, ежедневно выкуривающих не менее 1
пачки сигарет, во вторую - 80 некурящих такого же возраста. В
первой группе у 40 человек отмечалось повышенное артериальное
давление. Во второй - артериальная гипертония наблюдалась у 32
человек. Соответственно, нормальное артериальное давление в
группе курильщиков было у 30 человек (70 - 40 = 30) а в группе
некурящих - у 48 (80 - 32 = 48).
Заполняем исходными данными четырехпольную таблицу
сопряженности (таблица 6).

64
Таблица 6. Распределение курения среди лиц с артериальной
гипертензией и без

Артериальная Артериальной
гипертония есть гипертонии нет Всего
(1) (0)
Курящие (1) 40 30 70
Некурящие (0) 32 48 80
Всего 72 78 150

В полученной таблице сопряженности каждая строчка


соответствует определенной группе исследуемых. Столбцы -
показывают число лиц с артериальной гипертонией или с
нормальным артериальным давлением.
Задача, которая ставится перед исследователем: имеются ли
статистически значимые различия между частотой лиц с
артериальным давлением среди курящих и некурящих? Ответить на
этот вопрос можно, рассчитав критерий хи-квадрат Пирсона и
сравнив получившееся значение с критическим.
Условия и ограничения применения критерия хи-квадрат
Пирсона:
1. Сопоставляемые показатели (фактор и исход) должны быть
номинальными (дихотомическими) или порядковыми переменными.
Данный метод позволяет проводить анализ не только
четырехпольных таблиц, но и многопольных таблиц, когда фактор и
(или) исход принимают три и более значений.
2. Сопоставляемые группы должны быть независимыми, то есть
критерий хи-квадрат не должен применяться при сравнении
наблюдений "до - после". В этих случаях проводится тест Мак-
Немара (при сравнении двух связанных совокупностей) или
рассчитывается Q-критерий Кохрена (в случае сравнения трех и
более групп).
3. При анализе четырехпольных таблиц ожидаемые значения в
каждой из ячеек должны быть не менее 10. В том случае, если хотя
бы в одной ячейке (для таблиц 2х2 или не менее 20% ячеек для
многопольных таблиц) ожидаемое явление принимает значение от 5
до 9, критерий хи-квадрат должен рассчитываться с поправкой
65
Йейтса. Если хотя бы в одной ячейке (для таблиц 2х2 или не менее
20% ячеек для многопольных таблиц) ожидаемое явление меньше 5,
то для анализа должен использоваться точный критерий Фишера.
Процедура вычисления этого критерия достаточно трудоемка и в
этом случае лучше воспользоваться компьютерными программами
стат. анализа.
Для расчета критерия хи-квадрат необходимо:
1. Рассчитываем ожидаемое количество наблюдений для
каждой из ячеек таблицы сопряженности (при условии
справедливости нулевой гипотезы об отсутствии взаимосвязи) путем
перемножения сумм рядов и столбцов с последующим делением
полученного произведения на общее число наблюдений. Общий вид
таблицы ожидаемых значений представлен ниже:

Таблица 7. Таблица расчета ожидаемых значений

Исход есть (1) Исхода нет (0) Всего


Фактор риска (A+B)*(A+C) / (A+B)*(B+D)/
A+B
есть (1) (A+B+C+D) (A+B+C+D)
Фактор риска (C+D)*(A+C)/ (C+D)*(B+D)/
C+D
отсутствует (0) (A+B+C+D) (A+B+C+D)
Всего A+C B+D A+B+C+D

2. Находим значение критерия χ2 по следующей формуле:

где i – ячейки (от 1 до n), Oi – фактическое количество наблюдений


в ячейке, Ei – ожидаемое число наблюдений в ячейке.

В том случае, если число ожидаемого явления меньше 10 хотя бы


в одной ячейке, при анализе четырехпольных таблиц должен
рассчитываться критерий хи-квадрат с поправкой Йейтса. Данная
поправка позволяет уменьшить вероятность ошибки первого типа, т.е
обнаружения различий там, где их нет. Поправка Йейтса заключается
66
в вычитании 0,5 из абсолютного значения разности между
фактическим и ожидаемым количеством наблюдений в каждой
ячейке, что ведет к уменьшению величины критерия хи-квадрат.

Формула для расчета критерия χ2 с поправкой Йейтса следующая:

3. Определяем число степеней свободы по формуле: f = (r – 1)


× (c – 1). Соответственно, для четырехпольной таблицы, в которой 2
ряда (r = 2) и 2 столбца (c = 2), число степеней свободы составляет
f2x2 = (2 - 1)*(2 - 1) = 1.
4. Сравниваем полученное значение критерия χ2 с
критическим значением при числе степеней свободы f (приложение
3) [30].
Данный алгоритм применим как для четырехпольных, так и для
многопольных таблиц.
5. Как интерпретировать значение критерия хи-квадрат
Пирсона?
В том случае, если полученное значение критерия χ2 больше
критического, делаем вывод о наличии статистической взаимосвязи
между изучаемым фактором риска и исходом при соответствующем
уровне значимости.
6. Пример расчета критерия хи-квадрат Пирсона
Определим статистическую значимость влияния фактора курения
на частоту случаев артериальной гипертонии по таблице 6:

Артериальная
Артериальной
гипертония есть Всего
гипертонии нет (0)
(1)
Курящие (1) 40 30 70
Некурящие (0) 32 48 80
Всего 72 78 150

1. Рассчитываем ожидаемые значения для каждой ячейки (таблица


8):
67
Таблица 8. Расчет ожидаемых частот

Артериальная Артериальной
Всего
гипертония есть (1) гипертонии нет (0)
Курящие (1) (70*72)/150 = 33.6 (70*78)/150 = 36.4 70
Некурящие
(80*72)/150 = 38.4 (80*78)/150 = 41.6 80
(0)
Всего 72 78 150

2. Находим значение критерия хи-квадрат Пирсона:


χ2 = (40-33.6)2/33.6 + (30-36.4)2/36.4 + (32-38.4)2/38.4 + (48-
41.6)2/41.6 = 4.396.
3. Число степеней свободы f = (2-1)*(2-1) = 1. Находим по
таблице критическое значение критерия хи-квадрат Пирсона, которое
при уровне значимости p=0.05 и числе степеней свободы 1 составляет
3.841.
4. Сравниваем полученное значение критерия хи-квадрат с
критическим: 4.396 > 3.841. Следовательно, зависимость частоты
случаев артериальной гипертонии от наличия курения -
статистически значима. Уровень значимости данной взаимосвязи
соответствует p<0.05.

Также критерий хи-квадрат Пирсона вычисляется по формуле

(29)
Но для таблицы 2х2 более точные результаты дает критерий с
поправкой Йетса

68
Если χ2выч < χ2 крит., то Н(0) принимается, в случае χ2выч ≥ χ2 крит.,
принимается Н(1).
По таблице сопряженности можно вычислить меру связи между
двумя качественными признаками – ею является коэффициент
ассоциации Юла Q (аналог коэффициента корреляции)

Q лежит в пределах от 0 до 1. Близкий к единице коэффициент


свидетельствует о сильной связи между признаками. При равенстве
его нулю – связь отсутствует. Оценка силы связи проводится как в
корреляционном анализе.
Аналогично используется коэффициент фи-квадрат (φ2)
(32)

ЗАДАЧА-ЭТАЛОН

В таблице описывается связь между частотой мутации у групп


дрозофил с подкормкой и без подкормки

группы Число культур всего


Давшие Не давшие
мутации мутации
С подкормкой 357 2399 2756
Без подкормкой 80 725 805
Всего 437 3124 3561

Для анализа таблицы сопряженности выдвигается Н0- гипотеза .т.е.


отсуствие влияния изучаемого признака (подкормки) на результат
исследования (наличие мутации). Для этого рассчитывается
ожидаемая частота, и строится таблица ожидания.

69
Группы Чило культур Всего
Давшие мутации Не давшие мутации
Факт. Ожид. Факт. Ожид.
частота частота частота частота
С
357 338 2399 2418 2756
подкормкой
Без
80 99 725 706 805
подкормкой
всего 437 3121 3561

Метод №1
Определяем ожидаемую частоту:

1. 3561 – 437
437  2756
2756 – Х Х   338 ;
3561

2. 3561 – 3124
3124  2756
2756 – Х Х   2418 ;
3561

3. 3561 – 437
437  805
805 – Х Х   99;
3561

4. 3561 – 3124
3124  805
805 – Х Х   706
3561
На основании сопоставления таблиц сопряженности и ожидания
определяем отклонение фактических частот от ожидаемых
Степень согласия фактических данных с ожидаемым данными
определяем с помощью критерий согласия Х2.
1. Определяем  2 - степень согласия фактических данных с
ожидаемыми.

70
Oi – фактическое количество наблюдений в ячейке, Ei – ожидаемое
число наблюдений в ячейке.

(357  338) 2 (2399  2418) 2 (80  99) 2 (725  706) 2 (19) 2 (19) 2 (19) 2 (19) 2
2         
338 2418 99 706 338 2418 99 706
361 361 361 361
    1,07  0,15  3,65  0,51  5,38
338 2418 99 706

Метод №2.
Критерий хи-квадрат Пирсона вычисляется по формуле

(357 * 725  2399 * 80) 2


2   5,263
(357  2399)(80  725)(357  80)(2399  725)

Разница в значения хи-квадрата Пирсона, рассчитанные при


помощи первой и второй формул, обусловлена множественными
округлениями, при которых теряется точность.
Далее определяем число степеней свободы f = (r – 1) × (c – 1).,
где r и c число строк и число столбцов в таблице сопряженности.

f=(2-1)*(2-1)=1

 2 (крит) =3,841 (по таблице критических значений 2


приложение 3)
Вывод: χ2выч ≥ χ2 крит., следовательно, зависимость между
частотой мутации у групп дрозофил с подкормкой и без подкормки -
статистически значима. Уровень значимости данной взаимосвязи
соответствует p<0.05

71
ТЕМА 11. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Виды проявления количественных связей между признаками


[31,32]:
а) функциональная связь; б) корреляционная связь.
Функциональная связь — такой вид соотношения между двумя
признаками, когда каждому значению одного из них соответствует
строго определенное значение другого (площадь круга зависит от
радиуса круга и т.д.). Функциональная связь характерна для физико-
математических и химических процессов.
Корреляционная связь — такая связь, при которой каждому
определенному значению одного признака соответствует несколько
значений другого взаимосвязанного с ним признака (связь между
ростом и массой тела человека; связь между температурой тела и
частотой пульса и др.). Корреляционная связь характер на для
социально-гигиенических процессов, клинической медицины и
биологии.
Практическое значение
Выявление причинно-следственной связи между факторными и
результативными признаками (при оценке физического развития, для
определения связи между условиями труда, быта и состоянием
здоровья, при определении зависимости частоты случаев болезни от
возраста, стажа, наличия производственных вредностей и др.).
Зависимость параллельных изменений нескольких признаков от
какой-то третьей величины. Например, под воздействием высокой
температуры в цехе происходят изменения кровяного давления,
вязкости крови, частоты пульса и др.
Величина, направление и сила связи между признаками
Коэффициент корреляции, который одним числом дает
представление о направлении и силе связи между признаками
(явлениями); пределы его колебаний от 0 до ±1.
Способы представления корреляционной связи
а) таблица; б) график (диаграмма рассеяния); в) коэффициент
корреляции.
Направление корреляционной связи:
а) прямая; б) обратная.
Сила корреляционной связи:
а) сильная: ±0,7 до ±1; б) средняя: ±0,3 до ±0,699; в) слабая: 0 до
±0,299.
72
Методы определения коэффициента корреляции:
а) метод квадратов (метод Пирсона); б) ранговый метод (метод
Спирмена).
Методические требования к использованию коэффициента
корреляции:
• Измерение связи возможно только в качественно однородных
совокупностях (например, измерение связи между ростом и весом в
совокупностях, однородных по полу и возрасту).
• Расчет может производиться с использованием как абсолютных,
так и производных величин.
• Для вычисления коэффициента корреляции используются
несгруппированные данные (это требование применяется только при
вычислении коэффициента корреляции по методу квадратов).
Рекомендации по применению метода ранговой корреляции
(метод Спирмена)
а) когда нет необходимости в точном установлении силы связи, а
достаточно ориентировочных данных;
б) когда признаки не только количественные, но и атрибутивные;
в) когда ряды распределения признаков имеют открытые
варианты (например, стаж работы до 1 года).
Г) хотя бы одна из двух (или обе) количественных переменных
имеет распределение, отличающееся от нормального.
Рекомендации к применению метода квадратов(метод
Пирсона):
а) когда требуется точное установление силы связи между
признаками;
б) когда признаки имеют только количественное выражение;
в) обе количественные переменные имеют нормальное
распределение.
Методика и порядок вычисления коэффициента корреляции
1) Метод квадратов
а) построить вариационные ряды для каждого из сопоставляемых
признаков;
б) определить для каждого вариационного ряда средние
величины (М1 и М2);
в) найти отклонения (dx и dy) каждой варианты от средней
соответствующего вариационного ряда;

73
г) полученные отклонения перемножить (dx*dy) и
просуммировать (∑dx*dy)
д) каждое отклонение возвести в квадрат и просуммировать по
каждому ряду (∑dx2 и ∑ dy2); е) подставить полученные значения в
формулу расчёта коэффициента корреляции:

2) Ранговый метод
а) составить два ряда из парных сопоставляемых признаков,
обозначив первый и второй ряд, соответственно х и у. При этом
представить первый ряд признака в убывающем или возрастающем
порядке, а числовые значения второго ряда расположить напротив
того значения первого ряда, которым они соответствуют;
б) величину признака в каждом из сравниваемых рядов заменить
порядковым номером (рангом). Рангами, или номерами, обозначают
места показателей (значения) первого и второго рядов. При этом
числовым значениям второго признака ранги должны присваиваться
в том же порядке, какой был принят при раздаче их величинам
первого признака. При одинаковых величинах признака в ряду ранги
следует определять как среднее число из суммы порядковых номеров
этих величин;
в) определить разность рангов между х и у (d): d = х — у;
г) возвести полученную разность рангов в квадрат (d2);
д) получить сумму квадратов разности (∑d2) и подставить
полученные значения в формулу:

13.Схема оценки корреляционной связи по коэффициенту


корреляции (таблица 9)
Связь, при которой коэффициент корреляции равен +1,0 или –
1,0,называется полной (функциональной).

74
Таблица 9. Сила корреляционной связи

Сила связи Направление связи


Прямая (+) Обратная(-)
Сильная От +1 до +0,7 От -1 до -0,7
Средняя От +0,699 до +0,3 От -0,699 до -0,3
Слабая От +0,299 до 0 От -0,299 до 0

14.Вычисление ошибки коэффициента корреляции


а) ошибка коэффициента корреляции, вычисленного методом
квадратов (Пирсона):

б) ошибка коэффициента корреляции, вычисленного ранговым


методом (Спирмена):

15. Оценка достоверности коэффициента корреляции,


полученного методом ранговой корреляции и методом квадратов.

Критерий t оценивается по таблице значений t с учетом числа


степеней свободы (n-2), где n – число парных вариант. Критерий t
должен быть равен или больше табличного, соответствующего
вероятности p<0,05.
15. Коэффициент детерминации (r2) обладает важным
преимуществом по сравнению с коэффициентом корреляции.
Рассчитывается путем возведение коэффициента корреляции в
квадрат и умножением на 100%.
Коэффициент детерминации: это часть дисперсии одной
переменной, которая может быть объяснена влиянием другой
переменной. Например, коэффициент детерминации переменной Х и
Y равен 84%. Это означает, что вариабельность (изменчивость)
переменной Y можно объяснить переменной Х на 84%.
75
В отличие от коэффициента корреляции коэффициент
детерминации линейно возрастает с увеличением силы связи.
Как проводить корреляционный анализ в программе Excel
представлено в [33], видео уроки по корреляционному анализу [34].

ЗАДАЧА-ЭТАЛОН

В городе А. увеличилась показатели число травм среди мужчин,


работающих в шахте со стажам до 10 лет. В результате проведенного
исследования были получены следующие результаты:

Стаж работы в годах Число травм


До 1 года 24
1—2 16
3—4 12
5—6 12
7 и более 6

1. По представленным данным определите вид коэффициента


корреляции, применимый в данном случае.
2. Вычислите коэффициент корреляции.
3. Определите характер и размер связи между этими явлениями.
4. Сделайте выводы, если 1) p=0,346; 2) p=0,014;

Обоснования выбора метода: для решения задачи может быть


выбран только метод ранговой корреляции, так как первый ряд
признака «стаж работы в годах» имеет открытые варианты (стаж
работы до 1 года и 7 и более лет), что не позволяет использовать для
установления связи между сопоставляемыми признаками более
точный метод — метод квадратов.

РЕШЕНИЕ ЗАДАЧИ
Последовательность расчетов изложена в тексте, результаты
представлены таблице 10.

76
Таблица 10. Пример расчета коэффициента ранговой корреляции
Спирмена

Порядковые Разность Квадрат


Стаж работы Число
номера (ранги) рангов разности рангов
в годах травм
x y d d2
До 1 года 24 1 5 –4 16
1–2 16 2 4 –2 4
3–4 12 3 2,5 +0,5 0,25
5–6 12 4 2,5 +1,5 2,25
7 и более 6 5 1 +4 16
2
Σd = 38,5

1.Каждый из рядов парных признаков обозначить через х и через


у (графы1—2).

2.Величину варианта каждого из признаков заменить ранговым


(порядковым) номером. Порядок раздачи рангов в ряду х следующий:
минимальному значению признака (стаж до 1 года) присвоен
порядковый номер 1, последующим вариантам этого же ряда
признака соответственно в порядке увеличения2-й,3-й,4-й и 5-й
порядковые номера — ранги (см. графу 3). Аналогичный порядок
соблюдается при раздаче рангов второму признаку у (графа 4). В тех
случаях, когда встречаются несколько одинаковых по величине
вариант (например, в задаче-эталоне это 12 и 12 травм при стаже 3—4
года и 5—6 лет), порядковый номер обозначить средним числом из
суммы их порядковых номеров: так, одинаковое число травм при
разном стаже работы: 3—4года и 5—6 лет. Эти данные о числе травм
(12 травм) при ранжировании должны занимать 2 и 3 места, таким
образом, среднее число из них равно (2 + 3)/2 = 2,5.
Итак, числу травм «12» и «12» (признак у) следует раздать
одинаковые ранговые номера — 2,5 (графа 4).

3.Определить разность рангов d = (х — у) — (графа 5).

4.Разность рангов возвести в квадрат (d2) и получить сумму


квадратов разности рангов Σd2 (графа 6).

77
5.Произвести расчет коэффициента ранговой корреляции
Спирмена по формуле:

где n — число сопоставляемых пар вариант в ряду х и в ряду у.

ρху = 1–((6×38,5)/5(52-1))=1-325/5(25-1)=1-325/120=1-1,92=-0.92

Вывод: установлена обратная, сильная корреляционная связь


между стажем работы и числом травм. При p=0,346 эта связь
статистически не значима, а при p=0,014 – статистически значима,
т.е. чем меньше стаж работы, тем больше травм.

Пример задание по методом Пирсона


Исследователем изучалось взаимосвязь влияния концентрации
кальция в воде на её жёсткость. Получены следующие данные:

Жёсткость воды Количество кальция


(в градусах) в воде (в мл/л)
4 28
8 56
11 77
27 241
34 262

1. По представленным данным определите вид коэффициента


корреляции, применимый в данном случае.
2. Вычислите коэффициент корреляции.
3. Определите характер и размер связи между этими явлениями.
4. Сделайте выводы если 1) p=0,056; 2) p=0,007;

Обоснование выбора метода. Для решения задачи выбран метод


квадратов (Пирсона), т.к. каждый из признаков (жесткость воды и
количество кальция) имеет числовое выражение; нет открытых
вариант.

Решение.
78
Последовательность расчетов изложена в тексте, результаты
представлены в таблице 11. Построив ряды из парных
сопоставляемых признаков, обозначить их через х (жесткость воды в
градусах) и через у (количество кальция в воде в мг/л).

Количество
Жесткость
кальция в
воды dх dу dх*dу dx2 dy2
воде
(в градусах)
(в мг/л)
4 28 -16 -114 1824 256 12996
8 56 -12 -86 1032 144 7396
11 77 -9 -66 594 81 4356
27 191 +7 +48 336 49 2304
34 241 +14 +98 1372 196 9604
37 262 +16 +120 1920 256 14400
Мх=Σ х / n = Му=Σ у / n = Σ dх*dу = Σ dх2= Σ dy2=
120/6=20 852/6=142 7078 982 51056

Определить средние величины Mx ряду вариант "х" и Му в ряду


вариант "у" по формулам: Мх = Σх/n (графа 1) и Му = Σу/n (графа 2).
Найти отклонение (dх и dу) каждой варианты от величины
вычисленной средней в ряду "x" и в ряду "у": dх= х — Мх (графа 3) и
dy = у — Му (графа4).
Найти произведение отклонений dx*dy и суммировать их: Σ dх*dу
(графа 5)
Каждое отклонение dx и dу возвести в квадрат и суммировать их
значения по ряду "х" и по ряду "у": Σ dx2= 982 (графа 6) и Σ dy2= 51056
(графа 7).
Определить произведение Σ dx2*Σ dy2 и из этого произведения
извлечь квадратный корень

Полученные величины Σ (dx x dy) и √(Σdx2 x Σdy2) подставляем в


формулу расчета коэффициента корреляции:

Вывод: установлена прямая, сильная корреляционная связь


между концентрацией кальция в воде и её жёсткостью. При p=0,056
79
эта связь статистически не значима, а при p=0,007 – статистически
значима, т.е. чем выше концентрацией кальция в воде, тем выше её
жёсткость.

80
ТЕМА 12. АНАЛИЗ ВЫЖИВАЕМОСТИ

Цензурированные данные.
Наблюдения,которые содержат неполные данные об исследуемым
явлении называется цензурированными данными [35]: например,
«пациент A был жив, по крайней мере, 4 месяца после операции,
затем он был переведён в другую клинику и контакт с ним был

потерян».

Рисунок 16. Графическое изображение данных для лучшего


понимания анализа выживаемости

На рисунке 16 показан ход исследования. Жизнь пациента


представлена горизонтальным отрезком. Левый конец отрезка — это
начало наблюдения. На правом конце отрезка — черный или белый
кружок. Черный кружок означает, что пациент умер (произошёл
исход) и, таким образом, продолжительность его жизни нам известна.
Белый кружок означает, что исследование закончилось до его смерти,
либо он куда-то уехал, т.е. выбыл из-под наблюдения. Относительно
выбывших нам известно только, что они прожили не меньше
определенного срока.
Все исследования выживаемости должны удовлетворять следующим
требованиям:
 для всех наблюдений известно время начала наблюдения

81
 для всех наблюдаемых известно время окончания наблюдения,
а также изучаемый исход (умер, выбыл, не умер)
 выбор наблюдаемых произведён случайно

Функция выживания
Функция, показывающая вероятность, того , что объект проживает
время больше t. Эту вероятность обычно называют выживаемостью
или функцией выживаемости [36].

Кривая выживаемости
Кривая выживаемости отражает вероятность пережить любой из
моментов врмени t после некоторого начального события С
помощью этой кривой можно изучать продолжительность жизни,
эффективность лечения заболевания ( в данном случае исход - это
ремиссия).

Рисунок 17. Кривая выживаемость

82
В начальной момент выживаемость равна 1(все субъекты живы и
находятся под наблюдением),затем кривая постепенно понижается и
приближается к 0.
Время ,до которого доживает половина совокупности, называется
медианой выживаемости. Для этого необходимо найти точку ,в
которой кривая выживаемости опускается ниже 0.5
Моментальный метод
S (t )  П (1  dti / nti )
• Для учета смертности в данный момент, используют
моментальный метод. который вычисляется по формуле;
• Где - dti число умерших в момент ti
• nti - число наблюдавших к моменту ti
• П - момент времени, когда произошла хотябы одна смерть

Сравнение кривых выживаемости


Среди непараметрических методов для сравнения кривых
выживаемости, построенных моментальным методом, наиболее
известны логранговый критерий и критерий Гехана они применимы,
если число наблюдений в каждой группе не менее 10
Логранговый критерий
Логранговый метод предполагает что функция выживаемости
связаны с соотношением S2 (t)= S1(t)4, это условия выполняются
,если на графике они паралельны, если они пересекаются то это
условие нарушается
Стандартная ошибка выживаемости
dti
s (t )  s (t ). 
nti (nti  dti )

Доверительный интервал
s(t )  z .s(t )

• Доверительный интервал для каждого момента t задается


соотношением
• Z=1.96 критическое значение для стандартного нормального
распределения
83
Анализ,выживаемости
Для изучения в медицине эффективности нового метода
используют методы,которые определяют долю
“выживщих”пациентов,которые выжили в течении всего периода
наблюдения,а также пациенты,контакт с которыми был потерян до
завершения эксперимента

Методы анализа выживаемости


Параметрические и непараметрические методы:
-аналитический метод,
-корреляционный метод

Особенности методов анализа выживаемости


Особенностью методов анализа выживаемости является в том,что
они применяются к цензурированным или как говорят,неполным
данным
Анализ таблиц времен жизни [37].
Наиболее простым способом описания выживаемости является
построение Таблиц времен жизни. Такую таблицу можно
рассматривать как “расширенную” таблицу частот
Структура таблицы времени жизни
Область возможных времен наступления критеческих событий
(смерти отказов ) разбивается на некоторое количество интервалов
.Для каждого интервала вычисляется число и долю “живых” число и
долю “умерших” число и долю цензурированых
Дополнительные показатели для таблицы времени жизни
-Число изучаемых объектов - Это число объектов, которые были
"живы" в начале рассматриваемого временного интервала, минус
половина числа изъятых или цензурированных объектов
-Долю умерших - Это отношение числа объектов, умерших в
соответствующем интервале, к числу объектов, изучаемых на этом
интервале.
-Долю выживших - Это доля равна единице минус доля умерших.
-Кумулятивная доля выживших (функция выживания) - Это
кумулятивная доля выживших к началу соответствующего
временного интервала. Поскольку вероятности выживания считаются
независимыми на разных интервалах, эта доля равна произведению
долей выживших объектов по всем предыдущим интервалам.
Полученная доля как функция от времени
84
называется,также выживаемостью или функцией
выживания [точнее, это оценка функции выживания].
-Плотность вероятности - Это оценка вероятности отказа в
соответствующем интервале, определяемая таким образом::
Fi = (Pi-Pi+1) /hi
где Fi - оценка вероятности отказа в i-ом интервале, Pi - кумулятивная
доля выживших объектов (функция выживания) к началу i-го интервала, hi -
ширина i-ого интервала.

-Функция интенсивности - Функция интенсивности (этот термин


был впервые использован в работе Barlow, 1963) определяется как
вероятность того, что объект, выживший к началу соответствующего
интервала, откажет или умрет в течение этого интервала. Оценка
функции интенсивности вычисляется как число отказов,
приходящихся на единицу времени соответствующего интервала,
деленное на среднее число объектов, доживших до момента времени,
находящегося в середине интервала.
-Медиана ожидаемого времени жизни -Это точка на временной
оси, в которой кумулятивная функция выживания равна 0.5. Отмети,
что 50-процентиль (медиана) кумулятивной функции выживаемости
обычно не совпадает с точкой выживания 50% выборочных
наблюдений. (Совпадение происходит только когда за прошедшее к
этому моменту время не было цензурированных наблюдений).
-Объем выборки- Чтобы получить надежные оценки трех
основных функций (функции выживания, плотности вероятности и
функции интенсивности) и их стандартных ошибок на каждом
временном интервале, рекомендуется использовать не менее 30
наблюдений.
ЗАДАЧА-ЭТАЛОН
Проводилось исследование на эффективность оперативного
лечения направленное на устранение аневризмы проводилось 15лет
t, дни 1 2 5 10 15
S(t) 0,02 2,8

На первом этапе кумулятивная эфективность была 0,02


1. Определите кумулятивную эффективность
2. Постройте график
85
ТЕСТОВЫЕ ЗАДАНИЯ

1. Какие признаки относятся к дихотомическим?


A. Переменные, которые могут быть отнесены к
противоположным категориям либо принимать одно из двух
заданных значений
B. Переменные, которые могут принимать любое из заданных
значений вариационного ряда;
C. Переменные, с которыми можно проводить арифметические
действия;
D. Переменные, которые нельзя расположить в логическом
порядке;
E. Переменные, которые можно расположить в логическом
порядке.

2. На рисунке изображены кривые трех количественных


переменных. Какой параметр у них различается?

A. Коэффициент асимметрии
B. Коэффициент эксцесса
C. Дисперсия
D. Средняя
E. Стандартное отклонение

3. Какие из данных являются количественными признаками?


A. Численность населения, масса тела;
B. Национальность, вид деятельности;
C. Качество жизни, квалификация рабочих;
D. Температура тела, социальный статус;
E. Цвет глаз, цвет волос.

4. Средний рост у студентов равен 163 см, δ=2. Укажите,


какова вероятность встретить студента с ростом от 159 до 167 см.
A. 5%
86
B. 2,5%
C. 67%
D. 1%
E. 95%

5. В выборочной совокупности: русских – 150, татар – 50,


немцев – 10, армянин – 1, грузин – 1. Какой тип переменных
используется в данном случае?
A. Качественная номинальная
B. Качественная ординальная
C. Дихотомическая
D. Количественная непрерывная
E. Количественная неопределенная

6. Определите, что должно стать единицей наблюдения при


изучении возрастной, половой структуры больных инфарктом
миокарда среди лиц умственного и физического труда?
A. Больной инфарктом миокарда
B. Больной инфарктом миокарда трудоспособного возраста
C. Работающий человек
D. Взрослый человек
E. Ребенок

7. Охарактеризуйте график
некой переменной

A. Асимметричный эксцесс
B. Асимметрия положительная
C. Асимметрия отрицательная
D. Асимметрия нулевая
E. Слабая асимметрия

8. Укажите единицу наблюдения при изучении заболеваемости


инфарктом миокарда среди лиц умственного и физического труда:
A. Больной человек
B. Больной инфарктом миокарда
C. Работающий человек
D. Ребенок
E. Взрослый человек
87
9. Дан дискретный ряд некой переменной Х1. Чему равен объём
выборки.

Х1 1 2 3 4
m 20 15 10 5

A. 20
B. 25
C. 50
D. 10
E. 5

10. На графике представлено распределение общего объема


аккомодации у студентов первого курса. Чему равна мода?

A. 2,5
B. 7,25
C. 10
D. 5
E. 8
88
11. Какое математическое выражение верно для графика вопроса
10?

А. М>Ме>Мо
В. М<Ме<Мо
С. Ме≥М>Мо
D. М=Ме=Мо
Е. М≠Ме≠Мо

12. Дан ряд школьных оценок в произвольном порядке. Чему


равна медиана?
44 2 5 3 3 55 4 2 4 3 4 5 4 5 5 343

A. 2
B. 3
C. 4
D. 5
E. 3,5

13. Вариационный ряд состоит из вариант – числовых значений


признаков, которые изучаются. Определить второй составной
элемент вариационного ряда.
А. Совокупность качественных признаков
В. Амплитуда ряда
С. Частота, с которой встречается каждая варианта
D. Отклонения каждой варианты от средней арифметической
величины
Е. Среднее квадратичное отклонение

89
14. Охарактеризуйте распределение переменной BMI (индекс
массы тела) с помощью Q-Q диаграммы

A. Правостороннее
B. Нормальное распределение
C. Левостороннее
D. Асимметрия отрицательна
E. Нельзя предположить

15. При исследовании частоты пульса в покое у студентов


получены следующие результаты: пульс 62 уд/мин - у 9 студентов, 70
уд/мин – у 3 студентов, 74 уд/мин. – у одного студента, 80 уд/мин. – у
7 студентов. Определите верхний квартиль?
А. 70
В.62
С. 80
D.74
Е. 7
16. Если отношение шансов превышает 1 и его значении 95%
доверительного интервала не пересекает 1, тогда…
A. шансы обнаружить фактор риска больше во второй группе.
Т.е. фактор имеет обратную связь с вероятностью наступления
исхода или это «фактор защиты»

90
B. шансы обнаружить фактор риска больше во второй группе.
Т.е. фактор имеет обратную связь с вероятностью наступления
исхода или это «фактор агрессии»
C. шансы обнаружить фактор риска в сравниваемых группах
одинакова. Соответственно, фактор не оказывает никакого
воздействия на вероятность исхода.
D. шансы обнаружить фактор риска больше в группе с
наличием исхода. Т.е. фактор имеет прямую связь с вероятностью
наступления исхода или это «фактор агрессии».
E. шансы обнаружить фактор риска больше в группе с
наличием исхода. Т.е. фактор имеет прямую связь с вероятностью
наступления исхода или это «фактор защиты».

17. Какай можно сделать вывод, если доверительный интервал


включает 1, т.е. его верхняя граница больше 1, а нижняя - меньше 1
A. вывод об отсутствии статистической значимости связи
между фактором и исходом при уровне значимости p>0,05
B. нет подтвержденных данных о взаимосвязи фактора и
исхода
C. вывод об отсутствии статистической значимости связи
между фактором и исходом при уровне значимости p<0,05
D. вывод о статистической значимости выявленной связи
между фактором и исходом при уровне значимости p>0,05
E. величина доверительного интервала обратно
пропорциональна уровню значимости связи фактора и исхода

18. Для каких исследований рассчитывается отношение


шансов
A. РКИ
B. Поперечных исследований
C. Когортных
D. Случай - контроль
E. Для всех выше перечисленных

19. Предположим, что в выборке из 300 парней


170 употребляли алкоголь в предыдущую неделю, а в выборке из 300
девушек только 35 употребляли алкоголь в тот же период

91
Употребляли алкоголь Не употребляли алкоголь Всего
Парни 170 130 300
Девушки 35 265 300
Всего 205 395 600

Рассчитайте отношение шансов и сделайте вывод


A. OR= 9,9 показывает, что парни склонны в 9,9 раза чаще
употреблять алкоголь, чем девушки
B. OR= 7 показывает, что девушки склонны в 7 раз чаще
употреблять алкоголь, чем парни
C. OR= 9,9 показывает, что исследуемый фактор не влияет на
вероятность исхода
D. OR= 9,9 показывает, что парни склонны в 9,9 раза реже
употреблять алкоголь, чем девушки
E. OR= 7 показывает, что девушки склонны в 7 раз чаще
употреблять алкоголь, чем парни

20. При анализе соотношения ожидаемых и наблюдаемых


частот для независимых выборок было получено, что критерий хи-
квадрат больше критического его значения. Какой вывод можно
сделать относительно нулевой гипотезы?
A. нулевая гипотеза принимается
B. нулевая гипотеза отвергается
C. хи-квадрат не может быть использован для данной задачи
D. недостаточно данных для формулировки выводов
E. нулевая гипотеза не может быть ни принята, ни отвергнута

21. При изучении организации помощи больным ревматизмом


были проанализированы сроки постановки пациентам поликлиники
№1, где прием больных вел специалист в кардиоревматологическом
кабинете и поликлиники № 2, где специализированного кабинета не
было, и прием вел терапевт.

92
Наличие Срок Ожидаемые Срок Ожидаемые всего
кабинета в постановки частоты постановки частоты
поликлинике диагноза диагноза
менее 15 более 15
дней дней
Есть кабинет 54 X 19 Z 73
Кабинета нет 7 Y 14 W 21
всего 61 33 94

Рассчитайте значение X
A. 47,4
B. 25,6
C. 13,6
D. 7,4
E. 4,4

22. (Продолжение 21-го вопроса) Значение критерия хи-


квадрат равно 11,7. Сделайте вывод, сравнив полученное значение с
критическим значением хи-квадрат.
A. нулевую гипотезу принимаем, организация
кардиоревматологических кабинетов в поликлиниках не уменьшает
сроки обследования больных ревматизмом.
B. нулевую гипотезу отвергаем, т.е. организация
кардиоревматологических кабинетов в поликлиниках позволяет
снизить сроки обследования больных ревматизмом.
C. нулевую гипотезу принимаем, организация
кардиоревматологических кабинетов в поликлиниках не влияет на
сроки обследования больных ревматизмом.
D. нулевую гипотезу отвергаем, т.е. организация
терапевтических кабинетов в поликлиниках позволяет снизить сроки
обследования больных ревматизмом.
E. нулевую гипотезу отвергаем, т.е. организация
кардиоревматологических кабинетов в поликлиниках не позволяет
снизить сроки обследования больных ревматизмом.

23. Проведено исследование о наличии взаимосвязи между 4


факторами риска и 3 исходами. Определите число степеней свободы.
A. 6
B. 7
93
C. 3
D. 5
E. 1

24. При изучении взаимосвязи между уровнем сахара и


уровнем гемоглобина в крови получена следующая картина. Какой
вид корелляции представлен на рисунке?

A. Нейтральная
B. Понижающаяся
C. Отрицательная
D. Положительная
E. Отсутствие взаимосвязи

25. Между стажем работы врачей и частотой синдрома


выгорания у них установлена прямая корреляционная связь (rху=
0,45). Оцените коэффициент корреляции.
A. Связь прямая, слабая
B. Связь обратная, средняя
C. Связь обратная, слабая
D. Связь прямая, средняя
E. Связь прямая, сильная

26. В исследовании заболеваемости среди студентов гастритом


получена следующая таблица условных вероятностей

Гастрит есть Гастрит отсутствует Всего


Пьют газировки 75 125 100
Не пьют газировки 33 167 100

Рассчитайте, чему равен относительный риск RR


A. 5,06
B. 2,22
C. 4,76
D. 2,27
E. 3,78

94
27. Имеются ежемесячные данные наблюдений за температурой
окружающей среды и посещаемостью парков. Корреляция между
температурой окружающей среды и посещаемостью парка rху=0,97.
Что означает данный коэффициент корреляции?
A. В теплую погоду парки посещаются больше, так как
коэффициент корреляции показывает, что связь обратная, сильная.
B. В холодную погоду парки посещаются меньше, так как
коэффициент корреляции показывает, что связь обратная, слабая.
C. В теплую погоду посещаемость парка намного выше, так
как коэффициент корреляции показывает, что связь прямая, сильная.
D. В холодную погоду парки посещаются меньше, так как
коэффициент корреляции показывает, что связь обратная, средняя.
Е. Взаимосвязи между температурой окружающей среды и
посещаемостью парка нет, так как коэффициент корреляции
показывает, что любая связь между этими явлениями случайна

28. Было проведено исследование нового препарата


кумулятивного действия, направленного на устранение приступов
бронхиальной астмы до 2 раз в неделю. Какой вывод можно сделать
из данного графика (время – в днях приема препарата)?

A. Низкое действие препарата


на устранение приступов БА
B. Высокое действие препарата
на устранение приступа БА
C. Действие препарата не может
быть точным
D. Препарат никак не влияет на
приступы
E. Приступы значительно
увеличиваются

29. Исследуется эффективность некоторого операционного


подхода на основе кривой выживаемости. Что можно при этом
считать конечной точкой?
A. выздоровление пациентов
B. изменение некоторого признака заболевания
C. сокращение сроков лечения

95
D. уменьшение количества коек этого профиля больных в
больнице
E. количество использованных доз препарата

30. По графику определите какой метод эффективнее при


лечении опухоли на 1 ст (на 6 мес )?

A. ЛТ
B. ЛТ+хирургия
C. Только
хирургия
D. Нельзя сказать
однозначно
E. Разницы нет

96
Эталон ответов

1-А 11-D 21-A


2-D 12-C 22-B
3-A 13-C 23-A
4-E 14-B 24-E
5-A 15-C 25-D
6-8 16-D 26-D
7-B 17-A 27-C
8-C 18-D 28-B
9-C 19-A 29-A
10-E 20-B 30-D

97
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

Тема 1.
1. http://bono-esse.ru/blizzard/Medstat/Statan/stat_org.html
2. Описательная статистика: учебно-методическое пособие для
студентов всех факультетов медицинских вузов, аспирантов,
магистрантов, соискателей и преподавателей / Ж. А. Чубуков, Т. С.
Угольник. — Гомель: учреждение образования «Гомельский
государственный медицинский университет», 2012. - 28 с.
3. Рубан А.И., Кузнецов А.В. Учебно-методическое обеспечение
самостоятельной работы студентов по курсу «Методы обработки
экспериментальных данных» / Красноярск, 2008 г. http://ikit.edu.sfu-
kras.ru/files/17/sam/sam.pdf
4. Трущелев С.А. Общие вопросы методологии статистического
анализа: типы данных и алгоритм подбора методов // Российский
психиатрический журнал. - 2014. - №1. - с. 68-73.
5. Прикладная математика. Справочник математических формул.
Электронный ресурс. http://www.pm298.ru/shkala3.php (доступен
15.01.2015г.)
Тема 2.
6. Виды распределения. Электронный ресурс.
http://studopedia.info/5-81481.html (доступен 14.01.2015 г.)
7. http://medstatistic.ru/theory/var_series.html
8. http://www.grandars.ru/student/statistika/ryady-raspredeleniya.html
Тема 3.
9. Эпидемиологический словарь. Под редакцией Джано М. Ласта.
– Москва, 2009, - 316с.
http://www.biometrica.tomsk.ru/lib/books/epid_dict.pdf
10. Пилипенко А.И. Эконометрика: Учебно-методический
комплекс. - М.: РУДН, 2009. - с.82
Тема 4.
11. http://www.grandars.ru/student/statistika/gruppirovka-
statisticheskih-dannyh.html
12. http://univer-nn.ru/zadachi-po-statistike-primeri/gruppirovka-
formula-sterdzhessa/
Тема 5.
13. http://wikien.xyz/obrazovanie/nauka/59283-primery-gipotez-
primery-nauchnyh-gipotez.html
14. http://lib.znate.ru/docs/index-95958.html
98
15. http://profitraders.com/Math/StatHypoTest.html
Тема 6.
16. Рубанов Д.Н., Лепихина З.П. Параметры статистического
распределения. - Томск, 2015. - с.15
17. http://medstatistica.com/articles0110101.html
18. Kolmogoroff A.N. Sulla determinazione empirica di una legge
di distribuzione // Giornale dell` Istituto Italiano degly Attuari. -
1933. - Vol. 4. - № 1. - P. 83-91.
19. Lilliefors H.W. On the Kolmogorov-Smirnov test for normality
with mean and variance unknown // J. Am. Statist. Assoc. - 1967. -
V.62. - P. 399-402.
20. Shapiro S. S., Wilk M. B. An analysis of variance test for
normality. // Biometrika. – 1965. – Vol.52. - №3. - p. 591-611.
21. http://statistica.ru/theory/normalnoe-raspredelenie/
Тема 7
22. Электронный ресурс. http://medstatistic.ru/theory/t_cryteria.html
(доступен 10.01.2015 г.)
23. Лобоцкая Н.Л. и др. Высшая математика: учебник для вузов /
Н.Л. Лобоцкая, Ю.В. Морозов, А.А.Дунаев. - Мн.:
Выш.шк.,1987. - 319 с.
Тема 8
24. Маркун Т.А. Дисперсионный анализ. Электронный ресурс:
http://bono-esse.ru/blizzard/Medstat/Statan/stat_da.html (доступен
10.01.2015 г.)
25. Lisa M. Sullivan. Essentials of Biostatistics in Public health.
Second edition. - 2012. - 313 p.
Тема 9
26. Электронный ресурс. http://medstatistic.ru/theory/odds_ratio.html
(доступен 10.01.2015 г.)
27. Cornfield, J. A Method for Estimating Comparative Rates from
Clinical Data. Applications to Cancer of the Lung, Breast, and
Cervix // Journal of the National Cancer Institute. - 1951. - N.11. -
P.1269–1275.
28. Мильчаков К. Представление результатов исследования типа
«случай-контроль». Электронный ресурс https://lit-review.ru/wp-
content/uploads/2014/01/odds_risks.pdf (доступен 21.01.2015 г.)
Тема 10
29. Электронный ресурс. http://medstatistic.ru/theory/hi_kvadrat.html
(доступен 10.01.2015 г.)
99
30. Электронный ресурс.
http://psychologylib.ru/books/item/f00/s00/z0000053/st074.shtml
(доступен 10.01.2015 г.)
Тема 11
31. Кучеренко В.З. Применение методов статистического анализа
для изучения общественного здоровья и здравоохранения.
Учебное пособие для ВУЗов. - 4 изд., перераб и доп. - М.,
Геотар-Медиа, 2007. - 256 с.
32. Электронный ресурс. http://bono-
esse.ru/blizzard/Medstat/Statan/stat_ka.html (доступен 10.01.2015
г.)
33. Корреляционный анализ. Использование MS Excel для расчета
коэффициента корреляции. - Уч. мет. пособие, Казань, 2011. –
18 с. Доступно на http://medstatistic.ru/articles/correlacia.pdf
(12.12.2014 г.)
34. Галанина О. Коэффициент корреляции Пирсона. Пример. –
электронный ресурс https://www.youtube.com/watch?v=a_qpWdy-
Gxo (доступен 15.12.2014 г.)
Тема 12
35. Электронный ресурс.
http://statistica.ru/glossary/general/tsenzurirovannye-dannye-
nepolnye-dannye/ (доступен 10.01.2015 г.)
36. Румянцев П.О., Саенко В.А., Румянцева У.В., Чекин С.Ю.
Статистические методы анализа в клинической практике. –
Электронный ресурс
https://www.kantiana.ru/medicinal/help/StatMethodsInClinics.pdf
(доступен 10.01.2015 г.).
37. Анализ выживаемости. Электронный ресурс.
http://statsoft.ru/home/textbook/modules/stsurvan.html (доступен
10.01.2015 г.).

100
Учебно-методическое пособие
Биостатистика для медицинского ВУЗа
Мысаев Аян Оралханович

Подписано в печать (дата рассмотрения на УМС 26.03.2015 г.)


Формат 60х84 1/16
Бумага офсетная
Объем 6,4 печатных листа
Тираж 100 экз.

Отпечатано в ГМУ г.Семей, ул.Абая, 103

101

Вам также может понравиться