Вы находитесь на странице: 1из 99

МИНИСТЕРСТВО ЗДРАВООХРАНЕНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ


ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«КИРОВСКИЙ ГОСУДАРСТВЕННЫЙ МЕДИЦИНСКИЙ УНИВЕРСИТЕТ»
МИНИСТЕРСТВА ЗДРАВООХРАНЕНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

Кафедра общественного здоровья и здравоохранения


с курсом экономики и управления

Методы статистического
анализа в медицине
Учебно-методическое пособие для студентов медицинских вузов

2-е издание, переработанное и дополненное

Киров
2020
Методы статистического анализа в медицине

УДК 614.1(075.8)
ББК 51.1(2)
М42

Рекомендовано Центральным методическим советом Федерального госу-


дарственного бюджетного образовательного учреждения высшего образования
«Кировский государственный медицинский университет» Министерства здра-
воохранения Российской Федерации в качестве учебного пособия для студен-
тов, обучающихся по специальностям 31.05.02 Педиатрия; 31.05.01 Лечебное
дело; 31.05.03 Стоматология (протокол от 21.05.2020 № 6).

Рецензент:
Заведующий кафедрой общественного здоровья и здравоохранения № 1
ФГБОУ ВО «Оренбургский государственный медицинский университет»
Минздрава России доктор медицинских наук, профессор Е.Л. Борщук.

Петров, С. Б., Петров, Б. А., Симкин, Д. С.


М42 Методы статистического анализа в медицине: Учебно-методическое
пособие для студентов медицинских вузов (2-е издание, переработан-
ное и дополненное) / сост. С.Б. Петров, Б.А. Петров, Д.С. Симкин. –
Киров: ФГБОУ ВО Кировский ГМУ Минздрава России, 2020. – 99 c.

Учебно-методическое пособие содержит компетентностно-


ориентированные методические указания для подготовки и проведения практи-
ческих занятий, предназначенные для изучения учебных дисциплин «Обще-
ственное здоровье и здравоохранение, экономика здравоохранения», «Обще-
ственное здоровье и здравоохранение» по специальностям 31.05.02 Педиатрия,
31.05.01 Лечебное дело, 31.05.03 Стоматология.

УДК 614.1(075.8)
ББК 51.1(2)
М42

© Петров, С. Б., Петров, Б. А.,


Симкин, Д. С., 2020
© ФГБОУ ВО Кировский ГМУ
Минздрава России, 2020
2
Методы статистического анализа в медицине
ОГЛАВЛЕНИЕ

Раздел 1. Введение. Определение статистики. Разделы медицинской стати- 5


стики, задачи
Раздел 2. Основные понятия в статистике 7
2.1. Статистическая совокупность 7
2.2. Единица наблюдения и учетные признаки 7
2.3. Виды статистической совокупности 8
2.4. Понятие о репрезентативности 9
2.4.1. Способы формирования выборочной совокупности 9
2.4.2. Необходимая численность выборки 10
Раздел 3. Организация статистического исследования 12
3.1. I этап 12
3.1.1. Цель и задачи исследования 12
3.1.2. Программа сбора материала 12
3.1.3. Программа разработки полученных данных 13
3.1.3.1. Виды статистических таблиц 13
3.1.3.2. Виды статистического наблюдения 15
3.2. II этап 16
3.3. III этап 16
3.4. IV этап 16
3.4.1. Виды графических изображений 16
3.5. V этап 20
3.6. Контрольные вопросы к разделам 1, 2, 3 21
Раздел 4. Относительные величины 22
4.1. Экстенсивные показатели 23
4.2. Интенсивные показатели 24
4.3. Показатели соотношения 25
4.4. Показатели наглядности 25
4.5. Динамические ряды 27
4.5.1. Типы динамических рядов 28
4.5.2. Выравнивание уровней динамических рядов 28
4.5.2.1. Укрупнение интервалов 28
4.5.2.2. Вычисление групповой средней 29
4.5.2.3. Расчет скользящей средней 29
4.5.3. Показатели динамического ряда 30
4.6. Задача-эталон 32
4.7. Контрольные вопросы 34
4.8. Задачи для самостоятельного решения 34
Раздел 5. Средние величины 37
5.1. Вариационный ряд и методика его составления 37
5.2. Виды средних величин, методика их вычисления 41
5.3.Методы оценки разнообразия признака в статистической сово- 45
купности
5.3.1. Критерии, характеризующие границы совокупности (лимит, 46
амплитуда)
3
Методы статистического анализа в медицине
5.3.2. Критерии, характеризующие внутреннюю структуру сово- 46
купности
5.3.2.1. Расчет среднеквадратического отклонения 46
5.3.2.2. Расчет коэффициента вариации 50
5.4. Контрольные вопросы 51
5.5. Задачи для самостоятельного решения 51
Раздел 6. Статистическая оценка достоверности результатов. 53
6.1. Определение ошибки репрезентативности 54
6.2. Определение доверительных границ генеральной совокупности 56
6.3. Оценка достоверности разности результатов исследования 59
6.4 Оценка достоверности различия сравниваемых групп по крите- 61
рию соответствия (хи-квадрат)
6.5. Типичные ошибки, допускаемые при применении методов 65
оценки достоверности результатов исследования
6.6. Задачи-эталоны 66
6.7. Контрольные вопросы 67
6.8. Задачи для самостоятельного решения 67
Раздел 7. Дисперсионный анализ 69
Раздел 8. Методы стандартизации 72
8.1. Прямой метод стандартизации 72
8.2. Косвенный метод стандартизации 78
8.3. Обратный метод стандартизации 79
8.4. Контрольные вопросы 81
8.5. Задачи для самостоятельного решения 82
Раздел 9. Корреляционный анализ 83
9.1. Вычисление корреляционной зависимости методом квадратов 85
9.2. Вычисление корреляционной зависимости методом рангов 87
9.3. Контрольные вопросы 89
9.4. Задачи для самостоятельного решения 90
Раздел 10. Регрессионный анализ 92
Заключение 97
Список рекомендуемой литературы 98

4
Методы статистического анализа в медицине
Раздел 1
Введение. Определение статистики. Виды медицинской статистики

Слово «статистика» происходит от латинского слова «status» – состояние,


положение. Впервые это слово при описании состояния государства в середине
XVIII века применил немецкий ученый Ахенваль. Как наука статистика воз-
никла в Англии в XVIII веке в трудах «политических арифметиков». В настоя-
щее время слово «статистика» употребляется в трех значениях.
 Первое значение: статистика – это общественная наука, которая изучает
количественную сторону общественных, массовых явлений в неразрыв-
ной связи с их качественной стороной.
 Второе значение: статистика – это сбор цифровых, статистических дан-
ных, характеризующих то или другое общественное явление или про-
цесс (статистическая технология).
 Третье значение: статистика – это сами цифры, характеризующие эти
явления и процессы.
Таким образом, «статистические данные», или «данные статистики» –
цифры, которые характеризуют количественные аспекты массовых явлений,
процессов, состояний. Как наука статистика включает в себя общую теорию
статистики, статистику народного хозяйства и различные отраслевые статисти-
ки. Как каждая наука, статистика имеет свой предмет исследования – массовые
явления и процессы общественной жизни, свои методы исследования – стати-
стические, математические, разрабатывает системы и подсистемы показателей,
в которых отражаются размеры и качественные соотношения общественных
явлений.
Статистика изучает количественные уровни и соотношения общественной
жизни в неразрывной связи с их качественной стороной.
Статистика имеет и свои собственные методы. Это методы массового
наблюдения, группировок, таблиц и графиков. Главная задача статистики, как и
всякой другой науки, заключается в установлении закономерностей изучаемых
явлений.
Статистические методы широко применяют в различных областях знаний:
в математике, физике, астрономии, биологии, медицине и т.д.
Статистика — наука, изучающая количественную сторону массовых яв-
лений в неразрывной связи с их качественной стороной. В зависимости от того,
какую сторону явлений жизни изучает данная отрасль статистики, она получает
специальное название. Так, существует промышленная, сельскохозяйственная,
коммунальная, судебная статистика и другие.
Медицинская статистика рассматривает человека как социально обу-
словленное существо, занимается изучением не только показателей здоровья,
но и факторов, его определяющих.

5
Методы статистического анализа в медицине
Статистический метод позволяет:
 познать действительность, выявить закономерности, установить связь
между явлениями;
 дать объективную оценку существующего положения;
 составить прогноз, предвидеть развитие здравоохранения и показателей
здоровья людей;
Медицинская статистика делится на два основных раздела:
1. статистика здоровья населения;
2. статистика здравоохранения.

Статистика здоровья населения изучает:


 санитарное состояние населения, т.е. здоровье населения с помощью по-
казателей: заболеваемость и травматизм, инвалидность, физическое раз-
витие, естественное движение населения (рождаемость, смертность,
естественный прирост населения, средняя продолжительность предсто-
ящей жизни, брачность и др.);
 причины, которые приводят к отклонениям в состоянии здоровья людей
(санитарная этиология);
 необходимость проведения лечебно-профилактических и социально-
оздоровительных мероприятий;
 санитарное состояние населения — это комплексная характеристика
здоровья.

Статистика здравоохранения изучает:


 сеть медицинских учреждений: их достаточность, профилизацию по от-
дельным специальностям, качество работы;
 кадры медицинских работников, качество их деятельности;
 вопросы планирования, финансирования и экономики здравоохранения.
В медицине статистические приемы используют при клинико-гигиеничес-
ком нормировании факторов производственной среды, оценке эффективности
примененных методов профилактики или лечения тех или иных заболеваний,
при расчете доз лекарственных препаратов, определении стандартов физиче-
ского развития и т. д. Статистический анализ позволяет обосновать ту или
иную тактику врача в предупреждении или лечении заболеваний.

6
Методы статистического анализа в медицине

Раздел 2
Основные понятия в статистике

2.1 Статистическая совокупность

Статистической совокупностью называют группу, состоящую из мно-


жества относительно однородных элементов, взятых вместе в известных грани-
цах времени и пространства. Статистическая совокупность — это объект
наблюдения. Статистическая совокупность состоит из отдельных единиц
наблюдения.

2.2 Единица наблюдения и учетные признаки

Единица наблюдения — каждый первичный элемент, составляющий ста-


тистическую совокупность.
Например, перед нами поставлена задача — изучить исходы лечения боль-
ных с гипертонической болезнью за год. За единицу наблюдения будет взят
больной гипертонической болезнью, прошедший курс лечения в этом году.
Каждая единица наблюдения имеет много признаков, однако учитываются
только те из них, которые необходимы для достижения поставленной цели и
решения конкретных задач исследования.
Учетные признаки – признаки, подлежащие регистрации в ходе статисти-
ческого исследования (рис. 1).

Учетные признаки

атрибутивные количественные
(описательные) (выражены числом)
пол, профессия, нозологические рост, масса тела, число дней ле-
формы, исходы лечения, вредные чения, количество гемоглобина,
привычки, место жительства и т.д. количество белка в моче и т.д.

факторные результативные факторные результативные


методы исход заболевания возраст рост, масса тела,
профилак- (выздоровление количество белка
тики лече- инвалидность, в моче и т.д.
ния, про- смерть)
фессия и
т.д.

Рис. 1. Классификация учетных признаков

7
Методы статистического анализа в медицине
Атрибутивные (качественные) учетные признаки выражены словесно
(имеют описательный характер). К атрибутивным признакам относятся пол,
профессии, нозологические формы, исходы лечения, место жительства и др.
Количественные учетные признаки выражены числом. К количественным
признакам относят рост, массу тела, число дней лечения, количество белка в
крови, количество гемоглобина и др.
Врачом должно быть выявлено влияние отдельных признаков на изучае-
мое явление, поэтому по роли признаков в совокупности различают факторные
и результативные.
Факторные признаки — признаки, под влиянием которых изменяются
другие, зависящие от них результативные признаки.
Результативные признаки — признаки, зависящие от факторных.
Приняты определенные обозначения этих признаков:
Х — факторный признак;
У — результативный признак;
 - сумма.
В зависимости от полноты охвата факторных и результативных признаков
можно выделить четыре типа исследований:
1 тип — изучение влияния одного фактора на один результативный пока-
затель (например, влияние курения на развитие рака легких)
X→У

2 тип — изучение влияния комплекса факторов на один результативный


показатель (например, влияние социально-гигиенических факторов на развитие
рака легких)
X→У

3 тип — изучение влияния одного фактора на комплекс результативных


показателей (например, влияние курения на здоровье населения)
X →У

4 тип — изучение влияния комплексных факторов на комплекс результа-


тивных показателей (например, влияние социально-гигиенических факторов на
здоровье населения)
 X → У

2.3 Виды статистической совокупности

Статистическая совокупность может быть генеральной и выборочной.


 Генеральная совокупность — состоит из всех единиц наблюдения, ко-
торые могут быть к ней отнесены в зависимости от цели исследования.
 Выборочная совокупность — часть генеральной совокупности, ото-
бранная специальным методом.

8
Методы статистического анализа в медицине
Она должна отвечать определенным требованиям: взятая для исследования
часть должна быть репрезентативной всей генеральной совокупности, всему
изучаемому явлению.

2.4 Понятие о репрезентативности

Репрезентативность выборочной совокупности — количественная и ка-


чественная представительность (типичность) всех составляющих ее признаков
по отношению к признакам генеральной совокупности.
Для обеспечения репрезентативности выборочной совокупности к ней
предъявляют два основных требования:
 она должна обладать характерными чертами генеральной совокупности
 взятая часть должна быть минимально достаточной по объему
Репрезентативность выборки зависит от способа формирования выбороч-
ной совокупности, т. е. от способа отбора единиц наблюдения.

2.4.1 Способы формирования выборочной совокупности


Выборки подразделяются в зависимости от правил формирования на:
 случайную;
 механическую;
 типическую;
 серийную;
 комбинированную.

Случайная выборка формируется путем отбора единиц наблюдения наугад


(по начальной букве фамилии, дню рождения и т. д.)
Механическая выборка формируется с помощью механического (ариф-
метического) подхода к отбору единиц наблюдения. Например, из всей сово-
купности берется для изучения каждая 5-ая или 10-ая единица наблюдения.
Типическая (или типологическая) выборка — это выборка, при формиро-
вании которой генеральная совокупность предварительно разбивается на типы
с последующим отбором единиц наблюдения из каждой типической группы.
Так, например, предварительно можно разделить исследуемую группу по воз-
расту, полу, профессии, образованию, отобрать из нее необходимое число еди-
ниц наблюдения.
Серийная выборка формируется с помощью отбора не отдельных единиц
наблюдения, а целых групп, серий или гнезд. Отбор серий осуществляется с
помощью случайной или механической выборки.
Комбинированная выборка предполагает использование нескольких спо-
собов выборки.

9
Методы статистического анализа в медицине
2.4.2 Необходимая численность выборки

После того как определен способ отбора единиц наблюдения для выбороч-
ной совокупности, определяют объем выборки, т.е. число единиц в выборке,
которое обеспечит достоверность и надежность результатов.
Непременным условием обоснованного расчета необходимого числа
наблюдений в опыте или исследовании является определение возможной
ошибки, т.е. максимально допустимого отклонения результатов выборочного
исследования от генеральных значений.
Так, например, основным показателем, характеризующим здоровье детей
изучаемых районов, выбран процент не болевших детей. По данным литерату-
ры, он равен приблизительно 10. Какую предельную ошибку можно допустить,
чтобы интервал колебания показателя был допустим для оценки? Такую ошиб-
ку примем равной ± 5%, т.е. показатель в выборке может быть 10+5% и 10–5 %
(от 5 до 15%).
Математическая статистика предлагает следующую формулу для опреде-
ления предельной ошибки показателя:
pq
t
n ,
где Δ – предельная ошибка показателя, p – величина показателя (для изу-
чаемого признака), q – (100 – p) или (1000 – p) в зависимости от того, в каких
величинах выражается показатель, n – число наблюдений, t – коэффициент,
показывающий, какова вероятность (надежность), что действительные размеры
показателя не будут выходить за границы предельной ошибки. Обычно t берет-
ся равным 2, что обеспечивает высокую достоверность будущего результата
(95% вероятность безошибочного прогноза).
Исходя их формулы предельной ошибки, можно вывести формулу необхо-
димого числа единиц наблюдения:
pq
t
n ,
отсюда
t 2 pq
n 2 .

Вычисляем:
t 2 pq 22  10  90
n 2   144 .
 52

Допуская предельную ошибку будущего показателя равной 5%, определя-


ем, что должно быть отобрано 144 ребенка в группу наблюдения. Увеличив
точность исследования, а значит, уменьшив предельную ошибку до 2%, полу-
чим:
10
Методы статистического анализа в медицине

t 2 pq 22  10  90
n 2   900 .
 22
Если известна величина генеральной совокупности для расчета необходи-
мого числа наблюдений, используют формулу бесповторного отбора:
Nt 2 pq t 2 2
n 2 или n 2
 N  t 2 pq  N  t 2 2 ,
где N – численность генеральной совокупности (т.е. весь имеющийся ма-
териал), n – необходимое число наблюдений в выборке, σ – среднее квадрати-
ческое отклонение.
Первая формула используется для показателей, вторая для средней вели-
чины.
Когда изучаются количественные признаки (физическое развитие, дли-
тельность заболевания, содержание веществ в крови, тканях, воздухе, воде и
т.д.), при расчете необходимого числа наблюдений применяют формулу пре-
дельной ошибки средней величины:
t
 ,
n
отсюда
t 2 2
n .
2
Для расчета объема выборки в этом случае следует знать вариабельность
признака (σ) из предыдущих исследований или получить ее путем проведения
пробных выборок, а также определить допустимую ошибку (Δ).
Например, основным результативным признаком должна быть жизненная
емкость легких. Из предыдущих исследований известно, что ее размеры 4000
мл при σ = 500 мл. Ошибка, которая может быть допущена, равна 100 мл, т.е.
средняя величина будет, возможно не 4000 мл, а колебаться в пределах ошибки
(±100мл), т.е. от 3900 до 4100 мл, тогда
t 2 2 22  5002
n   100
 2
100 2

Для того чтобы можно было судить о величине жизненной емкости легких
с предусмотренной ошибкой, необходимо обследовать 100 детей. Выборочный
метод наблюдения – научно обоснованный прием статистического исследова-
ния. Он позволяет достаточно точно и надежно изучать явления на основе не
всей совокупности, а лишь ее части.
Для массовых исследований, охватывающих большое число наблюдений,
предварительно рекомендуется провести пробное исследование на более огра-
ниченном материале. Пробное исследование позволяет проверить на практике
программу наблюдения, документ регистрации, выявить организационные
трудности наблюдения и тем самым будет способствовать совершенствованию
исследования.
11
Методы статистического анализа в медицине

Раздел 3
Организация статистического исследования

Социально-гигиенические исследования проводятся в несколько этапов:


I этап — Составление программы и плана статистического исследования.
II этап — Организация и проведение сбора необходимых данных, предусмот-
ренных программой исследования.
III этап — Осуществление обработки собранных данных (контроль, группиров-
ка, шифровка, вычисление статистических показателей, сводка в
статистические таблицы).
IV этап — Анализ результатов статистического исследования.
V этап — Внедрение результатов в практику и оценка эффективности.
Каждый из указанных этапов статистического исследования состоит из ря-
да компонентов, имеет свои особенности и требует тщательного выполнения,
так как любая небрежность или ошибка может исказить или осложнить выпол-
нение всей работы.
3.1 Первый этап — составление программы и плана статистического ис-
следования.
Этот этап представляет важный раздел работы, который можно правильно
осуществить только при наличии глубоких знаний по изучаемому вопросу и
четкого представления о цели исследования,
3.1.1 Цель исследования должна быть актуальной для медицинской науки
и практики здравоохранения. Цель должна быть сформулирована четко и не-
двусмысленно. В программе указывают не только цель, но и задачи исследова-
ния.
Задача исследования — это конкретизированное и уточненное определе-
ние цели.
Программа статистического исследования предусматривает решение
следующих вопросов:
1) составление программы сбора материалов;
2) составление программы разработки материала;
3) составление программы анализа собранного материала.
К составлению программы предъявляются определенные требования:
 единица наблюдения должна включать все признаки, подлежащие изу-
чению;
 программа исследования должна содержать четкую формулировку во-
просов;
 при составлении программы необходимо знание состояния изучаемой
проблемы по литературным данным.

3.1.2 Программа сбора материала представляет документ с перечнем во-


просов, на которые необходимо получить ответы при проведении данного ис-
следования, это может быть как специально составленный исследователем
12
Методы статистического анализа в медицине
опросный лист, анкета, карта, так и официальный документ (история болезни,
карта выбывшего из стационара, листок нетрудоспособности, статталон и др.)
При составлении учетного документа необходимо соблюдать следующие
правила:
 документ должен иметь четкое заглавие, в котором сформулирована
единица наблюдения;
 вопросы должны быть четкими, краткими, соответствовать цели и зада-
чам исследования;
 на каждый вопрос (если это возможно) следует предусмотреть варианты
ответов в соответствии с принятой группировкой изучаемых признаков.

3.1.3 Программа разработки полученных данных предусматривает груп-


пировку признаков и составление макетов статистических таблиц. Под группи-
ровкой понимается распределение совокупности единиц наблюдения на одно-
родные группы по одному или нескольким признакам.
Виды группировки различают в зависимости от признака, положенного в
основу классификации. Группировка, произведенная по атрибутивным (каче-
ственным) признакам называется типологической или атрибутивной, по коли-
чественному признаку — вариационной.
Учетный материал может быть сгруппирован по социально-
демографическим признакам (возраст, семейное положение), по климато-
географическим признакам (место жительства, сезон), по социально-
экономическим признакам (профессия, должность, образование), по состоянию
здоровья (группы риска, группы диспансерного наблюдения), по типам учре-
ждений (поликлиника, стационар, диспансер) и т. п.
Программа разработки материала предусматривает также и составление
макетов статистических таблиц.

3.1.3.1 Виды статистических таблиц


К статистической таблице предъявляют определенные требования, а имен-
но: таблица должна иметь четкое заглавие, которое должно полностью отра-
жать содержание таблицы; таблицы не должны быть очень громоздкими, нали-
чие итоговых данных как по горизонтали, так и по вертикали и т. д. В таблицах
различают подлежащее и сказуемое.
Статистическое подлежащее – это то, о чем говорится в таблице, это
основной признак изучаемого явления.
Статистическое сказуемое — то, что характеризует подлежащее с по-
мощью различных признаков.

13
Методы статистического анализа в медицине
1. Простая статистическая таблица – таблица, позволяющая анали-
зировать данные по сказуемому, имеющему лишь один признак (табл.
1).

Таблица 1. Число больных, признанных инвалидами, работающих


на химическом комбинате, по классам болезней в данном году
Класс болезней Количество больных
1. Болезни нервной системы
2. Злокачественные новообразования
3. Психические расстройства
4. Болезни системы кровообращения
5. Болезни органов дыхания
Итого:

2. Групповая таблица – таблица, позволяющая анализировать данные по


сказуемому, имеющему два и более признаков, не связанных между собой
(табл. 2).
Таблица 2. Распределение больных, признанных инвалидами, работающих
на химическом комбинате, по классам болезней, полу, возрасту в данном году
пол возраст

50 и
21 -29

30 -39

40 -49
Класс болезней

итого
до 20

М Ж

ст.
1. Болезни нервной системы
2. Злокачественные новообразования
3. Психические расстройства
4. Болезни системы кровообращения
5. Болезни органов дыхания
Итого:

3. Комбинационная таблица — таблица, позволяющая анализировать


данные по сказуемому, имеющему два и более признаков, связанных между со-
бой (табл. 3).
Таблица 3. Распределение больных, признанных инвалидами, работающих
на химическом комбинате, по классам болезней, полу, возрасту в этом году

возраст
50 и ст.
21 -29

30 -39

40 -49

итого
до 20

Класс болезней

М Ж М Ж М Ж М Ж М Ж
1. Болезни нервной системы
2. Злокачественные новообразования
3. Психические расстройства
4. Болезни системы кровообращения
5. Болезни органов дыхания
Итого:

14
Методы статистического анализа в медицине

Проведение социально-гигиенических исследований и получение объек-


тивных результатов в значительной степени зависит от качества организацион-
ного плана. Организационный план — документ, в котором представлены во-
просы организации и проведения статистического исследования с указанием
конкретных сроков. В организационном плане указываются этапы статистиче-
ского исследования, детали каждого этапа, сроки выполнения и условия, при
которых каждая конкретная задача может быть выполнена. В организационном
плане должны найти свое отражение такие вопросы, как обеспечение информа-
ционными материалами, финансовыми и техническими средствами, кадрами.

3.1.3.2 Виды статистического наблюдения


Важнейшее место на этапе организации исследования принадлежит выбо-
ру вида наблюдения и метода формирования статистической совокупности.
Различают два вида наблюдения:
 текущее (или постоянное);
 единовременное (или одномоментное).
Текущее наблюдение — когда регистрация проводится постоянно (напри-
мер, каждый случай рождения, смерти, обращения в лечебное учреждение и т.
д.)
Единовременное наблюдение — когда изучаемые явления фиксируются
на какой-либо определенный момент (например, перепись населения, состав
коечного фонда стационара и т. д.).
В зависимости от степени охвата объекта исследования принято различать:
 сплошное;
 несплошное статистическое исследование.
Сплошным называют такое статистическое исследование, при котором
изучаются все единицы наблюдения объекта исследования. Несплошным назы-
вают такое статистическое исследование, при котором изучается часть сово-
купности для характеристики целого.
Несплошное наблюдение бывает нескольких видов:
 монографическое;
 метод основного массива;
 выборочное исследование.
Монографический метод применяется при изучении какого-либо одного
объекта, одной какой-либо единицы.
Этот вид наблюдения широко используется при изучении передового опы-
та или, наоборот, отстающего учреждения. Метод основного массива охватыва-
ет большую часть единиц изучаемого объекта наблюдения. Он применяется при
изучении тех объектов, в которых сосредоточено большинство изучаемых яв-
лений. Этот метод иногда называют несовершенным сплошным.
Основным недостатком монографического метода и метода основного
массива является отсутствие возможности распространения полученных дан-
ных на весь объект исследования.

15
Методы статистического анализа в медицине
Из всех методов несплошного наблюдения только выборочный позволяет
распространить результаты, полученные на части единиц наблюдения, на всю
совокупность. Для этого выборочная совокупность должна быть репрезента-
тивной.

3.2 Второй этап — организация и проведение сбора необходимых данных,


предусмотренных программой исследования. На этом этапе основное внимание
должно быть уделено соблюдению правил регистрации, охвату всех включен-
ных в исследование единиц наблюдения, достоверности собираемых данных.
Нельзя нарушать порядок отбора единиц наблюдения, пропускать, исключать
отдельные случаи, подменять одни единицы наблюдения другими.

3.3 Третий этап — обработка данных.


Он включает в себя два основных подэтапа:
 группировку данных;
 статистическую сводку и обработку.
На этом этапе, прежде чем провести группировку материала, необходимо
осуществить контроль качества собранного материала с целью отбора учетных
документов, имеющих дефекты, для их последующего исправления и дополне-
ния или исключения из исследования. На этом этапе производят также, если это
необходимо, шифровку или кодирование.
После заключительного контроля качества учетных документов и шифров-
ки распределяют единицы наблюдения по однородным группам, т. е. проводят
группировку материала. Затем заполняют статистические таблицы и вычисляют
статистические показатели.

3.4 Четвертый этап — анализ результатов статистического исследования.


После обработки статистических данных, расчета различных показателей, ин-
дексов, коэффициентов переходят к анализу полученных результатов. При про-
ведении статистического анализа полученные данные сопоставляют (сравнива-
ют) с нормативами, со средними уровнями аналогичных величин, со стандар-
тами, с данными по другим учреждениям и территориям, литературным дан-
ными, в динамике. В заключении делают выводы и намечают тактические дей-
ствия.
Большое значение для анализа полученных результатов имеет использова-
ние графического изображения, так как оно позволяет представить их более
наглядно и лаконично.
3.4.1 Виды графических изображений
Основными типами графических изображений, которые можно использо-
вать в медицинской статистике, являются диаграммы: линейные (координат-
ные), столбиковые, секторные, на системе полярных координат и изобразитель-
ные (фигурные). В качестве вспомогательного средства для изображения тер-
риториальных различий и распространения изучаемого явления используются
картограммы и картодиаграммы.

16
Методы статистического анализа в медицине
Линейные диаграммы
Линейные диаграммы, или графики, строятся на прямоугольной системе
координат. В таких диаграммах на оси абсцисс (горизонтальной линии) откла-
дываются в виде равных отрезков слева направо числовые значения одного ря-
да величин (промежутки времени, возрастные периоды и т. п.), а на оси ординат
(вертикальной линии) снизу вверх — значения другого ряда. Точка пересечения
оси абсцисс и оси ординат соответствует нулевой точке обеих шкал. Из точек,
отложенных на оси абсцисс, проводятся параллельные оси ординат линии, вы-
сота которых соответствует величине изображаемого явления. Конечные точки
всех проведенных ординат соединяются ломаной линией, которая дает пред-
ставление о динамике изучаемого явления (рис. 2).
8,2
8,1
8
7,9 Рождаемость
7,8
7,7
7,6
7,5
7,4
7,3
2000 2001 2002 2003 2004
Рис. 2. Показатель рождаемости (на 1000 населения)

Примером такой диаграммы является температурный лист, по оси абсцисс


которого обозначены сроки измерения температуры, а на оси ординат — тем-
пература в градусах. Температурная кривая отражает динамику температуры у
больного. При помощи линейных диаграмм можно также изображать взаимоза-
висимость двух явлений.
В медицинской статистике при помощи линейных диаграмм целесообраз-
но изображать динамику показателей движения населения, заболеваемости, из-
менение сети медико-санитарных учреждений и т. п. Для сравнительного ис-
следования динамики нескольких однородных явлений на одной и той же диа-
грамме можно изобразить несколько линий, отличающихся друг от друга цве-
том, различной толщиной или различной формой пунктира.

17
Методы статистического анализа в медицине
Столбиковые диаграммы
Диаграммы, построенные по такому же принципу, как и линейные, но в
которых вертикально или горизонтально проводимым линиям соответствуют
прямоугольники, являются простейшим примером столбиковых диаграмм (рис.
3).

1650
1640
1630
1620 Число жителей
1610
1600 ис.

1590
1580
2000 2001 2002 жителей
Рис. 3. Число 2003 2004
(наличное, в тыс. на 1 января текущего года)
Эти диаграммы особенно удобны при изображении не динамики явлений,
а сравнительной величины их в какой-либо определенный промежуток време-
ни.

Секторные диаграммы
Секторные диаграммы могут быть круговыми или полосовыми (рис. 4).

5%
до 5 лет
20%
5-10 лет
25%

11-15 лет

50% 16 и более лет

Рис. 4. Распределение врачей по стажу работы в


ЦРБ
Секторные диаграммы круговые представляют собой круг, отдельные сек-
торы которого соответствуют частям изображаемого явления Такие круги

18
Методы статистического анализа в медицине
удобно применять для изображения распределения явления на составные части,
т. е. для графического отражения совокупности экстенсивных коэффициентов.
В круговых секторных диаграммах секторы, изображающие отдельные ча-
сти изучаемого явления, располагаются в порядке их возрастания или умень-
шения по движению часовой стрелки и покрываются красками различного цве-
та или различно заштриховываются.
При пользовании одновременно 2-3 секторными диаграммами, на которых
изображено одно и то же явление, но за различное время или у различных
групп населения, порядок чередования секторов может быть неодинаков, но
необходимо, чтобы секторы различных кругов, отображающие относительные
размеры одной и той же части явления за различные промежутки времени, име-
ли одинаковый цвет или штриховку прямоугольниками, деля их на части, соот-
ветствующие по значению частям явления.
Кругами и прямоугольниками различной величины можно также изобра-
жать сравнительную величину двух или нескольких явлений. Следует только
помнить, что площади прямоугольников при равных основаниях пропорцио-
нальны их высотам и прямоугольник, имеющий вдвое большую высоту, огра-
ничивает и вдвое большую площадь; площади кругов пропорциональны не ра-
диусам, а квадратам радиусов, и, следовательно, круг, имеющий вдвое больший
радиус, будет иметь площадь, большую не в два, а в четыре раза.

Диаграммы на системе полярных координат (радиальные)(рис. 5)


I
XII II

XI III
Уровень
X IV травматизма

IX V

VII VI
VII
Рис. 5. Сезонные колебания (по месяцам года)
уровня транспортного травматизма
в текущем году в городе N
Диаграммы, построенные на системе полярных координат, пригодны для
изображения сезонных (помесячного, подекадного, понедельного и т. п.) коле-
баний уровня заболеваемости какой-либо болезнью, размеров смертности, рож-
даемости и т. п. Для построения таких диаграмм круг делят на сектора. Длина
радиуса круга соответствует среднему уровню.
На каждом радиусе откладывают и отмечают точкой величину, соответ-
ствующую уровню заболеваемости или смертности в данном месяце. Если в
этом месяце заболеваемость или смертность была выше среднегодовой, ее от-
19
Методы статистического анализа в медицине
мечают за пределами круга на продолжении радиуса. Расположение месяцев
года на радиусах круга соответствует движению часовой стрелки (сверху
направо вниз и дальше налево вверх). Отмеченные точки соединяются ломаны-
ми линиями. Получаются характерные фигуры, наглядно изображающие сезон-
ность.

Картограммы
Картограммами называются диаграммы, в которых изображено распреде-
ление какого-либо явления по территории. Например, если нужно распределить
области Российской Федерации по величине коэффициентов рождаемости в
2004 г., то, определив коэффициенты рождаемости для каждой республики,
края и области, покрывают на карте РФ эти регионы соответствующей раскрас-
кой или штриховкой, обозначающей различные размеры коэффициентов.

Картодиаграммы
Картодиаграммы также рисуются на карте (или схеме карты). В каждой ча-
сти территории помещается диаграмма (столбиковая или секторная диаграмма),
показывающая динамику или состав изображенного на картодиаграмме явления
в различных частях данной территории.
Каждая диаграмма, к какому бы типу графических изображений она ни от-
носилась, должна иметь четкую и ясную, по возможности краткую надпись, по-
ясняющую изображение. Шкалы на диаграмме должны быть снабжены указа-
телями размеров. Числа рекомендуется надписывать на самой диаграмме или в
прилагаемой к ней таблице. Все условные обозначения должны быть объясне-
ны.

3.5 Пятый этап — внедрение результатов исследования в практику и


оценка эффективности.
Социально-гигиеническое исследование должно заканчиваться внедрением
их результатов в практику. В зависимости от целей и задач исследования воз-
можны различные варианты практического использования результатов работы.
Полученные данные могут быть использованы в докладах и лекциях, по
материалам исследования можно подготовить приказ, методические рекомен-
дации, инструкцию, положение и т. д. На основе результатов исследования мо-
жет быть проведена реорганизация деятельности медицинского учреждения,
результаты работы могут быть оформлены как рационализаторские предложе-
ния, изобретения, открытия, могут быть опубликованы в печати.
Внедрение результатов исследования в практику здравоохранения является
нередко трудным и многоэтапным процессом.

20
Методы статистического анализа в медицине
3.6 Контрольные вопросы к разделам 1, 2, 3
1. Определение статистики.
2. Медицинская статистика, еѐ разделы и задачи.
3. Понятие статистической совокупности.
4. Понятие единицы наблюдения.
5. Генеральная и выборочная совокупность, ее свойства.
6. Учетные признаки, их классификация по характеру и роли в совокупно-
сти.
7. Понятие репрезентативности.
8. Способы формирования выборочной совокупности.
9. Как рассчитывается необходимая численность выборки.
10.Этапы статистического исследования.
11.Содержание программы и плана исследования.
12.Виды статистического наблюдения (сплошное, несплошное, текущее,
единовременное).
13.Виды статистических таблиц. Правила составления и заполнения стати-
стических таблиц.
14.Виды графического изображения.
15.Пути внедрения полученных результатов в практику здравоохранения.

21
Методы статистического анализа в медицине
Раздел 4
Относительные величины

Относительные величины весьма распространены и постоянно применя-


ются в медицине и здравоохранении (рис.6). С помощью относительных вели-
чин производится сравнение уровней заболеваемости, рождаемости, смертно-
сти, сопоставляются показатели деятельности лечебных учреждений. Однако, в
результате сводки материала в разработочных таблицах получаются абсолют-
ные числа, которые характеризуют объем, размер явления. Абсолютные числа
не нашли такого широкого применения в медицине и здравоохранении, как
другие статистические величины — относительные и средние. Абсолютные ве-
личины без преобразования их в относительные показатели имеют ограничен-
ное познавательное значение. Чаще всего, оперируя абсолютными величинами,
нельзя проводить сравнение и сопоставление одной совокупности с другой.

Относительные величины

Для характери-
I
стики статистиче- Для сравнения
Область
ских уровня явлений
применения
совокупностей

II
Экстен- Интенсив- Соотноше- Нагляд-
Классифика-
сивные ные ния ности
ция

Выражают Характери- Дают


частоту зуют степе- нагляд-
Показы-
III явлений в ни развития ные
вает от-
Назначение непосред- явлений в пред-
ношение
относитель- ственно среде, непо- ставле-
части к
ных величин связанной средственно ния о
целому
с ними с ними не величи-
среде связанной нах

Анализ Анализ Анализ


Анализ уровней обеспечен- показа-
IV
структу- рождаемо- ности насе- телей
Применение в
ры забо- сти, смерт- ления мед. здоро-
здравоохра-
леваемо- ности, за- кадрами, вья
нении
сти болеваемо- больничны- населе-
сти ми койками ния

22
Методы статистического анализа в медицине

Рис. 6. Относительные величины


Так, например, если известно, что в районе А за год родилось 450 детей, а
в районе Б за этот же промежуток времени родилось 600 детей, то нельзя делать
вывод, что рождаемость в районе Б выше, чем в районе А. Чтобы сделать пра-
вильный вывод, необходимо учесть численность населения этих двух районов,
возрастной и половой состав и после преобразования абсолютных величин в
относительные показатели сделать вывод. Однако нельзя говорить, что абсо-
лютные величины вообще не применяются при анализе.
Абсолютные числа для анализа можно использовать в двух случаях: это,
во-первых, при малых числах наблюдения, в том случае, когда не требуется
определение закономерности и, во-вторых, когда абсолютные цифры исчерпали
факт, например, при сравнении численности населения по всеобщей переписи
населения.
Относительные величины применяют главным образом для характеристи-
ки распределения признаков в совокупности, а также для сравнения в ходе ана-
лиза разных совокупностей.
Различают следующие виды относительных величин: экстенсивные, ин-
тенсивные показатели, показатели соотношения и наглядности.

4.1 Экстенсивные показатели — показатели удельного веса, части в це-


лом, которые характеризуют распределение всего изучаемого явления на со-
ставляющие его части.
На основании этого показателя обычно рассматриваются всевозможные
структуры: заболеваний, причин смерти, распределение коечного фонда по
специальностям, состав операций в больнице и т. п. Выражается экстенсивный
показатель обычно в процентах. Способ вычисления: вся совокупность прини-
мается за 100%, а искомая часть за х%.

Экстенсивный Абсолютный размер части явления


= х 100%
показатель Абсолютный размер явления в целом

Пример: В районе в течение года зарегистрировано 300 случаев инфекционных


заболеваний, из них: эпидемический гепатит – 6 случаев, дизентерия – 15 слу-
чаев, корь – 30 случаев, прочие инфекционные заболевания – 249 случаев.
Вся совокупность – 300 случаев инфекционных заболеваний – принимает-
ся за 100%.
Метод расчета экстенсивного показателя:
Прежде всего следует составить пропорцию: все заболевшие (целое явле-
ние) – 300 = 100%, а заболевание эпидемическим гепатитом (часть явления) – 6
= х%. Тогда доля случаев эпидемического гепатита среди всех заболеваний со-
ставит:
Число случаев эпидемического гепатита
х100
Общее число всех инфекционных заболеваний

23
Методы статистического анализа в медицине
Удельный вес случаев эпидемического гепатита 6 Х 100%
= 2%
составит: 300

Таким же методом рассчитываются остальные экстенсивные показатели: доля


дизентерии, доля кори и доля прочих болезней среди всех инфекционных за-
болеваний.

Удельный вес случаев дизентерии 15 Х 100%


= 5%
составит: 300

30 Х 100%
Удельный вес случаев кори составит: = 10%
300

Удельный вес прочих инфекционных 249 Х 100%


= 83%
заболеваний составит: 300

Вывод: в структуре инфекционных заболеваний в районе доля эпидемиче-


ского гепатита составила 2%, дизентерии 5%, кори 10%, прочих инфекционных
заболеваний 83%.
Следует помнить, что сумма всех найденных величин должна равняться
100% (2% + 5% + 10% + 83%), точно так же, как сумма всех случаев равняется
300 (6 + 15 + 30 + 249).

4.2 Интенсивные показатели – показатели, которые характеризуют рас-


пространенность, частоту явления в среде, которая его продуцирует. Обычно в
социально-гигиенических исследованиях такой средой является население.
В зависимости от частоты изучаемого явления интенсивные показатели
рассчитываются на 100, 1000, 10.000, 100.000 населения. Множитель зависит от
распространенности явления в среде, чем реже оно встречается, тем больше
множитель. Для вычисления некоторых интенсивных показателей множители
общеприняты. Так, все демографические показатели рассчитываются на 1000
населения, заболеваемость с временной утратой трудоспособности на 100 рабо-
тающих, показатели летальности на 100 заболевших и т. д.
Интенсивный Абсолютный размер явления х 100 (1000, 10000, 100000)
=
показатель Абсолютный размер среды, продуцирующей данное явление

Пример 1. В районе А с численностью населения 100000 человек родилось


в течение года 1700 детей, умерло 650 человек. Требуется рассчитать показа-
тель рождаемости и смертности.

показатель Число родившихся живыми за год 1700 х 1000


= х1000= =17‰
рождаемости Численность населения 100000

показатель Число умерших за год 650 х 1000


= х1000= = 6,5‰
смертности Численность населения 100000
24
Методы статистического анализа в медицине

Пример 2. Из хирургического отделения больницы выбыло в течение года


2000 больных, в том числе умерло за этот же период 15 больных. Рассчитать
показатель летальности.

показатель Всего умерло в отделении 15 х 100


= х100= = 0,75%
летальности Всего выбыло 2000

4.3. Показатели соотношения — показатели, которые характеризуют от-


ношение между двумя самостоятельными совокупностями (в этом его сходство
с интенсивным показателем), причем независимые совокупности не только свя-
заны друг с другом, но и не продуцируют одна другую (в этом отличие показа-
теля соотношения от интенсивного показателя).

Показатель Абсолютный размер явления х 100 (1000, 10000, 100000)


=
соотношения Абсолютный размер среды,
не продуцирующей данное явление

Показателями соотношения являются показатели обеспеченности населе-


ния врачами, медсестрами, больничными койками, рассчитанные на 10000
населения. Их широко используют при планировании здравоохранения.
Пример: В городе Н. с населением 50000 человек работает 45 врачей, об-
щее число больничных коек 550. Необходимо рассчитать обеспеченность насе-
ления врачами и больничными койками.

Обеспеченность
Число врачей 45 х 10000
населения = = 9 врачей
Численность 50000
врачами на 10000 населения
населения

Обеспеченность
Число коек 550 х 10000 110 коек
населения = =
Численность 50000 на 10000
больничными койками
населения населения

Вывод: на 10000 населения в городе Н. приходится 9 врачей, 110 больнич-


ных коек.

4.4 Показатели наглядности наглядно представляют соотношения пока-


зателей, характеризующих один и тот же признак в различных совокупностях
или одно и то же явление в динамике.

25
Методы статистического анализа в медицине
В основу вычисления показателя наглядности положен принцип принятия
одной из величин за 100%, а остальные рассчитываются в процентном отноше-
нии к ней.
Показатели наглядности можно вычислять на основе интенсивных показа-
телей, показателей соотношения и средних величин.
Показатели наглядности указывают, на сколько процентов или во сколько
раз произошло увеличение или уменьшение сравниваемых величин.

Показатель Явление х 100


=
наглядности Такое же явление из ряда сравниваемых, принятых за 100%

Пример 1. Дана динамика рождаемости в городе А на 1000 населения


год 2000 2001 2002 2003 2004
показатель
18,5 17,0 16,8 15,0 14,3
рождаемости

Снижение рождаемости будет видно нагляднее, если принять исходный


уровень (рождаемость в 2000 г.) за 100%

17,0 х 100%
Показатель наглядности для 2001 г. = = 91,9%
18,5
16,8 х 100%
Показатель наглядности для 2002 г. = = 90,8%
18,5
15,0 х 100%
Показатель наглядности для 2003 г. = = 81,1%
18,5
14,3 х 100%
Показатель наглядности для 2004 г. = = 77,3%
18,5

Вывод: Рождаемость в г. А. в 2004 году снизилась по сравнению с 2000 го-


дом на 22,7%.

Пример 2. Число коек в больнице А – 300, в больнице Б – 450, в больнице


В – 525. Принимаем число коек в больнице А за 100%, тогда показатель
наглядности составит:
300 — 100 % 450 х 100%
для больницы Б х= = 150 %
450 — х 300

300 — 100 % 525 х 100%


для больницы В х= = 175 %
525 — х 300

Вывод: Число коек в больнице Б на 50% больше, чем в больнице А, а в боль-


нице В на 75% больше, чем в больнице А и на 25% больше, чем в больнице Б.

26
Методы статистического анализа в медицине
В применении относительных величин наиболее часто
встречаются следующие ошибки:
1. Интенсивные показатели сравниваются за различные по протяженности
периоды наблюдения (помесячные показатели сравниваются с годовыми).
2. Подмена интенсивного показателя экстенсивным для характеристики
уровня, частоты явления, особенно для выявления изменения этого уровня в
динамике или по территориям.
3. При сравнительной оценке экстенсивных показателей в динамике или по
территориям надо анализировать всю структуру совокупности, а не сравнивать
удельные веса только отдельных его частей.

4.5 Динамические ряды


Для анализа изменения явления во времени (динамика явления) использу-
ются динамические ряды (рис. 7).

Динамические ряды

I Виды
Интер-
динамиче- Про- Слож- Момент-
валь-
ских стой ный ный
ный
рядов

Вычис-
II Способы Укруп-
ление Вычисление
выравнива- нение
группо- скользящей
ния динами- интер-
вой средней
ческих рядов валов
средней

Абсо-
III Показате- Темп Значение
лютный Темп
ли динами- Приро- 1% приро-
при- роста
ческого ряда ста ста
рост

Рис 7. Динамические ряды

Динамическим рядом называется совокупность однородных статистиче-


ских величин, показывающих изменения какого-либо явления на протяжении
определенного промежутка времени. Динамический ряд может состоять из аб-
солютных или производных величин – относительных чисел и средних.
Числа динамического ряда принято называть уровнями ряда. Различают
два основных типа динамических рядов в зависимости от того, из какого рода
чисел состоит ряд.
27
Методы статистического анализа в медицине

4.5.1 Типы динамических рядов


Ряды могут быть простыми (состоят из абсолютных величин) и сложны-
ми (состоят из относительных или средних величин).
Простой динамический ряд может быть двух видов: моментный и интер-
вальный.
 Моментный состоит из величин, характеризующих размеры явления на
определенное время (например, численность населения РФ на конец со-
ответствующего года).
 Интервальный состоит из чисел, характеризующих величину явления
не на какой-либо момент, а за определенный интервал времени (количе-
ство родившихся в РФ за год, количество умерших за год и т. п.).

4.5.2 Выравнивание уровней динамических рядов


Динамический ряд не всегда состоит из уровней, последовательно изме-
няющихся в сторону снижения или увеличения. Нередко уровни в динамиче-
ском ряду носят скачкообразный характер, имеют значительные колебания, что
затрудняет возможность проследить основную закономерность, свойственную
явлению в наблюдаемый период.
В этих случаях для выявления общей динамической тенденции рекомен-
дуется произвести выравнивание ряда.
Выделяют следующие способы выравнивания динамического ряда: укруп-
нение интервалов, вычисление групповой средней, вычисление скользящей
средней и т. п.
Однако, следует осторожно применять метод выравнивания, его следует
употреблять только после глубокого и всестороннего анализа причин, обусло-
вивших колебания этих уровней. Механическое выравнивание может искус-
ственно сгладить уровни и завуалировать причинно-следственные связи.
4.5.2.1 Укрупнение интервалов – применяется, когда явление в инте-
гральном ряду выражено в абсолютных величинах, уровни которых суммиру-
ются по более крупным периодам. Применение возможно при кратном числе
периодов. Например, зная помесячное число обращений по поводу того или
иного заболевания, можно укрупнить период и анализировать поквартально.
Укрупнение периодов может выявить сезонные колебания, определенные зако-
номерности.

Пример: Сезонные колебания заболевания ангиной в населенном пункте Н.


Месяцы
I II III IV V VI VII VIII IX X XI XII Всего
120 190 130 380 230 280 530 380 390 230 140 250 3250
440 890 1300 620 3250

Как видно из таблицы, помесячные числа заболеваний ангиной то увели-


чиваются, то уменьшаются. После укрупнения интервалов по кварталам года
28
Методы статистического анализа в медицине
выявляется определенная закономерность: наибольшее число заболеваний при-
ходится на летне-осенний период.
4.5.2.2 Вычисление групповой средней – применяется, когда уровни ряда
выражены в абсолютных, средних или относительных величинах. При вычис-
лении групповой средней смежные величины суммируются, а затем делятся на
число слагаемых. Этот метод позволяет сгладить волнообразные изменения и
получить более четкую картину изменений.
Пример: Динамика процента расхождений клинических и патолого-
анатомических диагнозов в областной больнице города Н. за 1997-2004 гг.
Годы 1997 1998 1999 2000 2001 2002 2003 2004
Процент расхождения диагнозов 12,0 10,8 9,0 10,2 9,2 9,6 9,5 8,9
Групповая средняя 11,4 9,6 9,4 9,2
Уровни динамического ряда, представленные в таблице, имеют волнооб-
разные колебания. Выравнивание ряда путем вычисления групповой средней
выявило четкую тенденцию к постепенному снижению процента расхождений
диагнозов в областной больнице.
4.5.2.3 Расчет скользящей средней – применяется, когда явление выраже-
но в абсолютных, средних или относительных величинах. Каждый уровень за-
меняется на среднюю из данного уровня и двух соседних с ним. Данный метод
применяется, когда не требуется особой точности и когда имеется достаточно
длинный ряд и можно пренебречь потерей двух значений ряда.
Скользящая средняя вычисляется как средняя величина из данного уровня
и двух соседних с ним. При вычислении скользящей средней каждый уровень
ряда заменяется на среднюю величину из данного уровня и двух соседних с
ним.
Пример: Скользящая средняя
Годы 1997 1998 1999 2000 2001 2002 2003 2004
12,0 10,8 9,0 10,2 9,2 9,6 9,5 8,9
Процент расхождения диагнозов

Скользящая средняя - 10,6 10,0 9,5 9,5 9,4 9,3 -

Пример расчета для 1998 г.: (12,0+10,8+9,0):3=10,6;


для 1999 г.: (10,8+9,0+10,2):3=10,0.
Частота расхождения клинических и патологоанатомических диагнозов в
областной больнице ежегодно колебалась. Ряд, выровненный с помощью
скользящей средней, выявляет постепенное уменьшение частоты расхождения
диагнозов.
Для углубленного изучения процессов во времени рассчитывают показа-
тели динамического ряда.

29
Методы статистического анализа в медицине
4.5.3 Показатели динамического ряда

1. Абсолютный прирост
2. Темп прироста
3. Значение 1 % прироста
4. Темп роста

Методики расчета показателей


Абсолютный прирост — разность между последующим и предыдущим
уровнями:
Абсолютный прирост = последующий уровень – предыдущий уровень

Темп прироста – процентное отношение абсолютного прироста к преды-


дущему уровню:
Абсолютный прирост
Темп прироста = х 100
предыдущий уровень

Значение 1% прироста — отношение абсолютного прироста к темпу при-


роста:
Абсолютный прирост
Значение 1% прироста =
Темп прироста
Темп роста — процентное отношение последующего уровня к предыду-
щему:

последующий уровень
Темп роста = х 100
предыдущий уровень

Все показатели выражаются знаком «+» (прирост) или «–» (убыль).

Пример: Вычислить показатели динамического ряда


Число коек для больных с челюстно-лицевой патологией было (на 10 000
населения)
1970 -1,1
1980 -1,4
1990 -1,6
2000 -1,7

Абсолютный прирост = последующий уровень – предыдущий уровень


1980 г. 1,4-1,1 = 0,3
1990 г. 1,6-1,4 = 0,2
2000 г. 1,7-1,6 = 0,1
2000 г. с 1970 г. 1,7-1,1-0,6

Темп прироста = Абсолютный прирост х100%


30
Методы статистического анализа в медицине
Предыдущий уровень

0,3
1980 г. х100%=27%
1,1

0,2
1990 г. х100%=14,3%
1,4

0,1
2000 г. х100%=6,25%
1,6

0,6
2000 г. к 1970 г. х100%=54,5%
1,1

Абсолютный прирост
Значение 1% прироста =
Темп прироста

0,3
1980 г. =0,011
27

0,2
1990 г. =0,014
14,3

0,1
2000 г. =0,016
6,25

0,6
2000 г. к 1970 г. =0,011
54,5

Последующий уровень
Темп роста = х100%
Предыдущий уровень

1,4
1980 г. х100%=127,3%
1,1

1,6
1990 г. х100%=114,3%
1,4

1,7
2000 г. х100%=106,25%
1,6

1,7
2000 г. к 1970 г. х100%=154,55%
1,1
31
Методы статистического анализа в медицине

4.6 Задача-эталон
На основании приведенных данных необходимо вычислить:
1) экстенсивный показатель (в %),
2) интенсивный показатель (в ‰),
3) показатель соотношения,
4) показатель наглядности,
5) показатели динамического ряда: абсолютный прирост, темп прироста,
значение 1% прироста и темп роста.

Данные для решения задачи.


В городе А в 2004 году:
численность населения — 80000 человек
число сделанных ими обращений в амбулаторно-поликлинические учре-
ждения города — 90000
число врачей — 160
число больничных коек — 900, в том числе терапевтических — 250 хирур-
гических — 130
Число врачей на 10.000 населения
в 1980 г. — 17,6 в 1990 г. — 18,9 в 2000 г. — 20,0
1. Экстенсивный показатель — удельный вес терапевтических и хирурги-
ческих коек среди всех коек:

Размер части явления х 100%


Экстенсивный показатель =
Размер явления в целом

Количество
терапевтических коек
Удельный вес
х 100% 250 х 100%
терапевтических= =27,8%
Количество 900
коек
всех коек

Количество
хирургических
Удельный вес
коек х 100% 130 х 100%
хирургических = =14,7%
Количество 900
коек
всех коек

32
Методы статистического анализа в медицине
2. Интенсивный показатель – уровень обращаемости в амбулаторно-
поликлинические учреждения города (на 1000 человек):

Абсолютный размер явления х 1000


Интенсивный показатель =
Абсолютный размер среды,
продуцирующей данное явление

Уровень Число обращений 90000 х 1000


= =1125‰
обращаемости Численность 80000
населения

3. Показатель соотношения — обеспеченность населения города врачами и


больничными койками (на 10000 человек):

Абсолютный размер явления х 10000


Показатель соотношения =
Абсолютный размер среды, не
продуцирующей данное явление

Число врачей на
Число врачей 160 х 10000
10000 = =20 на 10000
Численность 80000
населения населения
населения

Общее число боль-


Число коек на
ничных коек 900 х 10000
10000 = =112,5 на 10000
Численность 80000
населения населения
населения

4. Показатель наглядности в процентах (по отношению к показателю соот-


ношения обеспеченности населения врачами в 1980 г., принятому за 100%)

17,6 — 100% 18,9 х 100%


для 1980 г. х= =107,4%
18,9 — х 17,6

17,6 — 100% 20,0 х 100%


для 2000 г. х= =113,6%
20,0 — х 17,6

33
Методы статистического анализа в медицине
5. Показатели динамического ряда:
а) абсолютный прирост — разность между последующим и предыдущим
уровнем.

1990 г. 18,9 2000 г. 20,0 2000 г. 20,0


1980 г. 17,6 1990 г. 18,9 1980 г. 17,6
Разность 1,3 1,1 2,4

б) темп прироста — процентное отношение абсолютного прироста к предыду-


щему уровню.

1,3х100% 1,1х100% 2,4х100%


=7,4% =5,8% =13,6%
17,6 18,9 17,6

в) значение 1% прироста – отношение абсолютного прироста к темпу прироста.


1,3 1,1 2,4
=0,17 =0,18 =0,18
7,4 5,8 13,6

г) темп роста – процентное соотношение последующего к предыдущему уров-


ню.
18,9х100 20х100 20х100
=107,4% =105,8% =113,6%
17,6 18,9 17,6

4.7 Контрольные вопросы


1. Что такое абсолютные числа?
2. Можно ли на основании абсолютных данных провести статистический ана-
лиз того или иного явления?
3. Что такое относительные величины, общая методика их расчета?
4. Применение относительных величин в практике здравоохранения.
5. Какие различают виды относительных величин?
6. Что такое экстенсивный показатель и какова методика его расчета?
7. Что такое интенсивный показатель и какова методика расчета этого показа-
теля?
8. Что такое показатель соотношения, как рассчитать показатель соотношения,
его отличие от интенсивного показателя?
9. Что такое показатель наглядности и как его рассчитать?
10.Динамические ряды: определение и виды.
11.Какие показатели используются при анализе динамических рядов, их опре-
деление и методика расчета?

4.8 Задачи для самостоятельного решения


1. При решении задачи вычислить интенсивные и экстенсивные показате-
ли, показатели соотношения, показатель наглядности, абсолютный прирост,
темп прироста, значение 1% прироста, темп роста.

34
Методы статистического анализа в медицине

Вариант 1
В городе К в 2004 году
численность населения — 250000 человек,
родилось — 4000 человек,
умерло — 3200,
врачей — 700 человек, из них:
терапевтов — 250,
хирургов — 110,
число больничных коек — 2900.
Число врачей на 10000 населения
в 1990 г. — 19,3,
в 1995 — 24,1,
в 2000 г. — 27,8.

Вариант 2
В районе Н. в 2004 году численность населения — 42000 человек. Число
посещений жителей в амбулаторно-поликлинические учреждения района —
96000,
врачей — 45,
коек — 250, из них:
терапевтических — 60,
хирургических — 30,
педиатрических — 35,
инфекционных — 25,
родильных — 20,
гинекологических — 20,
травматологических — 15,
прочих — 45,
Число врачей на 10000 населения
в 2001 г. — 8,4,
в 2002 г. — 8,9,
в 2003 г. — 9,6.

Вариант 3
Центральная районная больница обслуживает 42600 человек.
Сделано посещений жителями района в поликлиническое отделение —
448200, врачей — 35,
коек в больнице — 150, из них
терапевтических — 40,
хирургических — 30,
педиатрических — 35,
прочих — 45.
Обеспеченность врачами на 10000 населения
в 2002 г. — 7,5,
35
Методы статистического анализа в медицине
в 2003 г. — 7,8,
в 2004 г. — 8,0.

Вариант 4
В городе Б в 2004 г. численность населения — 250000 человек, из них гос-
питализировано в стационары города — 53000 человек, врачей — 520, из них:
терапевтов — 160,
хирургов — 40,
прочих — 320.
Число коек на 10000 населения было:
в 1990 г. — 85,0,
в 1995 г. — 95,8,
в 2000 г.— 103,5.

Вариант 5
Детская больница обслуживает детей до 14 лет — 13000, из них:
до 1 года — 870,
1 года — 890,
2 лет — 950,
3 – 6 лет — 3340,
7–14 лет — 6350.
В больнице работают 53 врача, из них:
хирургов — 2,
педиатров — 40,
прочих — 11.
В больнице 155 коек.
Число коек на 10000 населения города
в 2002 г. — 125,4,
в 2003 г. — 128,1,
в 2004 г. — 129,3.

Вариант 6.
В городе Л численность населения — 200000 человек, в лечебно-
профилактических учреждениях города работает 320 врачей и 1000 средних
медицинских работников. Число прошедших комплексные медицинские про-
филактические осмотры — 100000, из них:
работники промышленных предприятий — 40000,
работники пищевых и коммунальных учреждений — 20000,
работники детских и леч.-проф. учреждений — 10000,
учащихся школ, техникумов и вузов — 30000.
Обеспеченность врачами в городе на 10000 населения
в 2002 г.— 14,1,
в 2003 г. — 15,0,
в 2004 г. — 15,8.

36
Методы статистического анализа в медицине
Раздел 5
Средние величины

Значительная вариабельность медико-биологических, социально-


гигиенических явлений определяет необходимость проведения тщательного,
статистически достоверного анализа при оценке состояния здоровья населения,
характеристики социально-гигиенических условий, обобщении результатов де-
ятельности различных лечебно-профилактических учреждений.
Особое место в статистическом анализе принадлежит определению сред-
него уровня изучаемого признака или явления. Средние величины широко ис-
пользуются в медицинской научной и практической деятельности для оценки
состояния здоровья населения (характеристика физического развития, выявле-
ние распространенности и длительности различных заболеваний, анализ демо-
графических показателей), для изучения деятельности лечебно-профилактичес-
ких учреждений, медицинских кадров и оценки качества их работы, планирова-
ния и определения потребности населения в различных видах медицинской по-
мощи. Средние величины используются также для определения медико-
физиологических показателей в норме и патологии, при обработке лаборатор-
ных данных, клинических и экспериментальных исследованиях.
Средняя величина — это типичная величина, которая характеризует сред-
нее значение показателей, нивелируя максимальные и минимальные значения
этих показателей. При работе со средними величинами необходимо соблюдать
определенные условия.
Требования к средним величинам
 Качественная однородность совокупности, для которой вычисляет-
ся средняя величина.
 Средняя величина должна быть рассчитана на массовых материа-
лах, на достаточно большом числе наблюдений.
Средняя арифметическая величина обладает тремя свойствами:
1. Занимает срединное положение в вариационном ряду;
2. Имеет абстрактный характер;
3. Сумма отклонений всех вариант от средней равна 0.

5.1 Вариационный ряд и методика его составления


Средние величины рассчитываются на основе вариационных рядов.
Вариационный ряд — это однородная в качественном отношении стати-
стическая совокупность, отдельные единицы которой характеризуют количе-
ственные различия изучаемого признака или явления (рис.8).
Цифровое значение каждого отдельного признака или явления, входящего
в вариационный ряд, называется вариантой и обозначается буквой V. Числа,
показывающие, как часто встречается та или иная варианта в составе данного
ряда, носят названия частот и обозначаются буквой — р. Общее число случаев
наблюдений, из которых вариационный ряд состоит, обозначают буквой n.

37
Методы статистического анализа в медицине
Варианты, расположенные в порядке возрастания или убывания количе-
ственной характеристики признака, составляют ранжированный вариационный
ряд.

Вариационный ряд

I Виды
вариа- Сгруппирован-
Простой
ционных ный
рядов

II Харак-
теристи- Общее число
Варианта
ка вари- Частота p наблюдений
V
ационно- n
го ряда

III Этапы Гра-


Опре- Опре- Опреде- Распреде-
состав- фиче-
деле- де- ление ление
ления ское
ние ление границ и наблюде-
сгруппи- изоб-
числа интер- середины ний по
рованно- раже-
групп вала группы группам
го ряда ние

IV Прак- Для характеристики Для вычисле-


тическое типа распределения ния среднего
примене- признака в совокуп- уровня (сред-
ние ности ней величины)

Рис. 8. Вариационный ряд

Различают два вида вариационных рядов:


— простой вариационный ряд;
— сгруппированный вариационный ряд,
Простым вариационным рядом называется такой ряд, где каждая вариан-
та встречается лишь один раз. Вариационный ряд, где указано сколько раз
встречается каждая варианта, называется сгруппированным вариационным ря-
дом.

38
Методы статистического анализа в медицине
Если исследователь имеет не более 30 наблюдений, то достаточно все зна-
чения признака расположить в нарастающем или в убывающем порядке (от ми-
нимальной варианты до максимальной или наоборот) и указать частоту каждой
варианты. При большом числе наблюдений (более 30) рекомендуется варианты
объединить в группы с указанием частоты встречаемости всех вариант, входя-
щих в данную группу.
Основные требования к составлению вариационного ряда:
1. Расположить все варианты по порядку
2. Суммировать единицы, имеющие одинаковый признак, т.е. найти часто-
ту каждой единицы
3. Определить количество групп
4. Определить интервал между группами
5. Определить начало, середину и конец группы
6. Распределить данные наблюдений по группам
7. Графически изобразить вариационный ряд

Методику построения сгруппированного вариационного ряда рассмотрим


на следующем примере:
Даны данные о частоте пульса (число ударов в минуту) у 54 студентов пе-
ред экзаменом: 60, 70, 70, 68, 70, 72, 64, 66, 66, 70, 76, 76, 80, 64, 62, 78, 78, 76,
70, 68, 64, 62, 70, 68, 72, 70, 72, 72, 70, 70, 76, 76, 76 74, 74, 74, 80, 80, 66, 72, 76,
76, 74, 74, 74, 72, 78, 78, 76, 74, 76, 76, 80, 78.

1. Строим вариационный ряд, последовательно располагая варианты в по-


рядке возрастания: 60, 62, 62, 64, 64, 64, 66, 66, 66, 68, 68, 68, 70, 70, 70, 70, 70,
70, 70, 70, 70, 72, 72, 72, 72, 72, 72,74, 74, 74, 74, 74, 74, 74,76, 76, 76, 76, 76, 76,
76, 76, 76, 76, 76, 78, 78, 78, 78, 78, 80, 80, 80, 80.

2. Распределение студентов в зависимости от частоты пульса перед экза-


меном:
частота
пульса 60 62 64 66 68 70 72 74 76 78 80
(V)
число
студентов 1 2 3 3 3 9 6 7 11 5 4
(p)

Всего студентов n =54

3. Определение количества групп.


Количество групп в вариационном ряду находим в специально разработан-
ной таблице:

Число вариант (n) 31–45 46–101 101–200 201–500


Число групп (р) 6–7 8–10 11–12 13–17
39
Методы статистического анализа в медицине

В нашем примере число наблюдений — 54, поэтому в вариационном ряду


следует иметь 8 групп.

3. Определение величины интервала (i) между группами. Интервал меж-


ду группами определяют по формуле:
4.
Vmax–Vmin 80–60 20
i= = = =2,5
r (число групп) 8 8

Полученный интервал 2,5 рекомендуется округлять до целого числа — 3.


5. Определяем границы и середину каждой группы: например, первая
группа вариант при i = 3 будет 60-62 удара в минуту, середина 61 удар в мину-
ту, следующая группа — 63-65 удара в минуту, середина 64 удара в минуту
и т.д.

6. Разбиваем весь ряд на группы, используя выбранный интервал и строго


соблюдая непрерывность сгруппированного ряда:

частота середина группы число


пульса (V) вариант студентов
60–62 61 3
63–65 64 3
66–68 67 6
69–71 70 9
72–74 73 13
75–77 76 11
78–80 79 9
n = 54

7. Строим графическое изображение вариационного ряда (по серединам


групп) (рис. 9):

40
Методы статистического анализа в медицине
Рис. 9. Распределение студентов по частоте пульса перед экзаменом

14
12
10
8 Число
6 студентов
4
2
0
61 64 67 70 73 76 79

Полученный ряд распределения (вариационный ряд) и графическое его


изображение делают статистические данные обозримыми, доступными для ана-
лиза и дальнейшего изучения.
5.2 Виды средних величин, методика их вычисления
Различают три вида средних величин: мода (Мо), медиана (Me), средняя
арифметическая (М). Они не могут подменить друг друга и лишь в совокупно-
сти достаточно полно и в сжатой форме представляют собой особенности вари-
ационного ряда (рис. 10).
Мода (Мо) — наиболее часто встречающаяся в ряду распределения вари-
анта. Она дает представление о центре распределения вариационного ряда. Ис-
пользуется:
 для определения центра распределения в открытых вариационных рядах,
 для определения среднего уровня в рядах с резко асимметричным рас-
пределением.

41
Методы статистического анализа в медицине

Средние величины

Область Виды средних


применения величин

Для
Для
характеристики
обобщающей
отдельных
характеристики
величин путем
количественных
сравнения их со
признаков
средним
уровнем

Основание для
определения Вариационный ряд
средних величин

Средняя Мода Медиана


Характеристика арифметическая (Мо) (Ме)
вариационного ряда

Общее число
Варианта V Частота p
наблюдений n
Свойства средней
арифметической
Виды средних величин

Занимает
Занимает Имеет Сумма
Вычисленная
срединное
срединное абстрактный отклонений от
Простая Взвешенная по способу положение
пложение характер средней равна 0
моментов

Рис.10. Виды средних величин

Медиана — это серединная варианта, центральный член ранжированного


ряда. Название медиана взято из геометрии, где так именуется линия, делящая
сторону треугольника на две равные части.
Медиана применяется:
 для определения среднего уровня признака в числовых рядах с не-
равными интервалами в группах;
 для определения среднего уровня признака, когда исходные данные
представлены в виде качественных признаков и когда единствен-
ным способом указать некий центр тяжести совокупности является
указание варианты (группы вариант), которая занимает центральное
положение;

42
Методы статистического анализа в медицине

 при вычислении некоторых демографических показателей (средней


продолжительности предстоящей жизни);
 при определении наиболее рационального места расположения
учреждений здравоохранения, коммунальных учреждений и т. п.
(имеется в виду учет оптимальной удаленности учреждений от всех
объектов обслуживания).
В настоящее время очень распространены различные опросы (маркетинго-
вые, социологические и др.), в которых опрашиваемых просят выставить баллы
изделиям, политикам и т. п. Затем из полученных оценок рассчитывают сред-
ние баллы и рассматривают их как интегральные оценки, выставленные кол-
лективом опрошенных. При этом обычно для определения средних показателей
применяют среднее арифметическое. Однако такой способ на самом деле при-
менять нельзя. Обоснованным в этом случае является использование в качестве
средних баллов медианы или моды.
Для характеристики среднего уровня признака наиболее часто использу-
ется в медицине средняя арифметическая величина (М).
Средняя арифметическая величина — это общая количественная харак-
теристика определенного признака изучаемых явлений, составляющих каче-
ственно однородную статистическую совокупность. Различают среднюю ариф-
метическую простую и взвешенную.
Средняя арифметическая простая вычисляется для несгруппированного
вариационного ряда путем суммирования всех вариант и делением этой суммы
на общее количество вариант, входящих в вариационный ряд.
Вычисляется средняя арифметическая простая по формуле:
V
M ,
n
где М — средняя арифметическая простая,
ΣV — сумма вариант,
n — число наблюдений
Средняя арифметическая взвешенная вычисляется для сгруппированно-
го вариационного ряда по формуле:
Vp
M ,
n
где М — средняя арифметическая взвешенная,
ΣVp — сумма произведений вариант на их частоты,
n — число наблюдений.

Возвращаясь к нашему примеру, определим среднюю частоту пульса


(среднее число ударов в минуту) у 54 студентов перед экзаменом:

60х1+62х2+64х3+66х3+68х3+70х9+72х6+74х7+76х11+78х5+80х4 3904
M= = =72,3(ударов в минуту)
54 54

43
Методы статистического анализа в медицине
Помимо указанного метода прямого расчета средней арифметической
взвешенной, существуют другие методы, в частности, способ моментов, при
котором несколько упрощены арифметические расчеты.
Расчет средней арифметической способом моментов проводится по
формуле:
dp
M  A ,
n
где A – условная средняя (чаще всего в качестве условной средней берется
мода Мо)
d – отклонение каждой варианты от условной средней (V–А)
Σdр — сумма произведений отклонений на их частоту.
Порядок вычисления представлен в таблице 4 (за условную среднюю при-
нимаем Мо = 76 ударам в минуту):

Таблица 4. Определение средней арифметической способом моментов

частота
пульса V Р d (V–A) dp

60 1 –16 –16
62 2 –14 –28
64 3 –12 –36
66 3 –10 –30
68 3 –8 –24
70 9 –6 –54
72 6 –4 –24
74 7 –2 –14
76 11 0 0
78 5 2 10
80 4 4 16
n = 54 Σdp= –200

–200
M = 76 + = 76–3,7 = 72,3 (ударов в минуту)
54

Среднюю арифметическую можно также рассчитать и по данным середи-


ны группы с учетом интервала между группами. Расчет проводим по формуле:
dp
M  A i,
n
где i — интервал между группами.
Порядок вычисления представлен в таблице 5 (за условную среднюю при-
нимаем Мо = 73 ударам в минуту, где i = 3).

44
Методы статистического анализа в медицине
Таблица 5. Определение средней арифметической способом моментов

произведение
условное от-
частота середина условного
частота Р клонение в
пульса V группы отклонения на
интервалах (d)
частоту (dp)
60–62 61 3 –4 –12
63–65 64 3 –3 –9
66–68 67 6 –2 –12
69–71 70 9 –1 –9
72–74 73 13 0 0
75–77 76 11 1 11
78–80 79 9 2 18
n = 54 Σ dp = –13

–13х3
M = 73 + = 73–0,7 = 72,3 (ударов в минуту)
54
Таким образом, полученное значение средней арифметической величины
по способу моментов идентично таковому, найденному обычным способом.

45
Методы статистического анализа в медицине
5.3 Методы оценки разнообразия признака
в статистической совокупности

Средние величины, являясь важными характеристиками статистической


совокупности скрывают индивидуальные значения признака, не показывают
величину разнообразия вариационного ряда. Если вариационный ряд компак-
тен, то средняя величина более точно характеризует данную совокупность. Ес-
ли же ряд растянут, отдельные величины существенно отличаются от средней
величины, она является менее типичной.
Следовательно, средняя величина, обычно средняя арифметическая, взятая
только сама по себе, имеет ограниченную ценность, т. к. не дает представление
о вариабельности, в которой случаи наблюдений распределены вокруг нее.
Выделяют следующие критерии разнообразия признака (рис. 11):
1. Характеризующие границы совокупности:
 лимит (Lim);
 амплитуда (Am).
2. Характеризующие внутреннюю структуру совокупности —
 среднее квадратическое отклонение σ (сигма малая);
коэффициент вариации (CV).

Разнообразие
признака в
статистической
совокупности

Среднее коэффициент
Лимит Амплитуда квадратическое вариации
Lim  Vmin  Vmax Am =Vmax-Vmin отклонение 
C  100%
M

d 2

Позволяет ориентировочно 
d 2
p Используется при
судить о колеблемости n сравнении двух
вариационного ряда, неоднородных
d   dp 
2 2
p статистических
используется чаще с целью   
n  n  совокупностей с целью
предварительной оценки  
выявления наиболее
типичных и характерных
признаков изучаемого
явления
Служит
общепринятой Используется для Служит оценкой
мерой Характеризует определения ошибки рассеяния вариант:
колеблемости типичность репрезентативности а) малой (<10%)
вариационного средней средней б) средней (10-20%)
ряда, т.е. его величины арифметической в) сильной (>20%)
однородности величины

46
Методы статистического анализа в медицине
Рис. 11. Критерии разнообразия признака

5.3.1 Критерии, характеризующие границы совокупности (лимит, ам-


плитуда)
Лимит (Lim) определяется крайними значениями вариант в вариационном
ряду:
Lim=Vmin–Vmax
Амплитуда (Am) — разность крайних вариант (разность между наиболь-
шей и наименьшей вариантами):
Am = Vmах – Vmin
Лимит и амплитуда дают определенную информацию о степени разнооб-
разия ряда, однако они не являются достаточно удовлетворительной мерой ва-
риабельности, т. к. основываются только на крайних наблюдениях и не учиты-
вают все распределение наблюдений вокруг средней в целом. Лимит и ампли-
туда не позволяют получить информацию о разнообразии признака в совокуп-
ности с учетом ее внутренней структуры.
5.3.2 Критерии, характеризующие внутреннюю структуру совокупно-
сти
Наиболее полную характеристику разнообразию признака в совокупности
дает среднее квадратическое отклонение, обозначаемое греческой буквой σ
(сигма малая).
5.3.2.1 Расчет среднеквадратического отклонения
Среднее квадратическое отклонение характеризует среднее отклонение
всех вариант вариационного ряда от средней арифметической величины.
Существует три способа расчета среднего квадратического отклонения:
среднеарифметический, способом моментов и по амплитуде.
Возвратимся к нашему примеру. При среднеарифметическом способе рас-
чета применяется формула:
d 2 p

n ,
где d — отклонение отдельных вариант от средней арифметической (V–M),
р — частота,
n — число наблюдений (при числе наблюдений менее 30, в знаменатель
необходимо взять n–1).
Порядок вычисления среднего квадратического отклонения представлен в
таблице 6.
Таблица 6. Расчет среднего квадратического отклонения
среднеарифметическим методом
Частота d (V – М)
Р d2 d2p
пульса V М = 72,3
60 1 – 12,3 151,29 151,29
62 2 – 10,3 106,09 212,18
64 3 – 8,3 68,89 206,67
66 3 – 6,3 39,69 119,07
47
Методы статистического анализа в медицине
68 3 – 4,3 18,49 55,47
70 9 – 2,3 5,29 47,61
72 6 – 0,3 0,09 0,54
74 7 1,7 2,89 20,23
76 11 3,7 13,69 150,59
78 5 5,7 32,49 162,45
80 4 7,7 59,29 237,16
n=54 Σ 1363,26

d 2 p 1363.26
   25.2  5.0 .
n 54

Среднее квадратическое отклонение, также как и среднюю арифметиче-


скую, можно рассчитать более простым способом, а именно способом момен-
тов по формуле:

d 2 p  dp  2
   ,
n  n 
где d – отклонение каждой варианты от условной средней (V–А).

Порядок вычисления среднего квадратического отклонения представлен в


таблице 7 (за условную среднюю принимаем Мо = 76 ударам в минуту).

Таблица 7. Порядок вычисления среднего квадратического отклонения

частота
D(V–A)
пульса d dp d2 d2p
А=76
V
60 1 – 16 – 16 256 256
62 2 – 14 – 28 196 392
64 3 – 12 – 36 144 432
66 3 – 10 – 30 100 300
68 3 –8 – 24 64 192
70 9 –6 – 54 36 324
72 6 –4 – 24 16 96
74 7 –2 – 14 4 28
76 11 0 0 0 0
78 5 2 10 4 20
80 4 4 16 16 64
N = 54 Σ = –200 Σ = 2104

48
Методы статистического анализа в медицине

d 2 p  dp  2 2104   200  2


       25,2  5,0
n  n  54  54 
Результаты вычисления среднего квадратического отклонения средне-
арифметическим способом и способом моментов идентичны. Однако, как ука-
зывалось выше, второй способ значительно убыстряет и упрощает расчеты. Ес-
ли отсутствуют необходимые исходные данные для вычисления среднего квад-
ратического отклонения обычным путем, может быть использован приближен-
ный способ вычисления среднего квадратического отклонения по амплитуде
вариационного ряда.
Среднее квадратическое отклонение, вычисленное по амплитуде, несколь-
ко отличается по величине от σ, вычисленной обычными способами. Различие
это тем больше, чем больше число наблюдений, использованных для составле-
ния вариационного ряда. Поэтому определение среднего квадратического от-
клонения по амплитуде более целесообразно производить преимущественно
при ориентировочных расчетах.

Вычисление производится по формуле:


Am Vmax–Vmin
σ= =
k k
где Am – амплитуда,
k – коэффициент, соответствующий числу наблюдений (определяется по
специальной таблице, в нашем примере при n=54 коэффициент равен 4,56).
80–60 20
σ= = ≈ 4,4
4,56 4,56

Значения коэффициента k для вычисления среднего квадратического


отклонения (σ) по амплитуде
n 0 1 2 3 4 5 6 7 8 9
0 – – 1,13 1,69 2,06 2,33 2,53 2,70 2,85 2,97
10 3,08 3,17 3,26 3,34 3,41 3,47 3,53 3,59 3,64 3,69
20 3,73 3,78 3,82 3,86 3,90 3,93 3,96 4,00 4,03 4,06
30 4,09 4,11 4,14 4,16 4,19 4,21 4,24 4,26 4,28 4,30
40 4,32 4,34 4,36 4,38 4,40 4,42 4,43 4,45 4,47 4,48
50 4,50 4,51 4,53 4,54 4,56 4,57 4,59 4,60 4,61 4,63
60 4,64 4,65 4,66 4,68 4,69 4,70 4,71 4,72 4,73 4,74
70 4,75 4,77 4,78 4,79 4,80 4,81 4,82 4,83 4,83 4,84
80 4,85 4,86 4,87 4,88 4,89 4,90 4,91 4,91 4,92 4,93
90 4,94 4,95 4,96 4,96 4,97 4,98 4,99 4,99 5,00 5,01
n 100 200 300 400 500 600 700 800 900 1000
k 5,02 5,49 5,76 5,94 6,07 6,18 6,28 6,35 6,42 6,48

49
Методы статистического анализа в медицине
Среднее квадратическое отклонение, вычисленное обычными способами,
дает точную величину (σ = 5,0). Однако различие это не слишком велико и, ес-
ли бы были известны только крайние варианты ряда, приближенное вычисле-
ние среднего квадратического отклонения по амплитуде вариационного ряда
имело бы смысл.
Итак, нахождение среднего квадратического отклонения позволяет судить
о характере однородности исследуемой группы наблюдений. Если величина
среднего квадратического отклонения небольшая, то это свидетельствует о до-
статочно высокой однородности изучаемого явления.
Среднюю арифметическую в таком случае следует признать вполне харак-
терной, типичной для данного вариационного ряда. При очень большой вели-
чине сигмы средняя арифметическая в меньшей степени характеризует весь ва-
риационный ряд, что говорит о значительной вариабельности изучаемого при-
знака или явления или о неоднородности исследуемой группы.

5.3.2.2 Расчет коэффициента вариации


Оценка степени рассеяния вариант около средней может быть произведена
с помощью коэффициента вариации, вычисляемого по формуле:
σ
CV= x 100%
M

Значения коэффициента вариации (Cv):


 менее 10% свидетельствует о малом рассеянии,
 от 10% до 20% — о среднем,
 более 20% — о сильном рассеянии вариант вокруг средней арифме-
тической.
Возвращаясь к нашему примеру, мы можем дать характеристику изучае-
мому вариационному ряду. М=72,3 удара в минуту, σ =5,0
5,0
CV= x 100% = 6,9%
72,3
Расчеты свидетельствуют о малом рассеянии вариант, следовательно,
средняя арифметическая величина вполне типична, а исследуемая группа
наблюдений является достаточно однородной.
Коэффициент вариации часто используется при оценке разнообразия ряда
различных признаков, например, рост и масса тела, средняя длительность лече-
ния на дому и частота врачебных посещений. Непосредственное сравнение «σ»
в данном случае невозможно, так как величина среднего квадратического от-
клонения обычно характеризует рассеянность ряда при сравнении однотипных
рядов.
Предположим, что при изучении физического развития группы подростков
коэффициент изменчивости для массы тела составил 9%, а для роста — 3,7%.
Эти цифры можно сравнивать и сделать заключение, что в данном примере
рост является более устойчивым признаком, чем масса тела.

50
Методы статистического анализа в медицине
5.4 Контрольные вопросы
1. Дайте определение средней величины.
2. Какие требования предъявляются при работе со средними величинами?
3. Дайте определение вариационного ряда.
4. Назовите основные элементы вариационного ряда.
5. Виды вариационных рядов.
6. Правила построения вариационного сгруппированного ряда.
7. Как определяется средняя арифметическая простая?
8. Как определяется средняя арифметическая взвешенная?
9. Определение средней арифметической способом моментов.
10.Назовите критерии разнообразия признака вариационного ряда?
11.Что такое среднее квадратическое отклонение и его значение?
12.Роль коэффициента вариации и его применение?

5.5 Задачи для самостоятельного решения


Вариант 1.
Определить среднюю длину тела новорожденных девочек (М), среднее
квадратическое отклонение (σ), среднюю ошибку (m), коэффициент вариации
(CV)

Длина тела в см (V) Число девочек (р)


48 16
49 10
51 12
52 14
53 8
56 5
Всего: 65

Вариант 2.
Определить средний рост 18-летних подростков (М), среднее квадратиче-
ское отклонение (σ), ошибку средней арифметической (m), коэффициент вариа-
ции (CV)
Рост в см (V) Число подростков (р)
162 2
164 6
169 20
174 30
176 85
179 36
189 15
194 6
Всего: 200

51
Методы статистического анализа в медицине
Вариант 3.
Определить среднюю окружность груди у 9-летних мальчиков (М), сред-
нее квадратическое отклонение (σ), среднюю ошибку (m), коэффициент вариа-
ции (CV)
Окружность груди в см (V) Число мальчиков (р)
54 6
57 42
60 45
63 12
66 5
Всего: 110

Вариант 4.
Определить среднюю длительность временной нетрудоспособности у
больных с острыми респираторными заболеваниями (М), среднее квадратиче-
ское отклонение (σ), среднюю ошибку (m), коэффициент вариации (CV)
Число дней
Число больных (р)
нетрудоспособности (V)
3 2
4 3
5 6
6 8
7 6
8 4
9 3
10 1
11 1
Всего 34

52
Методы статистического анализа в медицине
Раздел 6
Статистическая оценка достоверности результатов исследования

Под достоверностью статистических показателей следует понимать сте-


пень их соответствия отображаемой ими действительности. Достоверными ре-
зультатами считаются те, которые не искажают и правильно отражают объек-
тивную реальность.
Оценить достоверность результатов исследования означает определить, с
какой вероятностью возможно перенести результаты, полученные на выбороч-
ной совокупности, на всю генеральную совокупность.
В большинстве медицинских исследований врачу приходится, как правило,
иметь дело с частью изучаемого явления, а выводы по результатам такого ис-
следования переносить на все явление в целом — на генеральную совокуп-
ность.
Таким образом, оценка достоверности необходима для того, чтобы по ча-
сти явления можно было бы судить о явлении в целом, о его закономерностях.
На рисунке 12 приведены показатели, позволяющие оценить достовер-
ность полученных результатов статистического исследования.

При среднеарифметической (M) При относительной величине (P)


 Pq
m m
n n

Практическое применение
Позволяет определить вероятность, с которой возможно перене-
сти результаты изучения с выборочной совокупности на гене-
ральную совокупность

Способы оценки
достоверности

Доверительные границы параметра Достоверность разницы параметра

При средних арифметических При относительных величинах


(При М) (При P) M  M2 P P
M±tm P±tm t 1 t 1 2
m12  m22 m12  m22

Доверительная вероятность в меди-


цинских исследованиях
В медико-биологических исследова- Разница достоверна при t≥2
ниях вероятность 95% и более, т.е. с вероятностью 95% и более
при минимуме удвоенной ошибки
(t=2)

53
Методы статистического анализа в медицине
Рис. 12. Оценка достоверности результатов статистического исследования

Оценка достоверности результатов исследования предусматривает опреде-


ление:
1) ошибок репрезентативности (средних ошибок средних арифметических и
относительных величин) — m;
2) доверительных границ средних (или относительных) величин;
3) достоверности разности средних (или относительных) величин (по крите-
рию t);
4) достоверности различия сравниваемых групп по критерию χ2.

6.1 Определение ошибки репрезентативности


Определение средней ошибки средней (или относительной) величины
(ошибки репрезентативности) — m.
Ошибка репрезентативности (m) является важнейшей статистической ве-
личиной, необходимой для оценки достоверности результатов исследования.
Эта ошибка возникает в тех случаях, когда требуется по части охарактеризовать
явление в целом. Эти ошибки неизбежны. Они проистекают из сущности выбо-
рочного исследования; генеральная совокупность может быть охарактеризована
по выборочной совокупности только с некоторой погрешностью, измеряемой
ошибкой репрезентативности.
Ошибки репрезентативности нельзя смешивать с обычным представлением
об ошибках: методических, точности измерения, арифметических и др.
По величине ошибки репрезентативности определяют, насколько результа-
ты, полученные при выборочном наблюдении, отличаются от результатов, ко-
торые могли бы быть получены при проведении сплошного исследования всех
без исключения элементов генеральной совокупности.
Этот единственный вид ошибок, учитываемых статистическими методами,
которые не могут быть устранены, если не осуществлен переход на сплошное
изучение. Ошибки репрезентативности можно свести к достаточно малой вели-
чине, т. е. к величине допустимой погрешности. Делается это путем привлече-
ния в выборку достаточного количества наблюдений (n).
Каждая средняя величина — М (средняя длительность лечения, средний
рост, средняя масса тела, средний уровень белка крови и др.), а также каждая
относительная величина — Р (уровень летальности, заболеваемости и др.)
должны быть представлены со своей средней ошибкой — m. Так, средняя
арифметическая величина выборочной совокупности (М) имеет ошибку репре-
зентативности, которая называется средней ошибкой средней арифметической
(mM) и определяется по формуле:

mM  .
n
Как видно из этой формулы, величина средней ошибки средней арифмети-
ческой прямо пропорциональна степени разнообразия признака и обратно про-
порциональна корню квадратному из числа наблюдений. Следовательно,

54
Методы статистического анализа в медицине
уменьшение величины этой ошибки при определении степени разнообразия (σ)
возможно путем увеличения числа наблюдений.
На этом принципе основан метод определения достаточного числа наблю-
дений для выборочного исследования.
Относительные величины (Р), полученные при выборочном исследовании,
также имеют свою ошибку репрезентативности, которая называется средней
ошибкой относительной величины и обозначается mP.
Для определения средней ошибки относительной величины (Р) использу-
ется следующая формула:
Pq
mP 
n ,
где Р — относительная величина. Если показатель выражен в процентах,
то q = 100 – Р, если Р — в промиллях, то q=1000 – Р, если Р — в продецимил-
лях, то q=10 000 – Р и т.д.; n — число наблюдений. При числе наблюдений ме-
нее 30 в знаменатель следует взять n – 1.

Примеры определения средних ошибок


средних и относительных величин
 Pq
mM  mP 
n n
У 49 больных гипертиреозом Исследовано 110 больных с абсцессом
исследован уровень пепсина легкого, из них у 44 обнаружены дис-
n=49 трофические изменения пародонта
M=1.0 г% n=110
σ=0,35 г% 44 100
P  40% лиц с дистрофически-
mM=? 110
0,35 ми изменениями пародонта
mM   0,05г % q=100 – 40=60% лиц без дистрофиче-
49 ских изменений пародонта
mP=?
40  60
mP   4.7%
110
Каждая средняя арифметическая или относительная величина, полученная
на выборочной совокупности, должна быть представлена со своей средней
ошибкой. Это дает возможность рассчитать доверительные границы средних и
относительных величин, а также определить достоверность разности сравнива-
емых показателей (результатов исследования).

55
Методы статистического анализа в медицине
6.2 Определение доверительных границ генеральной совокупности.
Определяя для средней арифметической (или относительной) величины
два крайних значения: минимально возможное и максимально возможное,
находят пределы, в которых может быть искомая величина генерального пара-
метра. Эти пределы называют доверительными границами.
Доверительные границы — это то максимальное и минимальное значе-
ние, в пределах которого, при заданной степени вероятности безошибочного
прогноза, может колебаться искомая средняя величина генерального параметра.
Доверительные границы средней арифметической в генеральной совокуп-
ности определяют по формуле:
M ген  M выб  tmM
Доверительные границы относительной величины в генеральной совокуп-
ности определяют по следующей формуле:
Pген  Pвыб  tmP ,
где Мген и Pген — значения средней и относительной величин, полученных
для генеральной совокупности; Мвыб и Рвыб — значения средней и относитель-
ной величин, полученных для выборочной совокупности; mM и mР — ошибки
репрезентативности выборочных величин; t — доверительный критерий (кри-
терий точности, который устанавливают при планировании исследования; t m —
доверительный интервал; tm=Δ, где Δ предельная ошибка показателя, получен-
ного при выборочном исследовании.
Размеры предельной ошибки (Δ) зависят от коэффициента t, который из-
бирает сам исследователь, исходя из необходимости получить результат с
определенной степенью точности.
Величина критерия t связана определенными отношениями с вероятностью
безошибочного прогноза — р и численностью наблюдений в выборочной сово-
купности.

Зависимость доверительного критерия t от степени вероятности


безошибочного прогноза (при n>30)
Степень вероятности
Доверительный критерий —t
безошибочного прогноза в %
95,0 2
99,0 3

Для большинства медико-биологических и социальных исследований до-


стоверными считаются доверительные границы, установленные с вероятностью
безошибочного прогноза р = 95% и более. Чтобы найти критерий t при числе
наблюдений n<30, необходимо воспользоваться специальной таблицей, в кото-
рой слева показано число наблюдений без единицы (n–1), а сверху (р) — сте-
пень вероятности безошибочного прогноза (табл. 8).

56
Методы статистического анализа в медицине

Таблица 8. Значение критерия t для трех степеней вероятности


P P
n=n–1 95% 99% 99,9% n=n–1 95% 99% 99,9%
1 12,7 63,7 37,0 10 2,2 3,2 4,6
2 4,3 9,9 31,6 11 2,2 3,1 4,4
3 3,2 5,8 12,9 12 2,2 3,1 4,3
4 2,8 4,6 8,6 13 2,2 3,0 4,1
5 2,6 4,0 6,9 14—15 2,1 3,0 4,1
6 2,4 3,7 6,0 16—17 2,1 2,9 4,0
7 2,4 3,5 5,3 18—20 2,1 2,9 3,9
8 2,3 3,4 5,0 21—2,4 2,1 2,8 3,8
9 2,3 3,3 4,8 25—29 2,0 2,8 3,7

При определении доверительных границ сначала надо решить вопрос о


том, с какой степенью вероятности безошибочного прогноза необходимо пред-
ставить доверительные границы средней или относительной величины. Избрав
определенную степень вероятности, соответственно этому находят величину
доверительного критерия t при данном числе наблюдений. Таким образом, до-
верительный критерий t устанавливается заранее, при планировании исследо-
вания.
Любой параметр (средняя величина или относительная величина) может
оцениваться с учетом доверительных границ, полученных при расчете.
Для ознакомления с методикой определения доверительных границ Мвыб и
Рвыб рекомендуется записать исходные данные и провести расчеты в опреде-
ленной логической последовательности:
Пример 1. Определить доверительные границы среднего уровня пепсина у
больных гипертиреозом с 95% вероятностью безошибочного прогноза (р =
95%).
Условие задачи: n=49
Мвыб = 1 г%
mм = ±0,05 г%
р = 95% (следовательно при n = 49 t = 2).
Определяем доверительные границы средней величины в генеральной со-
вокупности.
Формула Мген = Мвыб ± tmМ
Решение : Мген = 1 г% ± 2 х 0,05 г%
Мген не более 1 г% +0,1 г% = 1,1 г%,
Мген не менее 1 г%—0,1 г% =0,9 г%.

57
Методы статистического анализа в медицине
Вывод: Установлено с вероятностью безошибочного прогноза (р = 95%>,
что средний уровень пепсина в генеральной совокупности у больных с гипер-
тиреозом не превышает 1,1 г% и не ниже 0,9 г%.
Пример 2. Определить доверительные границы показателя частоты дис-
трофии пародонта у больных с абсцессом легкого с вероятностью безошибоч-
ного прогноза р = 95%.

Условие задачи:
n=110,
Рвыб =40%,
mр = ±4,7%,
р =95% (следовательно, при n=110 t=2).
Определяем доверительные границы относительного показателя в гене-
ральной совокупности.
Формула: Рген = Рвыб ± tmP,
Решение: Рген = 49% ±2 х 4,7%,
Рген не более 40% + 9,4 = 49,4%,
Рген не менее 40% –9,4 = 30,6%.
Вывод: Установлено с 95% вероятностью безошибочного прогноза (р =
95%), что дистрофические изменения пародонта в генеральной совокупности
наблюдаются у больных с абсцессом легкого не чаще, чем в 49,4%, и не реже,
чем в 30,6% случаев.

Как видно, доверительные границы зависят от размера доверительного ин-


тервала (tm=Δ).
Анализ доверительных интервалов указывает, что при заданных степенях
вероятности (р) и n ≥30 t имеет неизменную величину и при этом доверитель-
ный интервал зависит от величины ошибки репрезентативности (mм или mР).
С уменьшением величины ошибки суживаются доверительные границы
средних и относительных величин, полученных на выборочной совокупности,
т. е. уточняются результаты исследования, которые приближаются к соответ-
ствующим величинам генеральной совокупности.
Если ошибка большая, то получают для выборочной величины большие
доверительные границы, которые могут противоречить логической оценке ис-
комой величины в генеральной совокупности.
Например, при определенном режиме питания и тренировок спортсменов
средняя годовая прибавка массы тела у 80 спортсменов составила М выб=1 кг;
mM= ±0,8 кг. При степени вероятности р = 95,0% и t = 2 М ген = 1 кг ± 2 х 0,8 кг.
Следовательно:
Мген не более + 2,6 кг,
Мген не менее – 0,6 кг.
Эти противоречивые данные означают, что при указанном режиме спортс-
мены могут дать большую среднюю прибавку массы тела (до +2,6 кг), но могут
и убавить массу тела в среднем на 600 г. Таким образом, остается по-прежнему

58
Методы статистического анализа в медицине
невыясненным вопрос о степени влияния данного режима спортсменов на мас-
су их тела.
В подобном случае надо искать резервы сокращения размаха доверитель-
ных границ в размере величины ошибки репрезентативности. Прежде всего
надо проанализировать уровень разнообразия признака по среднему квадрати-
ческому отклонению (σ) с позиций однородности группы. Необходимо также
иметь в виду, что большое влияние на величину средней ошибки, а, следова-
тельно, и на доверительные границы оказывает численность наблюдений.
Доверительные границы Мвыб и Рвыб зависят не только от средних ошибок
этих величин (mM или mР), но и от избранной исследователем степени вероят-
ности безошибочного прогноза (р). При большой степени вероятности размах
доверительных границ увеличивается.

6.3 Оценка достоверности разницы результатов исследования


В медицине и здравоохранении по разности параметров оценивают сред-
ние и относительные величины, полученные для разных групп населения по
полу, возрасту, а также групп больных и здоровых и т. д. Во всех случаях при
сопоставлении двух сравниваемых величин возникает необходимость не только
определить их разность, но и оценить ее достоверность.
Достоверность разности величин, полученных при выборочных исследо-
ваниях, означает, что вывод об их различии может быть перенесен на соответ-
ствующие генеральные совокупности.
Достоверность выборочной разности измеряется доверительным критери-
ем (критерием точности t), который рассчитывается по специальным формулам
для средних и относительных величин.
Формула оценки достоверности разности сравниваемых средних величин
такова:
M1  M 2
t
m12  m22
и для относительных величин:
P1  P2
t ,
m12  m22
где М1 М2, P1, Р2 — параметры, полученные при выборочных исследовани-
ях; m1, и m2 — их средние ошибки; t — критерий точности. Разность достоверна
при t ≥2, что соответствует вероятности безошибочного прогноза, равной 95% и
более (р>95,0%).
Для большинства исследований, проводимых в медицине и здравоохране-
нии, такая степень вероятности является вполне достаточной.
Наряду с указанием степени вероятности безошибочного прогноза (Р), в
научной литературе часто встречается указание вероятности ошибки, которая
определяется как (1-Р), т.е. если Р=95% (р=0,95), то степень вероятности ошиб-
ки р=0,05.

59
Методы статистического анализа в медицине
При величине критерия достоверности t<2 степень вероятности безоши-
бочного прогноза составляет p<95%. При такой степени вероятности мы не мо-
жем утверждать, что полученная разность показателей достоверна с достаточ-
ной степенью вероятности.
В этом случае необходимо получить дополнительные данные, увеличив
число наблюдений.
Может случиться, что при увеличении численности выборки разность про-
должает оставаться недостоверной. Если при таких повторных исследованиях
разность остается недостоверной, можно считать доказанным, что между срав-
ниваемыми совокупностями не обнаружено различий по изучаемому признаку.
Например, требуется определить, достоверны ли различия в уровне пепси-
на в желудочном соке больных гипертиреозом и здоровых лиц. Обследуются на
пепсин две группы: 49 больных гипертиреозом и 50 здоровых людей (кон-
троль). Результаты представлены в таблице 9.

Таблица 9. Сравнение среднего уровня пепсина в желудочном соке


больных гипертиреозом и здоровых лиц (контроль)
Сравниваемые группы п М. г% т. г% t Степень вероятности
безошибочного
прогноза (р)
Больные гипертиреозом 49 1,0 ±0,3 10,0 >99,0
Здоровые (контроль) 50 4,0 ±0,1

M1  M 2 4 1
t t  10,0 .
m12  m22 0,32  0,12
Можно сделать вывод о том, что при гипертиреозе наблюдается снижение
уровня пепсина, что подтверждается с большой степенью вероятности безоши-
бочного прогноза (р>99%). Следовательно, снижение уровня пепсина может
быть использовано в качестве одного из симптомов для подтверждения диагно-
стики гипертиреоза.
Подобным же образом оценивают достоверность разности сравниваемых
относительных величин (табл. 10).

Таблица 10. Сравнение частоты случаев дистрофического поражения паро-


донта у больных с абсцессом легкого и здоровых лиц (контроль)
Из них с дистрофией
Сравниваемые
n пародонта t p
группы
абс. р mр
С абсцессом
110 44 40.0 ±4,7
легкого
6,2 >99,0
Здоровые
80 5 6.8 ±2,7
(контроль)

60
Методы статистического анализа в медицине

Вывод: разность показателей (40,0 – 6,8 = 33,2%) существенна и достовер-


на с вероятностью более 99%. Следовательно, можно с большой вероятностью
утверждать, что дистрофия пародонта как сопутствующее заболевание харак-
терна для больных с абсцессом легкого.

Такое сочетание закономерно и должно быть объяснено глубокими пато-


физиологическими сдвигами в организме этих больных. Этот пример показыва-
ет, что в большинстве случаев врачу-исследователю приходится решать вопрос
о том, существенно ли и достоверно ли различие, которое он наблюдает между
параметрами двух выборочных совокупностей. Будет ли отражать закономер-
ность полученная им разность и с какой вероятностью безошибочного прогноза
можно это утверждать.
Указанная методика оценки достоверности и разности результатов иссле-
дования позволяет проводить только попарное сравнение групп при обязатель-
ном наличии обобщающих параметров — средних арифметических (M1, и М2)
или относительных величин (P1, и Р2) и их средних ошибок (m).

6.4 Оценка достоверности различия сравниваемых групп по критерию


соответствия (хи-квадрат).
При определении характера связи между изучаемыми факторами или яв-
лениями одна из важнейших задач математической статистики заключается в
оценке достоверности полученных результатов. Достоверность различий можно
оценить по t-критерию, но этот критерий характеризует различия только между
двумя совокупностями. При сравнении трех и более совокупностей оценка до-
стоверности при помощи t-критерия затруднительна, так как попарное сравне-
ние не позволяет дать общей оценки различий. Кроме того, сравниваемые
группы могут иметь не два результата (да, нет), а несколько. Для решения этой
задачи используется критерий «хи-квадрат», разработанный К. Пирсоном. Он
же называется коэффициентом согласия и коэффициентом соответствия, «хи-
критерием». Он служит для оценки различий в нескольких сравниваемых груп-
пах и при нескольких результатах с определенной степенью достоверности
(например: оценка различий в распределении детей по частоте заболеваний в
районах с разными уровнями загрязнения атмосферного воздуха); определения
связи между двумя факторами (результат и зависимый признак). Например,
имеется ли связь между жилищными условиями, материальным обеспечением
семьи и т. д. и частотой заболеваний, госпитализацией; связь между состоянием
физического развития и тяжестью отдельных заболеваний и т. д.; определения
идентичности распределения частот двух и более вариационных рядов (коэф-
фициент согласия). Например, одинаково ли распределение частот (детей) по
содержанию гемоглобина, количеству эритроцитов, белков крови в двух сово-
купностях (живущих в зоне загрязнения и «чистой» зоне).
Из приведенных примеров видно, что «хи-квадрат» используется для ана-
лиза данных, характеризующих распределение, а не средние величины. Исход-

61
Методы статистического анализа в медицине
ный материал для вычислений дается в абсолютных числах по наблюдениям в
группах.
Сущность метода «хи-квадрат» заключается в определении достоверности
различий между фактическими и теоретическими («ожидаемыми») данными,
полученными при условии, что сравниваемые совокупности одинаковы по сво-
ему распределению («нулевая гипотеза»). После определения «нулевой гипоте-
зы» на основании этого предположения определяются «ожидаемые» данные,
которые сопоставляются с фактическими. Если различий между фактическими
и теоретическими числами нет, то нулевая гипотеза подтвердилась и действи-
тельно различий в сравниваемых группах нет. Если фактические данные будут
отличаться от теоретических, полученных при условии отсутствия различий в
распределении, то сравниваемые группы имеют разное распределение, и ре-
зультаты в этих группах статистически достоверно различны.
Таким образом, если Р – фактические данные, P1 – теоретически исчислен-
ные при нулевой гипотезе, то критерий может быть выражен формулой:
( P  P1 ) 2
2   .
P1
Оценка величины χ2 проводится по специальной таблице. Различия счита-
ются достоверными в том случае, когда величина хи-квадрат соответствует ве-
роятности меньшей 5% (0,05). Это вероятность подтверждения нулевой гипоте-
зы, т. е. предположения, что различия в сравниваемых группах отсутствуют
(связи между факторами нет).
Рассмотрим технику вычисления критерия на примере распределения де-
тей по частоте заболеваний в трех зонах проживания.
Фактические данные (р) представлены в таблице 11.

Таблица 11. Распределение детей трех районов по частоте заболеваний


Район проживания Всего детей Не болели Эпизодически Часто
болели болели
Зона химического комбината 3абл90 13 83 294
Контрольный район № 1 410 31 243 136
Контрольный район № 2 400 37 224 139
Всего . . . 1200 81 550 569

1. Определяем рабочую (нулевую) гипотезу. Предполагается, что в любом


месте проживания распределение детей по частоте заболевания будет одинако-
во. Это распределение вычисляется по итоговой строчке (нулевая гипотеза)
(табл. 12).
Таблица 12 Нулевая гипотеза
Всего детей Не болели Эпизодически болели Часто болели

1200 81 550 569


100% 6,7 46,0 47,3

62
Методы статистического анализа в медицине

2. В соответствии с нулевой гипотезой вычисляются новые «ожидаемые»


данные. Если бы распределение детей по частоте заболевания было бы одина-
ковым во всех зонах проживания, то число не болевших, эпизодически и часто
болевших детей в первой, второй и третьей зонах было бы следующим:

В зоне химического комбината В первом контрольном районе


Всего 390 детей 410детей
Не болели 6,7 – 100 6,7 – 100
х – 390 х – 410
Эпизодически болели 46 – 100 46 – 100
х – 390 х – 410
Часто болели 47,3 – 100 47,3 – 100
х – 390 х – 410

«Ожидаемые» результаты (теоретические числа)


Район проживания «Ожидаемые» числа, р Разница фактических
и «ожидаемых» чисел, р – р1
не бо- эпизо- часто не бо- эпизодически часто
лели ди- болели лели болели болели
чески
болели
Зона химического комбината 26 179 185 – 13 –96 + 109
Контрольный район № 1 28 188 194 +3 +55 –58
Контрольный район № 2 27 184 189 + 10 +40 –50

3. Вычисляется разница фактических и «ожидаемых» чисел, представлен-


ная в таблице. Так, при нулевой гипотезе мы ожидали, что в зоне химического
комбината число не болевших детей составит 26, эпизодически болевших 179,
часто болевших 185. Фактически они составили соответственно: 13, 83, 294.
Различия фактических и «ожидаемых» чисел обусловлены несовпадением
нулевой гипотезы и фактического состояния.
4. Различия возводят в квадрат.
5. Вычисляют различия на единицу ожидаемых наблюдений, т. е. квадрат
разницы делят на число «ожидаемых» единиц:
( p  p1 ) 2
p1

63
Методы статистического анализа в медицине
Результаты расчетов:
(р – р1)2
(р – р1)2
Зоны р1
проживания Не Эпизодически Часто Не Эпизодически Часто
болели болели болели болели болели болели
Зона хими-
ческого ком-
169 9216 11881 6,5 51,5 64,2
бината

Контрольный
район № 1 9 3025 3364 0,3 16,1 17,3

Контрольный
100 1600 2500 8,7 8,7 13,2
район № 2

Суммируют результаты последнего этапа – расчета: 6,5 + 0,3 + 3,7 + 51,5 +


16,8 и т. д. Сумма составляет – 181,5. Это и есть критерий соответствия (χ2).
6. Оценку величины χ2 производим по таблице.

Вероятность подтверждения нулевой гипотезы (хи-квадрат)


n' 0,05=5% 0,01=1 % 0,002=0,2% n' 0,05=5 % 0,01=1% 0,002=0,2 %

I 3,8 6,6 9,5 12 21,0 26,2 31,0


2 6,0 9,2 12,4 13 22,4 27,7 32,5
7,8 11,3 14,8 14 23,7 29,1 34,0
4 9,5 13,3 16,9 15 25,0 30,6 35,5
5 11,1 15,1 18,9 16 26,3 32,0 37,0
6 12,6 16,8 20,7 17 27,6 33,4 38,5
7 14,1 18,5 22,6 18 28,9 34,8 40,0
8 15,5 20,1 24,3 19 30,1 36,2 41,5
9 16,9 21,7 26,1 20 31,4 37,6 43,0
10 18,3 23,2 27,7 21 32,7 38,9 44,5
11 19,7 24,7 29,4 22 33,9 40,3 46,0

В первой колонке по вертикали обозначены числа степеней свободы, числа


самой таблицы представляют различные величины χ2, вверху таблицы даны ве-
роятности подтверждения нулевой гипотезы.
Оценим полученный результат в нашем примере.
Число степеней свободы определяется по формуле:
n'=(S-l) (r-l),
где: S — число сравниваемых групп (строк), r — число групп (граф) ре-
зультатов.

64
Методы статистического анализа в медицине
В нашем исследовании S (число групп детей, проживающих в различных
районах загрязнения воздуха) — 3, r (число рассматриваемых параметров их
здоровья) — 3 (не болели, эпизодически болели, часто болели),
n'=(3–1) х (3–1)=4.
В четвертой строке таблицы ищем значение χ2, соответствующее получен-
ному результату 181,5. Он больше 16,9, значит, вероятность нулевой гипотезы в
нашем примере менее 0,2%. Правила оценки таковы, что различия считаются
достоверными в сравниваемых группах, а также подтверждается наличие связи
между результатом и влияющим фактором, если нулевая гипотеза подтвержда-
ется с вероятностью меньшей чем 5% (Р<0,05). Если нулевая гипотеза подтвер-
ждается с вероятностью большей чем 5% (Р>0,05), то различия считаются недо-
стоверными и связь отсутствующей.
В нашем примере вероятность нулевой гипотезы менее 0,2%, отсюда связь
между загрязнением атмосферного воздуха и частотой заболеваний детей име-
ется, и она доказывается с достаточно большой надежностью.

6.5 Типичные ошибки, допускаемые при применении


методов оценки достоверности результатов исследования
1. При определении доверительных границ генеральной совокупности,
при числе наблюдений меньше 30, критерий t не определяют по специ-
альной таблице его оценки, с учетом числа наблюдений и задаваемой
степени вероятности, а сразу подставляют значение t = 2 или 3. В ре-
зультате полученных цифровых значений доверительные границы не
верны.
2. При применении метода оценки достоверности разности результатов
исследования наиболее частыми являются следующие ошибки:
 При оценке вычисленного значения критерия t делаются выводы о
достоверности (или недостоверности) самих результатов исследо-
вания. На основании этого метода нельзя судить о достоверности
самих полученных результатов исследования, а только лишь о до-
стоверности различий между ними;
 При значении критерия t меньше 2 делается вывод о необходимо-
сти увеличения числа наблюдений, таким образом, значение кри-
терия t связывается только с величиной ошибок репрезентативно-
сти. Если же выборочные совокупности репрезентативны (то есть
достаточны по числу наблюдений и качественно однородны) гене-
ральной, то нельзя делать вывод о необходимости увеличения чис-
ла наблюдений, так как в данном случае значение критерия t сви-
детельствует о случайности в различиях результатов исследова-
ния.

65
Методы статистического анализа в медицине
6.6 Задачи – эталоны

Пример 1: Из 120 детей, больных ревматизмом, состоящих под диспансер-


ным наблюдением в ревматологическом кабинете, у 10% сформировался порок
сердца.
Определить ошибку репрезентативности и доверительные границы показа-
теля частоты формирования порока сердца у детей, больных ревматизмом и со-
стоящих под диспансерным наблюдением.
1. Вычисляем ошибку репрезентативности
Pq 10  (100  10)
mP  mP   2,7
n 120
2. Определяем доверительные границы генеральной совокупности.
Задаем необходимую степень вероятности безошибочного прогноза. Для
данного исследования достаточно P=95%, что при n > 30 соответствует значе-
нию критерия t = 2.
Pген=Pвыб±tmP Pген=10±2∙2,7=10±5,4 то есть не более 15,4% и не менее 4,6%.
Вывод: С вероятностью безошибочного прогноза равной 95% установлено,
что частота формирования порока сердца у детей, больных ревматизмом и со-
стоящих под диспансерным наблюдением, составит не менее 4,6 и не более 15,4
случаев на 100 больных ревматизмом детей.

Пример 2: Обследовались 25-летние мужчины и женщины. В группе муж-


чин:
средняя величина спирометрии M1 = 3400 см2,
средняя ошибка m1 = 250,0 см2.
В группе женщин:
средняя величина спирометрии М2 = 2600 см2,
средняя ошибка m2 = 150,0 см2.
Определить достоверность различия полученных результатов.
M1  M 2 3400  2600 800
t t   2,76
m12  m22 250 2  150 2 85000
Вывод: Значение t=2,76, что соответствует вероятности безошибочного
прогноза более 95%. Следовательно, различие в средних величинах спиромет-
рии у мужчин и женщин достоверно.

Пример 3: При изучении показателей летальности в двух городских боль-


ницах были получены следующие данные: в больнице А показатель летально-
сти P1 был равен 3,2% (m1= ±0,04%), в больнице Б — P2 = 2,7% (m2 = ±0,07%).
Состав больных по отделениям был примерно одинаковым.
Оценить достоверность разности показателей летальности в больницах А и
Б.

66
Методы статистического анализа в медицине

P1  P2 3,2  2,7 0,5


t    6,25
m12  m22 0,04 2  0,07 2 0,0065

Вывод: Статистически достоверно (t > 2), что показатель летальности в


больнице А выше, чем в больнице Б.

6.7 Контрольные вопросы


1. Что такое средняя ошибка средней арифметической, ее определе-
ние и применение?
2. Как определяется достоверность различий средних величин, для
каких целей?
3. Как рассчитать ошибку репрезентативности?
4. Как определяются доверительные границы для генеральной сово-
купности?
5. Как определяется достоверность разности относительных показа-
телей?
6. Что такое «вероятность безошибочного прогноза»?
7. Что означает понятие «нулевая гипотеза»?
8. Можно ли оценить величину хи квадрат без таблицы? Каковы кри-
терии оценки?

6.8 Задачи для самостоятельного решения


Требуется оценить достоверность разности между двумя относительными
и средними величинами.

Вариант 1. В детской больнице А из 1600 оперированных умерло 16 боль-


ных, в детской больнице Б из 1800 оперированных умерло 24 больных.

Вариант 2. При изучении заболеваемости по обращаемости в районе Н. с


численностью населения 250000 человек по полу получены следующие данные:
показатели заболеваемости у мужчин составили 504,7 на 1000 населения, у
женщин — 529,4 на 1000 населения.

Вариант 3. Показатели послеоперационной летальности в двух больницах


(P1 и Р2), где распределение больных по видам операций было примерно одина-
ковым, составили:
в больнице А — 2,0% (m1 = ± 0,3%),
в больнице Б — 1,5% (m2 = ± 0,2%).

Вариант 4. Частота кариеса зубов среди населения, использующего питье-


вую воду с пониженным содержанием фтора, составила 380 случаев на 1000 че-
ловек (m =± 10‰), в то время как пораженность кариесом зубов населения, по-
требляющего воду с нормальным содержанием фтора, составляет 200 случаев
на 1000 населения (m = ± 15‰).
67
Методы статистического анализа в медицине

Вариант 5. Максимальное артериальное давление у студентов до сдачи эк-


заменов в среднем составило 127,2 мм рт. ст. (m1= ± 3,0 мм рт. ст), после сдачи
экзамена 117,0 мм рт. ст. (m2= ±4,0 мм рт. ст.) Можно ли на основании этих
данных считать, что действительно до сдачи экзамена у студентов отмечается
некоторое повышение максимального артериального давления?

Вариант 6. В стационаре лечилось 40 больных с анемией. До лечения пре-


паратами железа среднее количество гемоглобина в крови было 92,3 ± 2,2 г/л.
После лечения препаратами железа среднее количество гемоглобина в крови
стало 124,7 ± 5,6 г/л.
Можно ли на основании этих данных считать, что действительно после ле-
чения больных анемией препаратами железа отмечается повышение количества
гемоглобина в крови?

Вариант 7. При изучении частоты пульса у детей 3-х лет двух детских са-
дов обнаружено, что в детском саду А частота пульса в среднем составила 80,0
± 2,0 ударов в минуту, а в детском саду Б – 78,0 ± 2,0 ударов в минуту.
Можно ли на основании этих данных говорить о большей частоте пульса у
детей детского сада А?

68
Методы статистического анализа в медицине
Раздел 7
Дисперсионный анализ

Существенным недостатком лимита и амплитуды как критериев вариа-


бельности является то, что они полностью зависят от крайних значений призна-
ка в вариационном ряду. При этом не учитываются колебания значений при-
знака внутри ряда.
Наиболее просто определить однородность числового ряда с учетом всех
значений, составляющих этот ряд, через отклонения всех вариант от центра ря-
да (среднего арифметического), поскольку каждое отдельное наблюдение на
какую-то величину не совпадает со средним арифметическим. Разность между
конкретной вариантой и средним арифметическим из этого ряда называется от-
клонением от среднего di=(Vi – M). Такие отклонения от среднего (М=10) мож-
но представить в графической форме (рис. 13):

Рис. 13. Графическая форма отклонения от среднего.

Для получения обобщающей характеристики числового ряда использовать


сумму отклонений от среднего нельзя. Это связано с тем, что сумма всех отри-
цательных и положительных отклонений от среднего всегда равна нулю. Мож-
но избежать взаимной компенсации отклонений, беря квадраты отклонений, т.
к. при возведении в квадрат отрицательные и положительные числа дают толь-
ко положительные значения.
При усреднении всех отклонений числового ряда получается средний
квадрат отклонений, который называется дисперсией — D. Алгебраическое вы-
d i2
ражение дисперсии: D   
2
,
n
где n — число наблюдений, d — отклонения вариант от среднего di=(Vi – M).
d i2 Pi
Во взвешенном ряду дисперсия вычисляется по формуле: D  .
Pi

69
Методы статистического анализа в медицине
Способы вычисления дисперсии

Простой ряд Простой ряд Взвешенный ряд


d i2 Vi 2 d i2 Pi V j2 Pj
D D M2 D или M2
n n Pi Pj
V d d2 V V2 V Р VP V2P
15 –2 4 15 225 15 1 15 225
16 –1 1 16 256 16 3 48 768
17 0 0 17 289 17 5 85 1445
18 1 1 18 324 18 4 72 1296
19 2 4 19 361 19 2 38 722
2 2 2
M=17 Σd=0 Σd =10 ΣV =1455 ΣP=15 ΣVP=258 ΣV P=4456
D=10/5=2 D=1455/5–172=2 M=258/15=17,2
D=4456/45–17,22=1,2

Упрощенные способы расчета дисперсии позволяют избежать вычислений


отклонений d. В этом случае, для не сгруппированного ряда D  
V j2
 M 2 , где
n
2 2
ΣVj — сумма квадратов вариант ряда, М — квадрат среднего арифметическо-
го, n — число наблюдений. Для сгруппированного ряда формула вычисления
дисперсии упрощенным способом выглядит следующим образом:
D
V P
j
2
j 2
 M 2 , где ΣVj P — сумма произведений квадратов вариант ряда
P j

на их частоту, М2 — квадрат среднего арифметического, ΣPj — число наблюде-


ний, определяемое как сумма частот. Если в результате статистического
наблюдения получены несколько групп значений признака, то для вычисления
обшей дисперсии можно группы в единую совокупность не объединять. Более
того, если совокупность имеет большое число наблюдений (большой объем), то
в случае «ручного» проведения вычислений целесообразно ее разбить на не-
сколько групп. В том и другом случаях вычислением дисперсий отдельных
групп можно заменить непосредственное вычисление общей дисперсии. По-
скольку общая дисперсия равна сумме внутригрупповой и межгрупповой дис-
персий. Это свойство дисперсий имеет большое теоретическое и практическое
значение, являясь основой широко применяющегося в научных исследованиях
дисперсионного анализа.
Формула для расчета общей дисперсии представлена выражением
Dобщ=Dвнгр+Dмежгр, где:
Dобщ — общая дисперсия, дисперсия значений признака всей совокупности
относительно общего среднего;
Dвнгр — внутригрупповая дисперсия, среднее арифметическое групповых
дисперсий, взвешенных по объемам групп;

70
Методы статистического анализа в медицине

Dвнгр 
N j Dj
где n – объем всей совокупности, Nj — объем
n
группы j, Dj — дисперсия группы j, Dмежгр — межгрупповая дисперсия.

Dмежгр 
 N j (M j  M ) 2
, где Mj — групповое среднее группы, М — об-
n
щее среднее, n — объем всей совокупности, Nj — объем группы.
Практически расчет общей дисперсии не представляет труда. Например:
требуется найти общую дисперсию совокупности, состоящей из двух групп.
Вычисления проходят по следующим этапам.
1-й этап:
Вычисление средних в первой и второй группе
Первая группа Вторая группа
V1 P1 V1P1 V2 P2 V2P2
2 1 2 3 2 6
3 4 12 5 4 20
4 5 20 7 6 42
6 3 18 8 2 16
n1=ΣP1=13 ΣV1P1=52 N2=ΣP2=14 ΣV2P2=84
M1=52/13=4 M2=84/14=6

2-й этап. Вычисление общего среднего всей совокупности (обеих групп):


M1n1  M 2 n2 4  13  6  14
M общ    5.04  5 .
n1  n2 13  14
3-й этап: Вычисление групповых дисперсий
Первая группа Вторая группа
2
V1 P1 V1 P1 V2 P2 V22P2
2 1 4 3 2 6
3 4 36 5 4 20
4 5 80 7 6 42
6 3 108 8 2 16
2 2
n1=ΣP1=13 ΣV1 P1=228 n2=ΣP2=14 ΣV2 P2=540
2 2
D1=ΣV1 P1/n1–M1=1.54 D2=ΣV2 P2/n2–M2=2.57
4-й этап. Рассчитываем внутригрупповую дисперсию как среднюю группо-
вых дисперсий:
1,54  13  2,57  14
Dвнгр   2,07 .
13  14
5-й этап. Определяем межгрупповую дисперсию как дисперсию групповых
средних относительно общего среднего:
13  (4  5,04) 2  14  (6  5,04) 2
Dмежгр   1.
13  14

6-й этап. Общая дисперсия Dобщ = Dвнгр +Dмежгр = 1+2,07=3,07.


71
Методы статистического анализа в медицине

Раздел 8
Метод стандартизации

В практической и научно-практической деятельности врачи любой специ-


альности при изучении какого-либо явления, закономерностей и особенностей
его распространения в различных совокупностях используют сравнение интен-
сивных показателей. Это относится, например, к сравнению показателей забо-
леваемости населения двух районов города, или производственного травматиз-
ма среди рабочих двух цехов, или летальности в двух больницах и т.д. При
этом важно не только констатировать больший или меньший уровень одного из
показателей, но и выяснить причины этой разницы. И прежде всего надо иметь
в виду, что нередко состав совокупностей, для которых рассчитаны сравнивае-
мые показатели, отличаются по какому-либо признаку (полу, возрасту, профес-
сии, стажу работы и др.), что в свою очередь, может повлиять на различие по-
казателей. Установить это и позволяет метод стандартизации.
Метод стандартизации применяется при сравнении интенсивных показате-
лей, рассчитанных для совокупностей (групп), отличающихся по своему соста-
ву по какому-то признаку (полу, возрасту, профессии и т.д.).
Сущность метода стандартизации состоит в том, что он позволяет устра-
нить возможное влияние различий в составе совокупностей по какому-либо
признаку на величину сравниваемых интенсивных показателей. Это достигает-
ся путем условного уравнивания составов этих совокупностей по данному при-
знаку и расчета при этом стандартизованных показателей.
Стандартизованные показатели — это условные величины, не дающие
представления об истинном размере явления, а указывающие лишь на то, како-
ва была бы величина сравниваемых интенсивных показателей, если бы они бы-
ли бы вычислены для однородных по своему составу (по данному признаку)
совокупностей.
Существуют различные способы расчета стандартизованных показателей:
прямой, косвенный, обратный. Наиболее распространенным является прямой
метод стандартизации (рис. 14).
8.1. Прямой метод стандартизации
Этапы прямого метода стандартизации.
I этап. Расчет интенсивных показателей в отдельных группах, по признаку
различия (полу, возрасту, стажу работы и т.д.) и по совокупностям в целом.
II этап. Выбор и расчет стандарта, то есть одинакового для сравниваемых
совокупностей численного состава по данному признаку. За стандарт принима-
ется сумма, полусумма численностей соответствующих групп или численный
состав одной из сравниваемых групп.
III этап. Расчет «ожидаемых величин» для каждой группы стандарта.
IV этап. Вычисление стандартизованных показателей для сравниваемых
совокупностей.
V этап. Сопоставление соотношений стандартизованных и интенсивных
показателей. Выводы.
72
Методы статистического анализа в медицине

Метод стандартизации

1. Случаи сравнение вывод о нали- устранение


применения показателей, чии или отсут- влияния каких
полученных ствии влияния либо факторов
на различ- элиминируе- на величину
ных по со- мого фактора показателя
ставу груп- на величину
пах показателя

2. Методы
стандар- прямой косвенный обратный
тизации

3. Этапы сопоставле-
стандарти- расчет вычис- ние интен-
зации пря- вычисле- вы- ожидаемых ление сивных
мого мето- ние част- бор величин в стандар- (фактиче-
да ных и об- стан- каждой тизиро- ских) и
щих пока- дарта группе ванных стандарти-
зателей I II стандарта показа- зованных
III телей IV показателей
V

4. Определе- полу-
ние стан- лу-
сумма
дарта сум- одна из произвольный числен-
сравнивае-
ма групп ный состав
мых групп
груп
п

Рис. 14. Методы стандартизации

Примеры решения типовых ситуационных задач

Пример 1
Вычислить стандартизованные показатели летальности в больницах А и Б.
Сравнить их с интенсивными показателями и сделать выводы.
За стандарт принять полусумму больных, прошедших по каждому отделе-
нию в двух больницах.
73
Методы статистического анализа в медицине

Распределение больных и умерших по отделениям больниц А и Б


Больница А Больница Б
число число
Отделение из них из них
прошедших прошедших
умерло умерло
больных больных
Терапевтическое 600 30 200 12
Хирургическое 300 9 700 21
Инфекционное 100 4 100 5
Всего 1000 43 1000 38

I этап. Вычисление интенсивных показателей в отделениях


и по больницам в целом
Отделение Больница А Больница Б
30  100 12  100
Терапевтическое  5%  6%
600 200
9  100 21  100
Хирургическое  3%  3%
300 700
4  100 5  100
Инфекционное  4%  5%
100 100
43  100 38  100
Всего  4,3%  3,8%
1000 1000

II этап. Определение стандарта.


За стандарт принимаем полусумму больных, прошедших по каждому от-
делению в двух больницах.
Отделение Число прошедших Стандарт
больных
600  200
Терапевтическое 400
2
300  700
Хирургическое 500
2
100  100
Инфекционное 100
2
1000  1000
Всего 1000
2

74
Методы статистического анализа в медицине

III этап. Определяем ожидаемое количество умерших больных в стандарте


по каждому отделению в больницах А и Б.
Ожидаемое число умерших больных в стандарте
Отделение
Больница А Больница Б
600—30 200—12
Терапевтическое
400—Х Х=20 400—Х Х=24
300—9 700—21
Хирургическое
500—Х Х=15 500—Х Х=15
100—4 100—5
Инфекционное
100—Х Х=4 100—Х Х=5
Всего Σ39 Σ 44

IV этап. Определяем общие стандартизованные показатели


летальности в больницах А и Б.

39 100
Больница A  3,9%
1000

44 100
Больница Б  4,4%
1000

V этап. Сопоставляем интенсивные и стандартизованные показатели в


больницах А и Б.

Больница Больница
Соотношение А и Б
А Б
Интенсивный
4,3 3,8 А>Б
показатель
Стандартизованный
3,9 4,4 А<Б
показатель

Выводы:
1. Уровень летальности в больнице А выше, чем в больнице Б.
2. Показатели летальности по отделениям, напротив, выше в больнице Б.
3. Однако, если бы состав больных в отделениях был одинаков, то леталь-
ность была бы выше в больнице Б.
Следовательно, на различия в уровнях летальности оказала влияние неод-
нородность больных в больницах А и Б, а именно, неодинаковое число про-
шедших больных по терапевтическому отделению больницы А и Б, поскольку
большинство умерших больных приходится на это отделение.

75
Методы статистического анализа в медицине

Пример 2.
Используя метод стандартизации при сравнении уровней производствен-
ного травматизма в цехах №1 и №2, сделайте соответствующие выводы.
За стандарт принять сумму рабочих по каждой группе в обоих цехах.

Уровень производственного травматизма в цехах № 1 и № 2.


Цех № 1 Цех № 2
Стаж число число
число травм число травм
работающих рабочих рабочих
до 1 года 300 30 150 16
1—4 года 150 6 300 20
5 лет и более 100 2 500 12
Всего 550 38 950 48

I этап. Вычисление интенсивных показателей в группах и в целом по цехам


Стаж Число травм на 100 работающих
работающих Цех № 1 Цех № 2
30 x 100 16 х 100
до 1 года =10,0 =10,7
300 150
6 х 100 20 х 100
1—4 года =4,0 =6,7
150 300
2 х 100 12 х 100
5 лет и более =2,0 =2,4
100 500
38 x 100 48 x 100
Всего =6,9 =5,0
550 950

II этап. Определяем стандарт. За стандарт принимаем сумму рабочих по


каждой группе в обоих цехах.

Стаж работы Число работающих Стандарт


до 1 года 300+150 450
1—4 года 150+300 450
5 лет и более 100+500 600
Всего 550+950 1500

76
Методы статистического анализа в медицине
III этап. Определяем ожидаемое число травм в стандарте по каждой стаже-
вой группе для цехов № 1 и № 2.
Ожидаемое число травм в стандарте
Стаж работы
Цех № 1 Цех № 2
300 – 30 150 – 16
до 1 года
450 – Х Х = 45,0 450 – X X = 48,0
150 – 6 300 – 20
1–4 года
450 – Х X = 18,0 450 – X X = 30,0
100 – 2 500 – 12
5 лет и более
600 – X X = 12,0 600 – X X = 14,4
Всего Σ75,0 Σ92,4

IV этап. Определяем общие стандартизованные показатели


травматизма в цехах № 1 и № 2.

75,0x100
Цех № 1 ————— = 5,0 на 100 работающих
1500
92,4x100
Цех № 2 ————— = 6,2 на 100 работающих
1500

V этап. Сопоставляем интенсивные и стандартизованные


показатели травматизма в цехах № 1 и № 2.
Цех № 1 Цех № 2 Соотношение № 1 и № 2
Интенсивные
6,9 5,0 №l>№2
показатели
Стандартизованные
5,0 6,2 №l<№2
показатели

Выводы:
1. Уровень производственного травматизма в цехе № 1 выше, чем в цехе № 2.
2. Показатели травматизма по стажевым группам, напротив, выше в цехе № 2.
3. Однако, если бы состав рабочих по стажу в этих цехах был одинаков, то
травматизм был бы выше в цехе № 2.
Следовательно, на различия в уровнях травматизма оказала влияние неод-
нородность стажевого состава рабочих, а именно, преобладание в цехе № 1 ра-
бочих со стажем до 1 года, имеющих высокие показатели травматизма, а в цехе
№ 2 — рабочих со стажем 5 лет и более, имеющих низкие показатели травма-
тизма

77
Методы статистического анализа в медицине
8.2 Косвенный метод стандартизации
Применяется, если специальные коэффициенты в сравниваемых группах
неизвестны или известны, но мало достоверны. Это наблюдается, например, ко-
гда числа заболевших очень малы и, следовательно, вычисляемые коэффициен-
ты будут существенно меняться в зависимости от прибавления одного или не-
скольких случаев заболеваний.
Вычисление стандартизованных коэффициентов косвенным способом
можно разбить на три этапа.

I этап. Состоит в выборе стандарта. Так как нам обычно неизвестны специ-
альные коэффициенты сравниваемых групп (коллективов), то за стандарт бе-
рутся специальные коэффициенты какого-то хорошо изученного коллектива. В
рассматриваемом примере таковыми могут служить повозрастные показатели
смертности от злокачественных новообразований в городе «С».
Стандарт – онкосметрность населения с городе С по возрастам (на 100000 нас.)
до 29 лет включительно – 5,0
30-39 лет – 32,0
40-49 лет – 130,0
50-59 лет – 360,0
60 лет и старше 730,0
всего 1250,0

Возрастные группы Численность населения


Город А Город В
до 29 лет включительно 280000 275000
30-39 лет 90000 78000
40-49 лет 75000 56000
50-59 лет 70000 51000
60 лет и старше 65000 40000
Всего населения 580000 500000
Всего умерло от н/о 754 590

Вычисляем онкосмертность (на 100000 нас.)


Город А 754/580000х100000=130 на 100000 нас.
Город В 590/500000х100000=118 на 100000 нас.

II этап включает вычисление «ожидаемых» чисел умерших от злокаче-


ственных новообразований. Допуская, что повозрастные коэффициенты смерт-
ности в обоих сравниваемых городах равны стандартным, определяем, сколько
бы умерло людей от злокачественных новообразований в каждой возрастной
группе.

78
Методы статистического анализа в медицине
Возрастные группы Численность населения
Город А Город В
до 29 лет включительно 100000-5 100000-5
280000-х х=14,0 275000-х х=13,8
30-39 лет 100000-32 100000-32
90000-х х=28,8 78000-х х=24,9
40-49 лет 100000-130 100000-130
75000-х х=97,5 56000-х х=72,8
50-59 лет 100000-360 100000-360
70000-х х=252,0 51000-х х=183,6
60 лет и старше 100000-730 100000-730
65000-х х=474,5 40000-х х=292,0
Всего 866,8 587,1

III этап. На этом этапе вычисляются стандартизованные коэффициенты


смертности населения от злокачественных новообразований. Для этого дей-
ствительное число умерших относят к суммарному «ожидаемому» числу, и ре-
зультат умножают на общий коэффициент смертности стандарта.
Вычисляем стандартизированные показатели для городов А и В:
стандарти-
Действительное число умерших общий коэффициент
зированные = х
ожидаемое число умерших смертности стандарта
показатели

Для г. А 754/866,8х125= 108 на 100000 нас.


Для г. В 590/587,1х125= 108 на 100000 нас.
Следовательно, более низкий общий коэффициент смертности населения в
городе В (118,0 на 100000 нас. против 130,0 на 100000 нас. в городе А) объясня-
ется более благоприятной возрастной структурой населения в этом городе.

8.3 Обратный метод стандартизации


Обратный метод стандартизации применяется при отсутствии данных о
возрастном составе населения, когда имеются лишь сведения о возрастном со-
ставе больных или умерших, то есть данные обратные тем, что использовались
при косвенном методе. Метод дает менее точные результаты. Они тем точнее,
чем более дробные возрастные интервалы применяются при стандартизации.
Важно также выбрать подходящий, близкий к сравниваемым контингентам,
стандарт. Стандартом в этом случае служат возрастные коэффициенты смерт-
ности или заболеваемости.
Например, в городе Н за последние 10 лет несколько увеличились коэффи-
циенты смертности населения от злокачественных новообразований со 115,5
на на 100000 нас. в 1986 г. до 119,0 на 100000 нас. в 1996 г. За это время чис-
ленность населения возросла с 800000 до 900000 человек и, по-видимому, воз-
растной состав был различен в сравниваемые годы.

79
Методы статистического анализа в медицине
I этап состоит из выбора стандарта. Примем за стандарт повозрастные ко-
эффициенты смертности от злокачественных новообразований на 100000 насе-
ления в 1989 г., в год переписи, когда эти коэффициенты были определены с
достаточной точностью.
II этап включает в себя вычисление «ожидаемой» численности населения
города, при этом допускается, что повозрастные коэффициенты смертности от
злокачественных новообразований в 1986 и 1996 гг. были такими же, как и в
1989 г.
Стандартизация коэффициентов смертности от злокачественных новообра-
зований в городе Н. Обратный метод (числа условные)
I этап II этап
1986 г. 1996 г
Повозрастные коэф- Число умер- Число умер-
фициенты смертности ших от злока- ших от злока-
Возрастные «Ожида- «Ожида-
от злокачественных но- чественных чественных
группы емая» чис- емая» чис-
вообразований на новооб- новооб-
ленность ленность
100000 населения, при- разований в разований в
населения населения
нятого за стандарт данном воз- данном воз-
расте расте
До 30 лет 4,0 21 525000 18 450000
30-39 лет 35,0 44 125714 36 102857
40-49 лет 132,0 156 110606 181 136364
50-59 лет 354,0 221 62469 278 78523
60 лет и
722,0 482 66759 558 72280
старше
Всего 121,0 924 890548 1071 840024

Для вычисления «ожидаемой» численности населения делим число умер-


ших в каждой возрастной группе на соответствующие повозрастные коэффици-
енты смертности от злокачественных новообразований принятого за стандарт
населения, и результат умножаем на 100000.
Например, для того, чтобы в возрасте до 30 лет коэффициент смертности
от злокачественных новообразований составлял 4,0 на 100000 при наличии 21
умершего в этом возрасте в 1986 г., численность населения данного возраста в
этом году должна составлять:
21  100000
 525000 , а в 1996г. 18 100000  45000 человек.
4,0 4,0

Таким же образом определяем «ожидаемую» численность населения для


всех остальных возрастных групп населения. В результате подсчета оказалось,
что «ожидаемая» численность населения в 1986 году составляла 890548 чело-
век, а в 1996 году - 840024 человека.
Расхождение «ожидаемых» и фактических чисел населения вызвано раз-
личием действительных и принятых за стандарт повозрастных коэффициентов
смертности населения от злокачественных новообразований.

80
Методы статистического анализа в медицине
III этап. На третьем этапе стандартизации для устранения указанного раз-
личия делим «ожидаемые» числа населения на фактические и умножаем на
принятый за стандарт коэффициент смертности.
Для 1986 г. это составляет
890548
х121,0 = 134,7 на 10000
800000
для 1996 года
840024
х121,0 = 112,9 на 10000
900000

Отсюда можно сделать вывод, что некоторый рост общих коэффициентов


смертности населения города Н от злокачественных новообразований был вы-
зван только изменением возрастного состава населения. После применения
стандартизации и элиминирования влияния изменений возрастного состава ока-
залось, что за истекшие 10 лет население города стало реже умирать от злока-
чественных новообразований.
Необходимо еще раз подчеркнуть, что выбор конкретного метода стандар-
тизации зависит от того, насколько полный статистический материал имеется в
наличии. Прямой метод дает более надежные результаты, но в случае невоз-
можности его применения следует использовать косвенный или обратный ме-
тод стандартизации: они достаточно точны для практического применения.
Стандартизация позволяет нам сделать правильный вывод о том, имеется ли
действительно разница общих интенсивных коэффициентов в сравниваемых
коллективах или эти различия зависят только от неодинаковой структуры срав-
ниваемых совокупностей.

8.4 Контрольные вопросы


1. Что такое метод стандартизации?
2. Являются ли стандартизованные показатели истинными или условны-
ми?
3. Случаи применения метода стандартизации.
4. Что такое стандартизованные показатели?
5. Из каких этапов состоит прямой метод стандартизации?
6. Дайте понятие косвенного метода стандартизации, назовите его этапы.
7. Дайте понятие обратного метода стандартизации, назовите его этапы.

81
Методы статистического анализа в медицине
8.5 Задачи для самостоятельного решения
Задача 1
Вычислить стандартизированные показатели заболеваемости населения
язвенной болезнью желудка и 12-ти перстной кишки в 2-х районах. Сравнить
их с интенсивными показателями. За стандарт принять состав населения по по-
лу в районе Б.
Число больных язвенной болезнью желудка и 12-ти перстной кишки
Район А Район Б
ПОЛ
К-во населения К-во больных К-во населения К-во больных

Мужчины 700 11 900 23

Женщины 1200 76 650 35

Всего 1900 87 1550 58

Задача 2
Примените прямой метод стандартизации и определите, деятельность ка-
кого стационара следует признать более эффективной? За стандарт принять
число пролеченных больных в стационаре А.
Сроки госпитализа- Стационар А. Стационар Б.
циизаболе-
(от начала Абс. число Абс. чис- Абс. число Абс. чис-
вай.), сут. госпитали- ло умер- госпитали- ло
зированных ших зированных умерших

1-2 400 4 600 10


3-5 400 14 600 10
6-7 800 25 400 20
Итого: 1600 43 1600 40

82
Методы статистического анализа в медицине
Раздел 9
Корреляционный анализ
Основные понятия, связанные с корреляционным анализом приведены на
рисунке 15.
Измерение связи между явлениями
или признаками

1. Виды связи функциональная корреляционная

2. Критерии
оценки корреля- коэффициент
ционной связи корреляции

3. Методы опре-
деления коэффи- Метод квадратов Метод рангов
циента корреля- (Пирсона) (Спирмена)
ции

4. Оценка харак-
Прямая (+) Обратная (–)
тера связи

5. Оценка силы Сильная Средняя Слабая


связи (от 0,7 до 1) (от 0,3 до 0,7) (от 0 до 0,3)

Рис. 15. Корреляционный анализ.

Все в природе связано и взаимообусловлено. Изменчивость одного при-


знака находится в определенном соответствии с изменчивостью другого. Если
изменению одного признака всегда соответствует изменение второго признака
на определенную величину, то говорят о функциональной зависимости (связи).
Примером такой зависимости являются физические, химические явления, зави-
симости в геометрии и т. д.
Примером может служить увеличение площади круга, которая находится в
строгой зависимости от увеличения его радиуса, или тот факт, что угол пра-
вильного многоугольника зависит от числа сторон, но не зависит от их длины и
т.п.
Когда с изменением одного признака второй может измениться на величи-
ну, которую заранее предопределить невозможно, и каждому значению одного
признака может соответствовать несколько значений другого признака, говорят
о корреляционной связи.

83
Методы статистического анализа в медицине
Корреляционная связь проявляется между массой тела и ростом детей,
числом эритроцитов и содержанием гемоглобина в крови, дозой заражающего
агента и летальностью животных, содержанием вредно действующих веществ в
окружающей среде и заболеваемостью. Статистика измеряет эту связь. Стати-
стический анализ связи обычно начинается с построения комбинационных ана-
литических таблиц, где очень важно провести правильную группировку мате-
риала, которая поможет выявлению зависимости.
Корреляционная зависимость отличается по форме, направлению и силе
связи.
Форма связи может быть прямолинейной и криволинейной. Когда равно-
мерным изменениям одного признака соответствуют равномерные изменения
второго (при незначительных отклонениях), говорят о прямолинейной связи.
Например, с возрастанием загрязнения окружающей среды заболеваемость уве-
личивается. Когда равномерным изменениям одного признака соответствуют
неравномерные изменения второго признака, причем неравномерность имеет
определенную закономерность, говорят о криволинейной связи.
Направление связи может быть двух видов:
 прямое (положительное) т. е. с увеличением одного признака вто-
рой тоже увеличивается или с уменьшением одного другой тоже
уменьшается (например, с увеличением роста человека увеличива-
ется масса его тела; с уменьшением концентрации вредных веществ
в воздухе уменьшается заболеваемость);
 обратное (отрицательное): с увеличением одного признака второй
уменьшается или с уменьшением одного признака второй увеличи-
вается (например, с увеличением количества фтора в воде до опти-
мальных величин уменьшается заболеваемость флюорозом; с уве-
личением санитарной грамотности матерей уменьшается заболева-
емость детей).
Сила связи измеряется степенью корреляции. Под силой связи понимается
сопряженность связанных признаков, широта варьирования значений. Связь
может быть сильной, средней, слабой.

Корреляция Коэффициент при корреляции


прямой обратной
Слабая (малая, низкая) 0—0,3 0—(–0,3)
Средняя 0,3—0,7 (–0,3)-(–0,7)
Сильная (большая, высокая) 0,7—1,0 (–0,7)-(–1,0)

При определении коэффициента корреляции наиболее часто применяется


метод квадратов (Пирсона) и метод рангов (Спирмена).

84
Методы статистического анализа в медицине
9.1 Вычисление корреляционной зависимости методом квадратов
Коэффициент корреляции методом квадратов (Пирсона) вычисляется по
формуле:

rxy 
 d  d  x y

d  dx
2
y
2 ,

где r – коэффициент корреляции,


x и у – признаки, между которыми определяется связь, dx и dy— отклоне-
ния каждой варианты от средней арифметической, вычисленной в ряду призна-
ка х и в ряду признака у.
Для определения достоверности коэффициента корреляции вычисляют:
1. Его ошибку по формуле:
1  rxy2
mr   .
n2
2. Критерий достоверности (t):
rxy
t
mr .
При t равном или больше 3 – коэффициент корреляции достоверен.

Пример решения задачи


Вычисление коэффициента корреляции методом квадратов.
Даны возраст матери и количество сцеженного и высосанного грудного
молока.
Зависимость между возрастом матери и
количеством сцеженного и высосанного грудного молока
Возраст матери, годы (х) Количество молока, г (у)
15 110
18 110
21 115
24 110
27 105
30 90
33 95
39 90
39 85
42 80

85
Методы статистического анализа в медицине
Измерение корреляции между возрастом матери
и количеством сцеженного и высосанного грудного молока
Возраст ма- Количество
тери, годы молока, г (y) dx dy d x X dy dx2 dy2
(х)
15 110 –13,8 11 –151,8 190,44 121
18 110 –10,8 11 –118,8 116,64 121
21 115 –7,8 16 –124,8 60,84 256
24 110 –4,8 11 –52,8 23,04 121
27 105 –1,8 6 –10,8 3,24 36
30 90 1,2 –9 –10,8 1,44 81
33 95 4,2 –4 –16,8 17,64 16
39 90 .10,2 –9 –91,8 104,04 81
39 85 10,2 –14 –142,8 104,04 196
42 80 13,2 –19 –250,8 174,24 361
x=288 y=990
0 =0 = –972,0 =795,6 =1390
MX=28,8 My=99

Для расчета коэффициента корреляции определяем средние величины Мх и


My, затем находим отклонения каждой варианты от средней для ряда х (d x = x –
Мх) и для ряда у (dy = y – My), полученные отклонения перемножаем (dx x dy) и
суммируем, каждое отклонение возводим в квадрат и суммируем, по ряду х —
Σdx2 и по ряду у — Σdy2.
Определяем коэффициент корреляции по формуле:

rxy 
 d  d 
x y

d  d
x
2
y
2 .

В нашем примере:
 972,0  972,0  972,0
rxy     0,92 .
795,6  1390 1105884 1051,6

Коэффициент корреляции, равный –0,92, свидетельствует о наличии об-


ратной сильной связи между возрастом матери и количеством сцеженного и
высосанного грудного молока. Для определения достоверности коэффициента
корреляции вычисляем:
а) его ошибку:
1  rxy2 1  0.85 0.15
mr   mr     0,14
n2 8 8

86
Методы статистического анализа в медицине
б) критерий достоверности:
rxy 0,92
t t  6,6
mr 0,14
Поскольку критерий t больше 3, коэффициент корреляции достоверен.
Таким образом, с увеличением возраста матери количество сцеженного и
высосанного грудного молока статистически достоверно уменьшается.

9.2 Вычисление корреляционной зависимости методом рангов


Коэффициент корреляции методом рангов (Спирмена) вычисляется по
формуле:
6  d 2
xy  1 
nn 2  1 ,
где ρ – коэффициент корреляции, x и y – признаки, между которыми опре-
деляется связь, 6 – постоянный коэффициент, n – число наблюдений.
Для определения достоверности коэффициента корреляции вычисляют:
Его ошибку по формуле:
1  xy2
m   .
n2
Критерий достоверности (t):
xy
t
mp .
При t равном или больше 3 – коэффициент корреляции достоверен.

Пример решения задачи


Зависимость между систолическим и диастолическим давлением
Дан уровень систолического и диастолического давления
(в мм рт. ст.) у 12 здоровых юношей в возрасте 18 лет.
Систолическое давление (х) Диастолическое давление (y)
105 65
115 70
115 65
110 65
110 70
120 75
120 75
120 70
125 75
110 70
125 80
87
Методы статистического анализа в медицине

120 80
Для вычисления коэффициента ранговой корреляции определяем порядко-
вый номер (ранг), который занимает каждое значение систолического и диасто-
лического давления.
При обозначении ранга начинают с меньшего (или большего) значения
признака в обоих рядах. Так, например, значение систолического давления
105 мм рт. ст. является наименьшим, и мы ставим ранг равный 1. Если значение
признака встречается несколько раз, ранги проставляются следующим образом:
систолическое давление 110 мм рт. ст. встречается 3 раза, занимая по величине
2, 3, 4 места, поэтому порядковый номер в данном случае будет равен
( 2 + 3 + 4 ) : 3 = 3, т.е. против каждого значения систолического давления, рав-
ного 110 мм рт. ст., будет поставлен ранг равный 3, систолическое давление
115 мм рт. ст. встречается 2 раза и против каждого значения будет поставлен
ранг ( 5 + 6 ) : 2 = 5,5 и т.д. Аналогично проставляются ранги и для значений
диастолического давления.
Затем определяем разность между рангами в каждой строке, обозначив эту
разность буквой d, возводим ее в квадрат.

Измерение корреляции между систолическим


и диастолическим давлением
Ранги Квадрат
Систолическое Диастолическое Разность
разности
давление (х) давление (у) x у рангов (d)
рангов (d2)
105 65 1 2 -1 1
115 70 5,5 5,5 0 0
115 65 5,5 2 3,5 12,25
110 65 3 2 1 1
110. 70 3 5,5 -2,5 6,25
120 75 8,5 9 -0,5 0,25
120 75 8,5 9 -0,5 0,25
120 70 8,5 5,5 3 9
125 75 11,5 9 2,5 6,25
110 70 3 5,5 -2,5 6,25
125 80 11,5 11,5 0 0
120 80 8,5 11,5 0 9
=51,5

Коэффициент ранговой корреляции определяется по формуле:


6d2
xy  1 
nn 2  1 .
В нашем примере:

88
Методы статистического анализа в медицине

6  51,5 309
xy  1   1  1  0,18  0,82 .
12 143 1716
Коэффициент корреляции, равный +0,82, свидетельствует о наличии пря-
мой сильной связи между систолическим и диастолическим давлением.
Для определения достоверности коэффициента корреляции вычисляем:
а) его ошибку:
1  xy2 1  0,67
m   m     0,033  018
, .
n2 10
б) критерий достоверности:
xy 0,82
t t  4,5 .
m 0,18
Поскольку критерий t больше 3, коэффициент корреляции достоверен.
Таким образом, между систолическим и диастолическим давлением суще-
ствует прямая сильная статистически достоверная корреляционная зависи-
мость.

9.3 Контрольные вопросы


1. Что такое корреляционная связь?
2. Чем отличается корреляционная зависимость от функциональной?
3. Какие существуют методы вычисления коэффициента корреляции?
4. Какова оценка силы связи?
5. Как понимать термин «прямая» и «обратная» корреляционная зависи-
мость?

89
Методы статистического анализа в медицине
9.4 Задачи для самостоятельного решения
Задача 1
Определите методом квадратов характер и силу связи между загрязненностью
воздуха рабочей зоны и частотой возникновения заболеваний органов дыхания, ос-
новываясь на данных таблицы.
Средний уровень загрязнен- Абс. число случаев временной
ности воздуха рабочей зоны нетрудоспособности в связи
в течение смены (в перера- с болезнями органов дыхания
счете на ПДК) (на 100 работающих)
0,5 30
0,8 28
1,0 32
1,2 46
1,5 42
2,0 50
Достоверны ли полученные результаты?

Задача 2
Определите методом рангов, существует ли зависимость между количеством де-
тей в группах дошкольных учреждений и заболеваемостью ОРВИ среди них (см.
данные таблицы)?
Количество Кратность заболеваний ОРЗ
детей (число заболеваний в месяц)
10 1
11 4
12 3
13 2
14 4
15 3
16 5
17 2
18 3
18 6

90
Методы статистического анализа в медицине
Задача 3
Определить коэффициент корреляции методом рангов. Длина и масса тела у 7
мальчиков в возрасте 5 лет

Длина тела, см Масса тела, кг

95 15
93 14
98 15
108 19
106 16
101 15
110 16

91
Методы статистического анализа в медицине
Раздел 10
Регрессионный анализ

При анализе количественных данных показателями формы связи служат


линия регрессии и коэффициент регрессии. Уравнения линии регрессии отно-
сительно осей координат называют уравнениями регрессии. Иногда эти урав-
нения называют уравнениями корреляционной связи или уравнениями корре-
ляции. Тип уравнений зависит от формы связи, которая определяется по форме
корреляционного поля. Корреляционное поле представляет собой график,
отображающий распределение значений У и Х в виде точек с соответствующи-
ми абсциссами Ох и ординатами Оу. Разброс точек на графике визуально пред-
ставляет тесноту (плотность) связи.
Если связь слабая или отсутствует, то точки распределяются бессистемно
по всей площади графика в пределах значений, которые могут принимать У и Х
(рис. 16)

Рис. 16. Корреляционное поле с малой плотностью связи

Если связь сильная (плотная), то точки располагаются плотно, вдоль неко-


торой результирующей линии, которая называется линией регрессии.
Чем более тесна (плотна) корреляционная связь, тем более тесно около ли-
нии регрессии располагаются точки корреляционного поля. На графике можно
увидеть и направление связи: прямая или обратная (рис. 17, 18).

Рис. 17. Корреляционное поле сильной линейной прямой связи

92
Методы статистического анализа в медицине

Рис. 18. Корреляционное поле сильной линейной обратной связи

В случае линейной зависимости у от х уравнением регрессии является


уравнение прямой у = а + bх, где у — значение результативного признака (зави-
симая переменная), х — значения факторного признака (независимая перемен-
ная), а и b — коэффициенты.
Простейшим примером линейного уравнения регрессии может служить
индекс Брока, который используется как росто-весовой индекс для исчисления
нормального веса: из роста вычитают 100 и получают нормальный вес, соответ-
ствующий этому росту. Математически этот индекс записывается в виде уже
приводившегося уравнения линейной регрессии у=а+bх, где у — вес, х — рост,
а=–100, b — поправочный коэффициент, который изменяется для разных воз-
растных групп.
Иногда при измерении расстояний на местности прибегают к счету шага-
ми. Длина шага человека описывается уравнением регрессии L=37 + h/4, где h
— рост человека в см, L — длина его шага.
Полная оценка взаимосвязи признаков требует нахождения уравнения ре-
грессии не только для зависимости у от х, но и для зависимости х от у. В силу
вероятностного характера статистических взаимосвязей результаты вычисле-
ний по этим уравнениям не будут зеркально похожими. Поскольку методика и
порядок вычислений в обоих случаях во многом аналогичны, ограничимся рас-
смотрением основ обработки уравнения у = а + bх (зависимость у от х).
В уравнении у = а + bх коэффициент b равен тангенсу угла наклона линии
регрессии. Этот коэффициент, называемый «коэффициент регрессии», имеет
большой статистический смысл. Он показывает, насколько изменяется значе-
ние одной величины (зависимой, результативной переменной) при изменении
второй (независимой, факторной) на единицу. Например: при увеличении тем-
пературы тела человека на 1°С частота пульса увеличивается в среднем на 10
ударов в минуту.
Статистический анализ подразумевает решение уравнения регрессии, т. е.
отыскание параметров этого уравнения на основе исходных данных. Математи-
чески решение уравнения линейной регрессии сводится к вычислению пара-
метров а и b таким образом, чтобы точки исходных данных корреляционного
поля как можно ближе лежали к прямой регрессии. Для этого вычисляют пара-
метры по формулам, которые обеспечивают наименьший квадрат отклонений
этих точек от линии регрессии (метод наименьших квадратов):

93
Методы статистического анализа в медицине
n xy   x y n x 2  y   x xy
a и b
n x 2  ( x ) 2 n x 2  ( x ) 2
Пример: Найти выборочное уравнение регрессии по данным пяти наблю-
дений (л=5) зависимой и независимой переменных У и Х.

Расчетная таблица параметров уравнения регрессии


i Xi Yi Xi2 XiYi
1 2,0 2,6 4,0 5,2
2 4,0 1,8 16,0 7,2
3 7,0 1,3 49,0 9,1
4 5,0 1.1 25,0 5,5
5 3,0 2,4 9,0 7,2
X 21,0 9,2 103,0 34,2

5 x34.2  21x9.2
Согласно уравнению параметр a   3.1 ,
5 x103.0  212

103.0 x9.2  21x34.2


параметр b   0.3 .
5 x103.0  21.2 2
Искомое уравнение регрессии y=3.1+(–0.3)х. Коэффициент регрессии, со-
ответственно, равен –0,3. Т. е. при изменении независимой переменной (х) на 1,
зависимая переменная (у) будет уменьшаться в среднем на 0,3.
Насколько близки расчетные и фактические данные по зависимому факто-
ру у, демонстрирует таблица, где Ypac первого наблюдения (i=1) Y1=3,1+(–
0,3)х2,0=2,5 и т. д. Нетрудно заметить, что между фактическими и расчетными
значениями (Ypac и Yi) существует определенная разница. Эта разница может
объясняться малым числом наблюдений и точностью самого метода.
Разность фактического (Yi)и вычисленного (Ypac) параметров
i Xi Yi Ypac Yi – Ypac
1 2.0 2.6 2.5 0.1
2 4.0 1.8 1.9 –0.1
3 7.0 1.3 1.0 0.3
4 5.0 1.1 1.6 –0.5
5 3.0 2.4 2.2 0.2

Параметры уравнения регрессии, как и любые выборочные статистические


характеристики, оцениваются в определенных интервалах. В том случае, если
уравнение регрессии имеет вид у=а+bх, выборочные значения коэффициентов а
и b являются оценкой соответствующих генеральных коэффициентов и отли-
чаются от них в среднем на величину соответствующих им ошибок. Ошибка
коэффициента

94
Методы статистического анализа в медицине

  
a ma  x  , где σх — среднеквадратическое (стандартное) отклонение по
 n
ряду х, n — число наблюдений.
Ошибка коэффициента b характеризует разброс значений угла наклона ли-
нии регрессии. Полная ошибка для результатов отдельных измерений у:

mY ( X )
 1 
   n y  ( y ) 
2 2
 
n xy  ( x)( y ) 
2


 n(n  2)   n x 2  ( x) 2 
Рассмотренный пример касается так называемой двухмерной зависимости.
В этом случае рассматривается вариант, при котором взаимодействуют два
признака — зависимый (результативный) и независимый (факторный). В ре-
альной ситуации чаще приходится сталкиваться с многофакторными зависимо-
стями. Соответственно, если рассматривается большее число независимых при-
знаков, то расчеты проводятся по другим формулам, с учетом трехмерного, че-
тырехмерного и т. п. пространства распределения. С математической точки
зрения, число пространственных распределений, в принципе, не ограничено.
Обязательным условием такого подхода является не зависящее друг от
друга распределение факторных признаков.
В общем виде формула для расчета коэффициента множественной регрессии
для результативного показателя:
Y=β0+ β1X1+ β2X2+…+βnXn,
где β0, β1, β2… βn — коэффициенты регрессии. Например: должные (стандарт-
ные) величины показателей ЖЕЛ — жизненной емкости легких вычисляются
для мужчин в возрасте 18-25 лет по уравнению регрессии Y=β0+ β1X1+ β2X2 где
β0 — константа, равная – 6,908, β1 — коэффициент по росту, равный 5,8, β2 —
коэффициент по возрасту 0,085. С помощью этого уравнения, опираясь на фак-
тические данные о конкретном человеке, путем несложных вычислений можно
определить должную (стандартную) величину ЖЕЛ этого человека. Так, для
мужчины в возрасте 19 лет, имеющему рост 1,8 метра, должная ЖЕЛ = –6,908 +
5,8 х 1,8 + 0,085 х 19 = 5,2. С точки зрения клинической практики, снижение
фактической ЖЕЛ по сравнению с должной ЖЕЛ может говорить о рестрик-
тивных нарушениях вентиляционной способности легких, являющихся след-
ствием нарушения процесса расправления легких при вдохе.
Относительная простота применения уравнений регрессии обеспечила их
большое распространение: для нахождения должных величин при оценке раз-
личных физиологических параметров, в гигиенических исследованиях для про-
гнозирования результатов воздействия различных факторов окружающей среды
и т. п. Вместе с тем, получение точных исходных параметров уравнений ре-
грессии требует большой и кропотливой работы.
Одной из причин, снижающих точность параметров уравнения регрессии,
является несоответствие теоретического распределения, взятого за основу рас-
четов, и фактического распределения точек корреляционного поля. Например,
линия регрессии может представлять собой не прямую, а какую-либо кривую.
Соответственно, форма уравнения регрессии должна соответствовать криволи-
нейной зависимости (рис. 19).
95
Методы статистического анализа в медицине

Рис. 19. Различные линии регрессии

Криволинейная зависимость может принимать различное математическое


выражение в виде парабол 2-го и 3-го порядка. Например: для того чтобы найти
параметры a, b и с в уравнении параболы второго порядка, нужно решить си-
стему уравнений:
na  b x  c x 2   y
a x  b x 2  c x 3   xy
a  x 2  b x 3  c  x 2 y
И найти следующие промежуточные величины:
 x,  x ,  x ,  x ,  y,  xy,  x
2 3 4 2
y
В целом, вычисление и практическое использование этих параметров ана-
логичны операциям с параметрами прямой линии регрессии. Однако, в связи с
громоздкостью расчетов, рекомендуется их находить с помощью специальных
программ статистической обработки данных.
Метод группировок и построение статистических таблиц, а также регрес-
сионный анализ позволяют установить наличие или отсутствие связи между
факторными и результативными признаками, описать обнаруженные связи и
определить некоторые количественные характеристики. Различные коэффици-
енты корреляции позволяют выявить форму и силу (плотность, тесноту) этой
связи.

96
Методы статистического анализа в медицине

ЗАКЛЮЧЕНИЕ

Статистикой называют количественное описание и измерение собы-


тий, явлений, вещей. Ее понимают как отрасль практической деятельности
(сбор, обработка и анализ данных о массовых явлениях), как отрасль знания,
т.е. специальную научную дисциплину, и как совокупность сводных, итого-
вых цифровых показателей, собранных для характеристики какой-либо об-
ласти общественных явлений.
Статистика – самостоятельная общественная наука, изучающая коли-
чественную сторону массовых общественных явлений в неразрывной связи с
их качественной стороной в конкретных исторических условиях места и
времени. Предмет изучения – общественные явления. Цель статистики –
числовая характеристика явлений, выявление и подтверждение закономер-
ностей. Статистика, изучающая вопросы, связанные с медициной, гигиеной
и общественным здоровьем и здравоохранением, получила название меди-
цинской статистики.
В медицине статистические приемы используют при клинико-гигиени-
ческом нормировании факторов производственной среды, оценке эффектив-
ности примененных методов профилактики или лечения тех или иных забо-
леваний, при расчете доз лекарственных препаратов, определении стандар-
тов физического развития и т. д. Статистический анализ позволяет обосно-
вать ту или иную тактику врача в предупреждении или лечении заболеваний.
Таким образом, каждый врач должен хорошо знать теоретические осно-
вы статистики, уметь правильно использовать статистические методы и оце-
нивать информацию, накопленную в различных областях его деятельности.

97
Методы статистического анализа в медицине

Рекомендуемая литература

1. Кучеренко, В. З. Применение методов статистического анализа для изучения


общественного здоровья и здравоохранения : учебное пособие. – 4 изд., пере-
раб. и доп. – М. : ГЭОТАР-Медиа, 2011. – 256 с. : ил.
2. Плавинский, С. Л. Введение в биостатистику для медиков. – М. : Акварель,
2011. – 584 с. : ил.
4. Зубов, Н. Н. Методы многомерного статистического анализа данных в меди-
цине : учебное пособие / Н. Н. Зубов, В. И. Кувакин / под общ ред. доцента Зу-
бова Н. Н. – СПб. : Изд-во ООО "Литография Принт", 2017. – 348с., ил.

98
Методы статистического анализа в медицине

Учебное издание

Сергей Борисович Петров


Борис Алексеевич Петров
Давид Самуилович Симкин

«Методы статистического анализа в медицине»

Учебно-методическое пособие

Подписано к использованию . . 2020. Заказ № .(Для электронного издания)

Федеральное государственное бюджетное


образовательное учреждение высшего образования
«Кировский государственный медицинский университет»
Министерства здравоохранения Российской Федерации

Отпечатано в типографии ФГБОУ ВО Кировский ГМУ. Тираж 15 экз. Заказ № ___.

610998, г. Киров, ул. К. Маркса, 112, тел.: (8332) 64-09-76, http://kirovgma.ru

99

Вам также может понравиться