Академический Документы
Профессиональный Документы
Культура Документы
Методы статистического
анализа в медицине
Учебно-методическое пособие для студентов медицинских вузов
Киров
2020
Методы статистического анализа в медицине
УДК 614.1(075.8)
ББК 51.1(2)
М42
Рецензент:
Заведующий кафедрой общественного здоровья и здравоохранения № 1
ФГБОУ ВО «Оренбургский государственный медицинский университет»
Минздрава России доктор медицинских наук, профессор Е.Л. Борщук.
УДК 614.1(075.8)
ББК 51.1(2)
М42
4
Методы статистического анализа в медицине
Раздел 1
Введение. Определение статистики. Виды медицинской статистики
5
Методы статистического анализа в медицине
Статистический метод позволяет:
познать действительность, выявить закономерности, установить связь
между явлениями;
дать объективную оценку существующего положения;
составить прогноз, предвидеть развитие здравоохранения и показателей
здоровья людей;
Медицинская статистика делится на два основных раздела:
1. статистика здоровья населения;
2. статистика здравоохранения.
6
Методы статистического анализа в медицине
Раздел 2
Основные понятия в статистике
Учетные признаки
атрибутивные количественные
(описательные) (выражены числом)
пол, профессия, нозологические рост, масса тела, число дней ле-
формы, исходы лечения, вредные чения, количество гемоглобина,
привычки, место жительства и т.д. количество белка в моче и т.д.
7
Методы статистического анализа в медицине
Атрибутивные (качественные) учетные признаки выражены словесно
(имеют описательный характер). К атрибутивным признакам относятся пол,
профессии, нозологические формы, исходы лечения, место жительства и др.
Количественные учетные признаки выражены числом. К количественным
признакам относят рост, массу тела, число дней лечения, количество белка в
крови, количество гемоглобина и др.
Врачом должно быть выявлено влияние отдельных признаков на изучае-
мое явление, поэтому по роли признаков в совокупности различают факторные
и результативные.
Факторные признаки — признаки, под влиянием которых изменяются
другие, зависящие от них результативные признаки.
Результативные признаки — признаки, зависящие от факторных.
Приняты определенные обозначения этих признаков:
Х — факторный признак;
У — результативный признак;
- сумма.
В зависимости от полноты охвата факторных и результативных признаков
можно выделить четыре типа исследований:
1 тип — изучение влияния одного фактора на один результативный пока-
затель (например, влияние курения на развитие рака легких)
X→У
8
Методы статистического анализа в медицине
Она должна отвечать определенным требованиям: взятая для исследования
часть должна быть репрезентативной всей генеральной совокупности, всему
изучаемому явлению.
9
Методы статистического анализа в медицине
2.4.2 Необходимая численность выборки
После того как определен способ отбора единиц наблюдения для выбороч-
ной совокупности, определяют объем выборки, т.е. число единиц в выборке,
которое обеспечит достоверность и надежность результатов.
Непременным условием обоснованного расчета необходимого числа
наблюдений в опыте или исследовании является определение возможной
ошибки, т.е. максимально допустимого отклонения результатов выборочного
исследования от генеральных значений.
Так, например, основным показателем, характеризующим здоровье детей
изучаемых районов, выбран процент не болевших детей. По данным литерату-
ры, он равен приблизительно 10. Какую предельную ошибку можно допустить,
чтобы интервал колебания показателя был допустим для оценки? Такую ошиб-
ку примем равной ± 5%, т.е. показатель в выборке может быть 10+5% и 10–5 %
(от 5 до 15%).
Математическая статистика предлагает следующую формулу для опреде-
ления предельной ошибки показателя:
pq
t
n ,
где Δ – предельная ошибка показателя, p – величина показателя (для изу-
чаемого признака), q – (100 – p) или (1000 – p) в зависимости от того, в каких
величинах выражается показатель, n – число наблюдений, t – коэффициент,
показывающий, какова вероятность (надежность), что действительные размеры
показателя не будут выходить за границы предельной ошибки. Обычно t берет-
ся равным 2, что обеспечивает высокую достоверность будущего результата
(95% вероятность безошибочного прогноза).
Исходя их формулы предельной ошибки, можно вывести формулу необхо-
димого числа единиц наблюдения:
pq
t
n ,
отсюда
t 2 pq
n 2 .
Вычисляем:
t 2 pq 22 10 90
n 2 144 .
52
t 2 pq 22 10 90
n 2 900 .
22
Если известна величина генеральной совокупности для расчета необходи-
мого числа наблюдений, используют формулу бесповторного отбора:
Nt 2 pq t 2 2
n 2 или n 2
N t 2 pq N t 2 2 ,
где N – численность генеральной совокупности (т.е. весь имеющийся ма-
териал), n – необходимое число наблюдений в выборке, σ – среднее квадрати-
ческое отклонение.
Первая формула используется для показателей, вторая для средней вели-
чины.
Когда изучаются количественные признаки (физическое развитие, дли-
тельность заболевания, содержание веществ в крови, тканях, воздухе, воде и
т.д.), при расчете необходимого числа наблюдений применяют формулу пре-
дельной ошибки средней величины:
t
,
n
отсюда
t 2 2
n .
2
Для расчета объема выборки в этом случае следует знать вариабельность
признака (σ) из предыдущих исследований или получить ее путем проведения
пробных выборок, а также определить допустимую ошибку (Δ).
Например, основным результативным признаком должна быть жизненная
емкость легких. Из предыдущих исследований известно, что ее размеры 4000
мл при σ = 500 мл. Ошибка, которая может быть допущена, равна 100 мл, т.е.
средняя величина будет, возможно не 4000 мл, а колебаться в пределах ошибки
(±100мл), т.е. от 3900 до 4100 мл, тогда
t 2 2 22 5002
n 100
2
100 2
Для того чтобы можно было судить о величине жизненной емкости легких
с предусмотренной ошибкой, необходимо обследовать 100 детей. Выборочный
метод наблюдения – научно обоснованный прием статистического исследова-
ния. Он позволяет достаточно точно и надежно изучать явления на основе не
всей совокупности, а лишь ее части.
Для массовых исследований, охватывающих большое число наблюдений,
предварительно рекомендуется провести пробное исследование на более огра-
ниченном материале. Пробное исследование позволяет проверить на практике
программу наблюдения, документ регистрации, выявить организационные
трудности наблюдения и тем самым будет способствовать совершенствованию
исследования.
11
Методы статистического анализа в медицине
Раздел 3
Организация статистического исследования
13
Методы статистического анализа в медицине
1. Простая статистическая таблица – таблица, позволяющая анали-
зировать данные по сказуемому, имеющему лишь один признак (табл.
1).
50 и
21 -29
30 -39
40 -49
Класс болезней
итого
до 20
М Ж
ст.
1. Болезни нервной системы
2. Злокачественные новообразования
3. Психические расстройства
4. Болезни системы кровообращения
5. Болезни органов дыхания
Итого:
возраст
50 и ст.
21 -29
30 -39
40 -49
итого
до 20
Класс болезней
М Ж М Ж М Ж М Ж М Ж
1. Болезни нервной системы
2. Злокачественные новообразования
3. Психические расстройства
4. Болезни системы кровообращения
5. Болезни органов дыхания
Итого:
14
Методы статистического анализа в медицине
15
Методы статистического анализа в медицине
Из всех методов несплошного наблюдения только выборочный позволяет
распространить результаты, полученные на части единиц наблюдения, на всю
совокупность. Для этого выборочная совокупность должна быть репрезента-
тивной.
16
Методы статистического анализа в медицине
Линейные диаграммы
Линейные диаграммы, или графики, строятся на прямоугольной системе
координат. В таких диаграммах на оси абсцисс (горизонтальной линии) откла-
дываются в виде равных отрезков слева направо числовые значения одного ря-
да величин (промежутки времени, возрастные периоды и т. п.), а на оси ординат
(вертикальной линии) снизу вверх — значения другого ряда. Точка пересечения
оси абсцисс и оси ординат соответствует нулевой точке обеих шкал. Из точек,
отложенных на оси абсцисс, проводятся параллельные оси ординат линии, вы-
сота которых соответствует величине изображаемого явления. Конечные точки
всех проведенных ординат соединяются ломаной линией, которая дает пред-
ставление о динамике изучаемого явления (рис. 2).
8,2
8,1
8
7,9 Рождаемость
7,8
7,7
7,6
7,5
7,4
7,3
2000 2001 2002 2003 2004
Рис. 2. Показатель рождаемости (на 1000 населения)
17
Методы статистического анализа в медицине
Столбиковые диаграммы
Диаграммы, построенные по такому же принципу, как и линейные, но в
которых вертикально или горизонтально проводимым линиям соответствуют
прямоугольники, являются простейшим примером столбиковых диаграмм (рис.
3).
1650
1640
1630
1620 Число жителей
1610
1600 ис.
1590
1580
2000 2001 2002 жителей
Рис. 3. Число 2003 2004
(наличное, в тыс. на 1 января текущего года)
Эти диаграммы особенно удобны при изображении не динамики явлений,
а сравнительной величины их в какой-либо определенный промежуток време-
ни.
Секторные диаграммы
Секторные диаграммы могут быть круговыми или полосовыми (рис. 4).
5%
до 5 лет
20%
5-10 лет
25%
11-15 лет
18
Методы статистического анализа в медицине
удобно применять для изображения распределения явления на составные части,
т. е. для графического отражения совокупности экстенсивных коэффициентов.
В круговых секторных диаграммах секторы, изображающие отдельные ча-
сти изучаемого явления, располагаются в порядке их возрастания или умень-
шения по движению часовой стрелки и покрываются красками различного цве-
та или различно заштриховываются.
При пользовании одновременно 2-3 секторными диаграммами, на которых
изображено одно и то же явление, но за различное время или у различных
групп населения, порядок чередования секторов может быть неодинаков, но
необходимо, чтобы секторы различных кругов, отображающие относительные
размеры одной и той же части явления за различные промежутки времени, име-
ли одинаковый цвет или штриховку прямоугольниками, деля их на части, соот-
ветствующие по значению частям явления.
Кругами и прямоугольниками различной величины можно также изобра-
жать сравнительную величину двух или нескольких явлений. Следует только
помнить, что площади прямоугольников при равных основаниях пропорцио-
нальны их высотам и прямоугольник, имеющий вдвое большую высоту, огра-
ничивает и вдвое большую площадь; площади кругов пропорциональны не ра-
диусам, а квадратам радиусов, и, следовательно, круг, имеющий вдвое больший
радиус, будет иметь площадь, большую не в два, а в четыре раза.
XI III
Уровень
X IV травматизма
IX V
VII VI
VII
Рис. 5. Сезонные колебания (по месяцам года)
уровня транспортного травматизма
в текущем году в городе N
Диаграммы, построенные на системе полярных координат, пригодны для
изображения сезонных (помесячного, подекадного, понедельного и т. п.) коле-
баний уровня заболеваемости какой-либо болезнью, размеров смертности, рож-
даемости и т. п. Для построения таких диаграмм круг делят на сектора. Длина
радиуса круга соответствует среднему уровню.
На каждом радиусе откладывают и отмечают точкой величину, соответ-
ствующую уровню заболеваемости или смертности в данном месяце. Если в
этом месяце заболеваемость или смертность была выше среднегодовой, ее от-
19
Методы статистического анализа в медицине
мечают за пределами круга на продолжении радиуса. Расположение месяцев
года на радиусах круга соответствует движению часовой стрелки (сверху
направо вниз и дальше налево вверх). Отмеченные точки соединяются ломаны-
ми линиями. Получаются характерные фигуры, наглядно изображающие сезон-
ность.
Картограммы
Картограммами называются диаграммы, в которых изображено распреде-
ление какого-либо явления по территории. Например, если нужно распределить
области Российской Федерации по величине коэффициентов рождаемости в
2004 г., то, определив коэффициенты рождаемости для каждой республики,
края и области, покрывают на карте РФ эти регионы соответствующей раскрас-
кой или штриховкой, обозначающей различные размеры коэффициентов.
Картодиаграммы
Картодиаграммы также рисуются на карте (или схеме карты). В каждой ча-
сти территории помещается диаграмма (столбиковая или секторная диаграмма),
показывающая динамику или состав изображенного на картодиаграмме явления
в различных частях данной территории.
Каждая диаграмма, к какому бы типу графических изображений она ни от-
носилась, должна иметь четкую и ясную, по возможности краткую надпись, по-
ясняющую изображение. Шкалы на диаграмме должны быть снабжены указа-
телями размеров. Числа рекомендуется надписывать на самой диаграмме или в
прилагаемой к ней таблице. Все условные обозначения должны быть объясне-
ны.
20
Методы статистического анализа в медицине
3.6 Контрольные вопросы к разделам 1, 2, 3
1. Определение статистики.
2. Медицинская статистика, еѐ разделы и задачи.
3. Понятие статистической совокупности.
4. Понятие единицы наблюдения.
5. Генеральная и выборочная совокупность, ее свойства.
6. Учетные признаки, их классификация по характеру и роли в совокупно-
сти.
7. Понятие репрезентативности.
8. Способы формирования выборочной совокупности.
9. Как рассчитывается необходимая численность выборки.
10.Этапы статистического исследования.
11.Содержание программы и плана исследования.
12.Виды статистического наблюдения (сплошное, несплошное, текущее,
единовременное).
13.Виды статистических таблиц. Правила составления и заполнения стати-
стических таблиц.
14.Виды графического изображения.
15.Пути внедрения полученных результатов в практику здравоохранения.
21
Методы статистического анализа в медицине
Раздел 4
Относительные величины
Относительные величины
Для характери-
I
стики статистиче- Для сравнения
Область
ских уровня явлений
применения
совокупностей
II
Экстен- Интенсив- Соотноше- Нагляд-
Классифика-
сивные ные ния ности
ция
22
Методы статистического анализа в медицине
23
Методы статистического анализа в медицине
Удельный вес случаев эпидемического гепатита 6 Х 100%
= 2%
составит: 300
30 Х 100%
Удельный вес случаев кори составит: = 10%
300
Обеспеченность
Число врачей 45 х 10000
населения = = 9 врачей
Численность 50000
врачами на 10000 населения
населения
Обеспеченность
Число коек 550 х 10000 110 коек
населения = =
Численность 50000 на 10000
больничными койками
населения населения
25
Методы статистического анализа в медицине
В основу вычисления показателя наглядности положен принцип принятия
одной из величин за 100%, а остальные рассчитываются в процентном отноше-
нии к ней.
Показатели наглядности можно вычислять на основе интенсивных показа-
телей, показателей соотношения и средних величин.
Показатели наглядности указывают, на сколько процентов или во сколько
раз произошло увеличение или уменьшение сравниваемых величин.
17,0 х 100%
Показатель наглядности для 2001 г. = = 91,9%
18,5
16,8 х 100%
Показатель наглядности для 2002 г. = = 90,8%
18,5
15,0 х 100%
Показатель наглядности для 2003 г. = = 81,1%
18,5
14,3 х 100%
Показатель наглядности для 2004 г. = = 77,3%
18,5
26
Методы статистического анализа в медицине
В применении относительных величин наиболее часто
встречаются следующие ошибки:
1. Интенсивные показатели сравниваются за различные по протяженности
периоды наблюдения (помесячные показатели сравниваются с годовыми).
2. Подмена интенсивного показателя экстенсивным для характеристики
уровня, частоты явления, особенно для выявления изменения этого уровня в
динамике или по территориям.
3. При сравнительной оценке экстенсивных показателей в динамике или по
территориям надо анализировать всю структуру совокупности, а не сравнивать
удельные веса только отдельных его частей.
Динамические ряды
I Виды
Интер-
динамиче- Про- Слож- Момент-
валь-
ских стой ный ный
ный
рядов
Вычис-
II Способы Укруп-
ление Вычисление
выравнива- нение
группо- скользящей
ния динами- интер-
вой средней
ческих рядов валов
средней
Абсо-
III Показате- Темп Значение
лютный Темп
ли динами- Приро- 1% приро-
при- роста
ческого ряда ста ста
рост
29
Методы статистического анализа в медицине
4.5.3 Показатели динамического ряда
1. Абсолютный прирост
2. Темп прироста
3. Значение 1 % прироста
4. Темп роста
последующий уровень
Темп роста = х 100
предыдущий уровень
0,3
1980 г. х100%=27%
1,1
0,2
1990 г. х100%=14,3%
1,4
0,1
2000 г. х100%=6,25%
1,6
0,6
2000 г. к 1970 г. х100%=54,5%
1,1
Абсолютный прирост
Значение 1% прироста =
Темп прироста
0,3
1980 г. =0,011
27
0,2
1990 г. =0,014
14,3
0,1
2000 г. =0,016
6,25
0,6
2000 г. к 1970 г. =0,011
54,5
Последующий уровень
Темп роста = х100%
Предыдущий уровень
1,4
1980 г. х100%=127,3%
1,1
1,6
1990 г. х100%=114,3%
1,4
1,7
2000 г. х100%=106,25%
1,6
1,7
2000 г. к 1970 г. х100%=154,55%
1,1
31
Методы статистического анализа в медицине
4.6 Задача-эталон
На основании приведенных данных необходимо вычислить:
1) экстенсивный показатель (в %),
2) интенсивный показатель (в ‰),
3) показатель соотношения,
4) показатель наглядности,
5) показатели динамического ряда: абсолютный прирост, темп прироста,
значение 1% прироста и темп роста.
Количество
терапевтических коек
Удельный вес
х 100% 250 х 100%
терапевтических= =27,8%
Количество 900
коек
всех коек
Количество
хирургических
Удельный вес
коек х 100% 130 х 100%
хирургических = =14,7%
Количество 900
коек
всех коек
32
Методы статистического анализа в медицине
2. Интенсивный показатель – уровень обращаемости в амбулаторно-
поликлинические учреждения города (на 1000 человек):
Число врачей на
Число врачей 160 х 10000
10000 = =20 на 10000
Численность 80000
населения населения
населения
33
Методы статистического анализа в медицине
5. Показатели динамического ряда:
а) абсолютный прирост — разность между последующим и предыдущим
уровнем.
34
Методы статистического анализа в медицине
Вариант 1
В городе К в 2004 году
численность населения — 250000 человек,
родилось — 4000 человек,
умерло — 3200,
врачей — 700 человек, из них:
терапевтов — 250,
хирургов — 110,
число больничных коек — 2900.
Число врачей на 10000 населения
в 1990 г. — 19,3,
в 1995 — 24,1,
в 2000 г. — 27,8.
Вариант 2
В районе Н. в 2004 году численность населения — 42000 человек. Число
посещений жителей в амбулаторно-поликлинические учреждения района —
96000,
врачей — 45,
коек — 250, из них:
терапевтических — 60,
хирургических — 30,
педиатрических — 35,
инфекционных — 25,
родильных — 20,
гинекологических — 20,
травматологических — 15,
прочих — 45,
Число врачей на 10000 населения
в 2001 г. — 8,4,
в 2002 г. — 8,9,
в 2003 г. — 9,6.
Вариант 3
Центральная районная больница обслуживает 42600 человек.
Сделано посещений жителями района в поликлиническое отделение —
448200, врачей — 35,
коек в больнице — 150, из них
терапевтических — 40,
хирургических — 30,
педиатрических — 35,
прочих — 45.
Обеспеченность врачами на 10000 населения
в 2002 г. — 7,5,
35
Методы статистического анализа в медицине
в 2003 г. — 7,8,
в 2004 г. — 8,0.
Вариант 4
В городе Б в 2004 г. численность населения — 250000 человек, из них гос-
питализировано в стационары города — 53000 человек, врачей — 520, из них:
терапевтов — 160,
хирургов — 40,
прочих — 320.
Число коек на 10000 населения было:
в 1990 г. — 85,0,
в 1995 г. — 95,8,
в 2000 г.— 103,5.
Вариант 5
Детская больница обслуживает детей до 14 лет — 13000, из них:
до 1 года — 870,
1 года — 890,
2 лет — 950,
3 – 6 лет — 3340,
7–14 лет — 6350.
В больнице работают 53 врача, из них:
хирургов — 2,
педиатров — 40,
прочих — 11.
В больнице 155 коек.
Число коек на 10000 населения города
в 2002 г. — 125,4,
в 2003 г. — 128,1,
в 2004 г. — 129,3.
Вариант 6.
В городе Л численность населения — 200000 человек, в лечебно-
профилактических учреждениях города работает 320 врачей и 1000 средних
медицинских работников. Число прошедших комплексные медицинские про-
филактические осмотры — 100000, из них:
работники промышленных предприятий — 40000,
работники пищевых и коммунальных учреждений — 20000,
работники детских и леч.-проф. учреждений — 10000,
учащихся школ, техникумов и вузов — 30000.
Обеспеченность врачами в городе на 10000 населения
в 2002 г.— 14,1,
в 2003 г. — 15,0,
в 2004 г. — 15,8.
36
Методы статистического анализа в медицине
Раздел 5
Средние величины
37
Методы статистического анализа в медицине
Варианты, расположенные в порядке возрастания или убывания количе-
ственной характеристики признака, составляют ранжированный вариационный
ряд.
Вариационный ряд
I Виды
вариа- Сгруппирован-
Простой
ционных ный
рядов
II Харак-
теристи- Общее число
Варианта
ка вари- Частота p наблюдений
V
ационно- n
го ряда
38
Методы статистического анализа в медицине
Если исследователь имеет не более 30 наблюдений, то достаточно все зна-
чения признака расположить в нарастающем или в убывающем порядке (от ми-
нимальной варианты до максимальной или наоборот) и указать частоту каждой
варианты. При большом числе наблюдений (более 30) рекомендуется варианты
объединить в группы с указанием частоты встречаемости всех вариант, входя-
щих в данную группу.
Основные требования к составлению вариационного ряда:
1. Расположить все варианты по порядку
2. Суммировать единицы, имеющие одинаковый признак, т.е. найти часто-
ту каждой единицы
3. Определить количество групп
4. Определить интервал между группами
5. Определить начало, середину и конец группы
6. Распределить данные наблюдений по группам
7. Графически изобразить вариационный ряд
40
Методы статистического анализа в медицине
Рис. 9. Распределение студентов по частоте пульса перед экзаменом
14
12
10
8 Число
6 студентов
4
2
0
61 64 67 70 73 76 79
41
Методы статистического анализа в медицине
Средние величины
Для
Для
характеристики
обобщающей
отдельных
характеристики
величин путем
количественных
сравнения их со
признаков
средним
уровнем
Основание для
определения Вариационный ряд
средних величин
Общее число
Варианта V Частота p
наблюдений n
Свойства средней
арифметической
Виды средних величин
Занимает
Занимает Имеет Сумма
Вычисленная
срединное
срединное абстрактный отклонений от
Простая Взвешенная по способу положение
пложение характер средней равна 0
моментов
42
Методы статистического анализа в медицине
60х1+62х2+64х3+66х3+68х3+70х9+72х6+74х7+76х11+78х5+80х4 3904
M= = =72,3(ударов в минуту)
54 54
43
Методы статистического анализа в медицине
Помимо указанного метода прямого расчета средней арифметической
взвешенной, существуют другие методы, в частности, способ моментов, при
котором несколько упрощены арифметические расчеты.
Расчет средней арифметической способом моментов проводится по
формуле:
dp
M A ,
n
где A – условная средняя (чаще всего в качестве условной средней берется
мода Мо)
d – отклонение каждой варианты от условной средней (V–А)
Σdр — сумма произведений отклонений на их частоту.
Порядок вычисления представлен в таблице 4 (за условную среднюю при-
нимаем Мо = 76 ударам в минуту):
частота
пульса V Р d (V–A) dp
60 1 –16 –16
62 2 –14 –28
64 3 –12 –36
66 3 –10 –30
68 3 –8 –24
70 9 –6 –54
72 6 –4 –24
74 7 –2 –14
76 11 0 0
78 5 2 10
80 4 4 16
n = 54 Σdp= –200
–200
M = 76 + = 76–3,7 = 72,3 (ударов в минуту)
54
44
Методы статистического анализа в медицине
Таблица 5. Определение средней арифметической способом моментов
произведение
условное от-
частота середина условного
частота Р клонение в
пульса V группы отклонения на
интервалах (d)
частоту (dp)
60–62 61 3 –4 –12
63–65 64 3 –3 –9
66–68 67 6 –2 –12
69–71 70 9 –1 –9
72–74 73 13 0 0
75–77 76 11 1 11
78–80 79 9 2 18
n = 54 Σ dp = –13
–13х3
M = 73 + = 73–0,7 = 72,3 (ударов в минуту)
54
Таким образом, полученное значение средней арифметической величины
по способу моментов идентично таковому, найденному обычным способом.
45
Методы статистического анализа в медицине
5.3 Методы оценки разнообразия признака
в статистической совокупности
Разнообразие
признака в
статистической
совокупности
Среднее коэффициент
Лимит Амплитуда квадратическое вариации
Lim Vmin Vmax Am =Vmax-Vmin отклонение
C 100%
M
d 2
Позволяет ориентировочно
d 2
p Используется при
судить о колеблемости n сравнении двух
вариационного ряда, неоднородных
d dp
2 2
p статистических
используется чаще с целью
n n совокупностей с целью
предварительной оценки
выявления наиболее
типичных и характерных
признаков изучаемого
явления
Служит
общепринятой Используется для Служит оценкой
мерой Характеризует определения ошибки рассеяния вариант:
колеблемости типичность репрезентативности а) малой (<10%)
вариационного средней средней б) средней (10-20%)
ряда, т.е. его величины арифметической в) сильной (>20%)
однородности величины
46
Методы статистического анализа в медицине
Рис. 11. Критерии разнообразия признака
d 2 p 1363.26
25.2 5.0 .
n 54
d 2 p dp 2
,
n n
где d – отклонение каждой варианты от условной средней (V–А).
частота
D(V–A)
пульса d dp d2 d2p
А=76
V
60 1 – 16 – 16 256 256
62 2 – 14 – 28 196 392
64 3 – 12 – 36 144 432
66 3 – 10 – 30 100 300
68 3 –8 – 24 64 192
70 9 –6 – 54 36 324
72 6 –4 – 24 16 96
74 7 –2 – 14 4 28
76 11 0 0 0 0
78 5 2 10 4 20
80 4 4 16 16 64
N = 54 Σ = –200 Σ = 2104
48
Методы статистического анализа в медицине
49
Методы статистического анализа в медицине
Среднее квадратическое отклонение, вычисленное обычными способами,
дает точную величину (σ = 5,0). Однако различие это не слишком велико и, ес-
ли бы были известны только крайние варианты ряда, приближенное вычисле-
ние среднего квадратического отклонения по амплитуде вариационного ряда
имело бы смысл.
Итак, нахождение среднего квадратического отклонения позволяет судить
о характере однородности исследуемой группы наблюдений. Если величина
среднего квадратического отклонения небольшая, то это свидетельствует о до-
статочно высокой однородности изучаемого явления.
Среднюю арифметическую в таком случае следует признать вполне харак-
терной, типичной для данного вариационного ряда. При очень большой вели-
чине сигмы средняя арифметическая в меньшей степени характеризует весь ва-
риационный ряд, что говорит о значительной вариабельности изучаемого при-
знака или явления или о неоднородности исследуемой группы.
50
Методы статистического анализа в медицине
5.4 Контрольные вопросы
1. Дайте определение средней величины.
2. Какие требования предъявляются при работе со средними величинами?
3. Дайте определение вариационного ряда.
4. Назовите основные элементы вариационного ряда.
5. Виды вариационных рядов.
6. Правила построения вариационного сгруппированного ряда.
7. Как определяется средняя арифметическая простая?
8. Как определяется средняя арифметическая взвешенная?
9. Определение средней арифметической способом моментов.
10.Назовите критерии разнообразия признака вариационного ряда?
11.Что такое среднее квадратическое отклонение и его значение?
12.Роль коэффициента вариации и его применение?
Вариант 2.
Определить средний рост 18-летних подростков (М), среднее квадратиче-
ское отклонение (σ), ошибку средней арифметической (m), коэффициент вариа-
ции (CV)
Рост в см (V) Число подростков (р)
162 2
164 6
169 20
174 30
176 85
179 36
189 15
194 6
Всего: 200
51
Методы статистического анализа в медицине
Вариант 3.
Определить среднюю окружность груди у 9-летних мальчиков (М), сред-
нее квадратическое отклонение (σ), среднюю ошибку (m), коэффициент вариа-
ции (CV)
Окружность груди в см (V) Число мальчиков (р)
54 6
57 42
60 45
63 12
66 5
Всего: 110
Вариант 4.
Определить среднюю длительность временной нетрудоспособности у
больных с острыми респираторными заболеваниями (М), среднее квадратиче-
ское отклонение (σ), среднюю ошибку (m), коэффициент вариации (CV)
Число дней
Число больных (р)
нетрудоспособности (V)
3 2
4 3
5 6
6 8
7 6
8 4
9 3
10 1
11 1
Всего 34
52
Методы статистического анализа в медицине
Раздел 6
Статистическая оценка достоверности результатов исследования
Практическое применение
Позволяет определить вероятность, с которой возможно перене-
сти результаты изучения с выборочной совокупности на гене-
ральную совокупность
Способы оценки
достоверности
53
Методы статистического анализа в медицине
Рис. 12. Оценка достоверности результатов статистического исследования
54
Методы статистического анализа в медицине
уменьшение величины этой ошибки при определении степени разнообразия (σ)
возможно путем увеличения числа наблюдений.
На этом принципе основан метод определения достаточного числа наблю-
дений для выборочного исследования.
Относительные величины (Р), полученные при выборочном исследовании,
также имеют свою ошибку репрезентативности, которая называется средней
ошибкой относительной величины и обозначается mP.
Для определения средней ошибки относительной величины (Р) использу-
ется следующая формула:
Pq
mP
n ,
где Р — относительная величина. Если показатель выражен в процентах,
то q = 100 – Р, если Р — в промиллях, то q=1000 – Р, если Р — в продецимил-
лях, то q=10 000 – Р и т.д.; n — число наблюдений. При числе наблюдений ме-
нее 30 в знаменатель следует взять n – 1.
55
Методы статистического анализа в медицине
6.2 Определение доверительных границ генеральной совокупности.
Определяя для средней арифметической (или относительной) величины
два крайних значения: минимально возможное и максимально возможное,
находят пределы, в которых может быть искомая величина генерального пара-
метра. Эти пределы называют доверительными границами.
Доверительные границы — это то максимальное и минимальное значе-
ние, в пределах которого, при заданной степени вероятности безошибочного
прогноза, может колебаться искомая средняя величина генерального параметра.
Доверительные границы средней арифметической в генеральной совокуп-
ности определяют по формуле:
M ген M выб tmM
Доверительные границы относительной величины в генеральной совокуп-
ности определяют по следующей формуле:
Pген Pвыб tmP ,
где Мген и Pген — значения средней и относительной величин, полученных
для генеральной совокупности; Мвыб и Рвыб — значения средней и относитель-
ной величин, полученных для выборочной совокупности; mM и mР — ошибки
репрезентативности выборочных величин; t — доверительный критерий (кри-
терий точности, который устанавливают при планировании исследования; t m —
доверительный интервал; tm=Δ, где Δ предельная ошибка показателя, получен-
ного при выборочном исследовании.
Размеры предельной ошибки (Δ) зависят от коэффициента t, который из-
бирает сам исследователь, исходя из необходимости получить результат с
определенной степенью точности.
Величина критерия t связана определенными отношениями с вероятностью
безошибочного прогноза — р и численностью наблюдений в выборочной сово-
купности.
56
Методы статистического анализа в медицине
57
Методы статистического анализа в медицине
Вывод: Установлено с вероятностью безошибочного прогноза (р = 95%>,
что средний уровень пепсина в генеральной совокупности у больных с гипер-
тиреозом не превышает 1,1 г% и не ниже 0,9 г%.
Пример 2. Определить доверительные границы показателя частоты дис-
трофии пародонта у больных с абсцессом легкого с вероятностью безошибоч-
ного прогноза р = 95%.
Условие задачи:
n=110,
Рвыб =40%,
mр = ±4,7%,
р =95% (следовательно, при n=110 t=2).
Определяем доверительные границы относительного показателя в гене-
ральной совокупности.
Формула: Рген = Рвыб ± tmP,
Решение: Рген = 49% ±2 х 4,7%,
Рген не более 40% + 9,4 = 49,4%,
Рген не менее 40% –9,4 = 30,6%.
Вывод: Установлено с 95% вероятностью безошибочного прогноза (р =
95%), что дистрофические изменения пародонта в генеральной совокупности
наблюдаются у больных с абсцессом легкого не чаще, чем в 49,4%, и не реже,
чем в 30,6% случаев.
58
Методы статистического анализа в медицине
невыясненным вопрос о степени влияния данного режима спортсменов на мас-
су их тела.
В подобном случае надо искать резервы сокращения размаха доверитель-
ных границ в размере величины ошибки репрезентативности. Прежде всего
надо проанализировать уровень разнообразия признака по среднему квадрати-
ческому отклонению (σ) с позиций однородности группы. Необходимо также
иметь в виду, что большое влияние на величину средней ошибки, а, следова-
тельно, и на доверительные границы оказывает численность наблюдений.
Доверительные границы Мвыб и Рвыб зависят не только от средних ошибок
этих величин (mM или mР), но и от избранной исследователем степени вероят-
ности безошибочного прогноза (р). При большой степени вероятности размах
доверительных границ увеличивается.
59
Методы статистического анализа в медицине
При величине критерия достоверности t<2 степень вероятности безоши-
бочного прогноза составляет p<95%. При такой степени вероятности мы не мо-
жем утверждать, что полученная разность показателей достоверна с достаточ-
ной степенью вероятности.
В этом случае необходимо получить дополнительные данные, увеличив
число наблюдений.
Может случиться, что при увеличении численности выборки разность про-
должает оставаться недостоверной. Если при таких повторных исследованиях
разность остается недостоверной, можно считать доказанным, что между срав-
ниваемыми совокупностями не обнаружено различий по изучаемому признаку.
Например, требуется определить, достоверны ли различия в уровне пепси-
на в желудочном соке больных гипертиреозом и здоровых лиц. Обследуются на
пепсин две группы: 49 больных гипертиреозом и 50 здоровых людей (кон-
троль). Результаты представлены в таблице 9.
M1 M 2 4 1
t t 10,0 .
m12 m22 0,32 0,12
Можно сделать вывод о том, что при гипертиреозе наблюдается снижение
уровня пепсина, что подтверждается с большой степенью вероятности безоши-
бочного прогноза (р>99%). Следовательно, снижение уровня пепсина может
быть использовано в качестве одного из симптомов для подтверждения диагно-
стики гипертиреоза.
Подобным же образом оценивают достоверность разности сравниваемых
относительных величин (табл. 10).
60
Методы статистического анализа в медицине
61
Методы статистического анализа в медицине
ный материал для вычислений дается в абсолютных числах по наблюдениям в
группах.
Сущность метода «хи-квадрат» заключается в определении достоверности
различий между фактическими и теоретическими («ожидаемыми») данными,
полученными при условии, что сравниваемые совокупности одинаковы по сво-
ему распределению («нулевая гипотеза»). После определения «нулевой гипоте-
зы» на основании этого предположения определяются «ожидаемые» данные,
которые сопоставляются с фактическими. Если различий между фактическими
и теоретическими числами нет, то нулевая гипотеза подтвердилась и действи-
тельно различий в сравниваемых группах нет. Если фактические данные будут
отличаться от теоретических, полученных при условии отсутствия различий в
распределении, то сравниваемые группы имеют разное распределение, и ре-
зультаты в этих группах статистически достоверно различны.
Таким образом, если Р – фактические данные, P1 – теоретически исчислен-
ные при нулевой гипотезе, то критерий может быть выражен формулой:
( P P1 ) 2
2 .
P1
Оценка величины χ2 проводится по специальной таблице. Различия счита-
ются достоверными в том случае, когда величина хи-квадрат соответствует ве-
роятности меньшей 5% (0,05). Это вероятность подтверждения нулевой гипоте-
зы, т. е. предположения, что различия в сравниваемых группах отсутствуют
(связи между факторами нет).
Рассмотрим технику вычисления критерия на примере распределения де-
тей по частоте заболеваний в трех зонах проживания.
Фактические данные (р) представлены в таблице 11.
62
Методы статистического анализа в медицине
63
Методы статистического анализа в медицине
Результаты расчетов:
(р – р1)2
(р – р1)2
Зоны р1
проживания Не Эпизодически Часто Не Эпизодически Часто
болели болели болели болели болели болели
Зона хими-
ческого ком-
169 9216 11881 6,5 51,5 64,2
бината
Контрольный
район № 1 9 3025 3364 0,3 16,1 17,3
Контрольный
100 1600 2500 8,7 8,7 13,2
район № 2
64
Методы статистического анализа в медицине
В нашем исследовании S (число групп детей, проживающих в различных
районах загрязнения воздуха) — 3, r (число рассматриваемых параметров их
здоровья) — 3 (не болели, эпизодически болели, часто болели),
n'=(3–1) х (3–1)=4.
В четвертой строке таблицы ищем значение χ2, соответствующее получен-
ному результату 181,5. Он больше 16,9, значит, вероятность нулевой гипотезы в
нашем примере менее 0,2%. Правила оценки таковы, что различия считаются
достоверными в сравниваемых группах, а также подтверждается наличие связи
между результатом и влияющим фактором, если нулевая гипотеза подтвержда-
ется с вероятностью меньшей чем 5% (Р<0,05). Если нулевая гипотеза подтвер-
ждается с вероятностью большей чем 5% (Р>0,05), то различия считаются недо-
стоверными и связь отсутствующей.
В нашем примере вероятность нулевой гипотезы менее 0,2%, отсюда связь
между загрязнением атмосферного воздуха и частотой заболеваний детей име-
ется, и она доказывается с достаточно большой надежностью.
65
Методы статистического анализа в медицине
6.6 Задачи – эталоны
66
Методы статистического анализа в медицине
Вариант 7. При изучении частоты пульса у детей 3-х лет двух детских са-
дов обнаружено, что в детском саду А частота пульса в среднем составила 80,0
± 2,0 ударов в минуту, а в детском саду Б – 78,0 ± 2,0 ударов в минуту.
Можно ли на основании этих данных говорить о большей частоте пульса у
детей детского сада А?
68
Методы статистического анализа в медицине
Раздел 7
Дисперсионный анализ
69
Методы статистического анализа в медицине
Способы вычисления дисперсии
70
Методы статистического анализа в медицине
Dвнгр
N j Dj
где n – объем всей совокупности, Nj — объем
n
группы j, Dj — дисперсия группы j, Dмежгр — межгрупповая дисперсия.
Dмежгр
N j (M j M ) 2
, где Mj — групповое среднее группы, М — об-
n
щее среднее, n — объем всей совокупности, Nj — объем группы.
Практически расчет общей дисперсии не представляет труда. Например:
требуется найти общую дисперсию совокупности, состоящей из двух групп.
Вычисления проходят по следующим этапам.
1-й этап:
Вычисление средних в первой и второй группе
Первая группа Вторая группа
V1 P1 V1P1 V2 P2 V2P2
2 1 2 3 2 6
3 4 12 5 4 20
4 5 20 7 6 42
6 3 18 8 2 16
n1=ΣP1=13 ΣV1P1=52 N2=ΣP2=14 ΣV2P2=84
M1=52/13=4 M2=84/14=6
Раздел 8
Метод стандартизации
Метод стандартизации
2. Методы
стандар- прямой косвенный обратный
тизации
3. Этапы сопоставле-
стандарти- расчет вычис- ние интен-
зации пря- вычисле- вы- ожидаемых ление сивных
мого мето- ние част- бор величин в стандар- (фактиче-
да ных и об- стан- каждой тизиро- ских) и
щих пока- дарта группе ванных стандарти-
зателей I II стандарта показа- зованных
III телей IV показателей
V
4. Определе- полу-
ние стан- лу-
сумма
дарта сум- одна из произвольный числен-
сравнивае-
ма групп ный состав
мых групп
груп
п
Пример 1
Вычислить стандартизованные показатели летальности в больницах А и Б.
Сравнить их с интенсивными показателями и сделать выводы.
За стандарт принять полусумму больных, прошедших по каждому отделе-
нию в двух больницах.
73
Методы статистического анализа в медицине
74
Методы статистического анализа в медицине
39 100
Больница A 3,9%
1000
44 100
Больница Б 4,4%
1000
Больница Больница
Соотношение А и Б
А Б
Интенсивный
4,3 3,8 А>Б
показатель
Стандартизованный
3,9 4,4 А<Б
показатель
Выводы:
1. Уровень летальности в больнице А выше, чем в больнице Б.
2. Показатели летальности по отделениям, напротив, выше в больнице Б.
3. Однако, если бы состав больных в отделениях был одинаков, то леталь-
ность была бы выше в больнице Б.
Следовательно, на различия в уровнях летальности оказала влияние неод-
нородность больных в больницах А и Б, а именно, неодинаковое число про-
шедших больных по терапевтическому отделению больницы А и Б, поскольку
большинство умерших больных приходится на это отделение.
75
Методы статистического анализа в медицине
Пример 2.
Используя метод стандартизации при сравнении уровней производствен-
ного травматизма в цехах №1 и №2, сделайте соответствующие выводы.
За стандарт принять сумму рабочих по каждой группе в обоих цехах.
76
Методы статистического анализа в медицине
III этап. Определяем ожидаемое число травм в стандарте по каждой стаже-
вой группе для цехов № 1 и № 2.
Ожидаемое число травм в стандарте
Стаж работы
Цех № 1 Цех № 2
300 – 30 150 – 16
до 1 года
450 – Х Х = 45,0 450 – X X = 48,0
150 – 6 300 – 20
1–4 года
450 – Х X = 18,0 450 – X X = 30,0
100 – 2 500 – 12
5 лет и более
600 – X X = 12,0 600 – X X = 14,4
Всего Σ75,0 Σ92,4
75,0x100
Цех № 1 ————— = 5,0 на 100 работающих
1500
92,4x100
Цех № 2 ————— = 6,2 на 100 работающих
1500
Выводы:
1. Уровень производственного травматизма в цехе № 1 выше, чем в цехе № 2.
2. Показатели травматизма по стажевым группам, напротив, выше в цехе № 2.
3. Однако, если бы состав рабочих по стажу в этих цехах был одинаков, то
травматизм был бы выше в цехе № 2.
Следовательно, на различия в уровнях травматизма оказала влияние неод-
нородность стажевого состава рабочих, а именно, преобладание в цехе № 1 ра-
бочих со стажем до 1 года, имеющих высокие показатели травматизма, а в цехе
№ 2 — рабочих со стажем 5 лет и более, имеющих низкие показатели травма-
тизма
77
Методы статистического анализа в медицине
8.2 Косвенный метод стандартизации
Применяется, если специальные коэффициенты в сравниваемых группах
неизвестны или известны, но мало достоверны. Это наблюдается, например, ко-
гда числа заболевших очень малы и, следовательно, вычисляемые коэффициен-
ты будут существенно меняться в зависимости от прибавления одного или не-
скольких случаев заболеваний.
Вычисление стандартизованных коэффициентов косвенным способом
можно разбить на три этапа.
I этап. Состоит в выборе стандарта. Так как нам обычно неизвестны специ-
альные коэффициенты сравниваемых групп (коллективов), то за стандарт бе-
рутся специальные коэффициенты какого-то хорошо изученного коллектива. В
рассматриваемом примере таковыми могут служить повозрастные показатели
смертности от злокачественных новообразований в городе «С».
Стандарт – онкосметрность населения с городе С по возрастам (на 100000 нас.)
до 29 лет включительно – 5,0
30-39 лет – 32,0
40-49 лет – 130,0
50-59 лет – 360,0
60 лет и старше 730,0
всего 1250,0
78
Методы статистического анализа в медицине
Возрастные группы Численность населения
Город А Город В
до 29 лет включительно 100000-5 100000-5
280000-х х=14,0 275000-х х=13,8
30-39 лет 100000-32 100000-32
90000-х х=28,8 78000-х х=24,9
40-49 лет 100000-130 100000-130
75000-х х=97,5 56000-х х=72,8
50-59 лет 100000-360 100000-360
70000-х х=252,0 51000-х х=183,6
60 лет и старше 100000-730 100000-730
65000-х х=474,5 40000-х х=292,0
Всего 866,8 587,1
79
Методы статистического анализа в медицине
I этап состоит из выбора стандарта. Примем за стандарт повозрастные ко-
эффициенты смертности от злокачественных новообразований на 100000 насе-
ления в 1989 г., в год переписи, когда эти коэффициенты были определены с
достаточной точностью.
II этап включает в себя вычисление «ожидаемой» численности населения
города, при этом допускается, что повозрастные коэффициенты смертности от
злокачественных новообразований в 1986 и 1996 гг. были такими же, как и в
1989 г.
Стандартизация коэффициентов смертности от злокачественных новообра-
зований в городе Н. Обратный метод (числа условные)
I этап II этап
1986 г. 1996 г
Повозрастные коэф- Число умер- Число умер-
фициенты смертности ших от злока- ших от злока-
Возрастные «Ожида- «Ожида-
от злокачественных но- чественных чественных
группы емая» чис- емая» чис-
вообразований на новооб- новооб-
ленность ленность
100000 населения, при- разований в разований в
населения населения
нятого за стандарт данном воз- данном воз-
расте расте
До 30 лет 4,0 21 525000 18 450000
30-39 лет 35,0 44 125714 36 102857
40-49 лет 132,0 156 110606 181 136364
50-59 лет 354,0 221 62469 278 78523
60 лет и
722,0 482 66759 558 72280
старше
Всего 121,0 924 890548 1071 840024
80
Методы статистического анализа в медицине
III этап. На третьем этапе стандартизации для устранения указанного раз-
личия делим «ожидаемые» числа населения на фактические и умножаем на
принятый за стандарт коэффициент смертности.
Для 1986 г. это составляет
890548
х121,0 = 134,7 на 10000
800000
для 1996 года
840024
х121,0 = 112,9 на 10000
900000
81
Методы статистического анализа в медицине
8.5 Задачи для самостоятельного решения
Задача 1
Вычислить стандартизированные показатели заболеваемости населения
язвенной болезнью желудка и 12-ти перстной кишки в 2-х районах. Сравнить
их с интенсивными показателями. За стандарт принять состав населения по по-
лу в районе Б.
Число больных язвенной болезнью желудка и 12-ти перстной кишки
Район А Район Б
ПОЛ
К-во населения К-во больных К-во населения К-во больных
Задача 2
Примените прямой метод стандартизации и определите, деятельность ка-
кого стационара следует признать более эффективной? За стандарт принять
число пролеченных больных в стационаре А.
Сроки госпитализа- Стационар А. Стационар Б.
циизаболе-
(от начала Абс. число Абс. чис- Абс. число Абс. чис-
вай.), сут. госпитали- ло умер- госпитали- ло
зированных ших зированных умерших
82
Методы статистического анализа в медицине
Раздел 9
Корреляционный анализ
Основные понятия, связанные с корреляционным анализом приведены на
рисунке 15.
Измерение связи между явлениями
или признаками
2. Критерии
оценки корреля- коэффициент
ционной связи корреляции
3. Методы опре-
деления коэффи- Метод квадратов Метод рангов
циента корреля- (Пирсона) (Спирмена)
ции
4. Оценка харак-
Прямая (+) Обратная (–)
тера связи
83
Методы статистического анализа в медицине
Корреляционная связь проявляется между массой тела и ростом детей,
числом эритроцитов и содержанием гемоглобина в крови, дозой заражающего
агента и летальностью животных, содержанием вредно действующих веществ в
окружающей среде и заболеваемостью. Статистика измеряет эту связь. Стати-
стический анализ связи обычно начинается с построения комбинационных ана-
литических таблиц, где очень важно провести правильную группировку мате-
риала, которая поможет выявлению зависимости.
Корреляционная зависимость отличается по форме, направлению и силе
связи.
Форма связи может быть прямолинейной и криволинейной. Когда равно-
мерным изменениям одного признака соответствуют равномерные изменения
второго (при незначительных отклонениях), говорят о прямолинейной связи.
Например, с возрастанием загрязнения окружающей среды заболеваемость уве-
личивается. Когда равномерным изменениям одного признака соответствуют
неравномерные изменения второго признака, причем неравномерность имеет
определенную закономерность, говорят о криволинейной связи.
Направление связи может быть двух видов:
прямое (положительное) т. е. с увеличением одного признака вто-
рой тоже увеличивается или с уменьшением одного другой тоже
уменьшается (например, с увеличением роста человека увеличива-
ется масса его тела; с уменьшением концентрации вредных веществ
в воздухе уменьшается заболеваемость);
обратное (отрицательное): с увеличением одного признака второй
уменьшается или с уменьшением одного признака второй увеличи-
вается (например, с увеличением количества фтора в воде до опти-
мальных величин уменьшается заболеваемость флюорозом; с уве-
личением санитарной грамотности матерей уменьшается заболева-
емость детей).
Сила связи измеряется степенью корреляции. Под силой связи понимается
сопряженность связанных признаков, широта варьирования значений. Связь
может быть сильной, средней, слабой.
84
Методы статистического анализа в медицине
9.1 Вычисление корреляционной зависимости методом квадратов
Коэффициент корреляции методом квадратов (Пирсона) вычисляется по
формуле:
rxy
d d x y
d dx
2
y
2 ,
85
Методы статистического анализа в медицине
Измерение корреляции между возрастом матери
и количеством сцеженного и высосанного грудного молока
Возраст ма- Количество
тери, годы молока, г (y) dx dy d x X dy dx2 dy2
(х)
15 110 –13,8 11 –151,8 190,44 121
18 110 –10,8 11 –118,8 116,64 121
21 115 –7,8 16 –124,8 60,84 256
24 110 –4,8 11 –52,8 23,04 121
27 105 –1,8 6 –10,8 3,24 36
30 90 1,2 –9 –10,8 1,44 81
33 95 4,2 –4 –16,8 17,64 16
39 90 .10,2 –9 –91,8 104,04 81
39 85 10,2 –14 –142,8 104,04 196
42 80 13,2 –19 –250,8 174,24 361
x=288 y=990
0 =0 = –972,0 =795,6 =1390
MX=28,8 My=99
rxy
d d
x y
d d
x
2
y
2 .
В нашем примере:
972,0 972,0 972,0
rxy 0,92 .
795,6 1390 1105884 1051,6
86
Методы статистического анализа в медицине
б) критерий достоверности:
rxy 0,92
t t 6,6
mr 0,14
Поскольку критерий t больше 3, коэффициент корреляции достоверен.
Таким образом, с увеличением возраста матери количество сцеженного и
высосанного грудного молока статистически достоверно уменьшается.
120 80
Для вычисления коэффициента ранговой корреляции определяем порядко-
вый номер (ранг), который занимает каждое значение систолического и диасто-
лического давления.
При обозначении ранга начинают с меньшего (или большего) значения
признака в обоих рядах. Так, например, значение систолического давления
105 мм рт. ст. является наименьшим, и мы ставим ранг равный 1. Если значение
признака встречается несколько раз, ранги проставляются следующим образом:
систолическое давление 110 мм рт. ст. встречается 3 раза, занимая по величине
2, 3, 4 места, поэтому порядковый номер в данном случае будет равен
( 2 + 3 + 4 ) : 3 = 3, т.е. против каждого значения систолического давления, рав-
ного 110 мм рт. ст., будет поставлен ранг равный 3, систолическое давление
115 мм рт. ст. встречается 2 раза и против каждого значения будет поставлен
ранг ( 5 + 6 ) : 2 = 5,5 и т.д. Аналогично проставляются ранги и для значений
диастолического давления.
Затем определяем разность между рангами в каждой строке, обозначив эту
разность буквой d, возводим ее в квадрат.
88
Методы статистического анализа в медицине
6 51,5 309
xy 1 1 1 0,18 0,82 .
12 143 1716
Коэффициент корреляции, равный +0,82, свидетельствует о наличии пря-
мой сильной связи между систолическим и диастолическим давлением.
Для определения достоверности коэффициента корреляции вычисляем:
а) его ошибку:
1 xy2 1 0,67
m m 0,033 018
, .
n2 10
б) критерий достоверности:
xy 0,82
t t 4,5 .
m 0,18
Поскольку критерий t больше 3, коэффициент корреляции достоверен.
Таким образом, между систолическим и диастолическим давлением суще-
ствует прямая сильная статистически достоверная корреляционная зависи-
мость.
89
Методы статистического анализа в медицине
9.4 Задачи для самостоятельного решения
Задача 1
Определите методом квадратов характер и силу связи между загрязненностью
воздуха рабочей зоны и частотой возникновения заболеваний органов дыхания, ос-
новываясь на данных таблицы.
Средний уровень загрязнен- Абс. число случаев временной
ности воздуха рабочей зоны нетрудоспособности в связи
в течение смены (в перера- с болезнями органов дыхания
счете на ПДК) (на 100 работающих)
0,5 30
0,8 28
1,0 32
1,2 46
1,5 42
2,0 50
Достоверны ли полученные результаты?
Задача 2
Определите методом рангов, существует ли зависимость между количеством де-
тей в группах дошкольных учреждений и заболеваемостью ОРВИ среди них (см.
данные таблицы)?
Количество Кратность заболеваний ОРЗ
детей (число заболеваний в месяц)
10 1
11 4
12 3
13 2
14 4
15 3
16 5
17 2
18 3
18 6
90
Методы статистического анализа в медицине
Задача 3
Определить коэффициент корреляции методом рангов. Длина и масса тела у 7
мальчиков в возрасте 5 лет
95 15
93 14
98 15
108 19
106 16
101 15
110 16
91
Методы статистического анализа в медицине
Раздел 10
Регрессионный анализ
92
Методы статистического анализа в медицине
93
Методы статистического анализа в медицине
n xy x y n x 2 y x xy
a и b
n x 2 ( x ) 2 n x 2 ( x ) 2
Пример: Найти выборочное уравнение регрессии по данным пяти наблю-
дений (л=5) зависимой и независимой переменных У и Х.
5 x34.2 21x9.2
Согласно уравнению параметр a 3.1 ,
5 x103.0 212
94
Методы статистического анализа в медицине
a ma x , где σх — среднеквадратическое (стандартное) отклонение по
n
ряду х, n — число наблюдений.
Ошибка коэффициента b характеризует разброс значений угла наклона ли-
нии регрессии. Полная ошибка для результатов отдельных измерений у:
mY ( X )
1
n y ( y )
2 2
n xy ( x)( y )
2
n(n 2) n x 2 ( x) 2
Рассмотренный пример касается так называемой двухмерной зависимости.
В этом случае рассматривается вариант, при котором взаимодействуют два
признака — зависимый (результативный) и независимый (факторный). В ре-
альной ситуации чаще приходится сталкиваться с многофакторными зависимо-
стями. Соответственно, если рассматривается большее число независимых при-
знаков, то расчеты проводятся по другим формулам, с учетом трехмерного, че-
тырехмерного и т. п. пространства распределения. С математической точки
зрения, число пространственных распределений, в принципе, не ограничено.
Обязательным условием такого подхода является не зависящее друг от
друга распределение факторных признаков.
В общем виде формула для расчета коэффициента множественной регрессии
для результативного показателя:
Y=β0+ β1X1+ β2X2+…+βnXn,
где β0, β1, β2… βn — коэффициенты регрессии. Например: должные (стандарт-
ные) величины показателей ЖЕЛ — жизненной емкости легких вычисляются
для мужчин в возрасте 18-25 лет по уравнению регрессии Y=β0+ β1X1+ β2X2 где
β0 — константа, равная – 6,908, β1 — коэффициент по росту, равный 5,8, β2 —
коэффициент по возрасту 0,085. С помощью этого уравнения, опираясь на фак-
тические данные о конкретном человеке, путем несложных вычислений можно
определить должную (стандартную) величину ЖЕЛ этого человека. Так, для
мужчины в возрасте 19 лет, имеющему рост 1,8 метра, должная ЖЕЛ = –6,908 +
5,8 х 1,8 + 0,085 х 19 = 5,2. С точки зрения клинической практики, снижение
фактической ЖЕЛ по сравнению с должной ЖЕЛ может говорить о рестрик-
тивных нарушениях вентиляционной способности легких, являющихся след-
ствием нарушения процесса расправления легких при вдохе.
Относительная простота применения уравнений регрессии обеспечила их
большое распространение: для нахождения должных величин при оценке раз-
личных физиологических параметров, в гигиенических исследованиях для про-
гнозирования результатов воздействия различных факторов окружающей среды
и т. п. Вместе с тем, получение точных исходных параметров уравнений ре-
грессии требует большой и кропотливой работы.
Одной из причин, снижающих точность параметров уравнения регрессии,
является несоответствие теоретического распределения, взятого за основу рас-
четов, и фактического распределения точек корреляционного поля. Например,
линия регрессии может представлять собой не прямую, а какую-либо кривую.
Соответственно, форма уравнения регрессии должна соответствовать криволи-
нейной зависимости (рис. 19).
95
Методы статистического анализа в медицине
96
Методы статистического анализа в медицине
ЗАКЛЮЧЕНИЕ
97
Методы статистического анализа в медицине
Рекомендуемая литература
98
Методы статистического анализа в медицине
Учебное издание
Учебно-методическое пособие
99