Вы находитесь на странице: 1из 6

Глава 1

Биостатистика 101
В этой главе
▶ Освоение необходимых условий для понимания биостатистики
▶ Понимание среды клинических исследований
▶ Изучение специальных процедур, используемых для анализа биологических данных
▶ Оценка количества предметов нужных именно вам
▶ Работа с дистрибутивами

Биостатистика занимается разработкой и проведением научных экспериментов на живых


существах, путем сбора и проведения анализов данных этих экспериментов, а также
интерпретацией и представлением результатов этих анализов.
Эта книга призвана стать полезной и простой в дополнение к более формальным
учебникам, используемых на курсах по биостатистике для выпускников. Поскольку
большинство этих курсов сосредоточены на более клинических областях биостатистики,
эта книга также фокусируется на данноц области. В этой главе я ознакомлю вас с
основами биостатистики.

Освежаем знания основ математики и статистики


Главы 2 и 3 предназначены для того, чтобы научить вас основам математики и статистики,
которые необходимы для понимания биостатистики, и дать вам некоторую
дополнительную информацию (или «контекст»), что может пригодиться во время чтения
остальных частей книги.
✓ Многие люди начинают сомневаться в себе, когда дело доходит до понимания
математических формул и уравнений. Хотя в этой книге содержится меньше формул, чем
во многих других книгах по статистике, я использую их, когда они помогают
проиллюстрировать концепцию или описать вычисления, которые достаточно просто
выполнить вручную. Но если вы настоящий мафоб, вы, вероятно, боитесь смотреть на
любую главу, в которой есть математическое выражение. Вот почему я включаю главу 2 -
чтобы показать вам, как читать и понимать основные математические обозначения,
которые я использую в этой книге. Я охватываю все: от основных математических
операций до функций и не только.
✓ Если вы проходите курс биостатистики для выпускников, вы, вероятно, уже прошли
один или два вводных курса по статистике. Но это, возможно, было некоторое время
назад, и вы можете не чувствовать себя достаточно уверенным в своих знаниях основных
статистических концепций. Или у вас может быть мало или совсем нет формальной
статистической подготовки, но теперь вы оказались в рабочей ситуации, когда вы
взаимодействуете с клиническими исследователями, участвуете в разработке
исследовательских проектов или работаете с результатами биологических исследований.
Если это так, то вам определенно нужно прочитать Главу 3, в которой представлен обзор
основных понятий и терминологии статистики. Там вы получите нужный инструментарий
по таким темам, как вероятность, случайность, популяции, выборки, статистический
вывод, присущая точность, модуль точности, проверка гипотез, непараметрическая
статистика и методы моделирования.

Учимся делать вычисления с невероятной легкостью


Эта книга, как правило, не содержит пошаговых инструкций по выполнению
статистических тестов и анализов вручную. Это потому, что в 21-м веке вы не должны
делать эти вычисления вручную; Есть много способов принудить компьютер сделать их за
вас. Таким образом, эта книга описывает вычисления только для иллюстрации концепций,
которые задействованы в процедуре, или когда вычисления достаточно просты, чтобы их
можно было выполнить вручную (или даже в вашей голове!).
В отличие от некоторых книг по статистике, в которых предполагается, что вы
используете определенный программный пакет (например, SPSS, SAS, Minitab и т. д.), В
этой книге нет таких предположений. Вы можете быть студентом в школе, которая
предоставляет коммерческий пакет по привлекательной цене или требует, чтобы вы
использовали определенный продукт (независимо от цены). Или вы можете
самостоятельно, будучи с ограниченными финансовыми ресурсами, не иметь крупных
программ в зоне вашей досягаемости. К счастью, у вас есть несколько вариантов. Вы
можете скачать отличные бесплатные программы из Интернета. И вы также можете найти
множество веб-страниц, которые выполняют определенные статистические тесты и
процедуры; в совокупности их можно рассматривать как эквивалент бесплатного
онлайнового статистического программного пакета. Глава 4 описывает некоторые из этих
опций - коммерческие продукты, бесплатные программы, сетевые калькуляторы и другие.

Сосредоточимся на клинических исследованиях

“Запомни!”

Эта книга охватывает темы, применимые ко всем областям биостатистики,


концентрируясь на методах, которые особенно актуальны для клинических исследований
- исследований с участием людей. Если вы собираетесь проводить исследования на людях,
вам нужно проверить две главы, посвященные клиническим испытаниям (и, в частности,
исследованиям по разработке лекарств). Эти исследования являются одними из наиболее
тщательно разработанных, строго регламентированных, дорогостоящих и вытекающих из
всех видов научных исследований - ошибка здесь может иметь катастрофические
человеческие и финансовые последствия. Поэтому, даже если вы не рассчитываете когда-
либо принять участие в исследованиях по разработке лекарств либо в клинических
испытаниях (и связанных с ними статистических проблем), данные темы заслуживают
пристального изучения.
Две главы посвящены клиническим исследованиям - одна изнутри, а другая - с внешней
стороны.
✓ Глава 5 описывает статистические аспекты клинических испытаний:
• Планирование исследования: этот аспект включает формулировку целей, задач и
гипотез; оценка необходимого размера выборки; и составление протокола.
• Выполнение исследования. На этом этапе вы будете иметь дело с регулирующими и
предметными группами защиты, рандомизацией и слепым осмотром, а также сбором
данных.
• Анализ данных исследования: на этом этапе вы проверяете данные, обрабатываете
недостающие данные и их множественность и обрабатываете промежуточный анализ.

✓ Глава 6 описывает весь процесс разработки лекарств, от первоначального исследования


перспективных соединений до окончательного одобрения регулирующими органами и
последующего долгосрочного мониторинга безопасности продаваемых продуктов. Она
описывает различные виды клинических испытаний, которые проводятся в логической
прогрессии на разных этапах процесса развития. Многие исследователи столкнулись с
проблемами при анализе своих данных из-за решений, которые они приняли (или не
смогли) во время разработки и проведения своего исследования. Многие из этих ранних
ошибок возникают из-за того, что они не понимают или не ценят различные виды данных,
которые может генерировать их исследование.
В Главе 7 показано, как распознать виды данных, с которыми вы сталкиваетесь в
биологических исследованиях (числовые, категориальные и данные, ориентированные на
дату и время), и как собрать и проверить ваши данные. Затем в главе 8 вы увидите, как
суммировать данные каждого типа и отображать их графически; ваш выбор включает в
себя гистограммы, диаграммы вида "ящик с усами"и многое другое.

Как делать выводы исходя из ваших данных


Большая часть статистического анализа подразумевает выводы или вывод о населении в
целом, основываясь на ваших наблюдениях за небольшой выборкой, взятой из этой
совокупности. Теория статистического вывода часто делится на две широкие подтеории
- теория оценки и теория принятия решений.
Теория статистической оценки
В главах 9 и 10 рассматривается теория статистической оценки, в которой
рассматривается вопрос о том, насколько точно и достоверно можно оценить некоторые
популяционные параметры (например, среднюю концентрацию гемоглобина в крови у
всех взрослых мужчин или коэффициент корреляции между массой тела и артериальным
давлением у всех взрослых женщин) исходя из значений, которые существуют в вашей
выборке.
✓ В главе 9 вы узнаете разницу между точностью и достоверностью (они не являются
синонимами!) И узнаете, как рассчитать стандартную ошибку (меру того, насколько
точна или неточна ваша наблюдаемая величина) для вещей, которые вы измеряете или
рассчитываете исходя из вашего образца.
✓ В главе 10 вы узнаете, как построить доверительный интервал (диапазон, который
может включать в себя параметр истинной совокупности) для всего, что вы можете
измерить или посчитать.
Но часто то, что вы измеряете (или считаете), не является тем, что вас действительно
интересует. Вы можете измерять рост и вес, но на самом деле вас интересует индекс
массы тела, который рассчитывается из роста и веса по простой формуле. Если каждое
полученное вами число имеет некоторую степень неточности, то все, что вы
рассчитываете по этим числам, также будет неточным, в большей или меньшей степени.
Глава 11 объясняет, как случайные ошибки распространяются через математические
выражения, и показывает, как рассчитать стандартную ошибку (и доверительный
интервал) для всего, что вы вычисляете по вашим необработанным данным.

Теория статистических решений


Большая часть оставшейся части этой книги посвящена статистической теории принятия
решений - как решить, отражает ли какой-либо эффект, который вы наблюдали в ваших
данных (например, разницу в среднем значении переменной между двумя группами или
связь между двумя переменными) реальную разницу или связь в популяции или является
простым результатом случайных колебаний в ваших данных или выборке.
Теория выбора, описанная в этой книге, также может быть разделена на две широкие
подкатегории: сравнение средних величин и пропорций между группами (в части III) и
понимание взаимосвязи между двумя или более переменными (в части IV).

Сравнение групп
В третьей части вы ознакомитесь с некоторыми из известными тестами.
✓ В Главе 12 вы узнаете, как сравнивать средние значения между двумя или более
группами, используя t-тесты и ANOVA, а также их аналоги (тесты Уилкоксона, Манна-
Уитни и Крускала-Уоллиса), которые можно использовать с данными, имеющими
неасимметричное распределение или другими нормально распределяемыми.
✓ В Главе 13 показано, как сравнивать пропорции (например, показатели выздоровления)
между двумя или более группами, используя критерий хи-квадрат и точные критерии
Фишера для перекрестных данных, сведенных в таблицу .
✓ Глава 14 посвящена одному конкретному виду кросс-таблицы - четырёхпольной
таблице (имеющей две строки и два столбца). Оказывается, вы можете получить много
полезной информации из четырёхпольной таблицы, так что это того стоит.
✓ В главе 15 вы увидите, как можно оценить и сравнить показатели событий (также
называемые данными о человеке и времени) между группами.
✓ Глава 16 завершает Часть III описанием особого вида анализа, который часто
проводится в биологических исследованиях - тестирование на эквивалентность и
отсутствие неполноценности, когда вы пытаетесь показать, что два метода лечения или
продукта на самом деле не отличаются друг от друга или что один не является хуже
других.

Поиск связей между переменными


Наука лежит в основе поиска отношений, а регрессионный анализ - это часть статистики,
которая имеет дело с характером отношений между различными переменными:
✓ Возможно, вы захотите узнать, существует ли показательная параллель между двумя
переменными: у курильщиков более высокий риск развития рака печени, чем у
некурящих, или связан ли возраст с диастолическим артериальным давлением?
✓ Возможно, вы захотите разработать формулу для прогнозирования значения
переменной по наблюдаемым значениям одной или нескольких других переменных:
можете ли вы предсказать продолжительность родов у женщины, если вы знаете
временные рамки (гестационный возраст), сколько других детей у нее было в прошлом (ее
паритет) и сколько весит будущий ребенок (по данным УЗИ)?
✓ Вы можете подгонять теоретическую формулу к некоторым данным, чтобы оценить
один из параметров, фигурирующих в этой формуле - например, определение того, как
быстро почки могут выводить лекарство из организма (конечная константа скорости
выведения) измеряя концентрации препарата. в крови в разное время после приема дозы
препарата.
Регрессионный анализ может справиться со всеми этими и многими другими задачами.
Регрессия настолько важна в биологических исследованиях, что Часть IV данной книгм
посвящена ей. В большинстве курсов по статистике либо полностью отсутствует
регрессионный анализ, либо охватывается только самый простой тип - подгонка прямой
линии к набору точек. Даже курсы статистики второго семестра могут доходить только до
многомерной линейной регрессии, где у вас может быть более одной переменной прогноза.
Если вы ничего не знаете о корреляционном и регрессионном анализе, прочитайте Главу
17, в которой содержится введение в данные темы. Я рассматриваю простую прямую
регрессию в Главе 18; Я расширил этот охват до нескольких переменных прогноза в Главе
19. Эти три главы посвящены обычной линейной регрессии, где вы пытаетесь предсказать
значение переменной числового результата (например, артериальное давление или
уровень глюкозы в сыворотке) из одной или нескольких других переменных (таких как
возраст, вес и пол) с помощью формулы, которая представляет собой простое
суммирование терминов, каждое из которых состоит из переменной прогноза,
умноженной на коэффициент регрессии.
Но в реальных биологических и клинических исследованиях вы сталкиваетесь с более
сложными отношениями. В Главе 20 описывается логистическая регрессия, где
результатом является возникновение или отсутствие какого-либо события, и вы хотите
предсказать вероятность того, что событие произойдет. И вы узнаете о нескольких других
видах регрессии в Главе 21:
✓ Регрессия Пуассона, где результатом может быть количество событий, происходящих
за определенный промежуток времени
✓ Нелинейная регрессия наименьших квадратов, где связь может быть более сложной,
чем простое суммирование членов в линейной модели
✓ Робастное сглаживание (проведение кривой по точкам), где вы можете вообще не
иметь точной формулы, описывающей данные.

Вопрос жизни и смерти: работа с данными по выживанию


Рано или поздно все живые существа умирают. И в биологических исследованиях
становится очень важно охарактеризовать часть “рано-поздно” как можно точнее. Но
сделать такую характеристику может оказаться весьма коварно . Недостаточно сказать,
что люди живут в среднем 5,3 года после приобретения определенного заболевания. Все
ли болезни имеют тенденцию длиться пять или шесть лет или половина людей умирает в
течение первых нескольких месяцев, а другая половина проживает десять или более лет?
И как вы анализируете свои данные, когда некоторые пациенты могут значительно
пережить ваше клиническое исследование (то есть они еще живы, когда вам нужно
закончить свое исследование и записать результаты)? И как вы анализируете людей,
которые смотались из города через несколько месяцев, и вы не знаете, живы ли они или
умерли после этого?
Возникновение подобных проблем привело к разработке специального набора методов,
специально предназначенных для работы с данными по выживаемости. В более общем
смысле они также применяются ко времени первого появления других (не смертельных)
событий, таких как ремиссия или рецидив рака, сердечных приступов, инсультов и
первого движения кишечника после операции на брюшной полости. Эти методы, которые
охватывают весь процесс анализа данных, собраны в Части V.
Чтобы узнать, как правильно получать данные по выживаемости (это не так очевидно, как
вы думаете), прочитайте Главу 22, где я также покажу, как суммировать и составлять
график данных по выживаемости и как оценивать такие вещи, как среднее время
выживания и процент выживания в указанные моменты времени. Специальный
статистический тест для сравнения выживаемости между группами субъектов описан в
Главе 23. А в главе 24 я описываю регрессию пропорциональных рисков Кокса - особый
вид регрессионного анализа данных по выживаемости.

Выясняем, сколько вам понадобится единиц


Из всех статистических проблем, с которыми может столкнуться исследователь, похоже,
что ни одна из них не внушает столько опасений и неуверенности, как вычисление
количества единиц, необходимых для проведения достаточно объемного исследования -
такого, которое обеспечит высокую вероятность получения статистически значимого
результата, если ожидаемый анализ действительно имеет место быть.

“Подсказка”

Поскольку оценка размера выборки является важной частью плана любого


исследовательского проекта, в этой книге показано, как сделать эти оценки для ситуаций,
с которыми вы, вероятно, столкнетесь при проведении клинических исследований. Когда
я описываю каждый статистический тест в Частях III, IV и V, я объясняю, как оценить
количество предметов, необходимых для обеспечения достаточной мощности для этого
теста. Кроме того, в Главе 26 описаны десять простых правил получения «беглой» оценки
необходимого размера выборки.

Знакомство со статистическими распределениями вероятностей


Какая книга по статистике считалась бы полной без набора таблиц? В не очень хорошие
старые времена, когда людям приходилось делать статистические вычисления вручную,
им требовались таблицы общих статистических распределений (Normal, Student t, chi-
square, Fisher F и т. д.), Чтобы завершить тест для оценки достоверности. Но теперь
компьютер делает все это за вас, включая вычисление точного значения p, поэтому эти
таблицы уже не так необходимы, как раньше.
Но вы все равно должны быть знакомы с общими статистическими распределениями,
которые описывают, как ваши наблюдения могут колебаться или наблюдения, которые
могут возникнуть в ходе выполнения статистического расчета. Итак, Глава 25 содержит
список наиболее известных функций распределения с объяснениями того, где можно
ожидать появления этих распределений, как они выглядят, каковы некоторые из их
наиболее интересных свойств и как они связаны с другими распределениями. Некоторые
из них проиллюстрированы небольшой таблицей критических значений,
соответствующих значимости на 5-процентном уровне (то есть p = 0,05).