Вы находитесь на странице: 1из 586

Сара Бослаф

СТАТИСТИКА
ДЛЯ ВСЕХ
STATISTICS
IN A NUTSHELL

Second Edition

Sarah Boslaugh

Beijing • Cambridge • Farnham • Köln • Sebastopol • Tokyo


СТАТИСТИКА
ДЛЯ ВСЕХ

Сара Бослаф

Москва, 2015
УДК 311:004.9
ББК 60.6с515
Б85

Б85 Сара Бослаф


Статистика для всех. / Пер. с англ. П. А. Волкова, И. М. Флямер, М. В. Ли-
берман, А. А. Галицына. – М.: ДМК Пресс, 2015. – 586 с.: ил.

ISBN 978-5-94074-969-1

Нужно овладеть статистикой по долгу службы? Хотите получить помощь


при сдаче курса статистики? «Статистика для всех» – ясное и краткое
введение и руководство для всех новичков. Тщательно переработанное и
расширенное, это издание поможет вам глубоко понять статистику, избегая
ошеломляющей сложности многих университетских учебников.
Эта книга – руководство, которое можно приспосабливать к имеющимся
знаниям и нуждам отдельных читателей. Некоторые главы посвящены те-
мам, которые часто отсутствуют в вводных книгах по статистике. Каждая
глава представляет собой простые для понимания объяснения, дополненные
диаграммами, формулами, задачами с решениями и взятыми из практики
заданиями. Если вы хотите не ломая голову применять распространенные
методы анализа данных и узнать о разнообразных подходах – эта книга для
вас.

УДК 311:004.9
ББК 60.6с515

Original English language edition published by O’Reilly Media, Inc., 1005 Gravenstein
Highway North, Sebastopol, CA 95472. Copyright © 2013 Sarah Boslaugh. All rights
reserved. Russian-language edition copyright © 2014 by DMK Press. All rights reserved.

Все права защищены. Любая часть этой книги не может быть воспроизведена
в какой бы то ни было форме и какими бы то ни было средствами без письменного
разрешения владельцев авторских прав.
Материал, изложенный в данной книге, многократно проверен. Но, поскольку
вероятность технических ошибок все равно существует, издательство не может га-
рантировать абсолютную точность и правильность приводимых сведений. В связи
с этим издательство не несет ответственности за возможные ошибки, связанные с
использованием книги.

ISBN 978-1-449-31682-2 (англ.) © 2013 Sarah Boslaugh. All rights reserved


ISBN 978-5-94074-969-1 (рус.) © Оформление, перевод на русский язык,
издание, ДМК Пресс, 2015
ОГЛАВЛЕНИЕ

Предисловие ........................................................................... 9
Ну хорошо, и что же такое статистика? ................................................................ 9
Основная цель этой книги ................................................................................. 12
Статистика в информационную эпоху................................................................ 13
Структура книги ................................................................................................ 14
Условные обозначения, используемые в этой книге .......................................... 18
Благодарности .................................................................................................. 19
Об авторе .......................................................................................................... 19
Об иллюстрации на обложке ............................................................................. 20
Глава 1. Основные понятия, связанные с измерениями ................. 21
Измерение ........................................................................................................ 22
Типы измерений ................................................................................................ 22
Истинные значения и ошибки ............................................................................ 29
Надежность и валидность.................................................................................. 31
Смещение измерений ....................................................................................... 36
Упражнения....................................................................................................... 40
Глава 2. Теория вероятности ..................................................... 43
О формулах ....................................................................................................... 44
Основные определения ..................................................................................... 45
Определение вероятности ................................................................................ 52
Вычисление вероятности сложных событий ...................................................... 54
Теорема Байеса ................................................................................................ 56
Достаточно разговоров, давайте займемся статистикой! .................................. 59
Упражнения....................................................................................................... 61
Заключительное замечание: связь между статистикой и азартными играми ..... 65
Глава 3. Статистический вывод ................................................. 67
Распределения вероятностей ........................................................................... 68
Независимые и зависимые переменные ........................................................... 76
Генеральные совокупности и выборки ............................................................... 77
Теорема центрального предела......................................................................... 82
Проверка гипотез .............................................................................................. 87
Доверительные интервалы ................................................................................ 91
Значения p ................................................................................... 92
Z-статистика ..................................................................................................... 93
Преобразования данных ................................................................................... 96
Упражнения....................................................................................................... 99
6 Оглавление

Глава 4. Описательная статистика и графическое


представление данных .......................................................... 107
Генеральные совокупности и выборки ............................................................. 107
Меры центральной тенденции ......................................................................... 108
Меры разброса ............................................................................................... 115
Выбросы ......................................................................................................... 121
Графические методы ....................................................................................... 122
Столбчатые диаграммы................................................................................... 125
Двумерные диаграммы ................................................................................... 136
Упражнения..................................................................................................... 142
Глава 5. Категориальные данные ............................................. 146
R×C-таблицы ................................................................................................... 147
Распределение хи-квадрат ............................................................................. 150
Тест хи-квадрат ............................................................................................... 152
Точный тест Фишера ....................................................................................... 158
Парный тест МакНемара ................................................................................. 160
Пропорции: большие выборки......................................................................... 162
Корреляции для категориальных данных ......................................................... 164
Порядковые переменные ................................................................................ 167
Шкала Лайкерта и шкалы семантического дифференциала ............................ 171
Упражнения..................................................................................................... 173
Глава 6. t-критерий ............................................................... 179
t-распределение ............................................................................................. 179
Одновыборочный t-критерий .......................................................................... 182
t-критерий для независимых выборок ............................................................. 184
t-критерий для парных измерений .................................................................. 188
t-критерий для выборок с неравной дисперсией ............................................. 191
Упражнения..................................................................................................... 192
Глава 7. Коэффициент корреляции Пирсона .............................. 196
Связь .............................................................................................................. 196
Диаграмма рассеяния ..................................................................................... 198
Коэффициент корреляции Пирсона ................................................................ 205
Коэффициент детерминации .......................................................................... 210
Упражнения..................................................................................................... 211
Глава 8. Введение в регрессию и дисперсионный анализ .............215
Общая линейная модель ................................................................................. 215
Линейная регрессия........................................................................................ 217
Дисперсионный анализ (ANOVA) ..................................................................... 228
Расчет простой регрессии вручную ................................................................. 235
Упражнения..................................................................................................... 237
Глава 9. Многофакторный дисперсионный анализ
и ковариационный анализ .......................................................245
Многофакторный дисперсионный анализ ....................................................... 245
ANCOVA ........................................................................................................... 254
Упражнения..................................................................................................... 260
Оглавление 7

Глава 10. Множественная линейная регрессия ...........................265


Модели множественной регрессии ................................................................. 265
Упражнения..................................................................................................... 291
Глава 11. Логистическая, мультиномиальная и полиномиальная
регрессия ............................................................................296
Логистическая регрессия ................................................................................ 296
Мультиномиальная логистическая регрессия .................................................. 303
Полиномиальная регрессия ............................................................................ 306
Переподгонка ................................................................................................. 310
Упражнения..................................................................................................... 312
Глава 12. Факторный, кластерный и дискриминантный анализы ... 315
Факторный анализ .......................................................................................... 315
Кластерный анализ ......................................................................................... 323
Дискриминантный анализ ............................................................................... 327
Упражнения..................................................................................................... 330
Глава 13. Непараметрическая статистика ..................................332
Независимые выборки .................................................................................... 333
Зависимые выборки ........................................................................................ 341
Упражнения..................................................................................................... 346
Глава 14. Статистика для бизнеса и контроля качества ................349
Индексы .......................................................................................................... 349
Временные ряды ............................................................................................. 354
Анализ решений .............................................................................................. 358
Улучшение качества ........................................................................................ 363
Упражнения..................................................................................................... 371
Глава 15. Статистика в медицине и эпидемиологии .....................376
Показатели заболеваемости ........................................................................... 376
Отношение рисков .......................................................................................... 388
Отношение шансов ......................................................................................... 393
Искажение, послойный анализ и коэффициент Мантеля–Гензеля ................... 396
Анализ мощности ............................................................................................ 401
Вычисление размера выборки ........................................................................ 404
Упражнения..................................................................................................... 407
Глава 16. Статистика в образовании и психологии...................... 411
Перцентили ..................................................................................................... 412
Стандартизированные баллы .......................................................................... 414
Разработка тестов ........................................................................................... 417
Классическая теория тестов: модель истинных баллов ................................... 420
Надежность теста ............................................................................................ 421
Показатели внутренней непротиворечивости .................................................. 422
Анализ заданий ............................................................................................... 426
Современная теория тестирования ................................................................. 430
Упражнения..................................................................................................... 435
Глава 17. Управление данными ................................................437
Общий подход, а не набор методов ................................................................. 438
8 Оглавление

Иерархия ........................................................................................................ 439


Кодификатор................................................................................................... 439
Прямоугольный файл данных .......................................................................... 442
Электронные таблицы и реляционные базы данных ........................................ 444
Проверка нового файла данных ....................................................................... 445
Текстовые и числовые данные ......................................................................... 449
Пропущенные данные ..................................................................................... 450
Глава 18. Планирование исследования .....................................453
Словарь основных терминов ........................................................................... 454
Наблюдения .................................................................................................... 457
Квазиэкспериментальные исследования ........................................................ 459
Эксперименты ................................................................................................ 465
Сбор экспериментальных данных .................................................................... 467
Пример экспериментального дизайна............................................................. 477
Глава 19. Представление статистических материалов .................479
Общие замечания ........................................................................................... 480
Глава 20. Оценка работ по статистике других авторов ..................488
Оценка статьи в целом .................................................................................... 488
Ошибки в применении статистики ................................................................... 490
Общие проблемы ............................................................................................ 490
Быстрая проверка ........................................................................................... 492
Спорные вопросы планирования исследования .............................................. 495
Описательная статистика ................................................................................ 498
Логическая статистика .................................................................................... 503
Приложение А. Обзор основных математических понятий ............506
Приложение B. Краткий обзор статистических пакетов ................530
Приложение C. Ссылки .......................................................... 545
Приложение D. Таблицы вероятностей для распространенных
типов распределений ............................................................ 559
Приложение E. Интернет-ресурсы ........................................... 571
Приложение F. Словарь статистических терминов ..................... 576
ПРЕДИСЛОВИЕ

Первое издание «Статистики для всех» пользовалось оглушительным успехом, од-


нако любую книгу можно улучшить, и я благодарна за предоставленную возмож-
ность переработать ее. Мой принцип изложения не изменился: эта книга гораздо
больше предназначена тем, кто хочет размышлять и понимать результаты статис-
тической обработки данных, чем тем, кто хочет узнать, как пользоваться конкрет-
ным статистическим пакетом программ или углубиться в математические основы
при помощи статистических формул. Эта книга также несколько отличается от
других изданий в этой серии «Руководств для всех» издательства О’Рейлли – она
действительно находится где-то между руководством для тех, кто уже знаком со
статистикой, и учебником для людей, которые только начали осваивать этот пред-
мет.
Несмотря на продолжающееся проникновение статистики во многие области
нашей жизни, одна вещь осталась неизменной: сказать, что ты работаешь статис-
тиком, – по-прежнему верный способ испортить приятную беседу на вечеринке.
Почему-то оказывается, что это побуждает людей рассказать мне, как они ненави-
дели обязательные занятия по статистике в колледже, или заставляет их проци-
тировать старую шутку, ставшую популярной благодаря Марку Твену, о том, что
существует три вида лжецов: простые лжецы, отъявленные лжецы и статистики.
Лично я нахожу статистику захватывающей и обожаю работать в этой области.
Я также люблю преподавать статистику, и мне нравится думать, что я заражаю
своим энтузиазмом окружающих. Хотя часто это превращается в напряженную
битву; многие считают, что статистика – это не более чем набор хитростей и под-
тасовок для искажения реальности, которые нужны, чтобы одурачить других лю-
дей. Другие занимают противоположную позицию, полагая, что статистика – это
набор волшебных приемов, которые избавят вас от необходимости размышлять
над данными.

Ну хорошо, и что же такое статистика?


Прежде чем погрузиться в технические детали изучения и использования статис-
тики, вернемся на минуту назад и обсудим, что можно подразумевать под словом
«статистика». Не беспокойтесь, если вы сразу не поймете всю терминологию, она
прояснится в ходе чтения этой книги.
10 Предисловие

Когда люди говорят о статистике, они обычно имеют в виду один или несколько
пунктов из приведенного ниже перечня:
1. Числовые данные, такие как уровень безработицы, число людей, умираю-
щих ежегодно от пчелиных укусов, или численность жителей г. Нью-Йорк
в 2006 году по сравнению с 1906 годом.
2. Числа, использованные для описания выборок, в противоположность
параметрам (числам, характеризующим генеральную совокупность). На-
пример, рекламная компания может интересоваться средним возрастом
подписчиков журнала «Спортс Иллюстрейтед» (Sports Illustrated)1. Для
ответа на этот вопрос компания может создать случайную выборку под-
писчиков, вычислить среднее значение для этой выборки (статистику) и
использовать его как оценку среднего значения для всей генеральной со-
вокупности подписчиков (параметра).
3. Определенные методы анализа данных и результаты такого анализа, такие
как t-статистика или статистика хи-квадрат.
4. Область науки, которая разрабатывает и использует математические ме-
тоды для описания данных и формирования суждений о них.
Тот тип статистики, о котором говорится в первом определении, не имеет прямого
отношения к этой книге. Если вы просто хотите найти последние данные о безрабо-
тице, здоровье или о любой из множества других тем, по которым правительство или
другие организации регулярно публикуют статистические данные, вам лучше всего
проконсультироваться у библиотекаря или у специалиста в данной области. Если
же вы хотите узнать, как интерпретировать эти данные (понять, например, почему
среднее арифметическое часто бывает плохим показателем средней тенденции, или
сравнить исходные и стандартизованные показатели смертности), то «Статистика
для всех» точно вам поможет.
Понятия, использованные во втором определении, будут обсуждаться в главе 3,
посвященной предсказательным статистикам. Однако эти термины пронизывают
всю книгу. Это отчасти терминологические тонкости (статистики – это числа, ко-
торые описывают выборки, а параметры характеризуют генеральные совокупнос-
ти), которые тем не менее подчеркивают ключевой момент применения статис-
тики. Идея использования информации, полученной при изучении выборки, для
формирования суждений обо всей генеральной совокупности лежит в основе всей
предсказательной статистики, а предсказательная статистика – это основная тема
этой книги (как и большинства других книг, посвященных статистике).
Третье определение также является ключевым для большинства глав этой кни-
ги. Процесс изучения статистики до некоторой степени сводится к освоению опре-
деленных статистических методов, включая такие вопросы, как способы вычисле-
ний и их интерпретации, выбор подходящей статистики в конкретной ситуации и
так далее. На самом деле многие люди, начинающие изучать статистику, держат в
голове в основном это определение. Освоить статистику для них означает узнать,
1
Еженедельный иллюстрированный спортивный журнал, крупнейшее и самое популярное спортив-
ное издание в США. – Прим. пер.
Ну хорошо, и что же такое статистика? 11

как выполнять набор статистических процедур. Это не столько неверный подход


к статистике, сколько неполный. Умение применять ряд методов статистической
обработки данных – это необходимая составляющая деятельности статистика, но
это далеко не все, что нужно. Более того, с тех пор как компьютерные программы
сделали применение методов статистического анализа данных существенно проще
для всех вне зависимости от уровня математической подготовки, необходимость
в понимании и интерпретации результатов статистического анализа значительно
превысила необходимость знать, как проводить сами вычисления.
Четвертое определение мне ближе всего, поскольку я избрала статистику своей
профессией. Если вы уже студент или закончили вуз, вам, вероятно, знакомо это
определение, поскольку в наши дни во многих университетах и колледжах или
есть отдельный факультет статистики, или же статистика предлагается как одно
из направлений специализации на математическом факультете. Статистика все
чаще преподается и в средней школе, а в США число учащихся, выбравших клас-
сы с углубленным изучением статистики, быстро растет.
Статистика в университетах – это не только курс для тех, кто решил специа-
лизироваться в этой области. На многих факультетах от студентов требуется
прослушать один или несколько курсов по статистике, помимо тех предметов, на
которых они специализируются. Кроме того, полезно знать, что многие важные
методы современной статистики были разработаны людьми, которые изучили и
использовали статистику во время своей работы в другой области знаний. Сте-
фан Рауденбуш (Stephen Raudenbush), создатель иерархического линейного мо-
делирования, изучал основы политического анализа и оценочных исследований
в Гарварде, а Эдвард Тьюфт (Edward Tufte), наверное, лучший специалист в мире
по статистической графике, начинал свою карьеру как политолог: он защитил док-
торскую диссертацию в Йельском университете по американским движениям в
защиту гражданских прав.
Поскольку статистика все чаще применяется во многих специальностях и на
всех уровнях от управляющих до рядовых рабочих, базовые знания в этой области
необходимо получить многим людям, давно закончившим школу. Они часто недо-
статочно обеспечены учебниками, предназначенными для вводных университет-
ских курсов, а эти пособия слишком специализированы, слишком много внима-
ния уделяют вычислениям и слишком дороги.
Наконец, статистику нельзя отдать на откуп статистикам, поскольку каждому
из нас следует принимать участие в современной общественной жизни, в частнос-
ти понимать многое из того, что вы прочли в газетах и услышали по радио или
телевизору. Рабочие знания по статистике – лучшее противоядие от вводящих в
заблуждение или совершенно ложных числовых данных (исходящих или от по-
литиков, или рекламных агентов, или от реформаторов социальной сферы), кото-
рые, похоже, составляют постоянно возрастающую часть ежедневно поглощаемой
нами информации. Вот почему классическая книга Дэррила Хаффа (Darryl Huff),
опубликованная в 1954 г., «Как лгать при помощи статистики» (“How to Lie with
Statistics”) до сих пор пользуется спросом. Статистику легко использовать непра-
вильно, стандартные способы искажения статистических данных не меняются на
12 Предисловие

протяжении десятилетий, а лучшая защита против тех, кто хотел бы солгать при
помощи статистики, – стать более образованным, чтобы быть способным выявить
лжецов и немедленно остановить их.

Основная цель этой книги


В продаже существует уже столько книг по статистике, что вы могли бы сильно
удивиться, почему я чувствую необходимость добавить еще одну книгу к этому
множеству. Основная причина заключается в том, что я не нашла ни одной книги
по статистике, которая отвечала бы задачам, поставленным мною в «Статистике
для всех». На самом деле, если позволите на мгновение впасть в поэтическое на-
строение, ситуация состоит в том, что, перефразируя состояние старого морехода
Кольриджа, «книги, повсюду книги, но ни одной, по которой можно научиться»2.
Проблемы, которые я постаралась решить в этой книге, таковы:
• нужда в книге, которая была бы посвящена использованию и понима-
нию статистики в контексте исследований или прикладной науки, не как
отдельного набора математических методов, а как части процесса обосно-
вания заключений при помощи цифр;
• необходимость включения таких тем, как теория измерений и управление
данными во введение в статистику;
• необходимость в книге по статистике, которая не была бы посвящена
одной конкретной области знаний. Простейшая статистика в основном
одинакова для всех дисциплин (тест Стьюдента работает одинаково для
данных из области медицины, финансов или криминальной юстиции), так
что незачем умножать тексты, представляя одну и ту же информацию не-
много в другом ракурсе;
• нужда во введении в статистику, которое было бы компактным, недорогим
и простым для понимания начинающих, избегая снисходительного тона
или излишнего упрощения.
Так кто же предполагаемые читатели «Статистики для всех?» Я вижу три груп-
пы читателей, для которых эта книга будет наиболее полезной:
• учащиеся, которые посещают вводные курсы по статистике в средней
школе, колледжах и университетах;
• взрослые люди, которым нужно освоить статистику для выполнения теку-
щих задач или для карьерного роста;
• те, кому интересно узнать, что такое статистика, из любопытства.
В этой книге я делаю акцент не на конкретные методы, хотя многим из них вы
научитесь в процессе чтения, а на обосновании заключений при помощи статис-
тики. Можно сказать, что цель этой книги в меньшей степени заключается в том,
чтобы производить статистические вычисления, и в большей степени, – чтобы
мыслить статистически. Что это значит? Мышление с использованием чисел тре-
2
Имеются в виду строки поэмы английского поэта Сэмюэла Кольриджа «Сказание о старом морехо-
де»: «Вода, вода, одна вода/Мы ничего не пьем» (вольный перевод Н. С. Гумилева). – Прим. пер.
Статистика в информационную эпоху 13

бует определенных навыков. В частности, я делаю упор на осмысление данных и


использование статистики для облегчения этого процесса. Во многих главах при-
ведены практические задания, которые задуманы как повод пересмотреть пред-
ставленный материал и подумать о ключевых понятиях, введенных в данной гла-
ве, они не требуют бездумных вычислений.
Весь материал «Статистики для всех» был переработан, и многие главы допол-
нены новыми примерами и упражнениями. В частности, добавлены примеры рабо-
ты с пропорциями, а также примеры с использованием реальных наборов данных
из таких источников, как Проект ООН по развитию человечества (United Nations
Human Development Project) и Система слежения за факторами поведенческого
риска (Behavioral Risk Factor Surveillance System). Оба этих набора данных можно
бесплатно скачать из Интернета, так что студенты могут экспериментировать с
ними, а также воспроизвести процедуры, описанные в этой книге. В это издание
также добавлена глава 19. Я сделала это, потому что заметила, что умение доводить
до сведения окружающих статистическую информацию по меньшей мере так же
важно, как и способность выполнять статистические вычисления, в особенности
для тех, кто учится статистике для своей профессиональной деятельности. Также
добавлено несколько новых приложений, в основном для того, чтобы сделать кни-
гу более самодостаточной и дружественной к читателю. Эти приложения включа-
ют вероятностные таблицы для самых распространенных типов распределений,
перечень информационных ресурсов Интернета, словарь и таблицу статистичес-
ких обозначений.

Статистика в информационную эпоху


Стало модным говорить, что мы живем в информационную эпоху, когда люди по-
лучают и распространяют столько сведений, что никто не может быть в курсе все-
го. Это клише основано на правдивом наблюдении; общество «тонет» в данных,
и, похожа, эта проблема становится только острее. В этом есть свои плюсы и свои
минусы. К положительным моментам можно отнести то, что широкий доступ к
компьютерным технологиям и электронным средствам хранения и распростране-
ния данных облегчил доступ к информации, так что теперь у исследователей сни-
зилась потребность в поездках в определенную библиотеку или архив для работы
с печатными источниками.
Тем не менее данные сами по себе ничего не значат. Они должны быть упоря-
дочены и интерпретированы людьми, чтобы обрести смысл, так что полноценная
жизнь в информационную эпоху подразумевает глубокое понимание данных,
включая способы их сбора, анализа и интерпретации. И поскольку одни и те же
данные могут быть часто интерпретированы разными способами для обоснования
совершенно противоположных заключений, даже людям, которые сами не работа-
ют в области статистики, нужно понимать, как статистика работает и как выявить
безосновательные заявления и аргументы, основанные на неправильном исполь-
зовании данных.
14 Предисловие

Структура книги
«Статистика для всех» состоит из трех частей: вводная информация (главы 1–4),
где закладывается необходимое основание для понимания последующих глав; ме-
тоды предсказательной статистики (главы 5–13); специальные методы, которые
используются в различных областях науки (главы 14–16), и вспомогательные
темы, которые часто являются частью работы статистика, даже если они не отно-
сятся к статистике как таковой (главы 17–20). Вот более детальное содержание
глав.
Глава 1. Основные понятия, связанные с измерениями
Обсуждаются основополагающие вопросы статистики, включая шкалы из-
мерений, операционализацию, опосредованное измерение, случайные и
систематические ошибки, надежность и валидность, а также типы смеще-
ния измерений.
Глава 2. Теория вероятности
Описаны основные понятия теории вероятности, включая испытания, со-
бытия, независимость, взаимное исключение, правила аддитивности и пе-
ремножения, комбинации и перестановки, условную вероятность и теоре-
му Байеса.
Глава 3. Статистический вывод
Введены некоторые базовые понятия статистического вывода, включая
распределение вероятностей, зависимые и независимые переменные, ге-
неральные совокупности и выборки, распространенные способы создания
выборок, центральную предельную теорему, проверку гипотез, ошибки
первого и второго типа, доверительные интервалы и значения p, а также
преобразование данных.
Глава 4. Описательные статистики и графическое представление данных
Дана информация о распространенных показателях центральной тенден-
ции и разброса, включая среднее арифметическое, медиану, моду, абсолют-
ный размах, межквартильный размах, дисперсию и стандартное отклоне-
ние, а также обсуждаются выбросы. В этой главе рассмотрены наиболее
часто используемые графические способы представления статистической
информации, включая частотные таблицы, столбчатые и круговые диа-
граммы, диаграммы Парето, диаграммы типа «стебель с листьями», диа-
граммы размаха и рассеяния, а также линейные графики.
Глава 5. Категориальные данные
Представлен обзор концепций категориальных и интервальных данных,
введено понятие таблицы сопряженности. В этой главе обсуждаются такие
статистические методы, как тест хи-квадрат на независимость, тест равенст-
ва пропорций, критерий согласия, точный тест Фишера, тест МакНемара,
тесты пропорций для больших выборок, а также меры сопряженности для
категориальных и порядковых данных.
Структура книги 15

Глава 6. t-критерий
Обсуждается распределение Стьюдента, теория и применение теста Стью-
дента для одной выборки, для двух независимых выборок, для результатов
повторных измерений и в случае неравенства дисперсий.
Глава 7. Коэффициент корреляции Пирсона
При помощи диаграмм, демонстрирующих разную силу связи между двумя
переменными, вводится понятие связи, также обсуждается коэффициент
корреляции Пирсона и коэффициент детерминации.
Глава 8. Введение в регрессию и дисперсионный анализ
Показано отношение линейной регрессии и дисперсионного анализа к кон-
цепции обобщенной линейной модели, и обсуждаются допущения, кото-
рые принимаются при использовании этих видов анализа данных. Обсуж-
дается и на примерах разбирается применение простой регрессии (для двух
переменных), однофакторного дисперсионного анализа и апостериорного
тестирования гипотез.
Глава 9. Многофакторный дисперсионный анализ и ковариационный анализ
Обсуждаются более сложные схемы дисперсионного анализа, включая
двух- и трехфакторный дисперсионный анализ и ковариационный анализ,
а также поднимается тема взаимодействия переменных.
Глава 10. Множественная линейная регрессия
Регрессионная модель расширяется за счет включения множественных
независимых переменных. Рассмотрены связи между независимыми пе-
ременными, стандартизованные и нестандартизованные коэффициенты,
фиктивные переменные, способы построения моделей, а также отклонения
от допущений, принимаемых при линейной регрессии, включая нелиней-
ность, автокорреляцию и гетероскедатичность.
Глава 11. Логистическая, мультиномиальная и полиномиальная регрессия
Расширяет применение регрессионного анализа до бинарных данных (ло-
гистическая регрессия), категориальных данных (мультиномиальная рег-
рессия) и нелинейных моделей (полиномиальная регрессия), также обсуж-
дается проблема избыточной подгонки модели.
Глава 12. Факторный, кластерный и дискриминантный анализ
Описаны три сложные статистические процедуры: факторный, кластерный
и дискриминантный анализ, обсуждаются группы задач, для решения кото-
рых эти методы могут быть полезны.
Глава 13. Непараметрическая статистика
Обсуждается, когда нужно использовать непараметрическую статистику
вместо параметрической, а также описаны методы для внутри- и межгруп-
повых сравнений, включая тесты Вилкоксона, Манна–Уитни, Краскел–
Уоллиса, Фридмана, критерий знаков и медианный критерий.
Глава 14. Статистика для бизнеса и контроля качества
Приведены статистические методы, которые часто используются в бизнесе
16 Предисловие

и при контроле качества. Описанные аналитические и статистические про-


цедуры включают в себя индексы, временные серии, критерии принятия
решений минимакс, максимакс и максимин, принятие решений в условиях
риска, деревья решений и контрольные карты.
Глава 15. Статистика в медицине и эпидемиологии
Вводятся понятия и демонстрируются статистические методы, которые
особенно актуальны для медицины и эпидемиологии. В главу вошли такие
темы, как определение и использование отношений, пропорций и долей, по-
казатели заболеваемости и распространения, исходные и стандартизован-
ные данные, прямая и непрямая стандартизация, меры риска, искажающие
факторы, коэффициент несогласия (простой и Мантеля–Гензеля), а также
вычисления точности, мощности и объема выборок.
Глава 16. Статистика в образовании и психологии
Обсуждаются концепции и статистические методы, наиболее часто ис-
пользуемые в образовании и психологии, такие как перцентили, стандар-
тизованные баллы, методы создания тестов, классическая теория тестов,
надежность комбинированного теста, меры внутренней согласованности,
включая коэффициент альфа, а также методы анализа заданий. Также при-
водится обзор современной теории тестирования.
Глава 17. Управление данными
Обсуждаются практические вопросы управления данными, включая ко-
дификацию, группировку данных, методы устранения ошибок в файлах,
методы хранения данных в цифровом виде, текстовые и числовые данные
и пропущенные значения.
Глава 18. Планирование исследования
Обсуждаются наблюдения и эксперименты, слагаемые хорошего плани-
рования исследований, этапы сбора данных, типы валидности и способы
ограничить или предотвратить искажение результатов.
Глава 19. Представление статистических материалов
Рассмотрены основные проблемы представления статистической инфор-
мации различной аудитории, затем более детально обсуждается изложение
результатов для специализированных журналов, для общественности и для
коллег по работе.
Глава 20. Оценка работ по статистике других авторов
Содержит руководство по проверке правильности использования статис-
тики, включая список контрольных вопросов, которые помогут оценить
представление статистических данных, и примеры манипуляций с коррект-
ными статистическими методами для подтверждения спорных заключе-
ний.
В шести приложениях приведены сведения, которые лежат в основе материала,
изложенного в основной части книги, а также указаны источники дополнительной
информации:
Структура книги 17

Приложение A. Обзор основных математических понятий


Содержит материалы для самопроверки и обзор основ арифметики и алгеб-
ры для тех, у кого остались лишь ускользающие воспоминания о последнем
курсе по математике. Обсуждаются арифметические правила, экспоненты,
корни и логарифмы, методы решения уравнений и систем уравнений, дро-
би, факториалы, перестановки и комбинации.
Приложение B. Краткий обзор статистических пакетов
Представлен обзор некоторых наиболее распространенных компьютерных
программ, используемых для статистических вычислений, приведены при-
меры простейшего анализа данных в каждой из программ, обсуждаются
сильные и слабые стороны каждой из них. Рассмотрены такие программы,
как Minitab, SPSS, SAS и R; также обсуждается использование Microsoft
Excel (это не статистический пакет) для статистического анализа.
Приложение C. Ссылки
Аннотированный список литературы к каждой главе включает бумажные
публикации и сайты в Интернете, которые упоминаются в тексте, и прочие
источники, с которых хорошо начать углубленное изучение соответствую-
щей темы.
Приложение D. Таблицы вероятностей для распространенных типов распре-
делений
Приведены таблицы для большинства широко используемых статистичес-
ких распределений – нормальное, Стьюдента, биномиальное и хи-квадрат.
Даже в эпоху компьютера и Интернета стоит знать, как читать таблицы рас-
пределений, и удобно иметь их под рукой в печатном виде.
Приложение E. Интернет-ресурсы
Приведен перечень лучших сайтов в Интернете, которые пригодятся тем,
кто учит, использует или преподает статистику. Источники разделены на
общие руководства, словари, вероятностные таблицы, калькуляторы и
учебники.
Приложение F. Словарь статистических терминов
Сюда вошли греческий алфавит (проклятие многих начинающих статис-
тиков), расшифровка статистических обозначений и краткий словарь для
большинства статистических терминов, использованных в этой книге.
Эта книга – руководство, которое можно приспосабливать к имеющимся знани-
ям и нуждам отдельных читателей. Некоторые главы посвящены темам, которые
часто отсутствуют в вводных книгах по статистике, однако я считаю их важными.
Это касается управления данными, изложения статистических результатов и чте-
ния статистических статей, написанных другими людьми. Эти главы также послу-
жат полезным справочным материалом для людей, которые внезапно обнаружат,
что их назначили разбираться с данными по проекту, или которым было поручено,
более или менее неожиданно, представить статистические данные о работе их ко-
манды. Ни один из этих сценариев, к сожалению, не слишком редок.
18 Предисловие

Классификация сведений на элементарные и сложные зависит от личных зна-


ний и задач. Я написала «Статистику для всех» так, чтобы она отвечала задачам
многих категорий читателей. Из-за этого невозможно расположить материал в
идеальной последовательности, так, чтобы это удовлетворяло запросам каждого.
Это соображение приводит нас к важному заключению: нет никакой необходи-
мости читать главы в том порядке, в каком они представлены здесь. В статистике
есть много дилемм типа «что было раньше, яйцо или курица?». К примеру, вы не
можете спланировать эксперименты, не зная, какие типы статистической обра-
ботки данных вам доступны, при этом вы не сможете понять, как применяется
статистика, без каких-либо знаний о планировании исследований. Сходным об-
разом может казаться логичным, что тот, кто занялся управлением данными, уже
имеет опыт статистического анализа, однако я консультировала многих лаборан-
тов и руководителей проектов, которым было поручено разобраться с объемными
наборами данных до того, как они прослушали хотя бы один курс по статистике.
Так что читайте эти главы в том порядке, который облегчает выполнение стоящих
перед вами задач, и не стесняйтесь пропустить что-то и сосредоточиться на том,
что отвечает вашим конкретным потребностям.
Не весь материал этой книге и актуален для каждого, это наиболее очевидно
для глав 14–16, которые посвящены определенным областям науки (бизнес и кон-
троль качества, медицина и эпидемиология, образование и психология соответст-
венно). Однако полезно быть открытым всему новому, если дело касается знания
статистических методов. В данный момент вы можете быть уверенным, что вам
никогда не понадобится проводить непараметрический тест или логистический
регрессионный анализ, но вы никогда не знаете, что пригодится в будущем. Также
неправильно слишком четко делить методы по областям знаний; поскольку ста-
тистические методы в конечном счете имеют дело с числами, а не с содержанием;
методы, разработанные в одной области знаний, часто пригождаются в другой.
Например, контрольные карты (обсуждаемые в главе 14) были разработаны для
производственных нужд, а теперь широко используются во многих областях от
медицины до образования, тогда как коэффициент несогласия (глава 15), разрабо-
танный в эпидемиологии, теперь применяется ко всем типам данных.

Условные обозначения, используемые


в этой книге
В этой книге принята следующая система обозначений:
Обычный текст
Обозначает названия пунктов меню, опций, кнопок на экране и клавишей
клавиатуры (таких как Alt и Ctrl).
Курсив
Обозначает новые термины, названия файлов и их расширения, путь к фай-
лам, директории и утилиты Unix.
Об авторе 19

Нижнее подчеркивание
Ссылки на страницы в Интернете, адреса электронной почты.

Эта пиктограмма обозначает совет, предложение или общее замечание.

Эта пиктограмма обозначает предостережение.

Благодарности
На обложке указан только один автор, однако многие люди приложили руку к
созданию этой книги.
Я хотела бы поблагодарить моего агента Нейла Залкинда (Neil Salkind) за по-
стоянные советы и поддержку; команду О’Рейлли, включая Мэри Трезелер (Mary
Treseler), Сару Шнейдер (Sarah Schneider) и Меган Бланше (Meghan Blanchette),
а также всех статистиков, которые помогали при техническом рецензировании
текста. Я бы также хотела поблагодарить моих далеких от статистики друзей, ко-
торые постоянно требовали от меня объяснять им статистические концепции, что
подтолкнуло меня к написанию этой книги, и моих коллег из центра устойчивой
журналистики в государственном университете Кеннесо (Center for Sustainable
Journalism at Kennesaw State University) за их терпение и снисходительность во
время моего труда над переработкой этой книги. От всей души хочу поблагода-
рить мою бывшую коллегу Ранд Росс (Rand Ross) из университета Вашингтона
в Сент-Луисе (Washington University in St. Louis) за то, что она помогала мне не
сойти с ума во время написания первого издания этой книги, и моего мужа Дэна
Пека (Dan Peck) за то, что он был воплощением современного супруга, готового
всегда оказать поддержку.

Об авторе
Сара Бослаф (Sarah Boslaugh) получила докторскую степень по исследованиям
и оцениванию в городском университете Нью-Йорка. В течение 20 лет она рабо-
тала как статистический аналитик в различных профессиональных организаци-
ях, включая городской совет Нью-Йорка по образованию (New York City Board of
Education), исследовательское отделение (Institutional Research Office) городского
университета Нью-Йорка, медицинский центр Монтефиоре (Montefiore Medical
Center), отдел социального обеспечения в Вирджинии (Virginia Department of
Social Services), медицинская организация Магеллан (Magellan Health Services),
медицинская школа при университете г. Вашингтон (Washington University School
of Medicine) и организации BJC HealthCare. Она преподавала статистику в разных
20 Предисловие

аудиториях, а сейчас работает составителем заявок на гранты в государственном


университете Кеннесоу (Kennesaw).
Сара Бослаф уже опубликовала две книги: «Справочник по программирова-
нию в SPSS средней сложности: использование программного кода для управ-
ления данными» (“An Intermediate Guide to SPSS Programming: Using Syntax
for Data Management”, SAGE Publications, 2004) и «Вторичные источники дан-
ных в здравоохранении» (“Secondary Data Sources for Public Health”, Cambridge
University Press, 2007), а также редактировала «Энциклопедию эпидемиологии»
(“Encyclopedia of Epidemiology” for SAGE Publications, 2007).
В 2013 году издательством SAGE опубликована её новая книга, – «Системы
здравоохранения во всем мире: сравнительный справочник» (“Healthcare Systems
Around the World: A Comparative Guide”).

Об иллюстрации на обложке
На обложке книги «Статистика для всех» изображен колючий краб-паук (Maja
squinado, Maja brachydactyla). Этот краб обитает в cеверо-восточной части Атлан-
тического океана и в Средиземном море. Это самый крупный краб в Европе, диа-
метр его карапакса колеблется от 5 до 17 см. Его легко отличить от других крабов
по двум похожим на рога шипам между глаз и шести, или около того, шипикам
расположеным на каждой стороне панциря. Панцирь краба-паука красноватый с
розовыми, коричневыми или желтыми отметинами и вся его поверхность покрыта
мелкими шипами, как следует из названия животного.
Крабы-пауки иногда выползают на берег, но предпочитают глубины от 30 до
180 м. Это одиночные животные, за исключением периода спаривания, когда они
образуют большие скопления. В годы, когда эти крабы особенно многочисленны,
они могут досаждать ловцам омаров, поскольку могут разорять ловушки. Крабы-
пауки сами являются объектом промысла из-за вкусного мяса конечностей.
Самцы крабов-пауков – активные хищники; их, кажущиеся слабыми конеч-
ности, на самом деле довольно мощные и могут открывать раковины небольших
моллюсков, которых крабы поедают. Их конечности имеют два сочленения, так
что крабы-пауки способны достать клешнями до своей спины, чтобы ущипнуть
обидчика, хотя в целом безопаснее его держать за створки панциря. Клешни самок
мельче и менее подвижные, поэтому они более уязвимы для нападения. Для за-
щиты от врагов, к которым относятся омары, рыбы-губаны и каракатицы, многие
виды крабов-пауков украшают свои колючие панцири водорослями, губками или
грунтом, чтобы лучше замаскироваться на фоне дна.
Изображение на обложке предоставлено естественно-научной библиотекой
Лидеккера (Lydekker’s Library of Natural History).
ГЛАВА 1.
Основные понятия,
связанные с измерениями

Для использования статистики при решении определенной задачи необходимо


преобразовать информацию об этой задаче в данные. Это значит, что вы долж-
ны разработать или применить систему присвоения значений, чаще всего чи-
сел, ключевым для рассматриваемой проблемы объектам или понятиям. Это не
скрытый от понимания непосвященных процесс, а то, что люди делают ежеднев-
но. Например, когда вы покупаете что-нибудь в магазине, сумма, которую вы
платите, – это измерение: она выражает количество денег, которое вы должны
заплатить, чтобы купить что-то. Аналогичным образом, когда вы утром стано-
витесь на весы, число, которое вы видите, – это измерение вашего веса. В зави-
симости от места вашего проживания это число может быть выражено в фунтах
или килограммах, но принцип присвоения числа физической величине (весу)
сохраняется в любом случае.
Подходящие для анализа данные не обязательно должны быть числовыми. На-
пример, понятия мужчина и женщина обычно используются в науке и повседнев-
ной жизни для классификации людей, и за этими категориями не стоит никаких
чисел. Аналогично мы часто говорим о цветах объектов, таких как красный и си-
ний, и к этим категориям также не привязано никаких чисел. (Хотя вы можете
сказать, что этим цветам свойственны разные длины волны света, это знание не
нужно для классификации объектов по цветам.)
Этот тип категориального мышления – привычный ежедневный опыт, и нас
редко раздражает тот факт, что разные категории используются в разных ситуаци-
ях. Например, художник может различать карминовый, малиновый и гранатовый,
тогда как неспециалисту достаточно называть их все красным. Сходным образом
социолог, собирающий информацию о семейном статусе людей, будет различать
никогда не состоявших в браке, разведенных и вдовцов, тогда как для кого-нибудь
человек, относящийся к любой из этих трех категорий, будет просто холостым.
Здесь важно понять, что уровень детализации, используемый при классификации,
должен соответствовать ситуации, исходить из цели классификации и назначения
собранной информации.
22 Глава 1. Основные понятия, связанные с измерениями

Измерение
Измерение – это процесс систематичного присвоения чисел объектам и их свойст-
вам для облегчения использования математического аппарата при изучении и
описании объектов и их взаимосвязей. Некоторые типы измерений абсолютно
конкретны: например, измерения веса человека в фунтах или килограммах или
его роста в футах и дюймах или метрах. Обратите внимание, что определенная
система единиц измерения не так важна, как применение определенного набора
правил: мы можем легко преобразовать вес, выраженный в килограммах, в вес, вы-
раженный в фунтах, например. Хотя любая система единиц измерения может по-
казаться необоснованной (попробуйте защитить футы и дюймы от нападок того,
кто вырос, используя метрическую систему!), пока система остается постоянной
по отношению к измеряемым признакам, мы можем использовать полученные ре-
зультаты для вычислений.
Измерения не ограничены физическими величинами, такими как рост и вес.
Тесты для измерения абстрактных величин, таких как интеллект или академичес-
кая успеваемость, широко используются в образовании и психологии, а разработ-
кой и улучшением методов исследований этих типов абстрактных конструктов
занимается специальная дисциплина – психометрика. Утверждать, что опреде-
ленное измерение точно и осмысленно, более трудно, если его нельзя напрямую
наблюдать. Однако вы можете оценить точность одной шкалы измерений, срав-
нивая результаты, которые были получены при помощи другой шкалы, точность
которой известна. Применимость такого подхода при измерении веса не вызывает
сомнений, дело обстоит сложнее, когда вам нужно измерить такой параметр, как
интеллект. В данном случае не только не существует общепризнанных метрик ин-
теллекта, с которыми можно сравнить новую шкалу, нет даже общего согласия по
поводу того, что подразумевается под интеллектом. Иными словами, трудно уве-
ренно судить о чьем-нибудь интеллекте, поскольку не существует ясного способа
его измерения и, строго говоря, нет общепринятого определения интеллекта. Эти
вопросы особенно актуальны в социологии и образовании, в которых основная
часть исследований сосредоточена на таких абстрактных понятиях.

Типы измерений
В статистике обычно выделяют четыре типа, или уровня, измерений, эти же тер-
мины могут быть отнесены и к самим данным. Уровни измерений различаются и
по смыслу чисел, используемых в системе измерений, и по типу статистических
процедур, которые корректно применять для обработки данных.

Номинальные данные
Для номинальных данных числа выступают в виде имени или ярлыка и не имеют
смысла как числа. Например, вы можете создать переменную для пола, которая
принимает значение 1 для мужчин и 0 для женщин. Эти 0 и 1 не имеют смысла как
Типы измерений 23

числа, а выступают в роли «ярлыков», сходным образом вы можете закодировать


эти значения как М и Ж. Однако исследователи часто предпочитают числовую
кодировку значений по нескольким причинам. Во-первых, это упрощает анализ
данных, поскольку некоторые статистические программы не допускают использо-
вания нечисловых значений при определенных типах обработки данных. (Так что
любые нечисловые данные придется перекодировать перед анализом.) Во-вторых,
кодирование данных при помощи чисел позволяет избежать некоторых проблем
при вводе данных, таких как конфликт между прописными и строчными буквами
(для компьютера М и м – разные значения, однако тому, кто вводит данные, они
могут показаться одинаковыми).
Номинальные данные могут иметь больше двух значений. Например, если вы
изучаете связь между опытом игроков в бейсбол и их зарплатой, вы можете клас-
сифицировать игроков по их основной роли, используя традиционную систему:
1 – подающий, 2 – принимающий, 3 – первый полевой игрок и так далее.
Если вы не можете решить, относятся ли ваши данные к номинальному типу,
задайте себе вопрос: отражают ли числа некоторое свойство так, что более высо-
кое значение означает наличие большего количества этого свойства? Рассмотрим
пример с кодировкой пола, где 0 обозначает женщину, а 1 – мужчину. Есть ли неко-
торое свойство пола, которым мужчина обладает в большей степени, чем женщи-
на?1 Конечно нет, и кодировка будет работать, если обозначать женщин 1, а муж-
чин 0. Тот же принцип применим и к бейсбольным игрокам: нет такого качества,
как «бейсбольность», которое свойственно в большей степени полевым игрокам,
по сравнению с подающими. Числа – всего лишь удобный способ обозначения
объектов исследования, и наиболее важно то, что каждому состоянию признака
соответствует свое значение. Другое название номинальных данных – категориаль-
ные, что отражает тот факт, что измерения скорее разделяют объекты на категории
(мужчина или женщина, подающий или полевой игрок), а не измеряют некоторые
присущие им свойства. В пятой главе обсуждаются методы анализа, подходящие
для этого типа данных, и некоторые из разобранных в главе 13 непараметрических
методов также подходят для категориальных данных.
Когда данные принимают только два значения, как в случае с женщинами и
мужчинами, их называют бинарными. Этот тип данных настолько распространен,
что для его анализа разработаны специальные методы, включая логистическую
регрессию (обсуждается в главе 11), которая применяется во многих областях нау-
ки. Многие используемые в медицине статистики, такие как отношение шансов
и отношение рисков (обсуждаются в главе 15), были разработаны для описания
взаимосвязи между двумя бинарными переменными, поскольку они очень часто
используются в медицинских исследованиях.

Порядковые данные
Порядковые данные – это данные, которые можно расположить в каком-либо
осмысленном порядке, так что большие значения соответствуют большему про-

1
Неудачный пример с точки зрения биолога. – Прим. пер.
24 Глава 1. Основные понятия, связанные с измерениями

явлению какого-либо признака, по сравнению с меньшими значениями. Напри-


мер, в медицине ожоги часто характеризуются их степенью, которая выражается
через объем поврежденных при ожоге тканей. Первая степень – это покраснение
кожи, слабая боль и повреждение только эпидермиса (наружного слоя кожи).
Вторая степень – это появление волдырей, при этом повреждается наружный
слой дермы (слой кожи между эпидермисом и подкожными тканями). Третья
степень ожога затрагивает всю дерму и характеризуется обугливанием кожи и
возможным разрушением нервных окончаний. Эти категории можно располо-
жить в логической последовательности: ожоги первой степени характеризуются
наименьшим разрушением тканей, ожоги второй степени – более значительным
разрушением, а третьей степени – самым серьезным. Однако не существует ка-
кого-либо метрического аналога линейки или шкалы, чтобы определить, каково
расстояние между этими категориями, или определить, одинаковы ли различие
между ожогами первой и второй степеней и различие между ожогами второй и
третьей степеней.
Многие порядковые шкалы используют ранжирование. Например, кандидаты
на какую-то должность могут быть ранжированы отделом кадров по привлека-
тельности для найма. Это ранжирование дает понять, какой кандидат наиболее
предпочтителен, какой занимает второе место и так далее, но остается неясным,
сходны ли на самом деле оценки первого и второго кандидатов, или первый канди-
дат намного более предпочтителен, чем второй. Можно также ранжировать стра-
ны мира по численности их населения, создав разумный порядок, не говоря ни-
чего, например, о соотношении различий между 30-й и 31-й странами и различий
между 31-й и 32-й странами. Числа в порядковых данных несут больше смысла,
чем в номинальных, и разработано много статистических методов для полного ис-
пользования информации, содержащейся в упорядоченных данных, не подразу-
мевающих еще каких-нибудь свойств этих шкал. Например, для порядковых дан-
ных имеет смысл рассчитывать медиану (центральное значение), но не среднее
арифметическое, поскольку это подразумевает равное расстояние между баллами
и требует деления, для чего нужны данные, характеризующие соотношения.

Интервальные данные
Интервальные данные характеризуются осмысленным порядком и равными ин-
тервалами между измерениями, отражающими равновеликие изменения коли-
чества любой измеренной величины. Наиболее распространенный пример ин-
тервальных данных – это температура, измеренная по шкале Фаренгейта. Если
вы измеряете температуру по этой шкале, то различие между 10 и 25 градусами
(15 градусов) отражает тот же масштаб изменений температуры, что и различие
между 60 и 75 градусами. Для интервальных данных сложение и вычитание имеют
смысл, поскольку разница в 10 градусов характеризует одинаковую степень раз-
личий в температуре на протяжении всей шкалы. Однако у шкалы Фаренгейта нет
естественного нуля, поскольку 0 на этой шкале обозначает не отсутствие темпера-
туры, а просто относительное положение этого значения на шкале. Умножение и
Типы измерений 25

деление не имеют смысла для интервальных данных, поскольку такое утвержде-


ние, как, например, «80 градусов – это в два раза жарче, чем 40 градусов» не имеет
смысла (хотя разумно говорить о том, что 80 градусов – это на 40 градусов жарче,
чем 40 градусов). Интервальные шкалы – это редкость, и придумать еще один рас-
пространенный пример такой шкалы сложно. По этой причине термин «интер-
вальные данные» иногда используется для описания и интервальных данных, и
данных, характеризующих отношения (обсуждаются в следующем разделе).

Данные, характеризующие отношения


Данные, характеризующие отношения, характеризуются всеми свойствами интер-
вальных данных (осмысленный порядок, равные интервалы) и естественным ну-
лем. Многие физические измерения – это данные, характеризующие отношения:
например, рост, вес и возраст – все подходят. Также годится доход: конечно, вы
можете заработать 0 долларов в год или иметь 0 долларов на счету в банке, и это
будет обозначать отсутствие денег. Умножение и деление – осмысленные арифме-
тические операции для этого типа данных, разумно заключить, что кто-то со $100
имеет вдвое больше денег, чем тот, у кого $50, или что человек в возрасте 30 лет
втрое старше десятилетнего.
Нужно отметить, что хотя многие физические измерения – это данные, ха-
рактеризующие отношения, большинство психологических измерений – это по-
рядковые данные. Это особенно справедливо для исследований ценностей или
предпочтений, которые часто измеряются по шкале Лайкерта (Likert). Например,
человеку можно предъявить утверждение (скажем, «правительство должно боль-
ше вкладывать в образование») и попросить его выбрать ответ из упорядоченного
набора вариантов (например, абсолютно согласен, согласен, нет определенного
мнения, не согласен, абсолютно не согласен). Этим вариантам ответов в некото-
рых случаях присваиваются числа (например, 1 – абсолютно согласен, 2 – согла-
сен и т. д.), и это иногда создает впечатление того, что в этом случае можно при-
менять методы анализа для интервальных данных или данных, характеризующих
соотношения (например, вычисление среднего арифметического). Правильно ли
это? С точки зрения статистиков – нет, но иногда вам приходится делать то, что
от вас требует начальство, а не то, что вы считаете верным на основании теорети-
ческих знаний.

Непрерывные и дискретные данные


Другое важное различие существует между непрерывными и дискретными данны-
ми. Непрерывные данные могут принимать любое значение вообще или в опреде-
ленном диапазоне. Большая часть данных, которые измеряются в интервальной
шкале или характеризуют отношения, непрерывна: например, вес, рост, расстоя-
ние и доход – это все непрерывные данные.
Во время анализа данных и моделирования исследователи иногда разбивают
непрерывные данные на категории или объединяют в более крупные группы. На-
пример, вес можно разделить на интервалы по 10 фунтов или возраст, выражен-
26 Глава 1. Основные понятия, связанные с измерениями

ный в годах, можно анализировать по возрастным группам: 0–17 лет, 18–65 лет и
старше 65 лет. С точки зрения статистики, между непрерывными и дискретными
данными не существует четкой границы, что нужно учитывать при определении
метода анализа. Также стоит помнить о том, что если вы регистрируете возраст
в годах, вы по-прежнему разбиваете непрерывную переменную на дискретные
категории. На практике применяются различные правила. Например, некоторые
исследователи говорят, что если у переменной есть 10 и более значений (или, в ка-
честве альтернативы, 16 или более значений), ее можно спокойно анализировать
как непрерывную. Это решение должно быть основано на контексте, созданном
из принятых стандартов в вашей области исследований и типа анализа, который
предполагается применить.
Дискретные переменные принимают только определенные значения, и меж-
ду этими значениями существуют четкие границы. Как гласит старая шутка, у
вас может быть два или три, но не 2,37 ребенка, так что переменная «число де-
тей» – дискретная. На самом деле любая счетная переменная дискретна, считаете
ли вы число книг, купленных за год, или число визитов к врачу во время бере-
менности. Номинальные данные всегда дискретны, так же как и бинарные или
порядковые.

Операционализация
Люди, которые только начинают заниматься наукой, часто думают, что вся слож-
ность научного исследования заключается в основном в статистическом анализе,
так что они сосредоточивают свои усилия на изучении математических формул
и методов компьютерного программирования для выполнения статистических
вычислений. Однако один основной аспект исследований имеет очень мало отно-
шения и к статистике, и к математике, но полностью обусловлен вашим знанием
предмета исследования и внимательным обдумыванием практических проблем
измерений. Этот аспект носит название операционализация, что означает процесс
определения способа описания и измерения признаков.
Операционализация всегда необходима, когда интересующий нас признак не
может быть измерен напрямую. Очевидный пример – это интеллект. Не сущест-
вует способа прямого измерения интеллекта, так что вместо этого мы должны
предложить какую-то величину, которую мы можем измерить, такую как баллы
теста на IQ. Сходным образом не существует способа прямого измерения «готов-
ности к противостоянию катастрофе» для городов, но мы можем операционализи-
ровать этот показатель, составив список задач, которые должны быть выполнены.
Далее мы можем присвоить каждому городу балл «готовности к противостоянию
катастрофе», исходя из того, сколько задач выполнено, в какой мере и насколь-
ко разумно. В качестве третьего примера представим, что вы хотите исследовать
степень физической активности людей. Если у вас нет возможности отслеживать
их активное поведение напрямую, вы можете операционализовать «степени фи-
зической активности» по активности, заявленной в ходе опроса или описанной в
дневнике.
Типы измерений 27

Поскольку многие качества, изучаемые социологами, абстрактны, операцио-


нализация – это распространенная тема обсуждения у представителей этой спе-
циальности. Однако эта проблема также актуальна и для других областей науки.
Например, основные цели здравоохранения – уменьшение смертности и сниже-
ние страданий и тяжести заболеваний. Смертность легко определяется и измеря-
ется, но этот показатель часто слишком груб, чтобы быть полезным, поскольку, к
счастью, такой исход редок для многих заболеваний. «Тяжесть заболеваний» или
«страдания», – с другой стороны, это показатели, которые важны при многих ис-
следованиях, однако не существует способов их прямого измерения, так что эти
показатели нужно операционализовать. К примерам операционализации тяжес-
ти заболевания относится определение концентрации вируса в крови у больных
СПИДом. Снижение страданий или улучшение качества жизни может быть опе-
рационализировано как более высокая оценка собственного здоровья, высокие
баллы разработанного показателя качества жизни, улучшившееся настроение, за-
фиксированное в результате личной беседы, или уменьшение количества морфия,
необходимого для облегчения боли.
Есть мнение, что даже измерение физических величин, таких как длина, требу-
ет операционализации, поскольку существуют разные способы измерения даже
конкретных свойств, таких как длина. (В одних случаях подходящим инструмен-
том может быть линейка, в других – микрометр.) Даже если вы согласны с этой
точкой зрения, кажется ясным, что проблема операционализации более сущест-
венна в социологии, где свойства интересующего нас объекта часто нельзя изме-
рить напрямую.

Опосредованное измерение
Понятие опосредованное измерение обозначает процесс замены одного измерения
другим. Хотя определение опосредованных измерений можно рассматривать как
разновидность операционализации, в этой книге мы рассмотрим их как отдельную
тему. Наиболее частое использование опосредованных измерений – это замена де-
шевым и простым измерением другого измерения, которое будет более сложным
или дорогостоящим, если не невозможным для проведения. Другой пример – это
сбор информации об одном человеке путем опроса другого, например вопрос ма-
тери о настроении ее ребенка.
В качестве простого примера опосредованных измерений рассмотрим некото-
рые методы, которые полицейские применяют для оценки трезвости людей на
месте. Без портативной медицинской лаборатории полицейские не могут изме-
рить уровень спирта в крови и напрямую установить, является ли водитель пья-
ным, согласно существующим юридическим нормам. Вместо этого полицейский
может использовать удобные для наблюдения признаки нетрезвости, простые
тесты, которые на месте, как принято считать, позволяют оценить концентрацию
спирта в крови, анализ выдыхаемого воздуха или все вышеперечисленное. К удоб-
ным для наблюдения признакам алкогольного опьянения относятся запах алкого-
ля, невнятная речь и покраснение кожи. При простых тестах, которые позволяют
28 Глава 1. Основные понятия, связанные с измерениями

на месте быстро оценить степень алкогольного опьянения, испытуемого обычно


просят постоять на одной ноге или следить глазами за движущимся предметом.
При помощи аппарата для получения пробы на алкоголь можно измерить кон-
центрацию спирта в выдыхаемом воздухе. Ни один из этих оценочных методов
не позволяет напрямую измерить содержание спирта в крови, но они считаются
разумными способами приблизительной оценки, которыми можно быстро и легко
воспользоваться на месте.
Для знакомства с другим распространенным случаем использования опосре-
дованных измерений рассмотрим разные методы, которые применяются в США
для оценки качества здравоохранения для больниц и отдельных врачей. Трудно
придумать прямой способ измерения качества здравоохранения, за исключением,
возможно, прямого наблюдения за процессом лечения и его оценки согласно при-
нятым стандартам (хотя тут также можно возразить, что измерения, необходимые
для подобной оценки, все равно будут операционализацией абстрактного понятия
«здравоохранение»). Применение такого метода оценки будет непозволительно
дорогим, при этом придется обучить большую команду оценщиков и полагаться
на согласованность их мнений, и это будет вмешательством в личную жизнь паци-
ентов. Решение, которое часто используется в качестве альтернативы, – изучать
события, которые считаются показателями хорошей заботы о здоровье: например,
была ли при визите к доктору правильно проведена консультация по избавлению
от табачной зависимости или были ли получены необходимые медикаменты сразу
после госпитализации.
Опосредованные измерения наиболее полезны, если в дополнение к их отно-
сительной простоте проведения они являются хорошими индикаторами той ха-
рактеристики, которая нас действительно интересует. Например, если правильное
выполнение описанных выше процедур заботы о здоровье тесто связано с хоро-
шим состоянием пациента, а плохое выполнение этих процедур или отказ от них
тесно связано с плохим состоянием пациента, то качество выполнения описанных
процедур – это полезное опосредованное измерение качества здравоохранения.
Если такой тесной связи не существует, то применимость опосредованных изме-
рений менее оправдана. Ни один математический тест не поможет понять, явля-
ется ли один параметр хорошим опосредованным измерением для другого, хотя
вычисление статистик, таких как корреляции или тесты хи-квадрат между этими
показателями, поможет прояснить этот вопрос. Кроме того, у опосредованных из-
мерений есть свои сложности. В примере с оценкой качества заботы о здоровье по
проводимым процедурам предполагается, что без знания отдельных случаев мож-
но определить, что называется правильным лечением и что доступна информация
о проведенных процедурах. Как и в случае многих вопросов, связанных с измере-
ниями, выбор хороших опосредованных измерений – субъективное решение, ос-
нованное на знании предмета исследований, традиционных для данной научной
дисциплины подходов и здравом смысле.
Истинные значения и ошибки 29

Суррогатные конечные точки


Суррогатные конечные точки – это тип опосредованных измерений, используемых в
клинических испытаниях в качестве замены реальных конечных точек. Например, опре-
деленный протокол лечения может быть разработан для предотвращения смерти (реаль-
ная конечная точка), но поскольку смерть при данном состоянии пациентов может быть
редким событием, для более быстрого накопления данных об эффективности лечения
можно использовать суррогатную конечную точку. Обычно это биологический маркер,
связанный с реальной конечной точкой. Например, если лекарство должно предотвра-
щать смерть от рака простаты, суррогатной конечной точкой может быть уменьшение
размера опухоли или снижение концентрации специфичных антител.
Проблема использования суррогатных конечных точек заключается в том, что хотя ле-
чение может быть эффективным для улучшения состояния в этих конечных точках, это
не обязательно значит, что оно приведет к успеху при достижении интересующего нас
клинического результата. Например, мета-анализ, проведенный Стефаном Мичильсом
(Stephan Michiels) с коллегами (ссылка приведена в приложении C), показал, что для
местно-распространенных плоскоклеточных карцином головы и шеи коэффициент кор-
реляции между контролем над расположением (суррогатная конечная точка) и общей
выживаемостью (реальная клиническая конечная точка) колебался от 0,65 до 0,76 (если
результаты были одинаковыми для обеих конечных точек, коэффициент корреляции был
бы равен 1,00).
Суррогатные конечные точки часто неправильно используются, будучи назначенными
постфактум, замещая результат, определенный до начала испытания или в обоих этих
случаях сразу. Поскольку суррогатной конечной точки легче достичь, это может привес-
ти к разработке нового лекарства с доказанной эффективностью, которое может слабо
влиять на реальную конечную точку или даже быть опасным. Более подробное обсужде-
ние общих вопросов, связанных с суррогатными конечными точками, приведено в статье
Томаса Р. Флеминга (Thomas R. Fleming), ссылка на которую приведена в приложении C.

Истинные значения и ошибки


Мы можем с уверенностью утверждать, что абсолютно точных измерений очень
мало (если они вообще существуют). Это правда не только потому, что измерения
производят и записывают люди, но также потому, что процесс измерений часто
подразумевает присвоение дискретных чисел непрерывным величинам. Одна из
задач теории измерений состоит в осмыслении и количественном выражении
ошибок, содержащихся в определенном наборе измерений, а также в выявлении
источников и последствий этих ошибок.
Классическая теория измерений рассматривает каждое измерение или наблю-
даемое значение как сумму двух составляющих: истинного значения (T)2 и ошиб-
ки (E)3. Это выражается в следующей формуле:
X = T + E,
где X – наблюдаемое значение измерения, T – истинное значение, а E – ошибка.
Например, весы могут показать, что чей-нибудь вес равен 120 фунтам, в то время
2
От англ. true – истинный. – Прим. пер.
3
От англ. error – ошибка. – Прим. пер.
30 Глава 1. Основные понятия, связанные с измерениями

как этот человек на самом деле весит 118 фунтов, а ошибка в два фунта происхо-
дит из-за неточности шкалы. Это можно выразить при помощи приведенной выше
формулы как
120 = 118 + 2,
что представляет собой просто математическое равенство, выражающее связь меж-
ду этими тремя величинами. Однако и T, и E – это теоретические конструкты. В
реальном мире мы редко точно знаем истинное значение и, следовательно, также
не можем знать точное значение ошибки. Процесс измерений по большей части
заключается в оценке величины и максимизации «истинной» составляющей и ми-
нимизации ошибки. Например, если вы делаете ряд измерений веса одного и того
же человека в течение короткого промежутка времени (так что его истинный вес
можно считать постоянным), используя недавно откалиброванные весы, вы може-
те использовать среднее арифметическое всех этих измерений как хорошую оценку
истинного веса этого человека. Затем вы можете трактовать различия между отде-
льным измерением и средним значением как ошибку измерений, такую как неболь-
шую неисправность весов или неточность в считывании и записи результатов.

Случайная и систематическая ошибка


Поскольку мы живем в реальном мире, а не в идеальной вселенной Платона, мы
предполагаем, что в измерениях содержится некоторая ошибка. Однако не все
ошибки имеют одинаковое происхождение, и мы можем научиться жить со слу-
чайными ошибками, но любыми способами должны избегать систематических
ошибок. Случайные ошибки невозможно предсказать: у них нет какой-либо оп-
ределенной закономерности, и считается, что они взаимоуничтожаются при пов-
торных измерениях. Например, считается, что среднее арифметическое ошибок
в серии измерений равно нулю. Так что если кто-нибудь взвесился 10 раз подряд
на одних и тех же весах, вы можете заметить небольшие различия в зарегистри-
рованных значениях: некоторые будут меньше истинного, а некоторые – больше.
Если истинное значение веса составляет 120 фунтов, возможно, первое измере-
ние будет равно 119 фунтам (включая ошибку в –1 фунт), второе – 122 фунтам
(с ошибкой в +2 фунта), третье – 118,5 фунта (ошибка в –1,5 фунта) и т. д. Если
весы точные и все ошибки случайны, то их усредненное по многим наблюдениям
значение будет равно 0, а усредненное значение измеренного веса – 120 фун-
там. Вы можете постараться уменьшить величину случайной ошибки, используя
более точные приборы, обучив ваш технический персонал правильному их ис-
пользованию и так далее, но вы не можете полностью избавиться от случайной
ошибки.
У случайной ошибки есть еще два свойства: она не связана с истинным значе-
нием, а ее величина для одного наблюдения не связана с ее величиной для другого
наблюдения. Первое свойство означает, что значение ошибки для любого измере-
ния не связано с его истинным значением. Например, если вы взвешиваете несколь-
ко человек, истинный вес которых различается, вы не будете ожидать, что ошибка
Надежность и валидность 31

для каждого наблюдения каким-либо образом связана со значениями истинного


веса этих людей. Это значит, например, что ошибка не должна быть выше при
больших истинных значениях (истинном весе людей). Второе свойство означает,
что ошибочная составляющая каждого измерения независима и не связана с оши-
бочной составляющей любого другого измерения. Например, в серии измерений
величина ошибки не должна увеличиваться со временем, так чтобы более поздние
измерения характеризовались бы большей ошибкой. Характеризуя первое требо-
вание, иногда говорят, что коэффициент корреляции между истинным значением
и ошибкой равен 0, а второе требование иногда выражается в утверждении, что
коэффициент корреляции между ошибками равен 0 (корреляция подробнее об-
суждается в главе 7).
В противоположность изложенному выше значения систематической ошибки
имеют заметную структуру, которая формируется не случайно, а часто имеет при-
чину или причины, которые можно выявить и устранить. Например, весы могут
быть неправильно калиброваны так, что они всегда показывают на 5 фунтов боль-
ше, чем есть на самом деле, так что среднее результатов многократных взвеши-
ваний человека с истинным весом 120 фунтов будет равно 125 фунтам, а не 120.
Систематические ошибки могут объясняться человеческим фактором, например
техник считывала показания весов под углом, так что она видела стрелку, указы-
вающую на большие значения, чем на самом деле. Если закономерность значе-
ний систематической ошибки обнаружена, например ее значения увеличивают-
ся со временем (так что ошибочная составляющая измерений случайна в начале
эксперимента, а затем возрастает), это полезная информация, поскольку можно
вмешаться в ход эксперимента и повторно калибровать шкалу. На выявление ис-
точников систематической ошибки и разработку методов для ее обнаружения и
удаления затрачивается много усилий: это подробнее обсуждается в одном из сле-
дующих разделов «Смещение измерений» на стр. 36.

Надежность и валидность
Существует много способов присвоения данным чисел или категорий, и не все из
этих способов одинаково полезны. Для оценки способов измерений (например,
опроса или теста) есть два параметра – надежность и валидность. В идеале нам бы
хотелось, чтобы каждый используемый нами метод был и надежным, и валидным.
В реальности эти качества не абсолютны, а всегда проявляются в некоторой сте-
пени, которая обычно зависит от обстоятельств. Например, опрос, который весьма
надежен для определенных возрастных групп, может быть ненадежен для другой
возрастной группы. Поэтому вместо обсуждения надежности и валидности как аб-
солютных величин часто полезнее оценить надежность и валидность способа из-
мерений для конкретной задачи и допустимость достигнутого уровня надежности
и валидности в определенном контексте. Надежность и валидность также обсуж-
даются в главе 18 в контексте планирования исследования и главе 16 в контексте
образовательного и психологического тестирования.
32 Глава 1. Основные понятия, связанные с измерениями

Надежность
Надежность характеризует согласованность или воспроизводимость наблюде-
ний. Например, если мы даем одному и тому же человеку один тест дважды, бу-
дут ли результаты сходными? Если мы научили трех людей пользоваться шка-
лой качества социальных взаимодействий, затем показали каждому из них одну
и ту же видеосъемку взаимоотношений в группе людей и попросили оценить
наблюдаемые социальные взаимодействия, будет ли результат одинаков? Если
у нас есть технический работник, который взвесил одну и ту же деталь 10 раз на
одних и тех же весах, будут ли результаты одинаковыми? В каждом случае, если
ответ будет положительным, мы можем сказать, что тест, шкала или работник
надежны.
Многое в теории надежности было разработано исследователями педагогичес-
кой психологии, и поэтому показатели надежности часто описываются в терминах
надежности тестов. Однако вопросы надежности не ограничиваются тестирова-
нием в педагогике; те же самые концепции применимы ко многим другим типам
измерений, включая исследования общественного мнения и поведения.
Обсуждение в этой главе будет проведено на базовом уровне. Вычисление спе-
циализированных показателей надежности обсуждается более детально в главе 16
в контексте теории тестирования. Многие показатели надежности основаны на ко-
эффициенте корреляции (также просто называемом корреляцией), так что начина-
ющие статистики могут захотеть сосредоточиться на общей логике надежности и
адекватности и отложить обсуждение подробностей их оценки до ознакомления с
коэффициентом корреляции.
Существуют три основных подхода к измерению надежности, каждый из кото-
рых полезен в своей ситуации и имеет свои достоинства и недостатки:
• надежность множественных событий;
• надежность множественных вариантов;
• надежность внутренней непротиворечивости.
Надежность множественных событий, иногда называемая надежностью пов-
торного тестирования, характеризуется тем, насколько сходные результаты по-
лучаются при повторном использовании теста или шкалы. Из-за этого ее еще
называют показателем временной стабильности, имея в виду стабильность на про-
тяжении определенного промежутка времени. Например, один и тот же человек
может дважды с интервалом в две недели характеризовать психическое состояние
пациента, основываясь на видеозаписи интервью, а затем сравнить результаты.
Для того чтобы этот тип оценки надежности имел смысл, необходимо, чтобы изме-
ряемая характеристика оставалась постоянной, поэтому здесь и идет речь о видео-
записях интервью, а не о двух интервью с пациентом, психологическое состояние
которого может измениться за две недели. Надежность множественных событий
не может быть оценена для непостоянных характеристик, таких как настроение,
или таких характеристик, которые могут измениться в промежуток между наблю-
дениями (например, то, как студентка владеет предметом, который она интенсив-
но изучает). Распространенный метод оценки надежности множественных собы-
Надежность и валидность 33

тий заключается в вычислении коэффициента корреляции между результатами


каждого теста; это называется коэффициентом стабильности.
Надежность множественных вариантов (также называемая надежностью па-
раллельных форм) характеризует, насколько сходные результаты дают разные
версии тестов или опросников при оценке одной и той же величины. Распростра-
ненный метод оценки надежности множественных вариантов – это расщепление
выборки на две половины, при котором создается набор объектов, который счита-
ется гомогенным, затем половина объектов выполняет вариант A, а другая поло-
вина – вариант B. Если два (или более) варианта теста предъявляются одним и
тем же людям в одинаковых условиях, то корреляция между результатами для
каждого варианта теста – это показатель надежности множественных вариантов.
Эта корреляция иногда называется коэффициентом эквивалентности. Надеж-
ность множественных вариантов особенно важна для стандартизированных тес-
тов, которые имеют много версий. Например, разные версии отборочного теста
(SAT, используемого для оценки способностей к тому или иному разделу наук
у абитуриентов американских колледжей и университетов) калиброваны таким
образом, что полученные результаты равнозначны вне зависимости от варианта
теста, который достался данному абитуриенту.
Надежность внутренней непротиворечивости характеризует, насколько хо-
рошо вопросы, которые составляют инструмент исследования (например, тест
или анкетирование), отражают одно и то же свойство объекта. Иначе говоря, по-
казатели внутренней непротиворечивости отражают то, насколько согласованно
составляющие одного исследовательского инструмента измеряют одно и то же.
В отличие от надежности множественных событий или вариантов, внутреннюю
непротиворечивость можно оценить, используя один метод или одно наблюдение.
Надежность внутренней непротиворечивости сложнее оценить, чем надежность
множественных событий или вариантов, для этого были разработаны несколько
методов; они подробно обсуждаются в главе 16. Хотя уже здесь можно отметить,
что все эти методы основаны в основном на корреляции между всеми парами со-
стояний шкалы или вопросов теста. Если такая корреляция высока, то это интер-
претируется как свидетельство того, что все вопросы направлены на исследование
одной и той же величины, и различные статистики, используемые для измерения
надежности внутренней непротиворечивости, будут высокими. Если корреляция
между ответами на разные вопросы будет низкой или непостоянной, статистики
надежности внутренней непротиворечивости будут меньше, и это интерпретиру-
ется как свидетельство того, что вопросы оценивают разные вещи.
Для тестов, составленных из ряда вопросов на одну тему или имеющих сходную
сложность, которые будут учитываться совместно, наиболее полезны два простых
показателя внутренней непротиворечивости: средний коэффициент корреляции
между вопросами и средний коэффициент корреляции по всем вопросам. Для вы-
числения среднего коэффициента корреляции между вопросами вы вычисляете
корреляцию между результатами для каждой пары вопросов и усредняете полу-
ченные значения. Для вычисления среднего коэффициента корреляции по всем
вопросам вы суммируете результаты по всем вопросам и затем высчитываете кор-
34 Глава 1. Основные понятия, связанные с измерениями

реляцию результатов по каждому вопросу с этой суммой. Средняя корреляция по


всем вопросам – это усредненные корреляции суммарного значения с результатом
по каждому вопросу.
Описанная выше устойчивость результатов при расщеплении выборки на две
половины, – это еще один способ оценки внутренней непротиворечивости. Не-
достаток этого метода состоит в том, что если вопросы не гомогенны по-настоя-
щему, разные варианты расщепления будет порождать варианты несопоставимой
сложности, и коэффициент надежности для каждой пары таких вариантов будет
различаться. Метод, который позволяет преодолеть эту сложность, называется
альфой Кронбаха (Cronbach’s alpha), или коэффициентом альфа. Он равнозначен
усредненному значению для всех возможных расщеплений выборки на две поло-
вины. Более подробная информация об альфе Кронбаха, включая пример ее рас-
чета, изложена в главе 16.

Валидность
Валидность характеризует, насколько хорошо тест или балльная шкала измеряют
то, что планировалось измерить. Некоторые исследователи описывают валида-
цию как процесс сбора свидетельств в пользу выводов, которые предполагается
сделать на основе обсуждаемых измерений. Ученые расходятся во мнениях отно-
сительно классификации типов валидности, и научный консенсус изменяется со
временем, поскольку разные типы валидации объединялись под общим названием
в один год и разделялись в другой. Чтобы не усложнять все, в этой книге мы будем
придерживаться традиционной классификации валидности, включающей четыре
категории: содержательная валидность, конструктивная валидность, совокупная
валидность и предсказательная валидность. Также мы обсудим очевидную валид-
ность, которая тесно связана с содержательной валидностью. Эти типы валиднос-
ти обсуждаются далее в главе 18 в контексте планирования исследования.
Содержательная валидность характеризует, насколько хорошо измерения ха-
рактеризуют ключевое содержание объекта исследований. Этот показатель осо-
бенно важен, если цель состоит в распространении результатов измерений на
более обширную совокупность объектов. Например, кандидатов на должность
программиста могут попросить выполнить проверочное задание, в котором тре-
буется написать или интерпретировать программу на языках, с которыми соис-
катели должны будут работать. Из-за ограничений по времени подобный экзамен
проверяет только часть тех умений и знаний соискателей, которые могут на самом
деле им пригодиться при профессиональном программировании. Однако если
подмножество знаний и умений выбрано удачно, результат подобного экзамена
может быть хорошим показателем способности человека ко всем важным навыкам
программирования, которые понадобятся ему в этой должности. Если это так, то
мы можем сказать, что экзамен содержательно валиден.
Понятие очевидной валидности тесто связано с содержательной валидностью.
Характеристика с высокой очевидной валидностью воспринимается (представи-
телями общественности или тем, кого предполагается оценивать при помощи этой
Надежность и валидность 35

характеристики) как честная оценка изучаемых качеств. Например, если тест по


геометрии за курс средней школы воспринимается родителями выполняющих
его учеников как справедливый тест для проверки знаний по геометрии, этот тест
имеет хорошую очевидную валидность. Очевидная валидность важна для форми-
рования доверия; если вы утверждаете, что вы оцениваете знания по геометрии,
но родители учеников с вами не согласны, то они могут быть склонны игнориро-
вать ваши суждения об уровне подготовки их детей по предмету. Кроме того, если
ученики воспринимают тест по геометрии как что-то совершенно иное, они могут
не быть мотивированы к сотрудничеству и старанию, так что их ответы могут не
отражать адекватно их способности.
Совокупная валидность отражает, насколько хорошо выводы, сделанные на ос-
новании измерений, могут использоваться для предсказания другого поведения
или явления, которое измеряется примерно в то же время. Например, если ре-
зультаты теста качества работы учащегося сильно связаны с его успеваемостью в
это время или с результатами сходных тестов, этот тест характеризуется высокой
совокупной валидностью. Предсказательная валидность – это сходное понятие,
однако тут рассматривается способность делать предсказания касательно некото-
рого события в будущем. Продолжая предыдущий пример, если результаты теста
качества работы сильно связаны со школьной успеваемостью в следующем году
или с должностью, полученной в будущем, этот тест имеет высокую предсказа-
тельную валидность.

Триангуляция
Поскольку каждая система измерений имеет свои недостатки, исследователи час-
то используют несколько подходов к измерению одной и той же величины. На-
пример, в американских университетах часто используется множество источников
информации для оценки способности к обучению школьников старших классов и
вероятности того, что они будут хорошо успевать в университете. К используемым
в этих целях показателям относятся баллы, полученные на стандартизированных
экзаменах, таких как SAT, высокие школьные оценки, личная мотивация или эссе и
рекомендации учителей. Аналогичным образом решение о приеме на работу в ком-
панию часто основано на нескольких источниках информации, включая опыт ра-
боты соискателя, его образование, произведенное им впечатление в ходе интервью
и, возможно, образец результатов его работы и один или более тестов на знания и
личностные качества.
Процесс объединения информации из многих источников для получения ис-
тинных или по меньшей мере более точных значений называется триангуляцией,
по смелой аналогии с геометрической операцией установления положения точки
по ее отношению к двум другим точкам с известным положением. Ключевая идея,
лежащая в основе триангуляции, заключается в том, что хотя единичное изме-
рение некоторого параметра может содержать слишком большую ошибку (или
известного, или неизвестного типа), чтобы быть надежным или валидным само
по себе, объединяя информацию по нескольким типам исследований, по крайней
36 Глава 1. Основные понятия, связанные с измерениями

мере некоторые характеристики которых известны, мы можем добиться прием-


лемого измерения неизвестной величины. Мы ожидаем, что каждое измерение
имеет свою ошибку, но мы надеемся, что эти ошибки не относятся к одному типу,
так что при помощи нескольких типов измерений мы можем получить разумную
оценку интересующего нас количества или свойства.
Разработка метода триангуляции – непростое дело. Одна исторически важ-
ная попытка этого – матрица со многими параметрами и методами (multitrait,
multimethod matrix, MTMM), разработанная Кэмпбеллом и Фиске (Campbell,
Fiske, 1959). Их основная идея состояла в отделении той составляющей измерения,
которая относится к интересующему нас признаку, от той составляющей, которая
характеризует используемый метод измерений. Хотя эта методология меньше ис-
пользуется в наши дни и ее описание выходит за рамки пособия для начинающих,
упомянутая концепция остается полезной как пример одного из способа размыш-
лений об ошибке измерений и валидности.
MTMM – это корреляционная матрица для измерений нескольких параметров,
каждый из которых был оценен при помощи нескольких методов. В идеале для
каждого признака должен был быть использован один и тот же набор методов. Мы
ожидаем, что в этой матрице разные измерения одного и того же признака будут
тесно связаны; например, показатели интеллекта, полученные при помощи не-
скольких методов, таких как тест, выполненный при помощи карандаша и бумаги,
решение практических задач и структурированное интервью, должны быть тесно
связаны между собой. По той же логике, показатели, характеризующие разные па-
раметры, которые измеряются одним и тем же способом, не должны быть тесно
связаны; например, показатели интеллекта, поведения и коммуникабельности, из-
меренные при помощи бумажной анкеты, не должны существенно коррелировать
между собой.

Смещение измерений
Выявление смещения измерений (measurement bias) важно почти в любой науч-
ной области, но особенно актуально для социологии. К настоящему времени об-
наружено и описано много частных случаев смещения измерений. Мы не будем
перечислять их все, но обсудим несколько наиболее распространенных. Многие
руководства по планированию исследований очень подробно рассматривают сме-
щение измерений и могут быть использованы как дальнейший источник инфор-
мации по этой теме. Ключевая идея заключается в том, что исследователь всегда
должен помнить о возможности смещения измерений, поскольку неспособность
обнаружить смещение и разрешить связанные с ним проблемы может свести на
нет результаты потенциально уникального исследования.
Смещение измерений может произойти на двух основных этапах: во время от-
бора объектов для исследования или во время сбора информации об этих объек-
тах. В любом случае ключевой признак смещения – то, что его источником служит
скорее систематическая, а не случайная ошибка. В результате смещения анали-
Смещение измерений 37

зируемые данные закономерным образом отличаются от истинного значения, что


может привести к неправильным заключениям, несмотря на применение кор-
ректных статистических методов. В следующих двух подразделах обсуждаются
некоторые из наиболее распространенных типов смещения, объединенные в две
крупные категории: смещение при создании выборки и смещение при сборе и ре-
гистрации информации.

Смещение при создании выборки


Многие исследования производятся на выборках объектов из генеральной сово-
купности, будь то больные лейкемией или произведенные на фабрике приборы,
поскольку изучить всю генеральную совокупность было бы недопустимо дорого,
если вообще возможно. Выборка должна хорошо характеризовать генеральную
совокупность (на которую результаты должны распространиться), чтобы иссле-
дователь мог спокойно использовать полученные для выборки результаты для
характеристики всей генеральной совокупности. Если выборка смещена (это озна-
чает, что она нерепрезентативна), выводы, сделанные на основе такой выборки,
могут быть неприменимыми ко всей генеральной совокупности.
Смещение выбора происходит, если некоторые объекты имеют больше шансов
быть включенными в выборку. Этот термин обычно относится к смещению, кото-
рое происходит в процессе составления выборки. Например, телефонные опросы с
использованием номеров из опубликованных справочников по определению уда-
ляют из числа потенциальных респондентов людей с неопубликованными номе-
рами или тех, кто сменил телефонный номер после выхода справочника из печати.
Звонки по случайным номерам решат эту проблему, но по-прежнему не позволят
опросить людей, у которых дома нет телефона. Это затрудняет исследование, по-
скольку если исключенные из исследования люди систематически выделяются
по исследуемым свойствам (а это очень распространенная ситуация), результаты
исследования будут смещенными. Например, люди, которые живут в домах без
телефона, обычно беднее тех, у кого телефон есть, а люди, у которых есть толь-
ко мобильный телефон, обычно моложе тех, у кого есть еще и домашний. Если
уровень доходов или возраст связаны с изучаемой характеристикой, исключение
таких людей из выборки приведет к смещению результатов исследования.
Смещение из-за волонтеров отражает тот факт, что люди, добровольно вызываю-
щиеся участвовать в исследованиях, обычно не типичны для генеральной сово-
купности. По этой причине результаты, полученные на выборках, полностью со-
ставленных из добровольцев, такие как мнения зрителей, позвонивших в студию
телевизионной передачи, не подходят для решения научных задач (если только
генеральная совокупность не представлена людьми, желающими участвовать в
подобных опросах). В этом примере могут проявиться множественные механиз-
мы неслучайного отбора. Например, чтобы участвовать в опросе, человек должен
смотреть эту телевизионную программу. Это значит, что, скорее всего, этот человек
находится дома; значит, результаты опросов, проводимых в течение рабочего дня,
могут в основном иметь отношение к пенсионерам, домохозяйкам и безработным.
38 Глава 1. Основные понятия, связанные с измерениями

Для участия в опросе человек должен иметь свободный доступ к телефону и обла-
дать определенными личностными характеристиками, которые приведут к тому,
что он снимет телефонную трубку и наберет номер с экрана. Проблемы, связанные
с телефонными вопросами, уже обсуждались, и вероятность того, что личностные
характеристики связаны с изучаемыми параметрами, слишком велика, чтобы ее
игнорировать.
Смещение из-за отсутствия ответа – это обратная сторона смещения из-за
волонтеров. Так же как люди, которые добровольно хотят принять участие в ис-
следовании, отличаются от остальных, люди, которые отказываются участвовать
в исследовании, когда им предлагают это, скорее всего, отличаются от тех, кто в
этом случае принимает приглашение. Вы, возможно, знакомы с людьми, которые
отказываются участвовать в любых телефонных опросах (я сама такая). Представ-
ляют ли такие люди случайную выборку из генеральной совокупности? Вероятно,
нет; например, объединенное исследование состояния здоровья в Канаде и США
выявило не только различия в частоте ответов канадцев и американцев, но обна-
ружило смещение из-за отсутствия ответа почти для всех основных показателей
состояния здоровья и доступности здравоохранения (результаты обобщены здесь:
http://bit.ly/TfJ6um).
Информационное цензурирование может приводить к смещению результатов
любого повторного обследования (при котором состояние объектов отмечается на
протяжении временного отрезка). Утрата объектов в ходе долгосрочного исследова-
ния – обычная вещь, но настоящие проблемы начинаются, когда объекты выпадают
не случайно, а по причинам, связанным с предметом исследования. Предположим,
мы проводим клиническое исследование двух способов лечения хронического за-
болевания. При этом пациенты случайным образом распределяются по группам,
и статус их заболевания отслеживается в течение пяти лет. Благодаря случайно-
му созданию выборки наши группы полностью равнозначны. Однако со временем
люди из группы с неэффективным способом лечения будут выходить из исследо-
вания, возможно, чтобы получить лечение в другом месте, что будет приводить
к смещению результатов. Если на последнем этапе наша выборка будет состоять
только из тех, кто участвовал в эксперименте до его окончания, и выбывшие из ис-
следования не будут представлять собой случайную выборку из его изначальных
участников, анализируемая выборка уже не будет такой абсолютно случайной, как
та, с которой мы начали. Напротив, если выбывание из эксперимента связано с
неэффективностью лечения, набор испытуемых на последнем этапе будет смещен
в сторону людей, положительно реагировавших на проводимое лечение.

Информационное смещение
Даже при создании и сохранении идеальной выборки смещение результатов мо-
жет произойти из-за методов сбора и записи данных. Этот тип смещения часто
называется информационным, поскольку он влияет на валидность информации,
на которой основано исследование, что, в свою очередь, может сделать недействи-
тельными результаты исследования.
Смещение измерений 39

Когда данные собираются при личных или телефонных интервью, между ин-
тервьюером и респондентом возникает социальная связь. Характер этой связи мо-
жет по-разному влиять на качество собранных данных. Если смещение вносится
в собранные данные из-за позиции или поведения интервьюера, это называется
смещением результатов из-за интервьюера. Этот тип смещения может быть со-
здан непреднамеренно, если интервьюер знает цель исследования или статус рес-
пондента. Подобный тип смещения результатов может также иметь место, если
интервьюер выражает свое собственное отношение или мнение, давая понять, что
он отрицательно относится к исследуемому типу поведения, такому как беспо-
рядочные сексуальные связи или употребление наркотиков, что снижает вероят-
ность признания респондента в проявлении подобного поведения.
Смещение воспоминаний вызвано тем, что люди, перенесшие тяжелое заболе-
вание или травму, с большей вероятностью запоминают события, которые они
считают связанными с этим отрицательным жизненным опытом. Например, жен-
щины, у которых случался выкидыш, скорее всего, провели много времени, пере-
бирая воспоминания о воздействиях или событиях, которые, с их точки зрения,
могли привести к выкидышу. Женщины, у которых роды протекали нормально,
могли испытывать сходные воздействия, но они не придавали им такого значения
и, следовательно, не вспомнили бы о них при опросе.
Смещением выявления называют тот факт, что определенные характеристики
могут быть с большей вероятностью обнаружены или озвучены у одних людей
по сравнению с другими. Допустим, спортсмены в некоторых видах спорта под-
вергаются периодическому тестированию на употребление стимулирующих фи-
зическое развитие препаратов, и результаты этих тестов доносятся до сведения
общественности. Например, пловцы мирового класса периодически проходят тест
на употребление анаболических стероидов, и положительные результаты тестов
официально регистрируются и также часто попадают в новостные сводки. Спорт-
смены, которые участвуют в соревнованиях более низкого уровня или в других
видах спорта, могут использовать те же препараты, но поскольку они не проходят
тестов с такой регулярностью или из-за того, что результаты тестов не доносятся
до сведения широкой общественности, случаи употребления препаратов не регист-
рируются. Было бы неправильно предполагать, например, что поскольку случаи
употребления анаболических стероидов чаще регистрируются у пловцов, чем у
бейсболистов, реальная частота употребления стероидов выше в плавании, чем в
бейсболе. Наблюдаемые различия могут быть вызваны более активным тестиро-
ванием комитетом по плаванию и большей открытостью этих результатов.
Смещение социальной желательности вызвано стремлением людей представить
себя в выгодном свете. Это часто побуждает людей давать такие ответы, которые,
по их представлению, понравятся спрашивающему. Учтите, что этот тип смещения
может наблюдаться даже в отсутствие корреспондента, например при заполнении
бумажной анкеты. Этот тип смещения представляет особенно серьезную пробле-
му в исследованиях, связанных с поведением или позицией, которые осуждаются
в обществе, например преступное поведение, или о которых неудобно говорить,
40 Глава 1. Основные понятия, связанные с измерениями

например половая распущенность. Смещение социальной желательности также


может влиять на ответы, если формулировка вопросов указывает на «правиль-
ный», то есть социально желательный ответ.

Упражнения
Здесь размещен обзор тем, затронутых в этой главе.

Задача
Каких возможных типов смещения результатов вам нужно остерегаться при
следующих сценариях, и каково будет вероятное влияние на результаты?
1. По данным университета, средний годовой заработок выпускников со-
ставляет $120 000. Эти данные были получены в ходе опроса жертвовате-
лей в фонд выпускников.
2. Реализация программы, направленной на улучшение учебных достиже-
ний в средней школе, считается успешной, поскольку все 40 учеников,
участвовавших в ней до конца в течение года (из 100, изначально задейст-
вованных в программе), продемонстрировали статистически значимое
улучшение оценок и результатов стандартных тестов на успехи в учебе.
3. Руководитель заботится о здоровье своих подчиненных, поэтому во вре-
мя обеденного перерыва он организовал цикл лекций на такие темы, как
здоровое питание, важность физических упражнений и разрушительное
влияние на здоровье курения и алкоголя. Он провел анонимный опрос
сотрудников (при помощи бумажной анкеты) до и после цикла лекций
и обнаружил, что лекции были эффективными, и привели к увеличению
частоты составляющих здорового образа жизни.
Решение
1. Смещение выбора и смещение из-за отсутствия ответов, – оба влияют на
характеристику анализируемой выборки. Заявленная величина среднего
заработка, скорее всего, завышена, поскольку в фонд выпускников жерт-
вовали, вероятно, самые успешные из них, а люди, которые стеснялись
своего низкого заработка, отвечали с меньшей вероятностью. Можно еще
предположить смещение социальной желательности, которое также при-
ведет к завышению значений годового заработка, поскольку выпускники,
вероятно, имели тенденцию заявлять о более высоком заработке, чем они
в реальности получали, поскольку желательно иметь высокий уровень до-
ходов.
2. На свойства анализируемой выборки повлияет информационное цензури-
рование. Оценка эффективности программы для учеников средней шко-
лы, вероятно, завышена. Эта программа определенно была полезной для
тех, кто закончил ее, но поскольку более половины участников выбыли по
ходу, мы не можем сказать, будет ли она полезной для среднего ученика.
Может оказаться так, что ученики, участвовавшие в программе до конца,
Упражнения 41

были более умными или мотивированными, чем выбывшие, или же для


выбывших программа не была полезна.
3. Имеет место смещение результатов из-за социальной желательности. Это,
вероятно, приведет к переоценке эффективности цикла лекций. Посколь-
ку начальник ясно заявил, что он заботится о здоровом образе жизни под-
чиненных, они, скорее всего, будут докладывать о более значительном
оздоровлении образа жизни, чем есть на самом деле, чтобы угодить боссу.

Шкала Лайкерта
Шкала Лайкерта – наверное, наиболее часто используемая в социологии шкала оце-
нок. Этот тип шкалы был впервые описан в 1932 году Ренсисом Лайкертом (Rensis
Likert, 1903–1981), индустриальным психологом, занимавшим должность директора
социологического института при Мичиганском университете с 1946 по 1970 г. Вопросы
с использованием шкалы Лайкерта, как правило, представлены в виде утверждения, и
испытуемым предлагается выбрать свое отношение к нему из упорядоченного нечетно-
го числа вариантов (наиболее часто пяти, но иногда семи или девяти). Ниже приведен
пример.
В США следует ввести национальную систему страхования здоровья.
1. Абсолютно согласен.
2. Согласен.
3. Нет определенного ответа.
4. Не согласен.
5. Абсолютно не согласен.
Иногда предлагают четное число ответов, так что нейтральный вариант посередине от-
сутствует: это называется методом вынужденного выбора, поскольку респондента вы-
нуждают выбрать, согласен он с данным утверждением или нет. Обычно порядок ответов
меняется один или более раз на протяжении всего опросника так, что иногда 1 значит
«абсолютно согласен», а иногда «абсолютно не согласен», чтобы выявить тех, кто авто-
матически выбирает первый или последний ответ, не читая вопроса.
Данные, собранные при помощи шкалы Лайкерта, являются порядковыми, поскольку
хотя варианты ответа упорядочены, нет никакого основания полагать, что различия меж-
ду ними равны. Например, у нас нет способа узнать, равно ли различие между позиция-
ми «абсолютно согласен» и «согласен» различию между вариантами «согласен» и «нет
определенного ответа».

Дьюи побеждает Трумана


Несколько раз выборы президента США сопровождались ошибочными прогнозами ре-
зультатов, основанными на смещенных выборках. Всегда забавно видеть, как ошибается
уважаемое издание или организация, однако эти случаи предостерегают нас от исполь-
зования результатов, полученных на смещенной выборке, для характеристики генераль-
ной совокупности.
В 1936 году журнал «Литературное обозрение» (Literary digest), в котором были угаданы
результаты выборов президента США 1916, 1920, 1928 и 1932 годов, предсказал, что
республиканец Элф Лэндон (Alf Landon) одержит полную победу над демократом Фран-
клином Рузвельтом (Franklin Roosevelt). Однако мы знаем, что Рузвельт выиграл выборы
1936 года с большим отрывом. Проблема журнального прогноза заключалась в том, что
хотя она была основана на большой выборке (более 2,3 млн респондентов из 10 млн
получивших приглашение принять участие в опросе), эта выборка была смещенной, по-
42 Глава 1. Основные понятия, связанные с измерениями

скольку состояла из тех, кто имел автомобиль или телефон или был подписан на «Лите-
ратурное обозрение». В 1936 году доходы этих людей превышали средний уровень, и
они с большей вероятностью были республиканцами. Поскольку для участия в опросе
необходимо было отослать назад почтовую карточку, полученные результаты были сме-
щены из-за добровольного участия.
В 1948 году каждый серьезный опрос предрекал победу республиканца Томаса Дьюи
над демократом Гарри С. Труманом. Чикаго Трибюн (Chicago Tribune) даже вышла с за-
головком на первой странице «Дьюи побеждает Трумана». Хотя технологии опроса стали
более совершенными, по сравнению с 1936 годом, несколько источников смещения ре-
зультатов опросов были по-прежнему не устранены, что привело к неточным прогнозам.
Одна проблема состояла в том, что результаты телефонных опросов были использованы
без статистической поправки на то, что телефон чаще имели богатеи, склонные поддер-
жать Дьюи. Другой фактор – множество не определившихся со своими предпочтения-
ми людей в дни перед выборами, и ни один из опросов не мог определить, за кого эти
люди в конечном счете будут голосовать. Третья проблема заключалась в том, что Дьюи
пользовался большей поддержкой в восточных штатах, по сравнению с западными.
Из-за различий в часовых поясах результаты для восточных штатов стали известны рань-
ше, и в «Трибюн» решили напечатать прогноз результата, основанный на этих первых
данных. Чего не учли в газете, так это поддержку Трумана западными штатами, включая
Калифорнию, и это добавило достаточно голосов для победы на выборах.
ГЛАВА 2.
Теория вероятности

Статистика основана на теории вероятности. Некоторые считают вероятность пу-


гающей темой, но нет никакой причины для того, чтобы, затратив достаточно вре-
мени, не разобраться в ней насколько нужно для успешного освоения статистики.
Как и в случае многих других областей науки, «продвинутые» аспекты теории ве-
роятности могут быть очень сложными и трудными для понимания, но основные
принципы вероятности интуитивно понятны и просты для освоения. Более того,
многие люди уже знакомы с вероятностными утверждениями, начиная с прогно-
за погоды, который обещает дождь этим вечером с вероятностью 30%, заканчивая
предупреждением на сигаретных пачках об увеличении вероятности развития рака
легких при курении.
Если, как у большинства взрослых людей, у вас есть один или несколько стра-
ховых полисов, вы уже вовлечены в инициативу, основанную на вероятностном
мышлении. Если вы водите машину или обладаете ею, у вас, скорее всего, есть
полис страхования автомобиля, который на самом деле следовало бы называть
полисом страхования расходов на автомобиль, поскольку он защищает владельца
полиса от чрезмерных расходов, которые потребовались бы при попадании в ава-
рию. Люди не покупают страховые полисы из-за того, что они собираются во что-
нибудь врезаться; скорее, они признают, что вероятность такого происшествия в
будущем не равна нулю.
Правительство часто требует от автовладельцев иметь полисы из этих же со-
ображений; это требование – не признание вас плохим водителем, а констатация
того факта, что аварии действительно происходят, и мало кто будет в состоянии из
собственного кармана компенсировать убытки в случае серьезной аварии. В стра-
ховых компаниях работают статистики, которые высчитывают, сколько вы долж-
ны заплатить за полис, учитывая (в числе прочего) вероятность того, что вы попа-
дете в аварию или на вас подадут иск по любой другой причине, и убыток, который
такой иск принесет компании.
Для понимания основ теории вероятности, изложенных в этой главе, вам не
потребуется больше математических знаний, чем обычно дают в средней школе, а
понимание этих концепций послужит основой для освоения статистических ме-
тодов, изложенных в последующих главах. Знакомство с содержанием этой гла-
вы также даст вам возможность понять суть значительной части статистических
44 Глава 2. Теория вероятности

методов, с которыми вы имеете шансы когда-либо иметь дело, до тех пор, пока
вы не начнете выполнять «продвинутые» операции или не решите применять ста-
тистику в вашей области исследований. Кроме того, вы научитесь понимать ве-
роятностные суждения, которые используются в повседневной речи, и оценивать
правильность их использования.

О формулах
Люди, у которых были плохие оценки на уроках математики, часто не любят фор-
мулы, полагая, что это тайная система общения, созданная математиками в ка-
честве барьера, который позволяет удерживать непосвященных на расстоянии,
оставляя себе все выгодные вакансии. Хотя я никогда не буду утверждать, что
математика и статистика – это простые предметы, представление о формулах как
о барьере для понимания ложно. На самом деле формулы – это сжатый и недву-
смысленный способ передачи важной информации, их можно воспринимать как
набор инструкций, написанных на языке математики. Как говаривал один мой
профессор вычислительной математики: «Посмотри на формулу, затем делай то,
что тебе она скажет».
Преимущество математических формул заключается в том, что они не зависят
от языка, так что о математике могут разговаривать все люди, вне зависимости
от их родного языка или национальности. Не имеет значения, в какой языковой
среде вы выросли, английской, русской или фарси, если вы понимаете язык ма-
тематики, вы можете общаться со своими коллегами на математические темы в
некоторой степени независимо от языковых барьеров.
Рассмотрим пример формулы для вычисления среднего арифметического,
называемой в обычном языке усреднением набора чисел, представленной на
рис. 2.1.

Рис. 2.1. Формула для вычисления среднего значения


Это может выглядеть для вас как греческий (на самом деле это частично так и
есть!), но на самом деле это просто набор указаний по выполнению определенных
вычислений. Давайте рассмотрим ее по частям:
• x – это параметр, для значений которого мы рассчитываем среднее;
• символ x (читается как «x с чертой») обозначает среднее значение x, кото-
рое мы и вычисляем;
• символ xi (читается как «x i-е») обозначает отдельное значение x;
• n обозначает число значений x, используемых для вычисления среднего;
• символ суммы ∑ обозначает сложение ряда значений, в данном случае всех
значений x. Обозначения сверху и снизу символа суммы означают сложе-
ние всех значений x, от первого (x1) до последнего (xn).
Основные определения 45

Эта формула «велит» вам вычислить среднее арифметическое, сложив все зна-
чения переменной x, затем разделив их на число наблюдений, которые вы только
что просуммировали. Учтите, что умножение на 1/n – это то же самое, что деление
на n.
Представим, что мы хотим вычислить среднее для трех чисел: 1, 3 и 5. Следуя
принятым обозначениям, мы назовем их x1, x2 и x3. В этом примере n = 3, посколь-
ку у нас есть три числа, так что, согласно формуле, мы складываем все числа от x1
до x3 и умножаем на 1/3, как показано на рис. 2.2.

Рис. 2.2. Вычисление среднего значения для трех чисел


Продолжая изучение статистики, вы познакомитесь с более сложными форму-
лами, однако алгоритм их использования останется прежним:
1. Поймите, что значит каждый символ и какие математические операции
требуются.
2. Выявите значения, которые заменят каждый символ.
3. Подставьте значения в формулу, выполните указанные операции – и вы по-
лучите нужный результат.

Основные определения
Здесь приведены некоторые ключевые определения, которые нужно знать при об-
суждении теории вероятности.

Испытания
Вероятность связана с результатом испытаний, которые также называются экспе-
риментами или наблюдениями. Какой бы термин не был использован, главное –
это то, что речь идет про события, исход которых неизвестен. Если бы результат
испытаний был бы в итоге известен, не было бы нужды обсуждать вероятность.
Испытание может быть простым, таким как подбрасывание монетки или вытяги-
вание карты из колоды, или таким сложным, как наблюдение за тем, останется ли
человек с раком легких в живых через пять лет после постановки диагноза. Мы
будем называть испытанием единичное наблюдение, такое как одно подбрасыва-
ние монетки, а экспериментом – множественные испытания, такие как результат
подбрасывания одной монетки пять раз.

Выборочное пространство
Выборочное пространство, обозначаемое как S, – это набор всех возможных эле-
ментарных исходов испытания. Если испытание – это однократное подбрасыва-
ние монетки, то выборочное пространство – это S = {орлы, решки} (часто сокра-
щенно записывается как S = {о, р}), поскольку эти две альтернативы представляют
46 Глава 2. Теория вероятности

все возможные исходы данного испытания. Бросок может завершиться либо вы-
падением орла (о), либо выпадением решки (р). Если эксперимент заключался бы
в бросании одной игральной кости с шестью гранями, выборочное пространство
было бы S = {1, 2, 3, 4, 5, 6}, что соответствует шести граням кости, которые могут
выпасть при одном броске. Эти элементарные исходы также называют элемен-
тами выборки. Если эксперимент состоит из множества испытаний, то все воз-
можные комбинации исходов этих испытаний входят в выборочное пространство.
Например, если испытание состоит в двукратном подбрасывании монетки, то вы-
борочное пространство таково: S = {(о, о), (о, р), (р, о), (р, р)}, поскольку исходы
могут быть следующими: орлы при обоих бросках, орел в первом броске и решка
во втором, сначала решка, потом орел или решки при обоих бросках.

События
Событие, обычно обозначаемое как E или любой заглавной буквой, отличной
от S, – это частный случай исхода испытания, оно может состоять из единствен-
ного исхода или набора исходов. Если такой исход или набор исходов имеет мес-
то, мы говорим, что «исход удовлетворяет событию» или «событие произошло».
Например, событие «выпадение орла при одном подбрасывании монетки» может
быть записано как E = {орел}, а событие «выпадение нечетного числа при брос-
ке одной игральной кости» можно записать как E = {1, 3, 5}. Элементарное собы-
тие – это исход одного эксперимента или наблюдения, такого как однократное
подбрасывание монетки. Элементарные события могут объединяться в сложные,
как в приведенных ниже примерах объединения и пересечения. События можно
описывать, перечисляя исходы или определяя их логически. Например, если ис-
пытание – это бросок двух игральных костей и нас интересует, как часто сумма
выпадающих чисел бывает меньше шести, мы можем обозначить это как E = {2,
3, 4, 5} или E = {сумма меньше шести}.
Обычный способ изображения вероятности событий и комбинаций событий –
это диаграммы Венна, в которых прямоугольник соответствует выборочному про-
странству, а круги изображают определенные события. Диаграммы Венна исполь-
зуются на рис. 2.3–2.6.

Диаграммы Венна
Любой, кто вырос при новой концепции преподавания математики, возможно, помнит
диаграммы Венна из учебника математики в начальной школе. Хотя желание познако-
мить учеников начальной школы с теорией множеств может вызывать споры, в этом
точно нет вины английского математика Джона Венна (John Venn, 1834–1923) или его
диаграмм. Диаграммы Венна широко используются в математике и смежных областях
для изображения логических отношений между группами объектов, также они были
адаптированы для использования в других дисциплинах, таких как литература. Венн про-
вел большую часть своей сознательной жизни, преподавая в Гонвилл-энд-Киз колледже
(Gonville and Caius College) Кембриджского университета, где основной областью его
интересов была логика, и он опубликовал три учебника, включая «Символическую логи-
ку» (1881), в которой диаграммы Венна были введены в обиход. Современные студенты
колледжа имеют перед глазами ежедневное напоминание о достижениях Венна: память
Основные определения 47

о нем была увековечена посредством окна из цветного стекла в столовой, на котором


изображена диаграмма Венна с тремя пересекающимися множествами, обозначенными
тремя кругами разного цвета.

Объединение
В результате объединения нескольких элементарных событий создается сложное
событие, которое происходит, если случается хотя бы одно входящее в его состав
элементарное событие. Объединение E и F записывается как E  F и означает
«E и/или F». Обратите внимание, что символ объединения  похож на заглавную
букву U1. Объединение E и F соответствует заштрихованной области на диаграмме
Венна в рис. 2.3. Обратите внимание на то, что на этом рисунке изображены два
круга, которые частично перекрываются; это значит, что любая точка заштрихо-
ванной области (любая точка, принадлежащая E и/или F) удовлетворяет условию
E  F. Рассматривая это на примере, предположим, что событие – это бросок иг-
ральной кости с шестью гранями и что E = {1, 3}, F = {1, 2}. Событие E  F происхо-
дит при выпадении 1, 2 или 3; также можно сказать, что E  F = {1, 2, 3}.

E
F

Рис. 2.3. Объединение E и F (заштрихованная область)

Пересечение
Пересечение двух или более элементарных событий – это сложное событие, кото-
рое происходит, если имеют место все элементарные события. Пересечение E и F
записывается как E  F и обозначает «и E, и F». Пересечение E и F соответствует
заштрихованной области на диаграмме Венна на рис. 2.4; обратите внимание, что
только точки, принадлежащие и E, и F, удовлетворяют этому условию. Продолжая
наш пример, если событие заключается в бросании игральной кости с шестью гра-
нями и E = {1, 3}, F = {1, 2}, то событие E  F происходит, только если выпадает 1,
поскольку это значение входит в оба набора элементарных событий, так что E 
F ={1}.

1
От англ. union – объединение. – Прим. пер.
48 Глава 2. Теория вероятности

E
F

Рис. 2.4. Пересечение E и F (заштрихованная область)

Дополнение
Дополнение события – это любое событие из выборочного пространства, кроме за-
данного. Дополнение события E записывают по-разному: как ~E, Ec или Ē и читают
как «не E» или «дополнение E». Например, если E = (числа > 0), то ~E = (числа ≤ 0).
Продолжая наш пример, если событие заключается в бросании игральной кости с
шестью гранями и E = {1, 3}, то ~E = {2, 4, 5, 6}. Дополнение F соответствует заштри-
хованной области на диаграмме Венна на рис. 2.5.

~F

Рис. 2.5. Дополнение F (заштрихованная область)

Взаимное исключение
Если события не могут происходить одновременно, они называются взаимно ис-
ключающими. Иначе говоря, если у двух наборов элементарных событий нет об-
Основные определения 49

щих событий, то они взаимно исключающие. Например, событие A = (заработок


больше $100 000) и событие B = (заработок меньше или равен $100 000) – взаим-
но исключающие, так же как и события A = (четные числа) и B = (нечетные числа).
Взаимно исключающие события E и F изображены на диаграмме Венна на рис. 2.6;
обратите внимание на то, что у них нет общих точек.

E F

Рис. 2.6. E и F – взаимно исключающие; у них нет общих точек

Независимость
Если два испытания независимы, то исход одного из них не влияет на исход дру-
гого. Иначе говоря, если испытания независимы, то информация об исходе одного
из них не дает никакой информации об исходе другого. Классический пример не-
зависимости – это подбрасывание обычной монетки; если вы подбросили монет-
ку дважды, результат первого испытания никак не влияет на результат второго
испытания.

Перестановки
В теории вероятности перестановки – это все возможные способы упорядочива-
ния элементов в наборе. Например, если набор состоит из элементов (a, b, c), тогда
перестановки этого набора следующие: (a, b, c), (a, c, b), (b, a, c), (b, c, a), (c, a, b) и
(c, b, a). Учтите, что в перестановках важен порядок элементов: (a, b, c) – это не та
же перестановка, что (a, c, b). Можно рассчитать число перестановок любого набо-
ра уникальных элементов (это значит, что ни один элемент в наборе не повторя-
ется), используя факториалы, которые обозначаются числом с восклицательным
знаком. Во многих калькуляторах есть кнопка x! для вычисления факториалов, но
также их можно вычислить, перемножив все целые числа, равные или меньшие
заданного, вплоть до 1. Вот пример:
3! = 3 × 2 × 1 = 6.
3! читается как «три факториал». Для набора из трех неповторяющихся элемен-
тов существует 3! или шесть перестановок, что согласуется с результатом, который
мы получили выше, выписав все возможные перестановки трех букв. Это логично,
50 Глава 2. Теория вероятности

поскольку, если у вас есть три элемента, на первую позицию есть три кандидата
(a, b, c в нашем примере), на вторую позицию – два (за исключением того элемента,
который был выбран для первой позиции), на третью позицию – один (оставший-
ся после выбора двух предыдущих). Так что у вас есть 3 × 2 × 1 = 6 разных способов
упорядочить эти элементы. Число перестановок растет очень быстро. Например,
5! = 120, а 10! = 3 628 800.
20! имеет настолько большое значение, что не может быть отображено боль-
шинством калькуляторов, если не записать его в экспоненциальном виде:
20! = 2.432902008E18.

Экспоненциальная запись
Экспоненциальная запись используется для обозначения очень больших или очень ма-
леньких значений. Использование экспоненциальной записи позволяет не только сэко-
номить место (поскольку вам не нужно выписывать множество нулей), но и повышает
точность передачи информации, поскольку число со многими нулями легко прочесть не-
правильно. В основе экспоненциальной записи лежит идея о том, что каждое число можно
записать при помощи цифры, большей или равной единице и меньшей 10 (называемой
коэффициентом), умноженной на степень 10 (называемой основанием). Так что число
1234 можно записать в виде 1.234E3 (E обозначает экспоненту2), что значит 1.234 ґ 103,
то есть 1.234 ґ 1000. Аналогично 1.234E–4 обозначает 1.234 ґ 10\4 или 1.234 ґ 0.0001,
равное 0.0001234. Другой способ трактовки значения E – это на сколько знаков нужно
переместить десятичную точку влево или вправо. Так что 1.234E3 указывает на необхо-
димость передвинуть ее на три знака вправо, что даст нам 1234, тогда как при 1.234E–4
нужно передвинуть ее на четыре знака влево, чтобы получить 0.0001234.

Сочетания
Сочетания схожи с перестановками, за одним исключением – в сочетаниях не име-
ет значения порядок элементов. Так что (a, b, c) – это то же сочетание, что и (b, a, c).
По этой причине для набора элементов (a, b, c) существует только одно сочета-
ние.
Один из способов использования сочетаний и перестановок в статистике – это
расчет числа способов разделения множества элементов на подмножества задан-
ного размера, что позволяет рассчитать вероятность получения любого заданного
подмножества из множества. В общем случае исходное множество не содержит
повторяющихся элементов, и мы будем использовать это допущение в дальнейшем
обсуждении. Есть несколько способов обозначения сочетаний и перестановок; они
приведены в приложении A вместе с несколькими задачами. В этом разделе мы бу-
дем придерживаться простой системы обозначений, используя P для обозначения
перестановок3, а C – для обозначения сочетаний4. Согласно этим обозначениям,
число возможных перестановок двух элементов из трех записывается как 3P2, а
число сочетаний двух элементов из трех – как 3C2. Продолжая ранее описанный
2
От англ. exponent – экспонента. – Прим. пер.
3
От англ. permutation – перестановка. – Прим. пер.
4
От англ. combination – сочетание. – Прим. пер.
Основные определения 51

пример, для набора элементов (a, b, c) 3P2 = 6, поскольку есть 6 возможных пере-
становок двух элементов из этого набора: (a, b), (a, c), (b, c), (b, a), (c, a) и (c, b).
Для этого набора существуют три сочетания двух элементов: 3C2 = 3: (a, b), (a, c)
и (b, c).
Число перестановок для подмножества величины k, происходящего из множест-
ва величины n, вычисляется по формуле, приведенной на рис. 2.7.

nPk

Рис. 2.7. Формула для расчета числа перестановок


Используя эту формулу, можно рассчитать число перестановок двух элементов,
выбираемых из 8 элементов (рис. 2.8).

Рис. 2.8. Расчет числа перестановок 8P2


Если вам приходится проводить вычисления вручную, нужно помнить о пра-
виле сокращения дробей: если выразить числитель и знаменатель в виде произ-
ведения, можно сократить те множители, которые входят в состав и числителя, и
знаменателя. Например:
12/6 = (2 × 2 × 3)/(2 × 3) = 2,
поскольку вы можете сократить и числитель, и знаменатель на (2 × 3).
В случае перестановки 8P2 не нужно вычислять факториалы перед делением,
поскольку вы можете сократить много множителей. В этом примере:
8! = 8 × 7 × 6 × 5 × 4 × 3 × 2 × 1
и
6! = 6 × 5 × 4 × 3 × 2 × 1,
так что вы можете многое сократить, оставшись с таким выражением:
8P2 = 8 × 7 = 56.
Если n = k, то число сочетаний будет всегда меньше числа перестановок, по-
скольку разный порядок одних и тех же элементов приводит к разным переста-
новкам, но не сочетаниям. Это становится ясным при рассмотрении формулы
сочетания, которая представляет собой деление формулы для перестановок на
факториал числа выбранных объектов (рис. 2.9).

Рис. 2.9. Формула для расчета числа сочетаний


52 Глава 2. Теория вероятности

Используя эту формулу, вы можете вычислить число сочетаний двух объектов,


выбранных из 8 объектов, как показано на рис. 2.10.

Рис. 2.10. Расчет числа сочетаний 8C2

Определение вероятности
Существует несколько способов охарактеризовать вероятность, но определение,
используемое в статистике, гласит, что вероятность показывает, как часто проис-
ходит некоторое событие при повторении эксперимента. Например, вероятность
выпадения орла при броске монетки может быть оценена при наблюдении, сколь-
ко раз выпадет орел в серии бросков. Наверное, если нужно выбрать единственное
самое важное свойство вероятности, то оно таково:
вероятность события всегда находится между 0 и 1.
Если вероятность события равна 0, это значит, что у него нет шансов случиться,
тогда как вероятность события, равная 1, означает, что оно обязательно произой-
дет. В математике принято выражать событие в долях единицы, поэтому мы го-
ворим, что вероятность события находится между 0 и 1, однако так же правильно
(и более обычно в повседневной речи) рассуждать в терминах процентов, так что
верно будет и то, что вероятность события находится между 0% и 100%. Для пе-
рехода от долей единицы к процентам нужно умножить первые на 100 (процент
означает «на сотню»), так что 0,4 – это 40% (0,4 × 100 = 40), а вероятность 0,85
можно выразить как 85%.
Отрицательная вероятность и вероятность, превосходящая 100%, логически
невозможны и существуют только как фигуры речи. Тот факт, что вероятность
заключена между 0 и 1, имеет математическое обоснование, которое рассматрива-
ется дальше при обсуждении логистической регрессии в главе 11. Этот факт также
служит полезной проверкой ваших вычислений. Если вы получили вероятность
меньше 0 или больше 1, вы определенно где-то ошиблись. Более того, если кто-то
говорит вам, что вы с вероятностью 200% выиграете на бирже, если будете дейст-
вовать по его системе, вам, возможно, следует поискать нового консультанта по
инвестициям.
Еще один полезный факт о вероятности таков:
вероятность выборочного пространства всегда равна 1.
Поскольку выборочное пространство – это все возможные исходы испытания,
общая вероятность для выборочного пространства должна составлять 1. Это по-
лезный факт, поскольку, хотя мы можем знать вероятность некоторых событий
из выборочного пространства, там могут быть другие, информация о которых у
нас отсутствует. Однако, поскольку мы знаем, что вероятность всего выборочного
пространства равна 1, мы можем вычислить вероятность тех событий, о которых
Определение вероятности 53

у нас нет информации, основываясь на той вероятности, которая остается после


вычитания вероятностей всех известных событий.
Третий полезный факт, который следует из первых двух, таков:
вероятность события и его дополнения всегда равна 1.
Этот факт вытекает из определения дополнения: все выборочное пространство,
кроме события E, – это дополнение E. Таким образом, E и ~E вместе должны со-
ставлять все выборочное пространство, и общая вероятность E и ~E должна быть
равной 1. Это должно быть ясным из рис. 2.5: прямоугольник изображает выбо-
рочное пространство, круг – событие E, а заштрихованная область внутри прямо-
угольника, но вне круга – событие ~E. Вместе E и ~E составляют полное выбороч-
ное пространство, и их объединение (E  F) имеет вероятность 1.

Запись вероятности события


Обычно значения вероятности записывают следующим образом:
P(E) = 0,5.
Это должно читаться как «вероятность события E равна 0,5» или «существует
50%-ная вероятность события E» (или просто «вероятность E равна 0,5» или «су-
ществует 50%-ная вероятность E»). Используя этот формат, можно записать пер-
вый факт о вероятности (о том, что вероятность всегда находится между 0 и 1) как
0 ≤ P(E) ≤ 1.
Второй факт о вероятности, который следует из определения выборочного про-
странства S как все возможные исходы испытания, можно записать в виде:
P(S) = 1.
Третий факт о вероятности (вероятность события и его дополнения всегда рав-
на 1) можно записать так:
P(E) + P(~E) = 1,
что имеет для нас важное следствие:
P(~E) = 1 − P(E).
Это окажется очень полезным при последующих вычислениях. Если мы зна-
ем вероятность E, то мы автоматически знаем вероятность ~E, которая составляет
1 − P(E). Так что если P(E) = 0,4, то P(~E) = 1 − 0,4 = 0,6.

Условные вероятности
Часто мы хотим знать вероятность некоторого события, при условии что про-
изошло другое событие. Это записывается как P(E | F) и читается как «вероятность
E при условии F». Второе событие называется условием, а весь процесс иногда
называется выполнением при условии F. Условная вероятность – важное понятие
в статистике, поскольку мы часто пытаемся установить фактор, который влияет на
результат, например у курильщиков чаще развивается рак легких. Влияние како-
54 Глава 2. Теория вероятности

го-либо фактора на исход события можно иначе выразить как то, что вероятность
данного исхода различается в зависимости от наличия или отсутствия данного
фактора. Тот факт, что вероятность рака легких (исход) выше у курильщиков
(фактор), чем у тех, кто не курит, можно выразить при помощи символов следую-
щим образом:
P(рак легких | курильщик) > P(рак легких | некурящий).
Условные вероятности также могут быть использованы для обозначения неза-
висимости. Говорят, что две переменные независимы, если выполняется следую-
щее равенство:
P(E | F) = P(E).
Это выражение указывает на то, что вероятность E неизменна, вне зависимости
от наличия переменной F. Продолжая использованный ранее пример, выражение,
которое показывает отсутствие связи между раком легких и курением, записыва-
ется как
P(рак легких | курильщик) = P(рак легких).

Вычисление вероятности сложных


событий
Для вычисления вероятности любого из нескольких происходящих событий (объ-
единения нескольких событий) просуммируйте вероятности отдельных событий.
Вид используемого уравнения будет зависеть от того, являются ли эти события
взаимно исключающими (это значит, что они не могут произойти одновремен-
но).

Объединение взаимно исключающих событий


Если события взаимно исключающие, как показано на рис. 2.6, то уравнение прос-
тое:
P(E  F) = P(E) + P(F).
В качестве практического примера представим колледж, в котором не может
быть двух профильных предметов. Примем вероятность события E (профильный
предмет – английский язык) равной 0,2 и вероятность события F (профильный
предмет – французский язык) равной 0,1. Эти события взаимно исключающие,
поскольку ученики могут выбрать только один профильный предмет, так что ве-
роятность события (профильный предмет – либо английский, либо французский
язык) можно вычислить как
P(E  F) = 0,2 + 0,1 = 0,3.
Вычисление вероятности сложных событий 55

Объединение не взаимно исключающих событий


Часто события не взаимно исключающие. Например, в колледже, где можно вы-
брать два профильных предмета, события «профильный предмет – английский
язык» и «профильный предмет – французский язык» не взаимно исключающие,
поскольку, вероятно, один человек может выбрать в качестве профильных предме-
тов и английский, и французский языки. В этой ситуации в уравнение для вычис-
ления P(профильный предмет – либо английский, либо французский язык) нуж-
но ввести поправку на это перекрывание. Согласно рис. 2.4, перекрывание – это
область, принадлежащая и кругу E, и кругу F (их пересечение, отмеченное штри-
ховкой). Если вы не учтете, что в колледже, где ученики могут выбрать более одно-
го профильного предмета, могут найтись люди, специализирующиеся и в области
английского, и в области французского языков, вы рискуете посчитать некоторых
учеников дважды. (Те, кто специализируется и в области английского, и в области
французского языков, будут посчитаны и как те, кто углубленно изучает англий-
ский, и те, кто углубленно изучает французский.)
Для того чтобы учесть возможное перекрывание при подсчете вероятности од-
ного из двух не взаимно исключающих событий, используйте следующее уравне-
ние:
P(E  F) = P(E) + P(F) − P(E  F).
Предположим,что P(профильный предмет – английский язык) = 0,2,
P(профильный предмет – французский язык) = 0,1 и P(двойная специализация
на английском и французском) = 0,05. Тогда вероятность специализации студента
на изучении или английского языка, или французского составляет
P(E  F) = 0,2 + 0,1 − 0,05 = 0,25.

Пересечение независимых событий


Чтобы вычислить вероятность одновременного наступления нескольких элемен-
тарных событий (пересечение нескольких событий), перемножьте их вероятнос-
ти. Конкретный вид формулы зависит от того, независимы ли эти события.
Если два события E и F независимы, то вероятность их совместного наступле-
ния вычисляется просто как
P(E  F) = P(E) × P(F).
Предположим, что вы подбрасываете правильную монету (вероятность выпаде-
ния орла равна 0,5, вероятность выпадения решки равна 0,5, результаты каждого
броска независимы). Мы уже указали, что вероятность выпадения орла при любом
броске равна 0,5 и что два испытания независимы, так что вероятность выпадения
орлов при обоих бросках можно вычислить как
P(E  F) = 0,5 × 0,5 = 0,25.
56 Глава 2. Теория вероятности

Пересечение не независимых событий


Если два события не независимы, то для вычисления вероятности их совместного
наступления вам нужно знать их условную вероятность. Формула для расчетов
такова:
P(E  F) = P(E) × P(F | E).
Предположим, вы вытаскиваете две карты из обычной колоды в 52 карты, не
возвращая карту в колоду. Половина карт из этой колоды красной масти, а полови-
на – черной. Эти события (выбор первой и второй карт) не независимы, поскольку
вероятность свойств второй карты зависит от свойств первой. Если вас интересует
вероятность вытащить две карты черной масти, можно рассчитать ее следующим
образом:
P(E) = P(первая карта черной масти) = 26/52 = 0,5;
P(F | E) = P(вторая карта черной масти|первая карта черной масти) =
= 25/51 = 0,49.
Обратите внимание на то, что поскольку вы не возвращаете карту в колоду, вто-
рую карту вы тянете из колоды в 51 карту, и к этому моменту остается только
25 карт, поскольку вы уже вытащили одну карту черной масти. Используя эти
знания, вы можете рассчитать вероятность вытащить две карты черной масти как
(пересечение E и F):
P(E  F) = 0,50 × 0,49 = 0,245.

Теорема Байеса
Теорема Байеса, также известная как формула Байеса, – это один из наиболее рас-
пространенных способов применения условных вероятностей. Самый типичный
случай применения теоремы Байеса – это расчет вероятности того, что человек с
положительным результатом скринингового теста на определенное заболевание
действительно им болен. В теореме Байеса также используется несколько введен-
ных ранее базовых понятий теории вероятности, так что внимательное изучение
формулы Байеса, помимо всего прочего, – хороший способ повторить содержание
всей главы. Теорема Байеса для любых двух событий A и B сформулирована на
рис. 2.11.

Рис. 2.11. Теорема Байеса


Эту формулу следует использовать, если вы знаете P(A), P(B) и P(B | A), а хоти-
те знать P(A | B). Числитель теоремы Байеса учитывает тот факт, что вероятность
пересечения двух событий – это вероятность первого события, умноженная на ве-
роятность второго события при условии первого. Например, вероятность B при
Теорема Байеса 57

условии A умножается на вероятность A, что дает вероятность пересечения A и B,


то есть ситуации, когда A и B происходят одновременно.
В числителе использован тот же самый факт вместе со знанием о том, что со-
бытие и его дополнение составляют все выборочное пространство и имеют об-
щую вероятность 1, так что сумма произведения вероятности B при условии A
на вероятность A и произведения вероятности B при условии ~A на вероятность
~A даст нам вероятность B.
Представьте себе, что существует скрининговый тест, который выявляет забо-
левших с 95%-ной вероятностью и дает отрицательный результат для здоровых с
вероятностью 99%. Клиницисты сказали бы, что этот тест характеризуется 95%-ной
чувствительностью и 99%-ной специфичностью. Предположим, что частота забо-
левания в генеральной совокупности составляет 1%. Если мы обозначим заболева-
ние как D5, отсутствие заболевания как ~D, положительный результат теста как T,
а отрицательный результат теста как ~T, вышеупомянутые вероятности можно
записать следующим образом:
Чувствительность = P(T | D) = 0,95;
Специфичность = P(~T | ~D) = 0,99;
Вероятность заболевания в генеральной совокупности = P(D) = 0,01.
Приведенные значения чувствительности и специфичности очень высоки.
Многие часто используемые тесты и процедуры менее точны. Однако все тесты
несовершенны, и возможно, что человек с положительными результатами теста
на самом деле здоров (ложноположительный результат), а человек с отрицатель-
ными результатами теста на самом деле болен (ложноотрицательный результат).
Обычно что вы действительно хотите узнать, так это то, какова вероятность того,
что человек с положительным результатом теста действительно болен? Исполь-
зуя принятую форму записи условной вероятности, вы хотите узнать P(D | T). Вы
можете вычислить эту вероятность, используя теорему Байеса, учитывая данные
о чувствительности и специфичности теста и о частоте встречаемости данного за-
болевания в генеральной совокупности, как это показано на рис. 2.12.

Рис. 2.12. Теорема Байеса, записанная с использованием


наших обозначений для заболевания и результатов теста
Из этой формулы ясно видно, что вероятность иметь заболевание при положи-
тельном результате теста – это просто вероятность и заболевания, и положитель-
ного результата теста, деленная на вероятность положительного результата теста
(вне зависимости от наличия заболевания).
Используя тот факт, что событие и его дополнение составляют все выборочное
пространство и имеют общую вероятность, равную 1, вы знаете, что частота лож-
ноположительных результатов – это 1 – специфичность:
5
От англ. desease – заболевание. – Прим. пер.
58 Глава 2. Теория вероятности

P(T | ~D) = 1 – 0,99 = 0,01.


По этой же причине вы знаете, что вероятность отсутствия данного заболева-
ния в генеральной совокупности составляет 1 – вероятность наличия заболева-
ния:
P(~D) = 1 – P(D) = 1 – 0,01 = 0,99.
Используя эти факты и ранее предоставленную информацию, мы можем вы-
числить P(D | T), как показано на рис. 2.13.

Рис. 2.13. Использование теоремы Байеса для вычисления вероятности


наличия заболевания при положительном результате теста
Этот пример демонстрирует важный и не получивший должного внимания (по
крайней мере, у общественности) факт о скрининговых тестах. Даже высокоспе-
цифичный и чувствительный скрининговый тест на редкое заболевание будет
иметь высокую частоту ложноположительных результатов, по сравнению с час-
тотой истинно положительных результатов. В приведенном примере ожидается,
что около половины людей с положительным результатом теста на самом деле
будут здоровы. Это не обязательно является поводом отказываться от теста, в
особенности если заболевание имеет серьезные последствия, и существует более
точный последующий тест для разделения истинных и ложных положительных
результатов. Однако любое предложение организовать всеобщее обследование
(будь то тест на определенное заболевание или проверка багажа в аэропорту)
обязательно должно учитывать частоту ложноположительных результатов и их
последствия.
Нужно отметить, что частота ложноположительных результатов зависит как от
частоты заболевания в генеральной совокупности, так и от чувствительности и
специфичности скринингового теста. Если частота заболевания составляет 0,005,
а не 0,01, меньше положительных результатов будут истинными, а больше – лож-
ными, как это видно на примере вычислений, приведенных на рис. 2.14.

Рис. 2.14. Еще один пример использования теоремы Байеса для вычисления
вероятности наличия заболевания при положительном результате теста; обратите
внимание на снижение частоты истинно положительных результатов из-за более
низкой встречаемости заболевания в генеральной совокупности
В этом примере менее одной трети положительных результатов истинные.
Достаточно разговоров, давайте займемся статистикой! 59

Преподобный Томас Байес


Теорема Байеса была сформулирована английским министром, преподобным Томасом
Байесом (Thomas Bayes, 1702–1761). Байес изучал логику и теологию в Эдинбургском
университете и зарабатывал на жизнь, занимая должность министра. Однако его ны-
нешняя слава основана на теории вероятности, которая была разработана им в эссе,
опубликованном посмертно Лондонским королевским обществом. В наши дни сущес-
твует отдельная область науки, называемая байесовской статистикой. Она основана на
понимании вероятности как степени уверенности, а не частоты встречаемости. Хотя не
ясно, согласился бы сам Байес с таким определением, поскольку за свою жизнь он опуб-
ликовал сравнительно мало математических работ.

Достаточно разговоров, давайте


займемся статистикой!
Статистика – это что-то, что вы делаете, а не то, про что вы читаете, так что реаль-
ная цель приведенного выше теоретического введения состояла в том, чтобы снаб-
дить вас знаниями, необходимыми для вычисления вероятности событий и ста-
тистических обоснований. В этой главе также были введены такие понятия, как
независимость, или взаимное исключение, которые понадобятся вам при исполь-
зовании более сложных статистических методов.
Цель приведенных ниже задач – помочь вам приобрести некоторый навык ра-
боты с базовыми понятиями теории вероятности. Если для понимания темы вы
предпочитаете выполнить множество задач, то существует много прекрасных
учебников с упором на теорию вероятности; ссылки на некоторые из них приве-
дены в приложении C.
Если вы впервые беретесь за задачи по теории вероятности, вам может помочь
следующий план работы:
1. Определите, что является испытанием и/или экспериментом.
2. Определите выборочное пространство.
3. Определите событие.
4. Выразите необходимые вероятности и проведите вычисления.
В какой-то момент вы можете почувствовать, что необходимость проходить
каждый из этих этапов отпала, но этот план может пригодиться в начале работы.
В некоторых случаях предлагается альтернативный способ решения, основанный
на другом подходе к задаче.

Монеты, игральные кости и карты


Поскольку во многих примерах, приведенных в этой книге, используются монеты,
игральные кости и карты, этот раздел начинается с их описания.

Игральные кости
Стандартная игральная кость, используемая на Западе, – это куб с шестью гра-
нями, на которые нанесено разное число точек (от 1 до 6). Допущение, лежащее
60 Глава 2. Теория вероятности

в основе статистических вычислений, заключается в том, что вероятности выпа-


дения кости каждой из граней кверху равны, так что каждый бросок кости имеет
шесть равновероятных исходов: 1, 2, 3, 4, 5, 6. Используя специальную термино-
логию, набор исходов при броске одной кости имеет дискретное равномерное рас-
пределение, поскольку возможные исходы можно пронумеровать, и каждый из
них имеет одинаковую вероятность. Результаты, полученные при одновременном
броске двух или более костей (или многократного подбрасывания одной и той же
кости), не зависят друг от друга, так что вероятности каждой комбинации чисел
вычисляются путем перемножения вероятностей каждого результата.
Для полной определенности нужно отметить, что «равная вероятность выпа-
дения каждой грани» выполняется только для костей, используемых в казино, на
которых точки (кружочки, используемые для обозначения числа на каждой гра-
ни) нанесены краской. Вам могут быть больше знакомы кости, на которых точки
сделаны в виде углублений, а не нанесены краской, что приводит к неравномерно-
му распределению массы и, следовательно, разной вероятности выпадения разных
граней. Однако при теоретических разговорах о вероятности этой разницей обыч-
но пренебрегают и считают, что выпадение любой грани равновероятно.

Монеты
Стандартная монета, используемая в вероятностных экспериментах, имеет две
стороны, орел и решка. Часто имеют в виду правильную монету, что значит рав-
ную вероятность выпадения орла и решки при каждом броске. Для любой монеты,
правильной или нет, вероятность выпадения орлов и решек считается постоян-
ной, так что результаты предыдущих бросков не влияют на результаты последую-
щих. Как и в случае игральной кости, вероятность выпадения орлов и решек на
реальной монете редко в точности составляет 50:50 по ряду физических причин,
включающих дизайн монеты, ее изношенность и стиль бросков, но при выполне-
нии вероятностных задач эти тонкости следует игнорировать, если только они не
прописаны в условии. Иногда в интересах безопасности эксперименты проводят,
закручивая монетку, а не подбрасывая ее (в результате меньше разящих объек-
тов летает в переполненном классе). Хотя ожидаемое соотношение 50:50 в этом
случае еще менее правдоподобно, при выполнении вычислений (а не реальном
закручивании монетки и записи результатов) предположите, что это соотноше-
ние работает. Более подробную информацию по этой теме можно получить здесь:
http://www.sciencenews.org/articles/20040228/fob2.asp.

Игральные карты
Стандартная колода в наши дни состоит из 52 игральных карт четырех мастей:
пики, крести, черви и бубны. Пики и крести – это черные масти, а черви и буб-
ны – красные. Есть 13 карт каждой масти: туз, нумерованные карты от 2 до 10 и
три фигуры – валет, дама и король. В экспериментах с вытаскиванием карт из ко-
лоды предполагается, что они хорошо перемешаны, то есть вероятность вытащить
любую карту одинакова.
Упражнения 61

Упражнения
Задача
Если я вытащу одну карту из стандартной колоды в 52 карты, какова вероят-
ность того, что она будет красной масти?
Решение
1. Испытание – это выбор одной карты из колоды.
2. Выборочное пространство – это все имеющиеся карты, вероятность вытя-
нуть каждую из них одинакова.
3. Событие – это E = {красная масть}.
4. Поскольку в колоде есть 52 карты и половина из них (26) красной масти,
вероятность вытащить карту красной масти составляет 26/52 или 0,5. От-
вет – вероятность вытащить карту красной масти из стандартной колоды
составляет 50%.

Задача
Если я один раз брошу игральную кость, какова вероятность, что выпадет число
меньше 5?
Решение
1. Испытание – это один бросок игральной кости с шестью гранями.
2. Выборочное пространство – это числа (1, 2, 3, 4, 5, 6), выпадение которых
равновероятно.
3. Событие – это E = (одно из 1, 2, 3, 4), которое также можно рассматри-
вать как объединение четырех элементарных событий, то есть E = (E = 1) 
(E = 2)  (E = 3)  (E = 4).
4. Четыре из шести элементарных событий, или возможных исходов, составляю-
щих выборочное пространство, соответствуют событию E, так что вероятность
E равна 4/6 или 0,67 (округлено).
Альтернативное решение
К решению этой задачи можно подойти по-другому – вычислить вероятность
каждого элементарного события, которое удовлетворяет событию E, и сложить их,
поскольку эти события – взаимно исключающие. Тогда вероятность каждого эле-
ментарного события, входящего в E, равна 1/6; это значит, что в одном случае из
шести выпадет 1, в одном случае из шести выпадет 2 и так далее. В соответствии
с нашим подходом вероятность E составляет 1/6 + 1/6 + 1/6 + 1/6 или 4/6, что
совпадает с полученным ранее ответом.

Задача
Если я подкину правильную монету дважды, какова вероятность того, что хотя
бы один раз выпадет орел?
Решение
1. Эксперимент заключается в двукратном подбрасывании правильной
(P = 0,5 и для решки, и для орла) монеты, то есть два независимых испыта-
ния, каждое с вероятностью 0,5.
62 Глава 2. Теория вероятности

2. Выборочное пространство состоит из следующих исходов: {(о, о), (о, р),


(р, о), (р, р)}, – каждый из которых равновероятен.
3. Интересующее нас событие – это E = (хотя бы один орел). Три исхода из
выборочного пространства удовлетворяют этому условию: (о, о), (о, р),
(р, о).
4. Вероятности всех исходов равны, и три из четырех исходов соответствуют
событию E, так что вероятность E равна ѕ, или 0,75.
Альтернативное решение
Этот результат можно также получить при помощи математических вычисле-
ний, рассчитав вероятность дополнения этого события и затем вычтя ее из 1, что-
бы получить вероятность самого события. Если событие – это E = (хотя бы один
орел), его дополнение – это ~E = (нет орлов, то есть две решки). Вы знаете, что ве-
роятность выпадения решки при любом подбрасывании правильной монеты равна
0,5, а броски независимы, так что вероятность выпадения двух решек составляет
0,5 × 0,5, или 0,25. Согласно определению дополнения события, 1 – P(~E) = P(E),
так что 1 – 0,25 = 0,75, или P(E). Вероятность выпадения хотя бы одного орла при
двух бросках монеты равна 0,75, что совпадает с полученным ранее ответом.

Задача
Если я вытащу одну карту из стандартной колоды с 52 картами, какова вероят-
ность того, что это будет фигура (валет, дама или король) черной масти (пики или
трефы)?
Решение
1. Испытание – это выбор одной карты из колоды с 52 картами.
2. Выборочное пространство – это 52 карты, вероятности выбора каждой из
них равны.
3. Событие – это E = (выбор фигуры черной масти); шесть карт удовлетворя-
ют этому условию: валет, дама или король пик или треф.
4. Вероятность равна 6/52, или 0,115.

Математическое решение
P(фигура) = 12/52, или 0,231 P(черная масть) = 26/52, или 0,5 P(фигура черной
масти) = P(фигура) × P(черная масть) = 0,231 × 0,5 = 0,116.

Обратите внимание, что математическое решение возможно, поскольку веро-


ятность вытащить карту черной масти и вероятность вытащить фигуру незави-
симы.

Задача
Если я выбираю одну карту из стандартной колоды с 52 картами, какова веро-
ятность того, что она будет либо черной масти (пики или трефы), либо фигурой
(валет, дама или король)?
Упражнения 63

Решение
1. Испытание – это выбор одной карты из колоды с 52 картами.
2. Выборочное пространство – это 52 карты, вероятности выбора каждой из
них равны.
3. Событие – это E = или карта черной масти, или фигура, – это значит, что
любая из 26 карт черной масти или любая из 12 фигур подходит под усло-
вие.
4. Два типа карт, которые удовлетворяют условию, не взаимно исключающие:
некоторые карты черной масти также являются фигурами, и наоборот. Есть
26 карт черной масти: от туза до короля пик (13) и от туза до короля треф
(13). Есть 12 фигур: валет, дама и король, – каждая из которых может быть
четырех мастей. Шесть карт принадлежат обоим категориям: валет, дама,
король пик и валет, дама, король треф, так что 26 + 12 – 6 = 32 карты, кото-
рые удовлетворяют условию, и вероятность равна 32/52, или 0,615.
Математическое решение
P(черной масти) = 26/52, или 0,500 P(фигуры) = 12/52, или 0,231 P(фигуры
черной масти) = 6/52, или 0,115 P(карты черной масти или фигуры) =
0,500 + 0,231 – 0,115 = 0,616.
Небольшое различие в ответах (0,615 и 0,616) объясняется ошибкой округле-
ния.

Задача
Если я вытащила одну карту из стандартной колоды с 52 картами и она черной
масти, какова вероятность, что это трефы?
Решение
1. Испытание – это выбор одной карты из колоды с 52 картами.
2. Выборочное пространство – это все карты черной масти, поскольку нас ин-
тересует условная вероятность того, что карта окажется трефами, если ее
масть черная. Таким образом, наше выборочное пространство ограничено
26 картами.
3. Событие – это E = трефы | карты черной масти.
4. Вероятность того, что карта окажется трефами, если это карта черной мас-
ти – это 13/26, или 0,5.

Обратите внимание, что в этом примере мы вычисляем условную вероятность


(вероятность треф при условии, что вытащили карту черной масти). Неуслов-
ная вероятность выбора трефовой карты, если у нас нет информации о ее цве-
те, составляет 13/52, или 0,25.

Математическое решение
P(трефы | черная масть) = P(трефы и черная масть) / P(черная масть) = 0,25/0,5
= 0,5.
Учтите, что трефы – это черная масть по определению.
64 Глава 2. Теория вероятности

Задача
Если порядок не имеет значения, сколько есть способов выбрать пять учеников
из 20?
Решение
Это задача на комбинаторику, решение которой через перебор всех возможных
вариантов будет слишком длинным. Вместо этого используем формулу для числа
сочетаний nCk. В этом случае n = 20 и k = 5; ход вычислений приведен на рис. 2.15.

Рис. 2.15. Использование формулы для числа сочетаний для определения числа
способов выбрать пять человек из 20

Задача
В конференции участвуют 80 учеников: 40 мальчиков и 40 девочек. Тридцать
мальчиков и 20 девочек углубленно занимаются математикой. Известно, что слу-
чайно выбранный мальчик углубленно занимается математикой с вероятностью
75%. Однако вы хотите знать, какова вероятность того, что случайно выбранный
углубленно занимающийся математикой ребенок окажется мальчиком. Указание:
используйте теорему Байеса.
Решение
P(мальчик) = 40/80 = 0,5.
P(~мальчик) = 40/80 = 0,5.
P(математика | мальчик) = 30/40 = 0,75.
P(математика | ~мальчик) = 20/40 = 0,5.
Ход вычислений приведен на рис. 2.16.
P(мальчик | математика) =
P(математика | мальчик) P(мальчик)
P(математика | мальчик) P(мальчик) + P(математика | девочка) P(девочка)

Рис. 2.16. Применение теоремы Байеса для вычисления вероятности того,


что случайно выбранный углубленно занимающийся математикой ребенок
окажется мальчиком
Вероятность того, что случайно выбранный углубленно занимающийся матема-
тикой ребенок окажется мальчиком, составляет 60%.
Заключительное замечание: связь между статистикой и ... 65

Заключительное замечание:
связь между статистикой и азартными
играми
Статистики любят иллюстрировать теорию вероятности, используя в качестве
примеров монеты, игральные кости и карты, объекты, которые применяются в
азартных играх (или просто играх, как их предпочитают называть в самой игорной
индустрии). Одна причина заключается в том, что эти предметы знакомы боль-
шинству людей. Другая причина состоит в том, что вероятности разных исходов
известны и неизменны и поэтому могут быть использованы для создания простых
примеров применения основных понятий теории вероятности, включая независи-
мость и взаимное исключение. Преимущество таких примеров заключается еще и
в том, что задачи можно решить с использованием конкретных объектов (напри-
мер, вытаскивая карты из колоды) с тем же успехом, что и при помощи математи-
ческих уравнений.
Однако тут есть и исторические причины, поскольку многие законы теории ве-
роятности были сформулированы в связи с азартными играми и умением исполь-
зовать игральные кости и карты. На самом деле азартные игры были движущей
силой многих исследований вероятностей разных событий и сочетаний событий,
поскольку способность игрока получить, а не потерять деньги во многом зависит
от его понимания вероятности разных событий, происходящих в данной игре.
Многие историки ставят у истоков современной теории вероятности Шевалье
де Мере (Chevalier de Mere), джентльмена, который был игроком во Франции
XVII века. Он обожал спорить о том, что у него выпадет хотя бы одна шестерка при
четырех бросках одной кости: причина такого желания станет ясной из следую-
щих абзацев. Однако он также верил, что хорошо спорить о том, что за 24 броска
пары игральных костей у него выпадет хотя бы одна пара шестерок: оказалось,
что это проигрышная идея. К счастью для последующих статистиков, Шевалье
рассказал об этой задаче своему другу – философу Блезу Паскалю (Blaise Pascal),
который обсудил это со своим другом – математиком Пьером Ферма (Pierre de
Fermat). Рассмотрение вопросов такого типа привело к разработке, в числе про-
чих вещей, треугольника Паскаля, биномиального распределения и современной
теории вероятности.
Даже в дружеском споре хорошее пари – это то, когда вы, скорее всего, выиграе-
те более чем в половине случаев. Иначе говоря, вероятность вашего выигрыша в
удачном пари не меньше 0,5. Шевалье первым использовал этот принцип: вероят-
ность выпадения хотя бы одной шестерки при четырех бросках кости составляет
0,518. Это легко вычислить, рассмотрев вероятность того, что за четыре броска не
выпадет ни одной шестерки, которая составляет (5/6)4. Выпадение хотя бы одной
шестерки – дополнение к выпадению ни одной шестерки, так что P(хотя бы одна
шестерка из четырех бросков) составляет 1 – (5/6)4 или 1 – 0,482, что равно 0,518.
Это значит, что примерно в 52% случаев Шевалье выигрывал пари.
66 Глава 2. Теория вероятности

Однако спорить, что при 24 бросках двух костей выпадет хотя бы одна пара шес-
терок, – глупо. Существует 36 комбинаций чисел при каждом броске двух костей,
и только одна из них – это две шестерки, таким образом, вероятность невыпадения
двух шестерок при каждом броске составляет 35/36. Поскольку каждый бросок
костей независим, мы можем перемножить вероятности для каждого броска. По-
скольку вероятности не меняются, это значит умножение (35/36) на само себя 24
раза, а это то же самое, что возвести (35/36) в степень 24. Вероятность выпадения
хотя бы одной пары шестерок составляет 1 – P(невыпадение пары шестерок), или
1 – 0,509, что составляет 0,491. Поскольку эта вероятность меньше 0,5, это проиг-
рышное пари.
Если вам интересно узнать больше о применении теории вероятностей к азарт-
ным играм, таким как рулетка, кости, двадцать одно, скачки и покер, загляните в
книгу Эдварда Пэкеля «Математика, лежащая в основе азартных игр» (Edward
Packel, «The Mathematics of Games and Gambling»), опубликованную американским
математическим обществом, ссылка на которую приведена в приложении C.
ГЛАВА 3.
Статистический вывод

Статистический вывод – это методология, которая позволяет охарактеризовать


генеральную совокупность или сформировать суждения о ней на основании ин-
формации о выборке, извлеченной из этой генеральной совокупности. Большая
часть практической деятельности в области статистики связана именно со ста-
тистическим выводом. Для облегчения подобных предсказаний разработано мно-
жество сложных методов. Идея предсказательной статистики может показаться
несколько запутанной, так что нам стоит потратить несколько минут, чтобы поду-
мать о том, что значит использовать статистику для обоснования заключений.
В интернет-словаре Мерриам–Вебстер (Merriam–Webster) есть два определе-
ния термина «вывод (рассуждение)» (inference):
• Переход от одного предположения, утверждения или суждения, считаемого
верным, к другому, истинность которого следует из истинности первого.
• Переход от данных о статистической выборке к обобщениям (в виде значе-
ний параметров генеральной совокупности), как правило, с вычислением
степени уверенности.
Второе значение, которое специфично для статистики, тесно связано с первым.
Логический вывод в общем случае – это способ формирования суждений о неиз-
вестном, опираясь на уже известное. Статический вывод – это частный случай
логических заключений, при которых формируются суждения о генеральной со-
вокупности, как было сказано выше.
Люди часто испытывают сложности с разграничением описательной статис-
тики (descriptive statistics) обсуждаемой в главе 4 и статистического вывода
(inferential statistics), отчасти потому, что некоторые статистические процедуры
используются в обоих типах статистики, хотя могут иметь место незначительные
различия в формулах, а также в интерпретации результатов. К примеру, одна и та
же процедура лежит в основе вычисления среднего арифметического для набора
данных, вне зависимости от того, представляют ли они генеральную совокупность
или выборку: нужно суммировать все значения и разделить полученную сумму на
число значений. Тем не менее есть различия в написании формулы для вычисления
среднего арифметического. Для генеральной совокупности среднее обозначается
греческой буквой μ («мю», которую правильно называть параметром, поскольку
это число характеризует генеральную совокупность), тогда как для обозначения
68 Глава 3. Статистический вывод

выбочного среднего вы используете латинскую букву x, часто с чертой сверху, x ,


(которую правильно называть статистикой, поскольку это число характеризует
выборку). В других случаях между формулами, используемыми для генеральной
совокупности и выборки, существуют более важные различия. Хорошо известный
пример – это формула для дисперсии. Когда вы имеете дело с генеральной сово-
купностью, в знаменателе стоит n (число наблюдений), но когда вы работаете с
выборкой, делить нужно на n – 1 (на один меньше, чем число наблюдений). Эти
формулы подробно разобраны в главе 4 (раздел «Меры разброса» на стр. 115), и
если вы новичок в статистике, прочитайте ту главу целиком, прежде чем работать
с этой, поскольку описательная статистика концептуально проще статического
вывода.
Вы можете использовать оба типа статистики в ходе работы над одним проек-
том (например, применять описательную статистику для характеристики выбор-
ки и затем – статистический вывод, чтобы решить исходные задачи вашего иссле-
дования), но вы должны четко понимать, какой тип статистики вы используете
в ходе каждого конкретного анализа данных. Для этого полезно задуматься над
целью вашего анализа данных: вы используете его, чтобы просто описать набор
данных, с которым вы проводите вычисления? Или вы хотите распространить
свои результаты на более обширную группу, которую вы не можете изучить на-
прямую? В первом случае вам следует применить описательную статистику, а во
втором – статистический вывод. Вот два правила, которые содержат ту же идею,
изложенную другими словами:
• в тех случаях, когда вы изучаете составляющие генеральную совокупность
случаев и не хотите выходить за их рамки, вам следует использовать опи-
сательную статистику;
• в тех случаях, когда изучаемые вами случаи не составляют всей генераль-
ной совокупности, и вы хотите сделать обобщения, выходящие за рамки
этих случаев, вам следует использовать статистический вывод.

Распределения вероятностей
На практике статистические заключения настолько часто опираются на допуще-
ния о том, как распределены данные, что в статистике принято преобразовывать
данные, чтобы они лучше соответствовали одному из известных типов распреде-
ления. По этой причине наш разговор о предсказательной статистике начинается
с введения понятия теоретического распределения вероятностей и рассмотрения
двух часто используемых распределений.
Теоретическое распределение вероятностей – это выражение, которое определя-
ет, какие значения будет принимать данный параметр и как часто будет встречаться
каждое из этих значений (или, в случае непрерывного распределения, как часто
будет встречаться данный диапазон значений). Теоретические распределения ве-
роятностей также часто бывают представлены в графической форме; знаменитая
колоколообразная кривая нормального распределения – один из примеров.
Распределения вероятностей 69

Теоретические распределения вероятностей полезны для статистического


вывода, поскольку их свойства и характеристики определены. Если реальное
распределение значений имеющегося набора данных близко к теоретическому,
многие вычисления для анализируемых данных могут быть выполнены с ис-
пользованием допущений, основанных на свойствах теоретического распреде-
ления. Кроме того, благодаря центральной предельной теореме (которая разби-
рается ниже в этой главе) при определенных условиях можно предположить, что
выборочные средние распределены нормально, даже если значения генеральной
совокупности, из которой произошли эти выборки, распределены отлично от
нормального.
Распределения вероятностей часто разделяют на непрерывные, если данные мо-
гут принимать любые значения внутри заданного диапазона, и дискретные, ког-
да данные принимают только определенные значения. В данной главе в качестве
примера непрерывного распределения рассмотрено нормальное, а в качестве при-
мера дискретного распределения приведено биномиальное.

Нормальное распределение
Нормальное распределение – наверное, наиболее часто используемый тип рас-
пределения в статистике. Это происходит отчасти потому, что нормальное рас-
пределение адекватно отражает реальное распределение многих непрерывных
переменных, от параметров производственного процесса до результатов проверки
умственных способностей. Вторая причина широкого использования нормаль-
ного распределения заключается в том, что при определенных условиях можно
считать, что распределение выборочных статистик, таких как выборочное сред-
нее арифметическое, будет нормальным, даже если выборки происходят из гене-
ральной совокупности, для которой нормальное распределение не свойственно.
Данная закономерность обсуждается далее в этой главе в разделе, посвященном
теореме о центральном пределе. Нормальное распределение также называют ко-
локолообразной кривой из-за его характерной формы, или гауссовым распреде-
лением в честь физика и математика Карла Гаусса, который жил в XVIII веке и
использовал нормальное распределении при анализе астрономических данных.
Существует бесконечное множество нормальных распределений, все из которых
в целом имеют одну и ту же форму, но различаются из-за их среднего μ (греческая
буква «мю») и стандартного отклонения σ (греческая буква «сигма»). Примеры
трех нормальных распределений с разными средними значениями и стандартны-
ми отклонениями представлены на рис. 3.1.
Нормальное распределение со средним арифметическим, равным 0, и стандарт-
ным отклонением, равным 1, известно как стандартное нормальное распределение,
или Z-распределение. Любое нормальное распределение может быть преобразова-
но в стандартное путем преобразования исходных значений в стандартизованные
(этот процесс обсуждается далее в этой главе, а затем в главе 16). Такая процедура
облегчает сравнение генеральных совокупностей с разными средними значения-
ми и стандартными отклонениями.
70 Глава 3. Статистический вывод

Для всех нормальных распределений вне зависимости от их среднего значения и


стандартного отклонения характерны некоторые общие свойства. К ним относятся:
• симметричность;
• унимодальность (единственное наиболее частое значение);
• непрерывность значений в диапазоне от минус бесконечности до плюс
бесконечности;
• общая площадь под кривой, равная единице;
• равенство среднего, медианы и моды.

1
0.9 0.45
0.8 2.24
0.71
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-5 -4 -3 -2 -1 0 1 2 3 4 5

Рис. 3.1. Три нормальных распределения


Как было сказано выше, существует бесконечное множество нормальных рас-
пределений, но у них есть общие свойства. Для удобства мы часто описываем нор-
мальные распределения в терминах единиц стандартного отклонения, а не харак-
теризуем исходными числами, поскольку это позволяет нам использовать одно и
то же описание для любого нормального распределения.
Поскольку все нормальные распределения имеют одинаковую общую форму,
мы можем сформулировать некоторые суждения о том, как распределены данные
при любом нормальном распределении. Эмпирическое правило гласит, что для
любого нормального распределения:
• около 68% данных находятся в интервале ± одно стандартное отклонение
от среднего;
• около 95% данных находятся в интервале ± два стандартных отклонения
от среднего;
• около 99% данных находятся в интервале ± три стандартных отклонения
от среднего.
Это правило проиллюстрировано на рис. 3.2, где единицами измерения служат
стандартные отклонения.
Распределения вероятностей 71

Знание этих свойств нормального распределения предоставляет способ решить,


насколько типично конкретное значение данных для генеральной совокупности.
Такие сопоставления облегчаются преобразованием исходных значений данных
(значений в исходных единицах измерения, например вес, измеренный в фунтах
или килограммах) в Z-значения, которые выражают данные в единицах стандарт-
ного отклонения. Преобразование всех значений данных в Z-значения аналогично
преобразованию нормально распределенной генеральной совокупности в стандар-
тизованное нормальное распределение. По этой причине Z-значения иногда назы-
вают нормализованными значениями, процесс преобразования исходных значений
в Z-значения – нормализацией, а стандартное нормальное распределение – Z-рас-
пределением.

Рис. 3.2. Доля данных, которые попадают в определенные интервалы


нормального распределения
Z-значение – это разница между заданным числом и средним арифметическим,
выраженная в единицах стандартного отклонения. Формула для вычисления Z-зна-
чения для числа из генеральной совокупности с известным средним арифметичес-
ким и стандартным отклонением приведена на рис. 3.3.

Рис. 3.3. Формула для вычисления Z-значения


Если переменная x имеет нормальное распределение со средним арифмети-
ческим 100 и стандартным отклонением 5, что можно записать как x ~N(100, 5), то
число 105 имеет Z-значение 1 (рис. 3.4).

Рис. 3.4. Z-значение для числа 105 из генеральной совокупности ~N(100, 5)


72 Глава 3. Статистический вывод

Это значит, что число 105 на одно стандартное отклонение больше среднего
арифметического данной генеральной совокупности. Соответственно, число 110
из этой генеральной совокупности имеет Z-значение 2, а число 85 – Z-значение,
равное –3. Используя ранее сформулированное эмпирическое правило, мы клас-
сифицируем число 105 как превышающее среднее значение, но не выделяющееся
из генеральной совокупности (ожидается, что около 15,9% генеральной совокуп-
ности имеет большие Z-значения). Число 110 – более редкое (большие Z-значе-
ния ожидаются для примерно 2,5% генеральной совокупности), а число 85 меньше
среднего и встречается довольно редко (ожидается, что менее 0,5% значений гене-
ральной совокупности будут равны ему или меньше).
Одно большое преимущество Z-значений состоит в том, что они облегчают
сравнение значений генеральных совокупностей с разными средними арифмети-
ческими и стандартными отклонениями. Например, рассматривая одну генераль-
ную совокупность x ~N(100, 5) и другую y ~N(50, 10), мы не можем сразу сказать,
встречается ли число 95 в первой генеральной совокупности реже или чаще чис-
ла 35 во второй генеральной совокупности. Однако такое сравнение можно легко
провести при помощи Z-значений, как это показано на рис. 3.5 и 3.6.

Рис. 3.5. Z-значение для числа 95 из генеральной совокупности ~N(100, 5)

Рис. 3.6. Z-значение для числа 35 из генеральной совокупности ~N(50, 10)


Переход к Z-значениям позволяет перевести обе генеральные совокупности в
одну систему измерений. Теперь мы можем увидеть, что хотя оба значения ниже
среднего в соответствующих генеральных совокупностях, второе значение выде-
ляется сильнее, поскольку –1,5 дальше отстоит от 0 (среднего значения стандарт-
ного нормального распределения), чем –1,0.

Биномиальное распределение
Мы используем биномиальное распределение в качестве примера дискретного
распределения, то есть распределения величин данных, которые могут принимать
только определенные значения. Представим, что мы подбросили монетку пять
раз: число выпавших орлов может принимать целые значения, такие как 0, 1, 2, 3,
5, но не такие значения, как 3,2 или 4,6. Стало быть, величина «число выпадений
орла при пяти подбрасываниях монетки» – дискретная. Биномиальное распреде-
ление может описывать многие типы реальных дихотомических величин данных
(когда возможны только два исхода), начиная от деталей станков, которые могут
быть или бракованными, или пригодными, до студентов, которые могут или сдать,
или провалить экзамен.
Распределения вероятностей 73

События биномиального распределения происходят в результате процесса Бер-


нулли. Одно испытание в процессе Бернулли называется испытанием Бернулли.
Биномиальное распределение описывает число положительных исходов в n ис-
пытаниях процесса Бернулли. «Положительный исход» в данном случае не обяза-
тельно обозначает что-то хорошее, это значит только то, что событие, которое мы
исследуем, произошло. Например, если мы исследуем, сколько деталей станков из
выборки в 10 штук было бракованными, каждая часть будет считаться отдельным
испытанием, а результат испытания будет классифицирован как положительный
исход, если деталь окажется бракованной. Биномиальное распределение описы-
вает то, с какой вероятностью определенное число деталей из выборки в 10 штук
окажется бракованным, если есть некоторая оценка общей доли бракованных де-
талей.
Данные, представленные биномиальным распределением, должны удовлетво-
рять четырем требованиям:
1. Каждое испытание имеет два взаимоисключающих исхода.
2. Каждое испытание независимо, так что исход одного испытания не влияет
на исход любого другого испытания.
3. Вероятность успешного исхода, обозначенная как p, одинакова для всех
испытаний.
4. Число испытаний определено, оно обозначается как n.
К примерам данных такого типа, которые можно охарактеризовать при помощи
биномиального распределения, относятся число выпавших орлов при десятикрат-
ном подбрасывании монетки, число мужчин в выборке объемом пять из большой
генеральной совокупности, в которой 65% мужчин (эта генеральная совокупность
должна быть достаточно большой, чтобы доля мужчин заметно не изменилась при
изъятии пяти человек), и число бракованных изделий из 20, принадлежащих к
генеральной совокупности, в которой частота брака составляет 1%.
Формула для вычисления вероятности определенного числа успехов при дан-
ном числе испытаний приведена на рис. 3.7.

Рис. 3.7. Формула для биномиального распределения


Формула для сочетания событий приведена на рис. 3.8.

Рис. 3.8. Формула для вычисления вероятности сочетания событий


Сочетание, как обсуждалось в главе 2, выражает число способов выбрать k пред-
метов из n объектов, если порядок не важен. Учтите, что при написании формулы
74 Глава 3. Статистический вывод

биномиального распределения круглые скобки обозначают сочетание, чтобы сде-


лать формулу легче для восприятия, однако значение этих скобок такое же, как у
обозначения nCk, которое мы использовали в главе 2.
Символ ! в этом уравнении обозначает факториал: n! = (n)(n – 1)(n – 2) … (1).
Например, 5!=5 × 4 × 3 × 2 × 1 = 120.
n – это число испытаний. Если мы подбрасываем монетку 10 раз, n = 10.
k – это число успехов. Если мы хотим вычислить вероятность 5 успехов в 10
испытаниях, k = 10.
p со значениями в диапазоне между 0 и 1 – это вероятность успеха. Если мы
подбрасываем симметричную монету и называем успешным исходом выпадение
орла, то p = 0,5 (это означает, что вероятность выпадения орла при каждом брос-
ке – это 0,5 или 50%).
Биномиальную формулу можно использовать для вычисления вероятности оп-
ределенного числа успехов при известной вероятности успеха в каждом испытании
и при заданном числе испытаний. Сокращенный способ записать биномиальную
вероятность – это b(k;n;p) или P(k = k;n;p), где k – это число успехов в n испытани-
ях, в каждом из которых вероятность успеха равна p. Если бы мы хотели вычис-
лить вероятность двух успехов в 20 испытаниях с p = 0,4, мы могли бы написать
b(2; 20, 0,4) или P(k = 2; 20, 0,4).
На рис. 3.9 изображены три графика биномиальных распределений (обратите
внимание на то, что каждая комбинация p и n даст свое распределение).

0.2
p = 0.5 and
и n = 20
0.18 p = 0.7 and
и n = 20
p = 0.5 and
и n = 40
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 5 10 15 20 25 30 35
Рис. 3.9. Три биномиальных распределения
С увеличением n при постоянном значении p биномиальное распределение все
больше напоминает нормальное распределение. Из практического опыта следует,
что если и np, и n(1 – p) равны или больше 5, то биномиальное распределение
Распределения вероятностей 75

может быть хорошо описано нормальным распределением. На рис. 3.9 распре-


деление (p = 0.5, n = 40), согласно этому правилу, может считаться нормальным,
поскольку
np = 40(0,5) = 20 n(1 – p) = 40(1 – 0,5) = 20.
Тем не менее распределение с p = 0,1 и n = 40 не может быть аппроксимировано
при помощи нормального распределения, поскольку
np = 40(0,1) = 4.
Сложные вычисления на основе биномиальных распределений обычно выпол-
няются при помощи компьютерных программ, но мы рассмотрим, как работает
эта формула, на простом примере. Представьте, что мы подбрасываем правильную
монету пять раз; какова вероятность того, что у нас выпадет ровно один орел? Мы
обозначим выпадение орла как «успех» и используем формулу биномиального
распределения для решения этой задачи. В этом примере:
p = 0,5 (по определению правильной монеты орел и решка выпадают с рав-
ной вероятностью);
n = 5 (потому что мы проводим пять испытаний);
k = 1 (поскольку мы вычисляем вероятность ровно одного успеха).
Вероятность ровно одного успеха в пяти испытаниях, при условии что вероят-
ность успеха в каждом испытании равна 0,5, вычислена на рис. 3.10.

Рис. 3.10. Вычисление b(1;5;0,5)


На рис. 3.11 показано, как вычислить сочетание.

Рис. 3.11. Вычисление 5C1


А на рис. 3.12 приведено все вычисление целиком.

Рис. 3.12. Подробное вычисление b(1;5;0,5)


Мы также можем получить этот результат, используя биномиальную таблицу
на рис. D.8, приложение D.
76 Глава 3. Статистический вывод

Независимые и зависимые
переменные
Существует много способов классифицировать переменные: один из наиболее
распространенных – разделить их по роли, которую они играют в планировании
исследования или анализе данных. В рамках этого подхода простой способ – это
описывать переменные как зависимые, если они представляют собой результат
исследования, и независимые, если предполагается, что они влияют на значение
зависимой переменной (зависимых переменных). Во многих исследованиях есть
третья категория переменных, контролируемые в исследовании управляющие пе-
ременные (control variables), которые могут влиять на зависимую переменную, но
не представляют особенного интереса.
Учтите, что ярлыки «независимая», «зависимая» и «управляющая» соответст-
вуют ролям переменных в данном исследовании. Это значит, что данная перемен-
ная (например, вес) может быть независимой в одном исследовании, зависимой
в другом и управляющей в третьем. В дополнение к этому для описания зависи-
мых и независимых переменных некоторые авторы используют другие названия,
предпочитая зарезервировать специальные названия для определенных типов
исследований. Управляющие переменные вызывают особенные затруднения, по-
скольку выделено много их типов в зависимости от их отношения к исследуемым
независимым и зависимым переменным, а также плана исследования. Управляю-
щие переменные обсуждаются далее в главе 18, однако это обсуждение будет сфо-
кусировано на независимых и зависимых переменных.
Мы проиллюстрируем идею независимых и зависимых переменных на примере
регрессионного уравнения. Это лишь краткое введение в тему, регрессия подробно
обсуждается в главах 8, 10 и 11.
В стандартной линейной модели, такой как регрессионное уравнение, основан-
ное на методе наименьших квадратов (МНК), результирующая или зависимая
переменная обычно обозначается буквой Y, тогда как независимые переменные
обозначаются как X. Индексы обозначают отдельные переменные: X1, X2 и так да-
лее. (МНК – наиболее распространенный тип регрессии; если не указано иначе,
в этой книге «регрессионное уравнение» обозначает «регрессионное уравнение
МНК».)
Это должно стать ясным из принятой формы записи регрессионного уравнения,
показанной на рис. 3.13.

Рис. 3.13. Регрессионное уравнение


Буква e в этом уравнении обозначает «ошибку» и отражает тот факт, что мы
не предполагаем, что какое-либо регрессионное уравнение позволит предсказать
значения Y с абсолютной точностью; напротив, мы ожидаем, что всегда будет на-
личествовать некая ошибка предсказания. Обратите внимание на то, что перед
Генеральные совокупности и выборки 77

каждым X в уравнении стоит β, которую называют регрессионным коэффициентом:


β1 – это регрессионный коэффициент для X1, β2 – это регрессионный коэффициент
для X2 и так далее. Значения этих регрессионных коэффициентов определяются
при помощи математических вычислений, которые позволяют получить лучшее
уравнение из всех возможных для предсказания значений Y по значениям пере-
менных X на основе имеющегося набора данных.
Из-за принятой системы обозначений зависимую переменную также называют
«Y-переменной», а независимые – «X-переменными». К другим терминам, исполь-
зуемым для обозначения зависимой переменной, относятся результирующая пе-
ременная, переменная-отклик и объясненная переменная. Независимые перемен-
ные также называют регрессоры, предсказывающие или объясняющие переменные.
Некоторые исследователи считают, что термины «независимый» и «зависимый»
следует использовать только в эксперименте (например, при рандомизированном
исследовании эффективности лекарств с контролем). При такой интерпретации
термины «независимый» и «зависимый» подразумевают причинно-следственную
связь, то есть значение зависимой переменной зависит, по крайней мере частично,
от значений независимой переменной, факт, который сложно, если не вовсе невоз-
можно, установить при наблюдении. (Различие между экспериментом и наблюде-
нием подробно обсуждается в главе 18.) В этой книге данное правило не выпол-
няется, поскольку вопросы причинно-следственной связи гораздо более сложны,
по сравнению с разделением исследований на эксперимент и наблюдение; таким
образом, мы будем использовать термин «независимая переменная» для обозначе-
ния переменных, которые отображают результат исследования, и «зависимая пе-
ременная» для переменных, которые, согласно ожиданиям, влияют на результат.

Генеральные совокупности
и выборки
Концепция генеральных совокупностей и выборок, обсуждаемая также в главе 4,
является ключевой для понимания статистического вывода. Определить, что яв-
ляется генеральной совокупностью, и выбрать подходящий метод получения вы-
борки может быть довольно сложным (на самом деле многие статистики с докторс-
кими степенями специализируются на данном типе работы) и требует большего
внимания, чем может быть уделено этому вопросу здесь. Вместо этого мы обсудим
базовые понятия и концепции, а читателю, которому нужна дополнительная ин-
формация по данной тематике, следует обратиться к специализированным учеб-
ным пособиям (некоторые из них перечислены в приложении C) или пройти уг-
лубленный курс теории получения выборок.
Интересующая нас генеральная совокупность (называемая часто просто «гене-
ральная совокупность») состоит из всех людей или других объектов (например,
атлантических лососей или частей самолетов), которые исследователи хотели бы
изучить, если бы обладали бесконечными ресурсами. Если посмотреть на это с
другой стороны, то генеральная совокупность – это все множество объектов, на
78 Глава 3. Статистический вывод

которое исследователи хотели бы распространить свой результат. Это могут быть,


например, все, кто жил в США в 2007 году, или мужчины возрастом 65–75 лет,
у которых диагностирована застойная сердечная недостаточность.

Выборки и переписи
Почти все статистические исследования основываются на выборках из генеральной
совокупности, а не на самой генеральной совокупности. Из этого правила существу-
ют немногочисленные исключения. Результат периодического сбора данных обо всей
генеральной совокупности называется переписью. Во многих странах государствен-
ные организации проводят перепись населения. Например, в США перепись населе-
ния проводится раз в десять лет и служит разным целям, включая распределение мест
в палате представителей (нижней палате конгресса). Хотя предполагается, что в ходе
переписи собирают информацию о каждом гражданине, на практике это редко дости-
жимо. Некоторые люди не участвуют в переписи, а иных опрашивают дважды. Поэтому
некоторые статистики считают, что параметры генеральной совокупности будет акку-
ратнее оценивать на основании хорошо составленной выборки, а не переписи, или же
что данные переписи должны быть дополнены результатами изучения выборок. Легко
читаемое обсуждение этих вопросов и хороший перечень источников более подробной
информации содержится в статье Иварса Петерсона (Ivars Peterson), ссылка на которую
приведена в приложении C.

Детерминированные выборки
Существует множество способов составления выборки. К сожалению, некоторые
из самых удобных способов основаны на детерминированном отборе объектов,
что делает их уязвимыми для возникновения выборочного смещения. Это значит,
что существует высокая вероятность того, что выборка, составленная при помощи
детерминированного отбора объектов, будет нерепрезентативной, так что сделан-
ные на основе этой выборки выводы о генеральной совокупности будут сомни-
тельными. Методы детерминированного отбора объектов популярны, поскольку
с их помощью исследователь может избежать тягостного процесса составления ве-
роятностной выборки, однако за это удобство приходится платить. Возможность
распространения выводов, сделанных на основании такой выборки, на всю гене-
ральную совокупность (как правило, основная цель составления выборки) будет
ограниченной, поскольку репрезентативность выборки неочевидна.
Распространенный тип детерминированной выборки – это выборка из добро-
вольцев. Вот пример: ученый публикует в газете объявление о наборе испытуемых
и включает в исследование всех, кто пожелал принять в нем участие. Это удоб-
ный способ набрать испытуемых, но, к сожалению, те, кто сами вызвались принять
участие в исследовании, не могут представлять никакую генеральную совокуп-
ность. Использование выборки из добровольцев лучше оставить для такой ситуа-
ции, когда составить случайную выборку затруднительно, например для исследо-
вания тех, кто употребляет запрещенные наркотические вещества. Даже учитывая
ограниченную возможность генерализации, на такой выборке из добровольцев
можно получить полезную информацию, особенно на ранних этапах исследова-
Генеральные совокупности и выборки 79

ния. Например, можно использовать таких добровольцев для сбора информации


об использовании наркотических веществ в обществе. На основе подобной инфор-
мации впоследствии можно составить опросник для работы со случайной выбор-
кой людей. Тем не менее результаты, полученные для выборки из добровольцев,
будут иметь ограниченную применимость к генеральной совокупности.
Нерепрезентативные выборки – это еще один распространенный тип детер-
минированных выборок. Как и в случае выборок из добровольцев, нерепрезен-
тативные выборки можно использовать для сбора информации на ранних этапах
исследования, при этом полученные результаты некорректно распространять на
всю генеральную совокупность. Вот пример нерепрезентативной выборки: вы
собираете информацию о покупательских привычках людей определенного гео-
графического района, опрашивая 50 человек, которые делают покупки в торговых
пассажах (моллах). Проблема состоит в том, что эти 50 человек – не случайная
выборка людей из данного района, нет никаких оснований считать, что их ответы
будут отражать покупательские привычки всех жителей этого района. Однако вы
можете использовать результаты этого опроса для составления анкеты, которую
заполнят случайно выбранные жители данного района.
Выборка по группам (квотная, или пропорциональная, выборка) – это метод со-
ставления детерминированных выборок, при котором сборщик данных получает
инструкцию исследовать определенное число или долю объектов из каждой их
группы. Например, в описанном выше случае торгового пассажа исследователь
мог иметь задачу опросить 25 мужчин и 25 женщин или по меньшей мере 20 лю-
дей, не принадлежащих к европейской расе. Выборка по группам немного лучше
нерепрезентативной выборки, поскольку в данном случае есть гарантия того, что
будут представлены разные группы объектов. Например, без требований к квотам
выборка людей из торгового пассажа может быть представлена 45 женщинами и
пятью мужчинами, среди которых не будет ни одного неевропейца. Однако, по-
скольку выборка по группам – это детерминированный метод, вы по-прежнему не
узнаете, адекватно ли ее члены представляют генеральную совокупность. В вашей
пропорциональной выборке может быть равное число мужчин и женщин, но будет
ли оно равным для всех людей, которые делают покупки? Выборка по группам
также подвержена одному определенному типу ошибки выборок, риск которой
существует и для нерепрезентативных выборок. Сборщик данных может опраши-
вать людей, которые наиболее похожи на него (например, по возрасту) или кото-
рые выглядят наиболее дружелюбными или доступными, что сделает полученные
результаты еще менее применимыми ко всей генеральной совокупности.

Случайные выборки
При получении случайных выборок каждый объект генеральной совокупности
имеет заданную вероятность попадания в выборку. Случайные выборки, хотя тре-
буют больших усилий при создании, чем детерминированные, предпочтительнее
для использования, поскольку исследователь может обобщать полученные ре-
зультаты на всю генеральную совокупность.
80 Глава 3. Статистический вывод

Получение случайной выборки из генеральной совокупности требует наличия


некоторого полного описания ее структуры (списка объектов генеральной сово-
купности). В некоторых случаях это полное описание структуры выборки очевид-
но. Например, если генеральная совокупность – это ученики какой-то школы, то
описание структуры выборки – это список всех учащихся. В других случаях тако-
го хорошего описания структуры выборки не существует. Например, телефонная
книга или список номеров может быть использована для опросов, проводящихся
по телефону. Проблема в данном случае заключается в том, что люди, не имеющие
дома телефона, не будут включены в полученную таким способом выборку, хотя
они и могут входить в интересующую нас генеральную совокупность. В ходе ана-
лиза данных можно использовать статистическое взвешивание и другие процеду-
ры, чтобы сделать полученные на основе выборки результаты более применимыми
ко всей генеральной совокупности.
Основной тип получения случайных выборок – это простое случайное извле-
чение (ПСВ). В этом случае все выборки заданного размера имеют одинаковый
шанс быть извлечены. Предположим, вы хотите составить случайную выборку из
50 учеников определенной школы. Вы берете список всех учащихся и случайно
выбираете 50 человек, пользуясь таблицей или генератором случайных чисел.
Поскольку в списке указаны все представители генеральной совокупности и вы-
бор людей, включаемых в выборку, совершенно случаен, шансы попасть в выбор-
ку одинаковы как для каждого ученика, так и для каждой подгруппы учеников
(в данном примере любая подгруппа размером в 50 испытуемых имеет равную
вероятность быть отобранной для исследования).
В большинстве случаев ПСВ обладают наилучшими статистическими свойст-
вами из всех способов извлечения выборок, включая наименьшие доверительные
интервалы для оценок параметров, и могут быть проанализированы при помощи
простейших методов. Однако в некоторых случаях использовать ПСВ может быть
невозможно или запредельно дорого. Поэтому для таких ситуаций были разрабо-
таны иные методы создания вероятностных выборок.
Систематическое извлечение выборки сходно с ПСВ. Для систематического из-
влечения выборки нужно переписать или перенумеровать все объекты генераль-
ной совокупности. Вы определяете желаемый размер выборки, а затем рассчиты-
ваете число n, которое определяет алгоритм составления выборки. Вычисление n
происходит путем деления числа объектов в генеральной совокупности на объем
выборки. Предположим, ваша генеральная совокупность состоит из 500 объек-
тов, а вы хотите создать выборку из 25 объектов; в этом случае n = 20, поскольку
500/25 = 20.
Затем вы выбираете случайное начальное значение, которое лежит в диапазоне
от 1 до n, и включаете в выборку объект из генеральной совокупности, который
имеет такой номер, и каждый следующий n-й объект. Предположим, что вы хоти-
те создать случайную выборку из 100 объектов для генеральной совокупности из
1000 объектов. Шаги по созданию систематической выборки будут следующими:
1. Взять n = 10, поскольку 1000/100 = 10.
Генеральные совокупности и выборки 81

2. Выбрать случайное число в диапазоне от 1 до 10.


3. Выбрать объект с таким номером и каждый следующий десятый объект.
Если случайно выбранное число было равно 7, то выборка будет содержать объ-
екты под номерами 7, 17, 27 и так далее до 997.
Систематическое извлечение выборок особенно полезно, когда генеральная со-
вокупность увеличивается со временем, а изначально определенного списка объ-
ектов не существует. Предположим, например, что вы хотите исследовать людей,
которые будут вызваны в суд в наступающем году. В начале исследования вы не
знаете, кто это будет, так что вы оцениваете размер генеральной совокупности,
основываясь на числе людей, вызванных в суд в предыдущем году, определяетесь
с размером выборки и вычисляете n, как это было описано выше. Затем вы веде-
те нумерованный список вызываемых в суд людей, выбрав случайное начальное
число, и исследуете человека, попавшего в ваш список под случайным номером, и
каждого n-го после него. Если у вас n = 14, а случайное стартовое число – 10, вы
обследуете десятого человека, 24-го, 38-го и так далее, пока не наберете нужный
размер выборки.
При использовании систематической выборки нужно соблюдать одну предо-
сторожность: вы должны убедиться в том, что данные не изменяются периоди-
чески так, что это сопряжено с вашим случайным начальным числом и значени-
ем n. Например, если определенные часы или дни работы суда зарезервированы
для рассмотрения дел определенного типа и ваша комбинация начального числа
и параметра n приводит к тому, что люди, рассмотрение дел которых назначено на
этот период, не могут попасть в вашу выборку, она не будет случайной выборкой
из всех людей, которые вызваны в суд.
Существует много типов извлечения сложных случайных выборок – общее на-
звание для методов составления вероятностных выборок с дополнительными
уровнями сложности, по сравнению со ПСВ. В расслоенных (стратифицирован-
ных) выборках интересующая нас генеральная совокупность разделена на непе-
ресекающиеся группы, или слои, на основании общих характеристик. Для людей
такими характеристиками могут служить пол или возраст; для городов это может
быть численность населения или тип управления; для больниц – тип руководст-
ва или число коек. Если сравнение групп или оценка характеристик каждой из
групп – основная задача исследования, расслоенные выборки – это удачный вы-
бор, поскольку выбор объектов можно организовать так, чтобы каждая интересую-
щая нас группа была адекватно представлена. Например, ПСВ может не включать
в себя достаточного числа пожилых людей для оценки их характеристик или для
сравнения с людьми среднего возраста. Расслоенная выборка, напротив, может
быть создана таким образом, чтобы чаще выбирать пожилых людей, а затем при
обработке данных можно провести коррекцию на такое смещение частоты.
Гнездовые (серийные, кластерные) выборки извлекаются с использованием уже
имеющихся естественных группировок в генеральной совокупности. Этот подход
часто используется в региональных исследованиях, которые требуют личных со-
беседований или отбора биологических проб (например, крови), поскольку посы-
82 Глава 3. Статистический вывод

лать исследователей для работы с одним человеком из городка Рукерсвиль (штат


Вирджиния), одним человеком из города Чадрон (штат Небраска), одним – из
Бэрроу (Аляска) и так далее было бы непозволительно дорого. Более экономно
было бы разработать план создания выборки, который бы имел несколько уровней
случайного отбора людей. На уровне страны нужно случайно выбрать несколько
регионов, затем – случайно выбрать штаты в каждом регионе, города – в каждом
штате и так далее вплоть до отдельных домов и людей в этих домах. Гнездовые
выборки дают меньшую точность, поскольку объекты из одной группы (например,
дома в одном городе или города в одном штате) обычно более сходны между собой,
чем объекты, выбранные при ПСВ. Эта потеря точности обычно в достаточной
степени компенсируется большим объемом выборки, которую можно обследо-
вать, благодаря снижению расходов.
Метод гнездовых выборок может сочетаться с методом выборок, пропорцио-
нальных численности. Например, вы можете захотеть извлечь выборку изо всех
учеников начальной школы. Не существует списка всех учеников начальной шко-
лы в масштабах всей страны (по крайней мере, для США), но вы можете соста-
вить перечень всех начальных школ, а у каждой школы будет список ее учеников.
Так что вы сможете случайно выбрать школы (возможно, в несколько стадий).
Поскольку в разных школах число учеников неодинаково, вам может захотеться
учесть это обстоятельство при составлении выборки, так чтобы число учеников из
маленьких школ не было бы непропорционально большим (поскольку маленьких
школ больше). Затем вы выберете разное число учеников для каждой выбранной
школы, основываясь на общем числе ее учащихся. Это значит, что вы выберете
вдвое больше детей из школы с 400 учениками, по сравнению со школой, в ко-
торой учится всего 200 человек. При таком подходе полученная выборка будет
содержать сопоставимое число учащихся из больших и маленьких школ.

Теорема центрального предела


Теорема центрального предела гласит, что распределение значений выборочных
средних близко к нормальному вне зависимости от распределения значений ге-
неральной совокупности при условии, что выборки достаточно велики. Этот факт
позволяет нам делать статистические заключения, основанные на свойствах нор-
мального распределения, даже если выборка происходит из популяции, распреде-
ление значений в которой отлично от нормального.
Для выборочного среднего теорему о центральном пределе можно сформулиро-
вать следующим образом:
Пусть X1, … Xn – это случайная выборка из некоторой генеральной совокуп-
ности со средним арифметическим μ и дисперсией σ2, тогда для достаточно
больших n
,

даже если распределение значений в генеральной совокупности отлично от


нормального.
Теорема центрального предела 83

Символ ~̇ значит, что «распределение близко к», а формулу можно про-


честь как «распределение средних значений X близко к нормальному со
средним арифметическим μ и дисперсией σ2/n»1.
В применимости теоремы о центральном пределе на практике можно убедиться
при помощи компьютерного моделирования, при котором многократно создаются
выборки заданного размера из генеральной совокупности с отличным от нормаль-
ного распределения значений. На рис. 3.14 изображено распределение значений
генеральной совокупности из случайно сгенерированных значений, равномерно
распределенных в диапазоне от 0 до 100.

20

15

10

0
0.00 20.00 40.00 60.00 80.00 100.00

Рис. 3.14. Гистограмма для генеральной совокупности с равномерно


распределенными значениями (N = 100) в диапазоне от 0 до 100
Распределение данных, показанное на рис. 3.14, определенно отличается от
нормального. Однако теорема о центральном пределе гласит, что если выборки
достаточного размера получены из генеральной совокупности с отличным от
нормального распределением значений, средние арифметические этих выборок
распределены близко к нормальному. Обратите внимание, что в теореме ничего
не сказано про то, какой размер выборок нужно считать достаточным. Ученые
используют эмпирические правила, такие как распространенное правило, что
выборка должна включать не менее 30 объектов, однако тут нет абсолютных за-
конов, применимых во всех случаях. Для выборок из генеральной совокупности
с близким к нормальному распределением значений распределение выборочных
средних будет близким к нормальному всего при 10 или 15 объектах в выборке,
тогда как для генеральной совокупности с очень асимметричным распределением
требуется выборка размером 40 объектов и более.
1
Rosner, Bernard. 2000. Fundamentals of Biostatistics, 5th ed.; Brooks/Cole, Pacific Grove, CA, 174.
84 Глава 3. Статистический вывод

Выражение «распределение выборочных средних» труднопроизносимо, но его


значение очевидно. Мы уже рассматривали два типа теоретических распределе-
ний (нормальное и биномиальное), хотя ясно, что случайно взятые переменные
тоже имеют какое-то распределение. В данном случае нас интересует распреде-
ление средних значений, рассчитанных для выборок определенного размера, ко-
торые происходят из данной генеральной совокупности. Если мы многократно
будем получать выборки определенного размера, рассчитывать среднее для каж-
дой из них и графически изображать частоту значений этих средних, результатом
будет распределение выборочных средних. Мы ожидаем, что выборки будут не-
много различаться между собой и, таким образом, иметь разные средние значения,
распределенные некоторым образом. Можно предсказать, как именно будут рас-
пределены эти выборочные средние, основываясь на таких факторах, как распре-
деление значений генеральной совокупности и размер выборки.
Влияние размера выборки на распределение выборочных средних можно об-
наружить, сравнивая рис. 3.15 и 3.16. На рис. 3.15 представлено распределение
выборочных средних для 100 выборок, состоящих из двух объектов каждая, из
генеральной совокупности, распределение значений которой представлено на
рис. 3.14. На рис. 3.16 представлено распределение выборочных средних для 100
выборок объемом 25 объектов, происходящих из того же распределения. Распре-
деление, показанное на рис. 3.15, по-прежнему похоже на равномерное. Это пока-
зывает, что размер выборки, равный двум, недостаточен для применения теоремы
о центральном пределе для данной генеральной совокупности.

20

15

10

0
0.00 20.00 40.00 60.00 80.00 100.00

Рис. 3.15. Распределение средних значений для 100 выборок размером n = 2


из генеральной совокупности с равномерно распределенными значениями
Теорема центрального предела 85

На рис. 3.16 показано распределение средних значений для 100 выборок объ-
емом n = 25, происходящих из генеральной совокупности с равномерно распреде-
ленными значениями (рис. 3.14). Это распределение гораздо ближе к нормально-
му, так что размер выборки 25 оказался достаточным для применения теоремы о
центральном пределе для данной генеральной совокупности.

20

15

10

0
0.00 20.00 40.00 60.00 80.00 100.00

Рис. 3.16. Распределение средних значений для 100 выборок размером n = 25


из генеральной совокупности с равномерно распределенными значениями

На рис. 3.17–3.19 продемонстрирован тот же принцип для выборок из гене-


ральной совокупности с ассимметричным распределением значений. На рис. 3.17
показано сильно асимметричное распределение 100 значений генеральной сово-
купности.
Рисунки 3.18 и 3.19 показывают, как тип распределения средних значений для
выборок из этой генеральной совокупности изменяется в зависимости от разме-
ра выборок. На рис. 3.18 показано распределение выборочных средних для 100
выборок объемом n = 2, на рис. 3.19 показано аналогичное распределение для 100
выборок объемом n = 25. Так же как и для предыдущего примера с равномерно
распределенными значениями генеральной совокупности, размер выборок n = 2
недостаточен для применения теоремы о центральном пределе, а n = 25 кажется
достаточным.
86 Глава 3. Статистический вывод

20

15

10

0
-4.00 -2.00 0.00 2.00 4.00

Рис. 3.17. Асимметричное распределение значений генеральной


совокупности (N = 100)

20

15

10

0
-4.00 -2.00 0.00 2.00 4.00

Рис. 3.18. Распределение средних значений для 100 выборок размером n = 2


из генеральной совокупности с асимметрично распределенными значениями
Проверка гипотез 87

30

20

10

0
-4.00 -2.00 0.00 2.00 4.00

Рис. 3.19. Распределение средних значений для 100 выборок размером n = 25


из генеральной совокупности с асимметрично распределенными значениями

Проверка гипотез
Проверка гипотез составляет основу статистического вывода, поскольку позволя-
ет использовать статистические методы для решения повседневных задач. Про-
верка гипотез состоит из нескольких основных этапов:
1. Формулировка рабочей гипотезы, которая может быть проверена статис-
тическими методами.
2. Формальное описание нулевой и альтернативной гипотез.
3. Выбор подходящего статистического теста, сбор данных, проведение вы-
числений.
4. Выработка решения на основании полученных результатов.
Возьмем для примера оценку нового лекарства для снижения кровяного давле-
ния (борьбы с гипертонией). Производитель хочет доказать, что оно при прочих
равных условиях работает лучше, чем все аналогичные средства, так что рабочая
гипотеза может звучать как-нибудь вроде «Гипертоники, получающие новый пре-
парат X, продемонстрируют более существенное снижение кровяного давления,
по сравнению с гипертониками, которых лечат созданным ранее препаратом Y».
Если мы обозначим среднее снижение кровяного давления в группе пациентов,
получающих препарат X, как μ1, а в группе с препаратом Y – как μ2, то нулевую и
альтернативную гипотезы можно сформулировать следующим образом:
88 Глава 3. Статистический вывод

H0: μ1 ≤ μ2
HA: μ1 > μ2
H0 называется нулевой гипотезой. В данном примере нулевая гипотеза состоит
в том, что лекарство X неэффективнее лекарства Y, поскольку снижение кровяно-
го давления, достигнутое при помощи препарата X, меньше или равно снижению,
наблюдающемуся для препарата Y. HA, иногда обозначаемая как H1, называется аль-
тернативной гипотезой. В нашем примере альтернативная гипотеза заключается в
том, что препарат X более эффективен, чем обычное лечение, поскольку пациенты,
получающие препарат X, демонстрируют более выраженное снижение кровяного
давления, чем пациенты, получающие препарат Y. Обратите внимание на то, что
нулевая и альтернативная гипотезы должны быть взаимоисключающими (ни один
результат не может удовлетворять обоим условиям) и исчерпывающими (все воз-
можные результаты должны удовлетворять одному из двух условий).
В данном примере альтернативная гипотеза односторонняя: мы указываем, что
нулевая гипотеза будет отвергнута, если группа, получавшая препарат X, проде-
монстрирует более заметное снижение кровяного давления, по сравнению с груп-
пой, получавшей препарат Y. Мы также можем сформулировать двустороннюю
альтернативную гипотезу, если она будет более уместной для данного исследова-
ния. Например, если бы мы интересовались, различается ли кровяное давление
(не важно, в какую сторону) у пациентов, получавших препарат X и получавших
препарат Y, мы бы показали это при помощи двусторонней альтернативной гипо-
тезы:
H0: μ1 = μ2
HA: μ1 ≠ μ2
Двусторонние гипотезы более широко распространены в статистике, поскольку,
как правило, вы хотите обнаружить различия любой направленности.
После сбора данных и вычисления статистик можно принять одно из двух ре-
шений:
• отвергнуть нулевую гипотезу;
• не отвергнуть нулевую гипотезу.
Обратите внимание на то, что если мы не можем отвергнуть нулевую гипотезу,
это не значит, что мы доказали ее справедливость. Это значит только то, что наше
исследование не предоставило достаточных доказательств ее справедливости.
Отклонение нулевой гипотезы иногда называется «нахождением статистичес-
ки значимого результата», поскольку проводимый статистический анализ данных
должен продемонстрировать не только, например, различия в средних значениях
по группам, а то, что эти различия статистически значимы. Неформальное зна-
чение статистической значимости – это «скорее всего, наблюдающееся не случай-
но», а процесс определения того, значимы ли результаты, включает не только ста-
тистические расчеты, но и применение основанных на традициях правил, которые
могут различаться в зависимости от области исследований или других факторов.
Проверка гипотез 89

Процесс проверки статистических гипотез включает в себя выбор уровня зна-


чимости, или p-значения (тема, которая подробнее обсуждается позже), которое
определяет, в каком случае результаты, полученные для выборки, будут достаточ-
но убедительными, чтобы отвергнуть нулевую гипотезу. На практике p-значение
наиболее часто принимается равным 0,05. Почему именно это значение? Это в
некотором роде произвольно выбранное граничное значение, история которого
отсчитывается с начала XX века, когда статистические критерии рассчитыва-
лись вручную, а значимость результатов определяли путем сравнения статистик
с опубликованными таблицами. Использование p < 0,05 как критерия значимых
результатов критикуется (см. врезку «Противоречия, связанные с проверкой ста-
тистических гипотез»), однако этот критерий сохраняется во многих исследова-
тельских дисциплинах. Иногда используются другие пороговые p-значения, такие
как p < 0,01 или p < 0,001, однако еще никому не удавалось ввести в практику
использование большего порогового значения, такого как p < 0,1.
Статистический вывод – это мощное средство, которое позволяет формулиро-
вать вероятностные суждения о данных. Однако поскольку эти суждения вероят-
ностные, а не абсолютно верные, нельзя исключить возможность ошибки. Статис-
тики определили два типа ошибок, которые можно допустить при формировании
суждений при помощи предсказательной статистики, и установили уровни оши-
бок, которые обычно считаются допустимыми. Эти два типа ошибок представле-
ны в табл. 3.1.

Противоречия, связанные с проверкой


статистических гипотез
Несмотря на повсеместность проверки гипотез в современной статистике и канони-
ческое пороговое значение статистической достоверности α = 0,05, ничто из привычно-
го не остается неизменным. Один из основных критиков – это Якоб Коэн (Jacob Cohen),
аргументы которого приведены в том числе и в статье «Земля круглая (p < 0,05)»2. Су-
ществуют существенные критические замечания как по поводу проверки гипотез в об-
щем, так и по поводу порогового значения 0,05, но ни то, ни другое, похоже, не уйдет в
прошлое в ближайшее время. С одной стороны, нужно установить какой-то стандарт для
определения статистической значимости, чтобы минимизировать возможность трактов-
ки как значимых различий, которые были получены в результате ошибки выборки или
других случайных факторов. С другой стороны, в значении 0,05 нет ничего сакрального,
хотя иногда его воспринимают именно так. Более того, уровень значимости результатов,
полученных для выборки, подвержен влиянию многих факторов, включая размер выбор-
ки, и переоценка значения p приводит к игнорированию многих причин, по которым в
данном исследовании был или не был выявлен статистически значимый эффект. Для
статистиков очевидно, что если ваша выборка достаточно велика, даже незначительный
эффект будет статистически значимым. Отсюда следует, что статистические методы –
это мощные инструменты, но они не освобождают исследователей от необходимости
использования чувства здравого смысла.

2
The Earth is round (p < 0.05) // American Psychologist, December 1994, 997–1003.
90 Глава 3. Статистический вывод

Таблица 3.1. Статистические ошибки первого и второго рода


Для генеральной совокупности
верна H0 верна HA
Не смогли Верное решение: Ошибка II рода (β)
Решение, отвергнуть H0 H0 справедлива, и она
основанное не отвергнута
на анализе
выборки Отвергаем H0 Ошибка I рода (α) Верное решение: H0 ложна,
и она отвергнута

В двух ячейках этой таблицы приведены правильные решения: H0 верна и не


отвергается при исследовании или H0 ложна и отвергается. В двух других ячейках
представлены статистические ошибки I и II рода. Ошибка I рода, также известная
под обозначением α, соответствует ошибке, которую совершают, отвергая нулевую
гипотезу, в то время как она справедлива для генеральной совокупности. Ошибка
II рода, обозначаемая как β, совершается, когда не выполняющаяся для генераль-
ной совокупности нулевая гипотеза не отвергается в ходе исследования.
Я составила эту таблицу, чтобы сравнить ситуацию во всей генеральной сово-
купности (которая, как правило, неизвестна исследователю) с тем суждением о
генеральной совокупности, которое формируется на основании анализа выборки.
Другой способ понять ситуацию – это рассмотреть суд, в котором нулевая гипоте-
за состоит в невиновности подсудимого. В ситуации суда есть реальное положение
дел (совершил подсудимый преступление или нет) и есть решение судей, основан-
ное на предоставленной им информации (виновен подсудимый или нет). Судья
не может знать реальное положение дел в большей степени, чем статистик знает
характеристики генеральной совокупности, так что он может принять правильное
решение, а может совершить ошибку I или II рода. Если судья посчитает невин-
ного человека виновным, это будет соответствовать ошибке I рода (отвергнуть
нулевую гипотезу о невиновности, когда она справедлива), а если судья объявит
преступника невиновным, он совершит ошибку II рода (не сможет отвергнуть ну-
левую гипотезу о невиновности, когда она не справедлива).
Как уже указывалось выше, пороговое значение ошибки I рода принято счи-
тать равным 0,05. Это значит, что мы миримся с 5%-ной вероятностью совершения
ошибки I типа. Иначе говоря, мы понимаем, что, принимая 0,05 за пороговое зна-
чение статистической ошибки I рода, мы имеем 5%-ную вероятность отвергнуть
нулевую гипотезу, когда нам следовало принять ее.
Ошибка II рода пользовалась меньшим вниманием в теории статистики, по-
скольку исторически игнорирование реальной закономерности (ошибка II рода)
считалось менее серьезной ошибкой, чем нахождение несуществующей законо-
мерности (ошибка I рода). Принятые пороговые значения статистической ошибки
II рода равны 0,1 или 0,2. Если β = 0,1, это значит, что у нас есть 10%-ная вероят-
ность совершить ошибку II рода, то есть 10% вероятности того, что нулевая гипо-
теза будет ложной, но мы не сможем отвергнуть ее в своем исследовании.
Величина, обратная вероятности статистической ошибки II рода, называется
мощность и рассчитывается как 1 – β. В последние годы важности достижения
Доверительные интервалы 91

нужного уровня мощности придается большое значение. Исследователи и гранто-


датели стали заботиться о мощности и, таким образом, об ошибке II рода, отчасти
потому, что они не хотят вкладывать время, деньги и усилия в исследование до
тех пор, пока не будет обеспечена достаточная вероятность обнаружения сущест-
вующих закономерностей. Расчет мощности играет важную роль в планировании
исследований, в особенности при определении размера выборки, который необхо-
дим для достижения достаточной мощности; эти вопросы более подробно обсуж-
даются в главе 15.

Доверительные интервалы
Когда мы вычисляем одну статистику, такую как среднее, чтобы охарактеризовать
выборку, это называется точечной оценкой, поскольку полученное число соответст-
вует одной точке на числовой оси. Хотя выборочное среднее – это лучшая несме-
щенная оценка среднего значения для генеральной совокупности, мы знаем, что
если взять другую выборку, полученное для нее среднее, скорее всего, будет дру-
гим. Конечно, мы не можем ожидать, что все выборки из одной генеральной сово-
купности будут иметь одно и то же среднее значение. Есть смысл задаться вопро-
сом, насколько точечная оценка варьирует в силу случайных причин, поэтому во
многих областях науки принято приводить и точечные, и интервальные оценки.
В отличие от точечной оценки, которая представлена одним числом, интерваль-
ная оценка – это числовой диапазон.
Один из распространенных типов интервальной оценки – это доверитель-
ный интервал (интервал между двумя значениями, которые представляют собой
верхнюю и нижнюю доверительные границы данной статистики). Формула, при
помощи которой рассчитывается доверительный интервал, зависит от типа ис-
пользуемой статистики и будет рассмотрена в соответствующих главах. Задача
этого раздела – ввести понятие доверительного интервала. Он рассчитывается
с использованием заранее установленного уровня значимости, часто называемо-
го α (греческая буква «альфа»), которая наиболее часто принимается за 0,05, как
это обсуждалось ранее. Доверительный уровень рассчитывается как 1 – α или, в
процентном виде, 100(1 – α)%. Таким образом, при α = 0,05 доверительный уро-
вень составляет 0,95, или 95%, и в научных журналах обычно требуется указывать
95%-ный доверительный интервал в дополнение к точечным оценкам статистик.
Идея доверительных интервалов состоит в том, что если повторить исследова-
ние бесконечное число раз, каждый раз анализируя новую выборку из генеральной
совокупности и используя доверительные интервалы, рассчитанные для каждой
из этих выборок, доверительный интервал будет содержать истинное значение па-
раметра, которое нужно оценить в данном исследовании, x% раз (где x – это дове-
рительный уровень). Например, если интересующая нас статистика – это среднее
и мы используем 95%-ный доверительный интервал, после бесконечного числа
извлечений выборки и вычисления выборочного среднего в 95% случаев среднее
значение для генеральной совокупности будет находиться в пределах доверитель-
ного интервала.
92 Глава 3. Статистический вывод

Доверительный интервал содержит важную информацию об аккуратности то-


чечной оценки. К примеру, представьте, что у нас есть две выборки студентов, и в
обоих случаях среднее значение IQ (средний коэффициент умственного разви-
тия) составляет 100. Однако в одном случае 95%-ный доверительный интервал
составляет (95, 105), а в другом случае – (80, 120). Поскольку первый доверитель-
ный интервал намного уже второго, оценка среднего более точна в первом случае.
Кроме того, более широкий доверительный интервал для второй группы свиде-
тельствует о том, что изменчивость по IQ в этой группе выше (хотя для проверки
этой гипотезы потребуется дополнительный анализ данных).

Значения p
Очевидно, что при работе с предсказательной статистикой мы в целом пытаемся
оценить значение того, чего не можем измерить напрямую. Например, мы не мо-
жем обследовать каждого гипертоника на планете, но мы можем собрать данные
о выборке людей с повышенным давлением и сделать выводы на основании этой
выборки. Мы знаем, что при таком подходе всегда существует некоторая вероят-
ность ошибки, включая вероятность того, что значимые результаты будут получе-
ны из-за влияния случайных причин, таких как ошибки извлечения выборки, а не
из-за факторов, представляющих интерес для исследования.
Значение p характеризует вероятность того, что результаты, по крайней мере
настолько же выбивающиеся из общей массы, как которые получены при анализе
выборки, случайны. Слова «по крайней мере настолько же выбивающиеся из об-
щей массы» включены в определение потому, что многие статистические тесты ос-
нованы на сравнении статистики с некоторым теоретическим распределением, и
часто (как в случае нормального распределения) значения, расположенные ближе
к центру распределения, встречаются чаще значений, расположенных дальше от
центра (выбивающихся из общего ряда). Даже если распределение асимметрич-
но (как, например, распределение хи-квадрат), сильно отличающие от среднего
значения обычно реже встречаются, так что принцип определения вероятности
результатов, по крайней мере настолько же выбивающихся из общей массы, как
полученные в ходе исследования, остается полезным.
Рассмотрение простого примера может прояснить ситуацию. Представьте, что
мы проводим эксперимент по подбрасыванию «правильной» монеты, то есть та-
кой монеты, у которой выпадение орла и решки равновероятно при каждом брос-
ке. Формально мы можем записать это в таком виде:
P(орел) = P(решка) = 0,5.
Каждый бросок монетки можно назвать испытанием. Поскольку вероятность
выпадения орла при каждом броске равна 0,5, самая надежная оценка числа орлов,
выпавших при 10 испытаниях, – это 5, хотя мы знаем, что в каждом отдельном
случае при 10 бросках может выпасть разное число орлов. Представим, что мы
подбросили монетку 10 раз и 8 раз выпал орел. Мы хотим вычислить значение p
для этого результата, то есть насколько ожидаемо то, что монетка с вероятностью
Z-статистика 93

выпадения орла при каждом отдельном испытании 0,5 8 раз упадет орлом вверх
в 10 испытаниях.
При помощи таблицы биномиального распределения, компьютерной програм-
мы или формулы бинома Ньютона мы выясним, что вероятность данного резуль-
тата (8 орлов при 10 испытаниях) равна 0,0439, означая, что меньше чем в 5%
случаев при 10 подбрасываниях «правильной» монеты выпадут точно 8 орлов. Ве-
роятность выпадения 9 орлов при 10 испытаниях равна 0,0098, а 10 орлов – 0,001.
Отсюда видно, что чем сильнее результат отличается от ожидаемого (5 орлов при
10 испытаниях), тем менее он вероятен.
Если мы оцениваем вероятность того, что монета «правильная», далекие от на-
ших ожиданий (5 орлов при 10 испытаниях) результаты дают нам веские основа-
ния считать ее неправильной. При решении задач такого типа мы обычно вычис-
ляем вероятность не просто полученного результата, но результатов, которые по
меньшей мере настолько же выбиваются из общей массы. В этом случае вероят-
ность выпадения 8, 9 или 10 орлов при 10 подбрасываниях монетки составляет
0,0439 + 0,0098 + 0,0010, или 0,0547. Это значение p для выпадения по меньшей
мере 8 орлов при 10 подбрасываниях монетки, для которой вероятность выпадения
орла при каждом броске составляет 0,5.
Значения p обычно приводятся в качестве результатов исследований, в которых
задействованы статистические вычисления, отчасти потому, что интуиция – это
плохой индикатор необычности результатов. Например, многие люди могут ду-
мать, что выпадение 8 или более орлов при 10 бросках правильной монеты не-
обычно. Статистическое определение «необычного» отсутствует, поэтому мы
будем использовать общепринятый стандарт о том, что значение p для наших ре-
зультатов должно быть меньше 0,05, для того чтобы мы отвергли нулевую гипоте-
зу (которая в нашем случае состоит в том, что монета – «правильная»). В данном
примере, что немного удивительно, этот стандарт не выполняется. Значение p для
нашего результата (8 орлов при 10 испытаниях) не позволяет отвергнуть нулевую
гипотезу о том, что монета «правильная», то есть P(орел) = 0,5, поскольку 0,0547
больше 0,05.

Z-статистика
Z-статистика аналогична Z-значению, которое обсуждалось ранее, за одним важ-
ным исключением: вместо того чтобы оценивать вероятность определенного зна-
чения, теперь мы интересуемся вероятностью определенного среднего значения
для выборки. Z-статистика – это важный пример применения теоремы централь-
ного предела, которая позволяет вычислить вероятность результата, полученного
для выборки, при помощи нормального распределения, даже если распределение
значений генеральной совокупности, из которой происходит выборка, нам неиз-
вестно.
Формула для вычисления Z-статистики (рис. 3.20) сходна с формулой для рас-
чета Z-значения (рис. 3.3).
94 Глава 3. Статистический вывод

Рис. 3.20. Формула для вычисления Z-статистики


В этой формуле:
x – это среднее значение для нашей выборки;
μ – среднее значение для генеральной совокупности;
σ – стандартное отклонение для генеральной совокупности;
n – размер выборки.
Существенное различие между формулами для расчета Z-значения и Z-статис-
тики – это числитель: в случае Z-значения мы делим на σ, а в случае Z-значения
мы делим на σ/n. Обратите внимание на то, что для вычисления Z-статистики
мы должны знать среднее значение и стандартное отклонение для генеральной
совокупности; если мы знаем только среднее, но не стандартное отклонение, мы
вместо этого можем вычислить t-статистику (обсуждается в главе 6). Вам может
помочь представление о Z-значении как о Z-статистике для выборки из одного
объекта, так что знаменатель будет равен σ/1, это то же самое, что и σ, в резуль-
тате мы получим знакомую формулу для вычисления Z-значения.
Знаменатель в формуле для вычисления Z-статистики называется стандарт-
ной ошибкой среднего, иногда сокращаемой как СОС3 или записываемой в виде
σx. Стандартная ошибка среднего – это стандартное отклонение распределения
значений выборочных средних. Поскольку знаменатель делится на √n, большие
выборки при прочих равных будут характеризоваться большими значениями
Z-статистики. Это станет ясным, если рассчитать Z-статистику для нескольких
выборок, которые различаются только размером. Предположим, мы создадим три
выборки из генеральной совокупности со средним значением, равным 50, и стан-
дартным отклонением, равным 10:
выборка 1: x = 52, n = 30;
выборка 2: x = 52, n = 60;
выборка 3: x = 52, n = 100.
Расчеты значений Z-статистики для каждой выборки приведены на рис. 3.21,
3.22, 3.23.

Рис. 3.21. Z-статистика для выборки (x = 52, n = 30) из генеральной


совокупности ~N(50, 10)

3
В русскоязычной литературе такое сокращение используется крайне редко, а английская аббревиа-
тура SEM (standard error of the mean) широко распространена. – Прим. пер.
Z-статистика 95

Рис. 3.22. Z-статистика для выборки (x = 52, n = 60) из генеральной


совокупности ~N(50, 10)

Рис. 3.23. Z-статистика для выборки (x = 52, n =100) из генеральной


совокупности ~N(50, 10)
Эти примеры ясно демонстрируют, что размер выборки существенно влияет на
результаты и что, при прочих равных условиях, большая выборка характеризуется
большим Z-значением. Эта тема гораздо более подробно разбирается в разделе,
посвященном размеру выборки и мощности, в главе 15, а здесь отметим лишь, что
такой результат интуитивно понятен. Z-статистика рассчитывается при делении
числителя на знаменатель, и большие размеры выборки (n) приводят к уменьше-
нию знаменателя и, следовательно, к увеличению модуля Z-значения (при усло-
вии, что числитель остается постоянным). Мы говорим про модуль, поскольку при
отрицательном числителе Z-значение будет меньшим при больших n (при прочих
равных условиях), хотя все равно более далеким от 0. Например, в данном при-
мере, если наше выборочное среднее будет равным 48, а не 52, Z-значения будут
равны –1,10, –1,55 и –2,00.
Предположим, мы проверяем двустороннюю гипотезу со значением альфа 0,05.
В этом случае нам также нужны p-значения для каждой выборки, которые состав-
ляют:
выборка 1: p = 0,2713;
выборка 2: p = 0,1211;
выборка 3: p = 0,0455.
Только третья выборка дает значимые результаты, то есть только для этой вы-
борки значение p меньше заданного уровня α = 0,05, что позволяет нам отвергнуть
нулевую гипотезу. Это подчеркивает важность достаточного объема выборки при
проведении исследования.
Вычислить значение p для заданного Z-значения можно несколькими способа-
ми: с использованием статистических программ, онлайн-калькуляторов (http://
graphpad.com/quickcalcs/PValue1.cfm) или вероятностных таблиц. Вероятност-
ные таблицы для нескольких наиболее распространенных типов распределения,
включая нормальное, приведены в приложении D вместе с инструкциями по их
использованию.
96 Глава 3. Статистический вывод

Преобразования данных
Многие из наиболее распространенных методов статистического анализа назы-
ваются параметрическими, это означает, что в их основе лежат определенные
допущения о распределении значений в генеральной совокупности, из которой
происходит выборка. Если данные в выборке свидетельствуют о том, что эти до-
пущения не выполняются, у исследователя есть в запасе несколько подходов к
анализу данных. Один – использование непараметрических методов, в основе
которых лежит меньше (или вообще никаких) допущений о типе распределения
данных. Непараметрические статистики обсуждаются в главе 13. Другая возмож-
ность – это преобразовать данные некоторым образом так, чтобы выполнялись до-
пущения, лежащие в основе нужного статистического метода. Существует много
способов преобразования данных, в зависимости от нужного типа распределения
данных и нарушенных допущений. Мы рассмотрим один случай преобразования
набора данных с целью приближения его распределения к нормальному, одна-
ко обсуждаемые нами общие принципы также применимы к другим задачам по
преобразованию данных. Дальнейшую информацию о преобразованиях данных
можно почерпнуть из более полного учебника, например написанного Mosteller и
Tukey (ссылка приведена в приложении C).
Первый шаг в преобразовании данных – это рассмотреть внимательно набор
данных и решить, какое преобразование подходит в данном случае и нужно ли
оно вообще. Для анализа данных с этой целью рекомендуются два подхода. Один
заключается в графическом изображении данных, например в виде гистограммы
с наложенной кривой нормального распределения. Это позволяет визуально оце-
нить распределение данных в общих чертах, а также предоставляет возможность
обнаружить выбросы (экстремальные или необычные значения). Понимание об-
щей формы распределения данных также помогает решить, какой тип преобразова-
ний можно попробовать применить. Второй подход – вычислить одну из статистик,
разработанных для проверки соответствия данных определенному распределению.
Обычно в этих целях используются две статистики – Андерсона–Дарлинга и Кол-
могорова–Смирнова. Алгоритмы вычисления этих статистик включены во многие
статистические пакеты, и различные статистические калькуляторы, доступные в
Интернете, также могут вычислять одну из них или обе. К примеру, статистичес-
кий калькулятор для проведения теста Колмогорова–Смирнова доступен по этому
адресу: http://jumk.de/statistic-calculator/.
Смещенное влево распределение данных (это значит, что низкие значения бо-
лее обычны и «хвост» из менее частых высоких значений «тянется» в правой части
гистограммы) может быть приближено к нормальному при помощи извлечения
квадратного корня или логарифмирования. В первом случае вычисляется квадрат-
ный корень каждого значения. Если исходное значение равно 4, преобразованное
значение равно 2, поскольку √4 = 2. При логарифмическом преобразовании вычис-
ляется натуральный логарифм каждого значения, так что если исходное значение
равно 4, то после преобразования оно равно 1,386, поскольку ln(4) = 1,386. Каждое
из этих преобразований может быть с легкостью осуществлено при помощи ста-
тистической программы, карманного калькулятора или электронной таблицы.
Преобразования данных 97

На рис. 3.24 представлено смещенное влево распределение данных. На рис. 3.25


показано распределение тех же данных после извлечения из них квадратного кор-
ня, а на рис. 3.26 показаны те же данные после логарифмирования (то есть на гисто-
грамме представлены натуральные логарифмы данных с рис. 3.24).
Визуальное сравнение этих трех диаграмм позволяет заключить, что распре-
деление на рис. 3.24 сильно смещено влево и не соответствует наложенной кри-
вой нормального распределения. Распределение на рис. 3.25 больше похоже на
нормальное, а на рис. 3.26 распределение стало из смещенного влево смещенным
вправо, так что оно тоже отличается от нормального.
Мы также можем провести статистические тесты, чтобы понять, привели ли
преобразования к приемлемому распределению данных. С этой целью мы рассчи-
таем одновыборочную статистику Колмогорова–Смирнова (К–С), чтобы оценить,
насколько хорошо каждый набор данных соответствует идеальному нормальному
распределению. Для расчетов использовали программу SPSS, хотя они могли быть
также проведены при помощи любой другой статистической программы. Результа-
ты для этих трех наборов данных приведены в табл. 3.2.
Таблица 3.2. Z-статистики Колмогорова–Смирнова и p-значения для трех наборов
данных
Исходные Извлечение Вычисление
данные квадратного корня натурального логарифма
Z-статистика
1.46 0.66 1.41
Колмогорова–Смирнова
p 0.029 0.78 0.04

25

20

15

10

0
0.00 1.00 2.00 3.00 4.00 5.00

Рис. 3.24. Гистограмма для данных со смещенным влево распределением


(исходные значения)
98 Глава 3. Статистический вывод

15

10

0
0.00 0.50 1.00 1.50 2.00 2.50

Рис. 3.25. Гистограмма для данных со смещенным влево распределением


после извлечения из них квадратного корня

20

15

10

0
-4.00 -2.00 0.00 2.00

Рис. 3.26. Гистограмма для данных со смещенным влево распределением


после их логарифмирования
Нулевая гипотеза для одновыборочного К–С теста заключается в том, что
распределение данных соответствует заданному (в нашем случае нормальному).
Альтернативная гипотеза состоит в том, что распределение данных отличается от
заданного. Программа SPSS вычисляет и К–С-статистику (Z-значение К–С), и
Упражнения 99

p-значение для этой статистики, а мы будем придерживаться правила, при котором


нулевая гипотеза отвергается, если p < 0,05. Согласно результатам из табл. 3.2, мы
отвергаем нулевую гипотезу для исходных и логарифмированных данных, но нам
не удается ее отвергнуть для квадратного корня из данных. Таким образом, если
мы хотим использовать эти данные для методов, предназначенных для работы с
нормально распределенными данными, мы должны использовать преобразование
с извлечением квадратного корня.
Если значения переменной смещены вправо (то есть много высоких значений
с «хвостом» редких низких значений, «протянувшимся» влево), вы можете «зер-
кально отразить» данные, а затем извлечь из них квадратный корень или логариф-
мировать. Для «зеркального отражения» переменной прибавьте единицу к мак-
симальному значению в данных и вычтите каждое значение переменной из этого
нового числа. Например, если наибольшее значение равно 35, вычитайте каждое
значение из 36 (то есть 35 + 1), чтобы получить «отраженные» значения. Это зна-
чит, что исходное значение 1 превратится в 35, исходное значение 2 превратится
в 34 и так далее, вплоть до исходного значения 35, отраженное значение которого
равно 1 (36 – 35). Такое «отражение» превращает смещенное вправо распределе-
ние в смещенное влево, а затем можно извлечь квадратный корень из данных или
логарифмировать их и понять, приближают ли эти процедуры распределение дан-
ных к нормальному.
Преобразование данных – не гарантированное решение проблем с распределе-
нием; иногда преобразование только усиливает имеющуюся проблему или порож-
дает новую! По этой причине преобразованные данные нужно все время проверять
на нормальность, как мы делали перед этим, чтобы убедиться, что преобразование
привело данные к нужному распределению. Учтите также, что преобразование ме-
няет единицу измерения данных. Например, если вы логарифмировали значения
кровяного давления, единицей измерения стал логарифм единиц, в которых изме-
ряется кровяное давление. Если вы «зеркально отражаете» значения переменной,
они меняются местами (максимальное значение становится минимальным), так
что интерпретация любой статистики, основанной на этих значениях, тоже долж-
на быть «зеркально отраженной». По этим причинам действие любого преобразо-
вания данных нужно учитывать при донесении до окружающих и интерпретации
статистических результатов.

Упражнения
Задача
В каждом из приведенных наборов переменных какие, скорее всего, будут зави-
симыми, а какие – независимыми при проведении исследования?
1. Пол, потребление алкоголя, стиль вождения.
2. Средний балл в школе, средний балл на первом курсе университета, выбор
профильной дисциплины в университете (до зачисления), этническая при-
надлежность, пол.
100 Глава 3. Статистический вывод

3. Возраст, этническая принадлежность, отношение к курению, вероятность


рака легких.
4. Аккуратность выполнения задания по программированию, тип получен-
ных инструкций, время тренировки и уровень тревожности.
Решение
Учтите, что на эти вопросы есть более одного правильного ответа. Приведенные
ответы просто представляют собой наиболее распространенные схемы исследова-
ний.
1. Пол – это независимая переменная (ни потребление алкоголя, ни стиль
вождения на него не влияют). Потребление алкоголя – это, скорее всего,
независимая переменная, а стиль вождения – зависимая, так что исследо-
ваться будет влияние алкоголя и пола на стиль вождения. Хотя можно раз-
работать экспериментальную схему, в которой роли потребления алкоголя
и стиля вождения поменяются местами, возможно для проверки предпо-
ложения о том, что люди склонны уменьшить потребление алкоголя после
серьезной аварии.
2. Средний балл на первом курсе университета – это, скорее всего, зависимая
переменная. По хронологическим соображениям средний балл в школе бу-
дет независимой переменной (поскольку школа идет раньше университе-
та). Этническая принадлежность и пол – тоже независимые переменные,
поскольку это характеристики человека. По соображениям хронологии вы-
бор профильной дисциплины в университете – это независимая перемен-
ная, если средний балл первокурсника – переменная зависимая, поскольку
выбор профильной дисциплины осуществляется до поступления, а сред-
ний балл подсчитывается после окончания первого курса.
3. Вероятность рака легких – это, скорее всего, зависимая переменная, а воз-
раст, этническая принадлежность и стиль курения – независимые.
4. Аккуратность выполнения задания – это, скорее всего, зависимая перемен-
ная, а все остальные – независимые.

Задача
Почему теорема о центральном пределе чрезвычайно важна при использовании
предсказательной статистики?
Решение
Теорема центрального предела гласит, что распределение выборочных средних
приближается к нормальному вне зависимости от типа распределения значений
в генеральной совокупности, из которой происходят эти выборки, если их размер
достаточно велик. Это важно, поскольку при достаточном размере выборки мы
можем использовать нормальное распределение для расчета вероятности резуль-
татов, полученных для выборки, даже если нам неизвестно распределение значе-
ний в генеральной совокупности, из которой происходят выборки.
Упражнения 101

Задача
Какой тип извлечения выборки описан в каждом из приведенных ниже сцена-
риев?
1. Цель состоит в сборе информации по дефициту железа в пробах крови у
жителей США. Выборка извлекается из групп испытуемых, которые вы-
бирают из вложенных друг в друга территорий страны. Регионы выбирают
случайно, внутри них случайно выбирают штаты и так далее до отдельных
домов.
2. Цель состоит в том, чтобы выяснить, как ученики начальной школы отно-
сятся к недавно назначенному директору. Исследователь хочет проанали-
зировать равное число мальчиков и девочек, так что в школу прислан ин-
тервьюер с указанием опросить по 10 учеников каждого пола из тех, кого он
встретит на игровой площадке по завершении одного учебного дня.
3. Нужно узнать больше о семейной жизни офицеров полиции, работающих
в большом городе, включая то, как влияет на семейную жизнь занятость
супруги(а) офицера вне дома. Есть полный список всех мужчин и женщин,
которые служат офицерами в данном городе, и при помощи компьютера
извлекается случайная выборка из 200 человек, указанных в этом списке.
Эти люди затем опрашиваются по телефону.
4. Директор фабрики озадачен тем, что качество деталей, производимых в
разное время суток, может быть неодинаково (фабрика работает круглосу-
точно). План извлечения выборки заключается в отборе 30 деталей 9 раз в
течение рабочего дня, причем время отбора образцов определяется случай-
но в пределах каждой из трех частей суток. Для каждой части суток одна
выборка будет взята в первые два часа, одна – в следующие шесть часов, и
еще одна – в последние два часа.
Решение
1. Гнездовая выборка.
2. Выборка по группам (и нерепрезентативная).
3. Простая случайная выборка.
4. Расслоенная выборка.

Задача
У вас есть тест из 10 вопросов, в котором неправильные ответы не штрафуются.
Для каждого вопроса есть пять вариантов ответа, так что метод случайного выбора
дает 20%-ную вероятность правильного ответа на каждый вопрос. При условии
что вы просто угадываете правильный ответ, какова вероятность ровно трех пра-
вильных ответов?
Решение
На этот вопрос можно ответить при помощи биномиального распределения с
n = 10, k = 3 и p = 0,2, как показано на рис. 3.27.
102 Глава 3. Статистический вывод

Рис. 3.27. Вычисление b(3; 10, 0.2)


Получается, что вероятность получения ровно трех правильных ответов при за-
данных условиях составляет 0,2, или 20%.
Согласно рис. D.8 (вероятностная таблица для биномиального распределения
в приложении D), табличное значение вероятности составляет 0,20133, что при
округлении дает 0,20.
Задача
Какова вероятность правильного ответа на три или более вопроса при условиях,
описанных в предыдущей задаче?
Решение
На этот вопрос также можно ответить при помощи биномиального распределе-
ния n = 10, k = 3 и p = 0,2. Проще вычислить вероятность получения правильных
ответов не более чем на два вопроса, а затем вычесть эту вероятность из единицы,
так что мы используем именно этот подход. Мы можем поступить так, поскольку
вероятность всех возможных событий всегда равна 1, а «по меньшей мере три пра-
вильных ответа» и «не более чем два правильных ответа» вместе учитывают все
возможные события. Мы находим необходимые вероятности при помощи бинома
Ньютона:
P(k = 0) = 0,11
P(k = 1) = 0,27
P(k = 2) = 0,30
P(k ≥ 3) = 1 – P(k ≤ 2) = 1 – (0,11 + 0,27 + 0,30) = 0,32
Таким образом, вероятность получения трех и более правильных ответов при
заданных условиях составляет 0,32, или 32%.
Согласно рис. D.9 (кумулятивная вероятностная таблица для биномиального
распределения в приложении D), табличное значение вероятности для b(2; 10, 0,5)
составляет 0,67780; 1 – 0,67780 = 0,3222, что при округлении дает 0,32.
Задача
Вычислите Z-значения для следующих данных, учитывая, что они происходят
из нормального распределения с μ = 100 и σ = 2, и при помощи вероятностной таб-
лицы для стандартного нормального распределения (рис. D.3 в приложении D)
найдите вероятность значений не меньшего, чем каждое из заданных. Указания по
использованию вероятностных таблиц вместе с подробным решением каждой из
этих задач даны в приложении D.
a) 108;
b) 95;
c) 98.
Упражнения 103

Решение
a) Z = 4; P(Z ≥ 4,00) = 1 − (0,50000 + 0,49997) = 0,00003.

Рис. 3.28. Z-значение для числа 108 из генеральной совокупности ~N(100, 2)

b) Z = −2,5; P(Z ≥ −2,50) = 0,50000 + 0,49379 = 0,99379.

Рис. 3.29. Z-значение для числа 95 из генеральной совокупности ~N(100, 2)

c) Z = −1,0; P(Z ≥ −1,00) = 0,50000 + 0,34134 = 0,84134.

Рис. 3.30. Z-значение для числа 98 из генеральной совокупности ~N(100, 2)

Задача
Каким из приведенных ниже исходных значений свойственно наиболее экстре-
мальное (то есть сильнее отличающееся от 0 в положительную или отрицатель-
ную сторону) Z-значение?
a) Значение 190 из генеральной совокупности с μ = 180 и σ = 4;
b) Значение 175 из генеральной совокупности с μ = 200 и σ = 5.
Решение
Второе значение более экстремальное, поскольку –5,0 дальше отстоит от 0, чем
2,5 (рис. 3.31 и 3.32).

Рис. 3.31. Z-значение для числа 190 из генеральной совокупности ~N(180, 4)

Рис. 3.32. Z-значение для числа 175 из генеральной совокупности ~N(200, 5)

Задача
Вычислите Z-статистику для каждой из следующих выборок, которые проис-
ходят из генеральной совокупности со средним значением 40 и стандартным от-
клонением 5. Используйте вероятностную таблицу для стандартного нормального
104 Глава 3. Статистический вывод

распределения (рис. D.3 из приложения D) для нахождения вероятности значе-


ния, не превышающего заданное.
a) x = 42, n = 35
b) x = 42, n = 50
c) x = 39, n = 40
d) x = 39, n = 80
Решение
a) Z = 2,37; P(Z ≤ 2,37) = 0,50000 + 0,49111 = 0,99889.

Рис. 3.33. Z-статистика для выборки (x = 42, n = 35) из генеральной


совокупности ~N(40, 5)

b) Z = 2,83; P(Z ≤ 2,83) = 0,50000 + 0,49767 = 0,99767.

Рис. 3.34. Z-статистика для выборки (x = 42, n = 50) из генеральной


совокупности ~N(40, 5)

c) Z = −1,26; P(Z ≤ −1,26) = 1 − P(Z ≥ −1,26) = 1 − (0,50000 + 0,39617) =


= 0,10383.

Рис. 3.35. Z-статистика для выборки (x = 39, n = 40) из генеральной


совокупности ~N(40, 5)

d) Z = −1,79; P(Z ≤ −1,79) = 1 − P(Z ≥ −1,79) = 1 − (0,50000 + 0,46327) =


= 0,03673.

Рис. 3.36. Z-статистика для выборки (x = 39, n = 80) из генеральной


совокупности ~N(40, 5)
Упражнения 105

Задача
Вы – директор начальной школы. В рамках комплексного обследования одна
из ваших учениц получила в тесте на IQ (интеллект) 80 баллов. Вы знаете, что в
данной возрастной группе значения IQ имеют нормальное распределение с пара-
метрами μ = 100, σ = 15. Какая статистика поможет вам интерпретировать резуль-
тат этой ученицы?
Решение
Z-значение поместит результат ученика в контекст распределения значений IQ
других учеников этого возраста. Как показано на рис. 3.37, результат этой ученицы
находится на 1,33 стандартных отклонения ниже среднего значения для ее возраст-
ной группы. Хотя многие факторы могут влиять на показатель IQ (отсюда и необ-
ходимость в комплексном обследовании), значение IQ ниже среднего позволяет
предположить, что эта ученица будет испытывать больше трудностей в школе, чем
те, кто показал более высокие результаты в тесте на IQ.

Рис. 3.37. Z-значение для числа 80 из генеральной совокупности ~N(100, 15)


Используя вероятностную таблицу для стандартного нормального распределе-
ния (рис. D.3 из приложения D), вы можете увидеть, что только для около 9%
учеников (p = 0,09176) ожидаемый IQ не будет превышать указанного.
P(Z ≤ −1,33) = 1 – P(Z ≥ −1,33) = 1 – (0,50000 + 0,40824) = 0,09176.

Задача
Вы – исследователь-медик, изучающий эффект от вегетарианской диеты на уро-
вень холестерина. Предположим, что значения уровня холестерина в США у муж-
чин в возрасте 20–65 распределены нормально со средним значением 210 мг/де-
цилитр и стандартным отклонением 45 мг/децилитр. Вы исследовали выборку из
40 мужчин в данной возрастной группе, которые придерживались вегетарианской
диеты в течение по меньшей мере одного года, и отметили, что средний уровень
холестерина для них составляет 190 мг/децилитр. Какая статистика поможет по-
местить вам результат в общий контекст?
Решение
Вы вычисляете Z-статистику, которая позволяет поместить среднее значение
уровня холестерина для вашей вегетарианской выборки в общий контекст мужчин
в США данной возрастной группы. Как показано на рис. 3.38, среднее значение
уровня холестерина у вегетарианцев находится в 2,81 стандартного отклонения
ниже, чем среднее для всей генеральной совокупности мужчин данной возрастной
группы. Это свидетельствует о том, что растительная диета сопряжена с понижен-
ным уровнем холестерина. Так же как и в примере с IQ, на уровень холестерина
106 Глава 3. Статистический вывод

могут влиять многие факторы, и медицинское исследование этой темы должно


включать больше переменных. Это упрощенный пример для иллюстрации ис-
пользования Z-статистики.

Рис. 3.38. Z-статистика для выборки (x = 190, n = 40) из генеральной


совокупности ~N(210, 45)
Используя вероятностную таблицу для стандартного нормального распреде-
ления (рис. D.3 из приложения D), вы увидите, что вероятность получения ре-
зультата, который был бы по меньшей мере настолько экстремальным, согласно
двустороннему тесту, составляет 0,00496, так что если ваше значение α = 0,05, этот
результат достаточен для того, чтобы отвергнуть нулевую гипотезу (в данном слу-
чае о том, что растительная диета не влияет на уровень холестерина).
(Z ≤ −2,81) = 1 – P(Z ≥ −2,81) = 1 – (0,50000 + 0,49752) = 0,00248.
P(Z ≥ 2,81) = 0.00248 (поскольку Z-распределение симметрично).
P[(Z ≤ −2,81) OR (Z ≥ 2,81)] = 2 × (0,00248) = 0,00496.
ГЛАВА 4.
Описательная статистика
и графическое представление
данных

Большая часть этой книги, как и большинства книг о статистике, посвящена ста-
тистической проверке гипотез, то есть тому, как делать выводы о генеральной сово-
купности, используя статистику, рассчитанную по выборке из нее. Однако данная
глава посвящена другому виду статистики: описательной, то есть использованию
методов статистики и графических подходов для представления информации об
изучаемых данных. Практически все, кто связан с обработкой данных, использу-
ют оба вида статистики, и часто вычисление описательных статистик – это пред-
варительный этап перед итоговой стадией проверки гипотез. Особенно широко
практикуют анализ графического представления данных и расчет простейших
описательных статистик, чтобы лучше почувствовать анализируемые данные.
Всегда полезно узнать свои данные лучше, и почти всегда время, проведенное
за этим занятием, не тратится впустую. Описательная статистика и графическое
представление данных могут быть и окончательным результатом статистического
анализа. К примеру, в бизнесе может потребоваться следить за объемами продаж
в разных местах или для разных продавцов и представлять эти данные с помощью
графиков, без какого-либо применения этой информации для того, чтобы делать
выводы (например, о других местах или годах) с использованием собранных дан-
ных.

Генеральные совокупности и выборки


Одни и те же данные можно рассматривать или как генеральную совокупность,
или как выборку, в зависимости от целей их сбора и анализа. Например, итого-
вые оценки за экзамен для всех учеников класса – генеральная совокупность,
если перед нами стоит цель описать распределение оценок в этом классе, но
эти же оценки можно расматривать как выборку, если цель анализа состоит в
том, чтобы на основании этих оценок сделать вывод об оценках других учени-
108 Глава 4. Описательная статистика и графическое представление...

ков (возможно, в других классах или школах). Анализ генеральной совокупнос-


ти подразумевает, что ваш набор данных представляет все интересующие вас
объекты, так что вы можете напрямую судить о характеристиках этой группы.
В противоположность этому при анализе выборки вы работаете только с час-
тью генеральной совокупности, и любые утверждения, которые вы делаете об
этой большей группе на основании выборки, вероятностные, а не абсолютные.
(Обоснование статистики вывода приведено в главе 3.) По практическим сооб-
ражениям выборки анализируют чаще, чем генеральные совокупности, посколь-
ку изучить все члены генеральной совокупности напрямую бывает невозможно
или непозволительно дорого.
Различие между описательной статистикой и статистикой вывода принци-
пиально, и для проведения различий между ними был разработан набор услов-
ных обозначений и терминов. Хотя эти обозначения несколько различаются в
разных источниках, как правило, числа, которые характеризуют генеральную
совокупность, называют параметрами и обозначают греческими буквами, та-
кими как μ (для среднего) и σ (для стандартного отклонения); числа, которые
описывают выборку, называются статистиками и обозначаются латинскими
буквами, такими как x (выборочное среднее) и s (выборочное стандартное от-
клонение).

Меры центральной тенденции


Меры центральной тенденции, также известные как меры положения, обычно
одни из первых статистик, которые рассчитывают для непрерывных переменных
из только что полученных данных. Главная цель их расчета состоит в том, что-
бы дать представление о типичном или часто встречающемся значении в данной
переменной. Три самые часто применяемые меры центральной тенденции – это
среднее, медиана и мода.

Среднее
Среднее арифметическое, или просто среднее, – это то же самое, что в быту назы-
вают средним какого-то набора значений. Расчет среднего как меры центральной
тенденции подходит для интервальных или характеризующих отношения данных,
а среднее дихотомической переменной, закодированной как 0 и 1, дает долю случа-
ев, когда она принимает значение 1. Для непрерывных данных, к примеру резуль-
татов измерения роста или теста на IQ, среднее просто рассчитывают, сложив все
значения и разделив сумму на их число (объем выборки). Среднее генеральной
совокупности1 обозначают греческой буквой μ («мю»), тогда как среднее выбор-
ки обычно показывают чертой над обозначением переменной: например, среднее
x обозначается как x и читается как «x с чертой». Некоторые авторы также ис-
пользуют такую запись и для названий переменных. К примеру, можно обозначить
«средний возраст» как возраст, что читается как «возраст с чертой».
1
В случае генеральной совокупности его также называют математическим ожиданием. – Прим. пер.
Меры центральной тенденции 109

Положим, у нас есть генеральная совокупность с пятью элементами и вот зна-


чения переменной x для всех них:
100, 115, 93, 102, 97
Мы находим среднее x, сложив все эти значения и разделив на 5 (число значе-
ний):
μ = (100 + 115 + 93 + 102 + 97)/5 = 507/5 = 101,4.
Статистики часто используют принятую форму записи суммы, приведенную
в главе 1, которая определяет статистику с помощью описания ее расчета. Расчет
среднего одинаков как в случае выборки, так и в случае генеральной совокупнос-
ти; отличие только в символе, обозначающем само среднее. Среднее генеральной
совокупности, записанное в виде суммы, представлено на рис. 4.1.

Рис. 4.1. Формула для расчета среднего


В этой формуле μ – это среднее x по генеральной совокупности, n – это число
наблюдений (число значений x), а xi – это значение x в конкретном наблюдении.
Греческая буква ∑ («сигма») обозначает сумму (сложение), а обозначения под и
над «сигмой» определяют набор значений, к которым должна быть применена эта
операция. В данном случае требуется сложить все значения x от 1 до n. Символ i
обозначает положение в данных, так что x1 – это первое значение в данных, x2 – это
второе значение, а xn – последнее. Символ суммы означает, что мы должны сло-
жить все значения x от первого (x1) до последнего (xn). Таким образом, среднее по
генеральной совокупности рассчитывается с помощью сложения всех значений
исследуемой переменной и последующего деления на общее число значений, пом-
ня, что деление на n – это то же самое, что и умножение на —1.
n
Среднее – это интуитивно понятная мера центральной тенденции, которую
легко осознать большинству людей. Однако среднее в этом качестве следует ис-
пользовать не для любых данных, поскольку оно чувствительно к экстремальным
значениям, или выбросам (обсуждается подробнее ниже), и также может вести к
неверным выводам в случае асимметричного распределения данных. Посмотрите
на один пример. Положим, в нашем маленьком примере последнее значение было
297, а не 97. В таком случае среднее будет равно:
μ = (100 + 115 + 93 + 102 + 297)/5 = 707/5 = 141,4.
Среднее 141,4 – это нетипичное значение для этих данных. На самом деле
80% данных (четыре значения из пяти) меньше среднего, которое искажено
присутствием одного очень высокого значения.
Эта проблема не просто теоретическая; многие данные тоже распределены та-
ким образом, что среднее не подходит для них в качестве меры центральной тен-
денции. Это часто правда для таких показателей, как данные о доходе на семью в
110 Глава 4. Описательная статистика и графическое представление...

США. Очень небольшое число крайне богатых семей делает средний доход на се-
мью гораздо выше типичного, и поэтому вместо среднего дохода часто используют
медианный доход (подробнее про медиану см. ниже).
Среднее также можно рассчитать, используя данные из таблицы частот, то есть
таблицу, показывающую значения данных и то, как часто каждое из них встреча-
ется. Посмотрите на следующий пример в табл. 4.1.
Таблица 4.1. Простая таблица частот
Значение Частота

1 7

2 5

3 12

4 2

Для того чтобы получить среднее этих чисел, следует использовать колонку
частот как переменную для взвешивания. То есть каждое значение надо умножить
на его частоту. Что касается знаменателя, сложите все частоты, чтобы получить
суммарное n. Среднее затем рассчитывают, как показано на рис. 4.2.

Рис. 4.2. Расчет среднего по таблице частот


Такой же результат можно получить, если сложить все значения (1 + 1 + 1 + 1
+ …) и разделить на 26.
Среднее для сгруппированных данных, то есть в которых исходные данные
были разбиты на несколько интервалов в соответствии со значениями, а точные
значения теперь неизвестны, рассчитывается похожим образом. Поскольку мы не
знаем точные значения для каждого наблюдения (мы, к примеру, знаем, что пять
значений попали в интервал между 1 и 20, но не знаем, что это были за значе-
ния), для расчетов мы используем середину интервалов как подстановочное чис-
ло вместо точных значений. Таким образом, чтобы посчитать среднее, мы сначала
рассчитываем середину каждого интервала, а затем умножаем его на число значе-
ний в интервале. Для расчета середины интервала сложите его крайние значения
и разделите на 2. К примеру, середина для интервала 1–20 будет:
(1 + 20)/2 = 10,5.
Среднее, рассчитанное таким образом, называется групповым средним. Груп-
повое среднее не так точно, как среднее, посчитанное с помощью изначальных
данных, но часто это единственное, что можно сделать, потому что сырые дан-
ные не доступны. Посмотрите на следующий пример сгруппированных данных в
табл. 4.2.
Меры центральной тенденции 111

Таблица 4.2. Сгруппированные данные


Промежуток Частота Середина

1–20 5 10.5

21–40 25 30.5

41–60 37 50.5

61–80 23 70.5

81–100 8 90.5

Среднее рассчитывают, умножая середину каждого интервала на число значе-


ний в нем (частота) и деля на суммарную частоту, как показано на рис. 4.3.

Рис. 4.3. Расчет среднего для сгруппированных данных


Один из способов снизить влияние выбросов – это использовать усеченное
среднее, также известно как винсоризованное среднее. Как следует из названия, усе-
ченное среднее рассчитывают, отсекая, или выбрасывая, определенный процент
крайних значений в распределении, а затем подсчитывают среднее оставшихся
значений. Цель состоит в том, чтобы среднее хорошо представляло большинство
значений, но не подвергалось значительному влиянию крайних значений. Рас-
смотрите приведенный ранее пример второй генеральной совокупности с пятью
членами со значениями 100, 115, 93, 102 и 297. Среднее этой совокупности иска-
жено влиянием одного очень большого значения, так что мы рассчитываем усе-
ченное среднее, убрав самое большое и самое маленькое значения (эквивалентно
удалению 20% самых больших и самых маленьких значений). Усеченное среднее
рассчитывают так:
(100 + 115 + 102)/3 = 317/3 = 105,7.
Значение 105,7 гораздо ближе к типичным значениям в распределении, чем
141,4 – среднее по всем значениям. Конечно, мы будем редко встречаться с гене-
ральными совокупностями только с пятью членами, но принцип точно так же ра-
ботает и с большими наборами чисел. Обычно удаляют определенный процент дан-
ных с краев распределения. Применение такого подхода следует всегда указывать,
чтобы было понятно, что на самом деле означает приведенное среднее.
Кроме того, среднее можно рассчитывать и для дихотомических переменных,
если закодировать их значения как 0 и 1, и в таком случае среднее будет экви-
валентно проценту случаев, в которых переменная принимает значение 1. Пред-
положим, у нас есть генеральная совокупность из 10 испытуемых, 6 из которых
мужского пола, а 4 – женского, и мы закодировали мужчин как 1, а женщин как 0.
Расчет среднего даст нам процент мужчин в совокупности:
112 Глава 4. Описательная статистика и графическое представление...

μ = (1 + 1 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 0)/10 = 6/10 = 0,6, или 60% мужчин.

Медиана
Медиана в данных – это срединное значение, если данные отсортировать по воз-
растанию или убыванию. Если есть n значений, то медиана формально определя-
ется как значение с порядковым номером (n + 1)/2, так что если n = 7, то средин-
ное значение – это значение с номером (7 + 1)/2, или четвертое значение. Если
значений четное число, то медиана определяется как среднее арифметическое
двух срединных значений. Это формально определяется как среднее значений под
номерами (n/2) и (n/2 + 1). Если значений шесть, то медиана – это среднее зна-
чений под номерами (6/2) и (6/2 + 1), то есть третьего и четвертого. Оба метода
демонстрируются здесь:
• нечетное число значений (5): 1, 4, 6, 6, 10; медиана = 6, потому что (5 + 1)/2 = 3,
и 6 – это третье число в упорядоченном списке;
• четное число значений (6): 1, 3, 5, 6, 10, 14; медиана = (5 + 6)/2 = 5,5, по-
скольку 6/2 = 3 и 6/2 + 1 = 4, а 5 и 6 – это третье и четвертое значения в
упорядоченном списке.
Медиана лучше среднего в качестве меры центральной тенденции для симмет-
ричных данных или данных с выбросами. Это связано с тем, что медиана основана
на рангах, а не на самих значениях, и по определению половина значений лежит
ниже медианы, а половина – выше, вне зависимости от конкретных чисел. Таким
образом, не имеет значения, есть ли в данных какие-то очень большие или ма-
ленькие значения, потому что они не повлияют на медиану сильнее, чем менее
отклоняющиеся значения. К примеру, медианы всех трех показанных ниже рас-
пределений равны 4:
распределение А: 1, 1, 3, 4, 5, 6, 7;
распределение Б: 0.01, 3, 3, 4, 5, 5, 5;
распределение В: 1, 1, 2, 4, 5, 100, 2000.
Разумеется, медиана далеко не всегда подходит как мера центральной тенден-
ции для описания генеральной совокупности или выборки. В чем-то это дело
вкуса; в данном примере медиана, похоже, неплохо отражает данные в распреде-
лениях А и Б, но, видимо, не в распределении В, в котором данные настолько раз-
бросаны, что использование одного числа для его характеристики вообще может
быть некорректно.

Мода
Третья обычная мера центральной тенденции – это мода, которая несет информа-
цию о самом часто встречающемся значении. Мода часто полезна при описании
порядковых или категориальных данных. К примеру, представьте, что следующие
числа отражают предпочитаемый источник новостей у студентов, где 1 – газеты,
2 – телевизор, 3 – Интернет:
Меры центральной тенденции 113

1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3.
Мы можем видеть, что Интернет – самый популярный источник, поскольку
3 – это модальное (самое частое) значение в этих данных.
Когда моду используют для непрерывных данных, обычно ею называют опреде-
ленный промежуток значений (поскольку в случае множества вариантов значений,
обычного для непрерывных данных, не может быть одного числа, встречающегося
заметно чаще других). Если вы собираетесь так делать, стоит задать категории за-
ранее и использовать стандартные промежутки, если они существуют. К примеру,
возраст взрослых часто собирают с точностью до 5 или 10 лет, и, возможно, если
какие-то данные разделить на промежутки по 10 лет, то модальный возраст будет
40–49 лет.

Сравнение среднего, медианы и моды


В идеально симметричном распределении (таком как нормальное распределение,
обсужденное в главе 3) среднее, медиана и мода в точности совпадают. В асиммет-
ричном распределении все они будут различаться, как показано в данных, изобра-
женных в виде гистограмм на рис. 4.4, 4.5 и 4.6. Для упрощения расчета моды мы
разбили данные на промежутки по 5 (35–39,99, 40–44,99 и т. д.).

Рис. 4.4. Симметричные данные


114 Глава 4. Описательная статистика и графическое представление...

Данные на рис. 4.4 приблизительно нормальные и симметричные со средним


50,88 и медианой 51,02; самый частый интервал 50,00–54,99 (37 наблюдений), за
которым следует 45,00–49,99 (34 наблюдения). В этом распределении среднее и
медиана очень близки, а два самых частых промежутка тоже располагаются вокруг
среднего.

Рис. 4.5. Данные с правым плечом

У данных на рис. 4.5 есть правое плечо; среднее составляет 58,18, и медиана –
56,91. Среднее больше медианы – это типично для распределений с правым пле-
чом, поскольку очень большие значения «тянут» среднее наверх, но не оказывают
такого влияния на медиану. Модальный промежуток – это 45,00–49,99 с 16 наблю-
дениями; тем не менее,в несколько других интервалов попало по 14 наблюдений,
что делает их очень близкими в смысле частоты к модальному промежутку, из-за
чего мода не так полезна в описании этих данных.
У данных на рис. 4.6 есть левое плечо; среднее составляет 44,86, а медиа-
на – 47,43. Для распределений с левым плечом характерно среднее ниже медиа-
ны, поскольку очень маленькие «значения» тянут среднее вниз, но не оказы-
вают такого влияния на медиану. Отклонение от симметричности на рис. 4.6
сильнее, чем на рис. 4.5, и это отражается в большей разнице между средним
и медианой на рис. 4.6, чем на рис. 4.5. Модальный интервал для рис. 4.6 – это
45,00–49,99.
Меры разброса 115

Рис. 4.6. Данные с левым плечом

Меры разброса
Разброс говорит о том, насколько сильно рассеяны значения в данных. Из-за этого
меры рассеяния часто называют мерами разброса. Знание разброса данных может
быть так же важно, как и знание их центральной тенденции. К примеру, в двух
совокупностях детей среднее IQ составляет 100, но в одном случае разброс может
быть от 70 до 130 (от слабого отставания в развитии до почти гениальности), тогда
как в другом разброс может быть от 90 до 110 (все в пределах нормы). Отличие
может быть важным, к примеру, для учителей, поскольку, несмотря на одинаковый
средний интеллект, разброс IQ в этих группах говорит о том, что у них могут быть
различные образовательные и социальные потребности.

Размах и межквартильный размах


Самая простая мера разброса – это размах, то есть просто разность между самым
большим и самым маленьким значениями в выборке. Часто минимальное (наи-
меньшее) и максимальное (наибольшее) значения также указывают при исполь-
зовании размаха. Для данных (95, 98, 101, 105) минимум равен 95, максимум равен
105, а размах – 10 (105 – 95). Если в данных есть один или несколько выбросов,
размах может не быть полезной мерой. К примеру, в данных (95, 98, 101, 105, 210)
размах составляет 115, но почти все значения лежат в пределах 10 (95 – 105). Под-
счет размаха для любой переменной – это хороший метод знакомства с данными;
116 Глава 4. Описательная статистика и графическое представление...

необычно большой размах или крайне экстремальные минимальное или макси-


мальное значения могут быть поводом для дальнейшего исследования. Крайне
высокие или низкие значения или очень большой размах могут возникнуть из-за
таких причин, как ошибка при вводе данных или включение наблюдения из дру-
гой генеральной совокупности, чем та, которую вы исследуете (данные для взрос-
лого могли случайно попасть в данные, касающиеся детей).
Межквартильный размах – это альтернативная мера разброса, которая слабее
подвержена влиянию крайних значений, чем размах. Межквартильный размах –
это диапазон изменчивости 50% данных из середины, который рассчитывают как
разницу между 75% и 25% персентилями. Межквартильный размах легко полу-
чить с помощью большинства статистических программ, но несложно его посчи-
тать и вручную с помощью следующих правил (n = число наблюдений, k – это
персентиль, которую вам надо найти):
1. Отсортируйте все наблюдения по возрастанию.
2. Если nk/100 – целое (число без десятых или дробной части), то k-ая пер-
сентиль наблюдений – это среднее наблюдений под номерами nk/100 и
nk/100 + 1.
3. Если nk/100 – не целое, k-ая персентиль совпадает с измерением номер
j + 1, где j — максимальное целое число, меньшее nk/100.
4. Подсчитайте межквартильный размах как разность 75% и 25% персенти-
лей.
Рассмотрим следующий набор данных с 13 наблюдениями (1, 2, 3, 5, 7, 8, 11, 12,
15, 15, 18, 18, 20):
1. Сначала мы найдем 25% персентиль, то есть k = 25.
2. У нас 13 наблюдений, так что n = 13.
3. (nk)/100 = (25 × 13)/100 = 3,25, не целое, поэтому мы используем второй
метод (№ 3 в предыдущем списке).
4. j = 3 (максимальное целое число, меньшее nk/100, то есть меньше 3,25).
5. Таким образом, 25% персентиль – это наблюдение номер j + 1, или четвер-
тое наблюдение, которое равно 5.
Мы можем проделать те же шаги и для 75% персентили:
1. (nk)/100 = (75*13)/100 = 9,75, не целое.
2. j = 9, максимальное целое, меньшее 9,75.
3. Таким образом, 75% персентиль равна значению номер 9 + 1, или 10, и ко-
торое равно 15.
4. В итоге межквартильный размах равен 15 – 5, или 10.
Устойчивость межквартильного размаха к выбросам должна быть очевидна.
У этих данных размах равен 19 (20 – 1), а межквартильный размах равен 10; од-
нако если бы последнее значение было равно 200 вместо 20, размах бы составлял
199 (200 – 1), но межквартильный размах все также был бы равен 10, и это число
лучше бы представляло большинство значений в данных.
Меры разброса 117

Дисперсия и стандартное отклонение


Самые часто используемые меры разброса для непрерывных переменных – это
дисперсия и стандартное отклонение2. Обе из них описывают то, насколько от-
дельные значения в данных отличаются от среднего значения. Дисперсия и стан-
дартное отклонение рассчитывают слегка по-разному в зависимости от того, что
исследуется, генеральная совокупность или выборка, но в целом дисперсия – это
средний квадрат отклонения от среднего, а стандартное отклонение – это квадрат-
ный корень из дисперсии. Дисперсию генеральной совокупности обозначают как
σ2 (произносится как «сигма в квадрате»), а стандартное отклонение – σ (греческая
буква «сигма»), тогда как в случае выборки дисперсия и стандартное отклонение
обозначаются как s2 и s соответственно.
Отклонение от среднего для одного значения в данных рассчитывают как
(xi – μ), где xi – это i-е значение в данных, а μ – это среднее всех значений. При
работе с выборкой принцип тот же, только вы должны вычитать среднее по этой
выборке (x) из каждого значения, а не среднее по генеральной совокупности. При
записи в виде суммы формула для расчета суммы отклонений от среднего для пе-
ременной x для генеральной совокупности с n членами показана на рис. 4.7.

Рис. 4.7. Формула для суммы отклонений от среднего


К сожалению, эта величина не несет особой пользы, потому что она всегда бу-
дет равна нулю, совсем не удивительный результат, если принять во внимание то,
как рассчитывается среднее всех значений в наборе данных. Это легко продемонст-
рировать на примере небольшого набора чисел (1, 2, 3, 4, 5). Сначала рассчитаем
среднее:
μ = (1 + 2 + 3 + 4 + 5)/5 = 3.
Затем рассчитаем суммы отклонений от среднего, как показано на рис. 4.8.

Рис. 4.8. Расчет суммы отклонений от среднего


Чтобы обойти эту проблему, мы работаем с квадратами отклонений, которые
по определению всегда положительны. Чтобы получить средний квадрат откло-
нения, или дисперсию, мы возводим каждое отклонение в квадрат, складываем их
все и делим на число наблюдений, как показано на рис. 4.9.

2
Последнее часто также называют среднеквадратичным отклонением. – Прим. пер.
118 Глава 4. Описательная статистика и графическое представление...

Рис. 4.9. Расчет суммы квадратов отклонений от среднего

Формула дисперсии для выборки отличается, поскольку требует разделить на


n – 1, а не n; причины чисто технические и связаны с числом степеней свободы и не-
смещенной оценкой. (Для подробного обсуждения см. статью Вилкинса (Wilkins),
указанную в приложении C.) Формула для дисперсии выборки, обозначаемой как
s2, приведена на рис. 4.10.

Рис. 4.10. Формула дисперсии для выборки

Продолжая наш простейший пример со значениями (1, 2, 3, 4, 5), среднее рав-


но 3, и мы можем рассчитать дисперсию для этой генеральной совокупности, как
показано на рис. 4.11.

Рис. 4.11. Расчет дисперсии для генеральной совокупности

Если мы примем эти значения за измерения из выборки, а не за члены ге-


неральной совокупности, дисперсию следует рассчитывать, как показано на
рис. 4.12.
Обратите внимание, что из-за отличия в знаменателе формула дисперсии для
выборки всегда будет давать больший результат, чем формула для генеральной
совокупности, хотя при размере выборки, близком к размеру генеральной сово-
купности, отличие будет очень небольшим.
Меры разброса 119

Рис. 4.12. Расчет дисперсии для выборки

Раз квадраты всегда положительны (если не учитывать мнимые числа), то и


дисперсия всегда будет не меньше 0. (Дисперсия будет равна нулю только в случае,
если все значения переменной одинаковы, а в таком случае переменная является
константой.) Однако при расчете дисперсии мы перешли от наших изначальных
единиц к их квадратам, что может быть неудобно для интерпретации. К примеру,
если мы измеряем массу в фунтах, нам бы было удобно, если бы меры централь-
ной тенденции и меры разброса тоже выражались в тех же единицах, чтобы не
использовать среднее в фунтах, а дисперсию в фунтах в квадрате. Чтобы вернуть-
ся к изначальным единицам, мы извлекаем квадратный корень из дисперсии; эта
величина называется стандартным отклонением, и она обозначается как σ в случае
генеральной совокупности и s для выборки.
Формула для расчета стандартного отклонения для генеральной совокупности
приведена на рис. 4.13.

Рис. 4.13. Формула стандартного отклонения для генеральной совокупности

Обратите внимание, что это просто квадратный корень из формулы для диспер-
сии. В предыдущем примере стандартное отклонение можно найти, как показано
на рис. 4.14.

Рис. 4.14. Связь между стандартным отклонением и дисперсией

Формула для стандартного отклонения для выборки приведена на рис. 4.15.


120 Глава 4. Описательная статистика и графическое представление...

Рис. 4.15. Формула для стандартного отклонения для выборки


Как и для стандартного отклонения для генеральной совокупности, в случае
выборки стандартное отклонение – это квадратный корень из выборочной дис-
персии (рис. 4.16).

Рис. 4.16. Связь между стандартным отклонением и дисперсией


В целом, в случае двух выборок одного объема с измерениями в одних единицах
(например, две группы по 30 человек, у обеих измеряют массу тела в фунтах), мы
можем утверждать, что у группы с большими дисперсией и стандартным отклоне-
нием больше разброс значений. Однако единица измерения влияет на величину
дисперсии, что может усложнить сравнение разбросов переменных, измеренных
в разных единицах. Очевидный пример: при измерении массы тела в унциях дис-
персия и стандартное отклонение будут больше, чем если измерять ее в фунтах3.
В случае сравнения абсолютно разных единиц, вроде роста в дюймах и массы тела
в фунтах, сравнить разброс еще сложнее. Коэффициент вариации (КВ) – мера от-
носительного разброса, позволяет обойти эту проблему и делает возможным срав-
нивать разброс между различными переменными, измеряемыми в разных едини-
цах. В данном случае КВ показан здесь для выборочного разброса, но его можно
точно так же рассчитать и в случае генеральной совокупности, заменив s на σ. КВ
можно рассчитать, разделив стандартное отклонение на среднее, а затем умножив
на 100, как показано на рис. 4.17.

КВ

Рис. 4.17. Формула для коэффициента вариации (КВ)


Если вспомнить предыдущий пример, он рассчитывается, как показано на
рис. 4.18.

КВ

Рис. 4.18. Расчет коэффициента вариации (КВ)


КВ нельзя рассчитать, если среднее в данных равно 0 (потому что нельзя делить
на нуль), и он особенно удобен, если все значения переменной положительны.
3
1 фунт = 16 унций. – Прим. пер.
Выбросы 121

В случае, если переменная содержит значения обоих знаков, среднее может быть
близким к нулю, что, несмотря на разумный размах в данных, может привести
к обманчивому значению КВ: знаменатель будет очень маленьким числом, и это
приведет к очень большому значению КВ, хотя стандартное отклонение не слиш-
ком большое.
Польза КВ должна стать совсем очевидной, если рассмотреть одни и те же дан-
ные, выраженные в футах и дюймах; к примеру, 60 дюймов – это то же самое, что
и 5 футов. Данные, выраженные в футах, имеют среднее 5,5566, стандартное от-
клонение 0,2288; те же данные, выраженные в дюймах, имеют среднее 66,6790 и
стандартное отклонение 2,7453. Тем не менее КВ не подвержен влиянию единиц
измерения, и его значение не зависит от них с точностью до ошибки округления:
5,5566/0,2288 = 24,2858 (данные в футах);
66,6790/2,7453 = 24,2884 (данные в дюймах).

Выбросы
Среди статистиков нет полного согласия, как определить выбросы, но практически
все согласны, что важно их выделить и использовать подходящие статистические
методы в случае данных с выбросами. Выброс – это наблюдение в анализируемых
данных, значение которого сильно отличается от других. Его часто описывают как
значение в данных, которое как будто бы происходит из другой генеральной сово-
купности или выпадает из интервала типичных значений выборки. Предположим,
вы исследуете учебную успеваемость в выборке или генеральной совокупности,
и почти все испытуемые проучились от 12 до 16 лет (12 лет – окончание средней
школы в Америке, 16 лет – оконченное высшее образование). Однако у одного из
испытуемых значение этой переменной равно 0 (то есть он формально не получил
никакого образования), а у другого – 26 (что предполагает много лет обучения
после получения высшего образования). Вы, наверное, посчитаете эти два случая
выбросами, поскольку их значения сильно отличаются от остальных данных в
выборке или генеральной совокупности. Обнаружение и анализ выбросов – это
важный предварительный этап во многих видах анализа, потому что наличие даже
одного или двух выбросов может кардинальным образом исказить значения неко-
торых обычных статистик, таких как среднее.
Кроме того, важно найти выбросы, потому что иногда они могут быть вызва-
ны ошибками при вводе данных. В предыдущем примере первое, что стоит про-
верить, – это правильно ли были записаны значения; может оказаться, что пра-
вильные числа – это 10 и 16, соответственно. Второе, что стоит изучить, – это
принадлежит ли данное наблюдение к исследуемой генеральной совокупности.
Например, не относится ли 0 к продолжительности обучения ребенка, тогда как
данные должны были содержать только информацию о взрослых?
Если такие простые действия не позволяют решить проблему, придется приду-
мать (по возможности обсудив это с коллегами), что делать с выбросами. Можно
122 Глава 4. Описательная статистика и графическое представление...

просто убрать из данных все наблюдения с выбросами до анализа, но допусти-


мость применения такого метода зависит от области исследований. Иногда сущест-
вует статистический метод исправить ситуацию с выбросами, к примеру усечен-
ное среднее, описанное ранее, хотя такие методы используют не во всех областях.
Другие возможности – это преобразование данных (обсуждается в главе 3) или
применение непараметрических методов (обсуждается в главе 13), на которые
меньше влияют выбросы.
Чтобы по возможности стандартизовать поиск выбросов, были разработаны раз-
личные эмпирические правила. Одно из обычных определений выброса, использую-
щее межквартильный размах (МКР), состоит в том, что «слабые» выбросы – это те
значения, которые меньше 25% персентили минус 1,5*МКР или больше 75% пер-
сентили плюс 1,5*МКР. В нормально распределенных данных настолько отклоняю-
щиеся значения ожидается встретить примерно 1 на 150 наблюдений. «Сильные»
выбросы определяются аналогичным образом, но с заменой 1,5*МКР на 3*МКР;
такие крайние значения ожидаются в нормальных данных примерно 1 на 425 000
наблюдений.

Графические методы
Существует великое множество методов графического представления данных от
самых простых, включенных в программы для работы с электронными таблицами
вроде Microsoft Excel, до очень специализированных и сложных, доступных с по-
мощью языков программирования вроде R. О правильном и ошибочном исполь-
зовании графики в представлении данных написаны целые книги. Лидирующим
(хотя и с противоречивой позицией) экспертом в этой области является Эдвард
Тафти (Edward Tufte), профессор Йельского университета (магистр в области ста-
тистики и PhD в политических науках). Его наиболее известная работа – «Графи-
ческое изображение числовой информации» (The Visual Display of Quantitative
Information, ссылка дана в приложении C), но все книги Тафти достойны того,
чтобы с ними ознакомиться, всем интересующимся графическим отображением
данных. Абсолютно невозможно рассказать о хоть сколько-нибудь заметной доле
всех методов изображения данных в этом разделе, так что вместо этого мы обсу-
дим самые обычные подходы, включая и проблемы, связанные с ними.
Легко забыться и приняться за построение навороченных графиков, особенно
из-за того, что программы для работы с электронными таблицами и статисти-
ческие пакеты позволяют с легкостью создавать множество видов графиков и
диаграмм. Термин Тафти для графических элементов, не несущих смысловой
нагрузки, – «графический мусор» – точно описывает его отношение к таким
изображениям. Стандарты того, что считают «мусором», а что нет, зависят от
области, но как общее правило стоит использовать простейший вид графика или
диаграммы, который понятным образом представляет ваши данные, при этом
оставаясь в рамках стандартов, принятых в вашей профессии или области ис-
следований.
Графические методы 123

Таблицы частот
Первый вопрос, который стоит задать самому себе при подборе метода визуализа-
ции данных, – необходимо ли вообще графическое отображение. Это правда, что
часто лучше один раз увидеть, чем сто раз услышать, но в других случаях табли-
цы частот оказываются полезнее для представления данных, чем их графическое
изображение. Это особенно важно, когда нас интересует не общее распределение
данных по нескольким категориям, а конкретные полученные значения. Таблицы
частот являются очень эффективным способом представления больших объемов
данных и являются чем-то средним между текстом (абзацами с описаниями зна-
чений данных) и чистой графикой (такой как гистограмма).
Предположим, университет интересуется сбором данных об общем состоянии
здоровья первокурсников. Из-за того, что все больше беспокойства в Соединен-
ных Штатах вызывает ожирение, одна из вычисляемых величин – это индекс мас-
сы тела (ИМТ), равный отношению массы тела в килограммах к квадрату роста
в метрах. ИМТ – это не идеальный показатель. К примеру, спортсмены часто по-
казывают как очень низкие результаты (марафонцы, гимнасты), так и слишком
высокие (футболисты, тяжелоатлеты), но его просто подсчитать, и в случае боль-
шинства людей это довольно надежная мера того, насколько у них здоровый вес.
ИМТ – это непрерывная величина, но его часто интерпретируют в терминах
категорий, используя принятые промежутки. Интервалы для ИМТ приведены в
табл. 4.3, согласно данным Центра по предупреждению и контролю заболеваний
(ЦПКЗ, Centers for Disease Control and Prevention, CDC) и Всемирной организа-
ции здравоохранения (ВОЗ), в целом принятым как полезные и верные.
Таблица 4.3. Категории ЦПКЗ и ВОЗ для ИМТ
Интервал ИМТ Категория

< 18.5 Пониженная масса тела

18.5–24.9 Нормальная масса тела

25.0–29.9 Избыточная масса тела

30.0 и выше Ожирение

Теперь посмотрите на табл. 4.4, содержащую полностью выдуманные данные о


классификации первокурсников по ИМТ.
Таблица 4.4. Распределение ИМТ среди
первокурсников в 2005 году
Интервал ИМТ Число

< 18.5 25

18.5–24.9 500

25.0–29.9 175

30.0 и выше 50
124 Глава 4. Описательная статистика и графическое представление...

Эта простейшая таблица дает нам возможность при беглом просмотре понять,
что большинство первокурсников имеют либо нормальную, либо повышенную
массу тела, и лишь небольшое их число имеют пониженную массу тела или страда-
ют ожирением. Обратите внимание, что в этой таблице представлены сырые дан-
ные о числе испытуемых в каждой категории, которые иногда называют абсолют-
ной частотой; эти числа говорят о том, как часто каждое значение встретилось, что
может быть полезно, если, к примеру, вам надо понять, скольких студентов необ-
ходимо проконсультировать о проблемах ожирения. Однако абсолютные частоты
не ставят числа в каждой категории в какой-либо контекст. Мы можем сделать
эту таблицу более полезной, если добавим столбец с относительной частотой,
которая показывает процент от общей суммы, попавший в каждую категорию. От-
носительные частоты рассчитывают, разделив число наблюдений в каждой кате-
гории на общее число наблюдений (750) и умножив результат на 100. В табл. 4.5
приведены как абсолютные, так и относительные частоты для этих данных.
Таблица 4.5. Абсолютные и относительные частоты категорий ИМТ
среди первокурсников в 2005 году
Интервал ИМТ Число Относительная частота
< 18.5 25 3.3%
18.5–24.9 500 66.7%
25.0–29.9 175 23.3%
30.0 и выше 50 6.7%

Обратите внимание, что относительные частоты должны в сумме давать при-


близительно 100%, хотя может присутствовать небольшая ошибка из-за округле-
ния.
Кроме того, мы можем добавить столбец с накопительной (кумулятивной) час-
тотой, которая показывает относительную частоту для этой категории и всех
меньших значений, как в табл. 4.6. Накопительная частота для последней катего-
рии должна составлять 100% с точностью до ошибки округления.
Таблица 4.6. Накопительная частота ИМТ в наборе первокурсников 2005 года
Относительная Накопительная
Интервал ИМТ Число
частота частота
< 18.5 25 3.3% 3.3%
18.5–24.9 500 66.7% 70.0%
25.0–29.9 175 23.3% 93.3%
30.0 и выше 50 6.7% 100%

Посмотрев на кумулятивные частоты, можно сразу понять, что, к примеру, у


70% поступивших нормальная или пониженная масса тела. Это особенно полезно
в случае таблиц с большим числом категорий, поскольку позволяет читателю быс-
тро оценить важные точки в распределении, такие как нижние 10%, медиану (50%
накопительной частоты) или верхние 5%.
Графические методы 125

Кроме того, можно соорудить таблицу частот для сравнения между группами.
Вас может интересовать, к примеру, сравнение распределений ИМТ среди юно-
шей и девушек на первом курсе или сравнение поступивших в 2005 году и в 2000
или 1995 годах. В таких ситуациях сырые данные обычно менее полезны (из-за
того, что размер курса может различаться), а относительные и накопительные
частоты оказываются пригодными для сравнения. Другая возможность состоит в
подготовке графических изображений, таких как диаграммы, описываемые в сле-
дующем разделе, которые могут сделать подобные сравнения более понятными.

Столбчатые диаграммы
Столбчатые диаграммы особенно удобны для изображения дискретных данных с
небольшим числом категорий, как в случае нашего примера с ИМТ среди перво-
курсников. Столбцы в столбчатых диаграммах обычно отделяются друг от друга,
чтобы не возникало ощущения непрерывности; хотя в нашем случае категории ос-
нованы на разбиении непрерывной переменной, они с тем же успехом могут быть
истинными категориями, такими как любимый спорт или область специализации
в учебе. На рис. 4.19 приведена информация об ИМТ среди первокурсников в виде
столбчатой диаграммы. (Если не сказано иное, диаграммы, показанные в этой гла-
ве, были созданы с помощью Microsoft Excel.)

Группы, выделенные
BMI categories по ИМТ,
for Freshman
среди первокурсников
Class, 2005 2005 года
600
Число студентов

400
Count

200

0
Повышенная
Пониженная

Нормальная

выше
Underweight

125.0–29.9
тела

18.5–тела

тела
Overweight

Ожирение
Obese 30.0
18.5–24.9
24.9

andи above
25.0-29.9
Normal
< 18.5
<18.5
масса

масса

масса

30.0

BMI category
Категория ИМТ

Рис. 4.19. Абсолютные частоты категорий ИМТ среди первокурсников


Абсолютные частоты используют тогда, когда надо знать число человек в опре-
деленной категории, тогда как относительные частоты – если необходимо понять
соотношение чисел испытуемых, попавших в разные категории. Относительные
частоты особенно удобны, что мы увидим дальше, при сравнении множества групп,
к примеру чтобы понять, увеличивается или уменьшается год от года доля студен-
тов с ожирением. В случае простой столбчатой диаграммы решение об исполь-
зовании абсолютных или относительных частот не так важно, что можно видеть,
сравнив столбчатую диаграмму с данными об ИМТ у студентов, представленную
126 Глава 4. Описательная статистика и графическое представление...

относительными частотами на рис. 4.20, с теми же данными в виде абсолютных


частот на рис. 4.19. Обратите внимание, что две диаграммы идентичны, за исклю-
чением подписей оси y (вертикальной оси), на которых указаны абсолютные час-
тоты на рис. 4.19 и проценты на рис. 4.20.

BMI categories
Группы, for Freshman
выделенные по ИМТ,
среди первокурсников
Class, 2005 2005 года
80%
60%

40%
20%
0%
Underweight

Повышенная
Пониженная

Нормальная

Overweight

выше
Obese 30.0
24.9

andи above
тела

масса тела

тела
25.0-29.9

Ожирение
25.0–29.9
18.5–24.9
Normal
< 18.5
<18.5

18.5–
масса

масса

30.0
Рис. 4.20. Относительные частоты категорий ИМТ
среди первокурсников
Использование относительных частот становится очень удобным, если мы
сравниваем распределение студентов по категориями ИМТ в разные годы. По-
смотрите на гипотетическую информацию о частотах в табл. 4.7.
Таблица 4.7. Абсолютные и относительные частоты ИМТ в трех наборах студентов

Интервал ИМТ 1995 2000 2005


Пониженная масса тела 50 8.9% 45 6.8% 25 3.3%
<18.5
Нормальная масса тела 400 71.4% 450 67.7% 500 66.7%
18.5–24.9
Избыточная масса тела 100 17.9% 130 19.5% 175 23.3%
25.0–29.9
Ожирение 10 1.8% 40 6.0% 50 6.7%
30.0 и выше
В сумме 560 100.0% 665 100.0% 750 100.0%

Из-за того, что размеры курса различаются в разные годы, для поиска зависи-
мостей в распределении студентов по ИМТ удобнее всего использовать относи-
тельные частоты (проценты). В данном случае наблюдалось явное уменьшение
доли студентов с пониженной массой тела, тогда как доля студентов с повышен-
ной массой тела или ожирением росла. Эту информацию также можно изобразить
с помощью столбчатой диаграммы, такой как на рис. 4.21.
Столбчатые диаграммы 127

BMI distribution in threeИМТ


Распределение entering
в трех потоках
classes студентов
80%
60% 1995
40% 2000
20% 2005
0% Underweight

Повышенная
Пониженная

Overweight
Нормальная

Obese 30.0
выше
18.5– 24.9

andи above
25.0-29.9
тела

масса тела

масса тела

Ожирение
25.0–29.9
18.5–24.9
Normal
< 18.5
<18.5
масса

30.0
Рис. 4.21. Столбчатая диаграмма распределения ИМТ
среди трех наборов студентов
Это столбчатая диаграмма с группами, которая показывает, что присутствует
слабый, но определенный десятилетний тренд уменьшения доли студентов с по-
ниженной и нормальной массой тела и роста доли студентов с повышенной массой
тела или ожирением (что в целом отражает изменения среди населения Америки).
Помните, что построение диаграммы не равноценно проведению статистического
теста, так что мы не можем сказать из этого рисунка, что эти изменения статисти-
чески значимы.
Другой вид столбчатых диаграмм, подчеркивающий относительные распре-
деления значений в каждой группе (в данном случае распределение категорий
ИМТ в трех наборах первокурсников), – это составные столбчатые диаграммы,
что проиллюстрировано на рис. 4.22.

100%
Ожирение
Obese 30.0
80% 30.0 и выше
and above
Повышенная
60% Overweight
масса тела
25.0-29.9
25.0–29.9
Нормальная
40% Normalтела
масса
18.5-24.9
18.5–24.9
Пониженная
20% Underweight
масса тела
< 18.5
<18.5

0%
1995 2000 2005

Рис. 4.22. Составная столбчатая диаграмма распределения ИМТ


в трех наборах студентов
В этом виде диаграмм каждый столбец соответствует одному году сбора данных
и в сумме дает 100%. Относительные пропорции студентов в каждой категории
128 Глава 4. Описательная статистика и графическое представление...

можно легко увидеть, сравнив доли площади столбцов, занятые данной категори-
ей. Такая организация данных позволяет без труда сравнить много наборов дан-
ных (в данном случае три года) между собой. Сразу же становится ясно, что со
временем уменьшается доля студентов с пониженной и нормальной массой тела и
растет доля студентов с повышенной массой тела или ожирением.

Круговые диаграммы
Всем знакомые круговые диаграммы представляют данные сходным образом с со-
ставными столбчатыми диаграммами: они графически показывают, какую часть
от целого занимают отдельные категории. Круговые диаграммы, как и составные
столбчатые диаграммы, особенно полезны только при небольшом числе катего-
рий, и если разница между ними достаточно большая. Многие занимают очень
жесткую позицию в отношении к круговым диаграммам, и хотя их все равно еще
часто применяют в некоторых областях, во многих других от них отказываются
как от неинформативных в лучшем случае или даже потенциально вводящих в
заблуждение, – в худшем. Так что я оставляю выбор в зависимости от контекста
и договоренностей за вами; здесь я приведу ту же самую информацию об ИМТ
в виде круговой диаграммы (рис. 4.23) и предоставлю вам самим судить о том,
полезный ли это способ представления данных. Обратите внимание, что это одна
круговая диаграмма, изображающая данные наблюдений одного года, но есть и
другие возможности, включая расположение двух диаграмм рядом (для сравне-
ния соотношений долей разных групп) и отдельное увеличенное изображение
определенных секторов (чтобы показать их более мелкое разделение на группы).

2% 9%
18% Пониженная
Underweight
масса тела
< 18.5
<18.5
Нормальная
Normalтела
масса
18.5-24.9
18.5–24.9
Повышенная
Overweight
масса тела
25.0-29.9
25.0–29.9
Ожирение
Obese 30.0
30.0 и выше
and above

71%

Рис. 4.23. Круговая диаграмма, показывающая распределение ИМТ


среди первокурсников, поступивших в 2005 году

Флоренс Найтингейл и статистическая графика


Многие люди хотя бы в общих чертах слышали о роли Флоренс Найтингейл (Florence
Nightingale) в создании профессии медсестры и ее героических усилиях в борьбе за улуч-
шение гигиены и качество ухода в британской армии в ходе Крымской войны. Но мень-
Столбчатые диаграммы 129

ше людей знают о ее вкладе в развитие статистической графики, включая эффективное


применение графиков и диаграмм для донесения медицинской информации. Найтин-
гейл также изобрела новый вид графиков, диаграмму в полярных координатах (который
она называла «диаграммой щеголей» (coxcomb chart), а другие – диаграммой розы Най-
тингейл) для изображения и сравнения информации, такой как причины гибели (от ран,
полученных в сражении, болезней и других причин) за каждый месяц среди британских
солдат. Диаграммы Найтингейл привлекли внимание к большой доле смертей солдат от
болезней и позволили ей добиться понимания важности улучшения санитарной обста-
новки и гигиены у военного руководства. Многие из диаграмм Найтингейл доступны для
просмотра в Интернете, как и обсуждения ее достижений в этой области. Один из при-
меров – это заметка Жюли Рехмейер (Julie Rehmeyer) в Новостях науки (Science News) за
26 ноября 2008 года, «Флоренс Найтингейл: страстный статистик» (http://bit.ly/PvLvSS).

Диаграммы Парето
Графики Парето, или диаграммы Парето, совмещают столбчатые диаграммы и
линейные графики; столбцы показывают частоту или относительную частоту,
тогда как линия показывает накопительную частоту. Большим достоинством
диаграмм Парето является то, что легко видеть, какие факторы наиболее важны
в определенной ситуации и, таким образом, на что следует обращать внимание в
первую очередь. К примеру, графики Парето часто используют в контексте про-
изводства, чтобы понять, какие факторы отвечают за возникновение задержек
или дефектов в процессе изготовления. В диаграмме Парето столбцы отсортиро-
ваны в порядке убывания частоты слева направо (так что самая частая причина
расположена левее всего, а самая редкая – правее всего), а линия накопитель-
ной частоты наложена сверху на столбцы (так что вы можете видеть, к примеру,
сколько факторов ответственны за 80% задержек производства). Посмотрите на
гипотетические данные, приведенные в табл. 4.8, которые содержат число обна-
руженных дефектов, связанных с разными участками технологического процес-
са на автомобильном заводе.
Таблица 4.8. Обнаружение брака на разных этапах производства

Отдел Число дефектов


Аксессуары 350
Корпус 500
Проводка 120
Двигатель 150
Коробка передач 80

Хотя очевидно, что отделы, собирающие аксессуары и корпус, ответственны за


наибольшее число выявленных дефектов, сразу не ясно, какую долю общего брака
можно отнести к ним. Рисунок 4.24, который показывает всю ту же информацию
в виде диаграммы Парето (созданной с помощью SPSS), делает это более понят-
ным.
130 Глава 4. Описательная статистика и графическое представление...

Вильфред Парето
Вильфред Парето (Vilfredo Pareto, 1843–1923) был итальянским экономистом, который
открыл то, что сейчас называют принципом Парето, также известным как «мало важного
и много тривиального», или «правило 80:20». Принцип Парето утверждает, что во мно-
гих обстоятельствах 80% активности или результатов происходят из 20% от возможных
причин. К примеру, во многих странах примерно 80% всех богатств принадлежат 20%
населения; аналогичным образом в производстве часто 20% видов ошибок приводят к
80% брака в итоговом продукте; а в здравоохранении 20% от всех пациентов используют
80% от всех медицинских услуг. «Мало важного» в принципе Парето – это 20% от людей,
ошибок и так далее, которые отвечают за основную массу активности, а «много тривиаль-
ного» – это 80%, которые в сумме приводят только к 20% активности. Парето лучше все-
го известен сегодня как изобретатель диаграмм Парето, которые часто применяют при
контроле качества для обнаружения того, какие процессы приводят к большинству про-
блем, таким как жалобы клиентов или бракованные изделия.

1,200 100%

1,000
80%
дефектов

800
60%

Процент
Percent
Число Count

600
40%
400

500 20%
200 350
150 120 80
0 0%
Корпус Access Двигатель
Body Аксессуары Engine Elect
Проводка Trans
Коробка передач

Рис. 4.24. Основные причины брака производства


Эта диаграмма говорит нам не только о том, что чаще всего брак обнаружива-
ется в корпусе и аксессуарах, но и о том, что они ответственны за 75% всего брака.
Мы можем понять это, проведя прямую линию от изгиба в линии накопитель-
ной частоты (который отражает величину накопительной частоты двух наиболее
частых причин брака, корпуса и аксессуаров) до правой оси y. Это упрощенный
пример, и он нарушает правило 80:20 (обсуждается выше во врезке о Вильфреде
Парето), поскольку приведено только небольшое число основных причин бра-
ка. В более реалистичном примере может быть 30 и более возможных причин, и
диаграмма Парето – это простой способ отсортировать их и понять, какие участ-
ки процесса требуют улучшений в первую очередь. Этот простой пример служит
для изображения типичных свойств графика Парето. Столбцы отсортированы от
самого высокого к самому низкому, частоту изображают на левой оси y, а про-
Столбчатые диаграммы 131

цент – на правой, число случаев из каждой категории указывают внутри каждого


столбца.

Диаграмма «стебель с листьями»


Те виды диаграмм, которые мы обсуждали до сих пор, в первую очередь подхо-
дят для изображения категориальных данных. В случае непрерывных величин
используют другой набор графических методов. Один из простейших способов
графически изобразить непрерывные данные – это график «стебель с листьями»,
который легко сделать вручную и который дает возможность быстро увидеть рас-
пределение данных. Чтобы создать такую диаграмму, разделите ваши данные на
интервалы (используя здравый смысл и ту степень подробности, которая соот-
ветствует вашим задачам) и покажите каждое значение данных с помощью двух
колонок. «Стебель» – это левая колонка, и она содержит одно значение на каждую
строку, а «листья» – это правая колонка, и она содержит по одной цифре на каж-
дое наблюдение, принадлежащее этой строке. Таким образом, получается график,
который содержит значения данных, но принимает форму, показывающую, какие
данные в каких интервалах встречаются чаще всего. Числа могут быть произведе-
ниями какого-то множителя (например, значения с шагом 10 000 или 0,01), если
это необходимо при каком-то наборе данных.
Приведем простой пример. Предположим, у нас есть набор оценок за экзамен 26
студентов, и мы хотим представить их графически. Вот оценки:
61, 64, 68, 70, 70, 71, 73, 74, 74, 76, 79, 80, 80, 83, 84, 84, 87, 89, 89, 89,
90 92, 95, 95, 98, 100.
Логично разделить эти данные на интервалы по 10 единиц, к примеру 60–69,
70–79 и так далее, так что мы делаем «стебель» с цифрами 6, 7, 8, 9 (это десятки,
для тех, кто помнит школьную математику), и «листья» для каждой из них в виде
списка цифр из первого разряда значений, отсортированного слева направо от
меньшего к большему. На рис. 4.25 показан итоговый график.

Stem «Листья»
«Стебель» Leaf
6 148
7 00134469
8 003447999
9 02558
10 0

Рис. 4.25. Диаграмма «стебель с листьями» оценок за экзамены


Такая диаграмма показывает не только сами числовые значения и их диапазон
(61–100), но и общую форму их распределения. В данном случае большинство
значений попадает в промежутки, начинающиеся с 70 и с 80, с небольшим числом
значений от 60 до 69 и от 90 до 99, а одно значение равно 100. Форма стороны с
«листьями» на самом деле напоминает повернутую на 90 градусов простейшую
гистограмму (обсуждается ниже) со столбцами шириной по 10.
132 Глава 4. Описательная статистика и графическое представление...

Ящики с усами
Ящики с усами, или диаграммы размаха, были разработаны статистиком Джоном
Тьюки (John Tukey) как способ компактного описания и изображения распределе-
ния непрерывных данных. Хотя их можно построить и от руки (как и большинст-
во других диаграмм, включая столбчатые диаграммы и гистограммы), на практике
их обычно создают с помощью компьютерных программ. Интересно, что точный
метод их построения различается в зависимости от программы, но эти диаграммы
всегда показывают пять важных характеристик данных: медиану, первую и третью
квартили (и, таким образом, межквартильный размах), минимум и максимум. Цент-
ральная тенденция, размах, симметричность и наличие выбросов в данных — все это
можно легко увидеть, взглянув на ящик с усами, и при этом, изображенные рядом
друг с другом, они позволяют легко сравнить несколько разных распределений. На
рис. 4.26 приведен ящик с усами для набора оценок за экзамен, использованного в
предыдущем примере с диаграммой «стебель и листья».

100

90

80

70

60

Рис. 4.26. Ящик с усами для данных о результатах экзамена


(построен с помощью SPSS)
Темная линия показывает медиану, в данном случае 81,5. Серый прямоугольник
соответствует межквартильному размаху, так что нижняя его граница – это пер-
вая квартиль (25-ый персентиль), равная 72,5, а верхняя граница – третья квар-
тиль (75-ый персентиль), равная 87,75. Тьюки называл эти квартили шарнирами,
отсюда одно из английских названий этого вида диаграмм – шарнирный график
(hinge plot). Короткие горизонтальные отрезки с ординатой 61 и 100 показывают
минимальное и максимальное значения, и вместе с отрезками, соединяющими их
с «ящиком» межквартильного размаха, они называются усами, отсюда и название
«ящик с усами». Мы сразу можем видеть, что эти данные симметричны, поскольку
медиана расположена приблизительно посередине межквартильного размаха, а он
расположен приблизительно в середине всего набора данных.
В этих данных нет выбросов, то есть таких чисел, которые бы были очень далеко
от всех остальных точек. Для демонстрации ящика с усами для данных, содер-
Столбчатые диаграммы 133

жащих выбросы, я заменила значение 100 в этих же данных на 10. На рис. 4.27
приведены ящики с усами двух наборов данных рядом друг с другом. (Ящик для
правильных данных обозначен как «экзамен», а ящик для данных с измененным
значением обозначен как «ошибка».)

100

80

60

40

20
26
*
0
error
Ошибка final
Экзамен

Рис. 4.27. Ящик с усами с выбросом (построен с помощью SPSS)


Обратите внимание что за исключением одного выброса, два набора данных вы-
глядят очень похоже; это связано с устойчивостью медианы и межквартильного
размаха к влиянию крайних значений. Отличающееся значение обозначено звез-
дочкой и подписано своим порядковым номером (26); последняя возможность
есть не во всех статистических пакетах.
Ящики с усами часто используют для сравнения двух или более наборов дан-
ных. На рис. 4.28 приведено сравнение оценок экзаменов за 2007 и 2008 годы, обо-
значенных как «Экзамен 2007» и «Экзамен 2008» соответственно.

100

90

80

70

60

50
final 2007
Экзамен 2007 final 2008
Экзамен 2008

Рис. 4.28. Ящики с усами для оценок за экзамен в 2007 и 2008 годах
(построены с помощью SPSS)
134 Глава 4. Описательная статистика и графическое представление...

Не видя никаких конкретных оценок, я замечаю несколько сходств и различий


между двумя годами:
• самая высокая оценка одинакова в оба года;
• самая нижняя оценка сильно меньше в 2008 году, чем в 2007;
• как размах, так и межквартильный размах (размах 50% данных из середи-
ны) больше в 2008 году;
• медиана в 2008 году немного меньше.
Совпадение самой высокой оценки не удивительно, поскольку можно получить
от 0 до 100 баллов, и каждый год хотя бы один студент набрал максимальное число
баллов. Это пример «эффекта потолка», возникающего в случае, когда величина
не может принимать значений выше какого-то числа, и при этом испытуемые его
достигают. Аналогичная ситуация, если величина не может быть ниже опреде-
ленного числа, называется «эффектом пола». В данном случае наименьшим воз-
можным числом был 0, но все студенты получили больше баллов, поэтому мы не
видим этого эффекта.

Гистограмма
Гистограмма – это еще один часто используемый способ изображения непре-
рывных переменных. Она внешне похожа на столбчатую диаграмму, но столбцы
в ней (интервалы, на которые разбиваются значения непрерывного распределе-
ния) располагаются вплотную друг к другу, в отличие от столбцов в столбчатой
диаграмме. Кроме того, обычно у гистограмм больше столбцов, чем у столбчатых
диаграмм. Они не обязаны быть одной ширины, хотя обычно их делают такими.
Ось y (вертикальная) в гистограмме показывает шкалу частот, а не сами значения,
и площадь каждого столбца показывает то, сколько значений попадает в соответст-
вующий интервал.
На рис. 4.29 показана гистограмма для данных о результатах экзамена, также
построенная с помощью SPSS, с четырьмя столбцами по 10 баллов шириной и с
наложенным нормальным распределением. Обратите внимание, что форма гис-
тограммы довольно сильно напоминает график «ствол с листьями» для тех же
данных (рис. 4.25), но повернутый на 90 градусов.
Нормальное распределение подробно обсуждается в главе 3; коротко его можно
охарактеризовать как часто используемое теоретическое распределение, которое
имеет знакомую колоколообразную форму, изображенную здесь. Нормальное рас-
пределение нередко накладывают на гистограммы как визуальную точку отсчета,
чтобы мы могли оценить, насколько распределение значений похоже на нормаль-
ное.
Хорошо это или плохо, но выбор числа и размера интервалов для построения
гистограммы может очень сильно повлиять на ее вид. Обычно гистограммы строят
с более чем четырьмя столбцами; на рис. 4.30 приведены те же данные, но постро-
енные с восемью столбцами шириной по 5 баллов.
Столбчатые диаграммы 135

10

6
Frequency
Частота

0
60 70 80 90 100
Final exam
Результаты экзамена

Рис. 4.29. Гистограмма с интервалами по 10 единиц

4
Frequency
Частота

0
60 70 80 90 100
Final exam
Результаты экзамена

Рис. 4.30. Гистограмма с интервалами по 5 единиц


136 Глава 4. Описательная статистика и графическое представление...

Это те же данные, но теперь гистограмма совсем не похожа на нормальное рас-


пределение, не так ли? На рис. 4.31 приведены те же данные с интервалами по
2 балла.

2
Frequency
Частота

0
60 70 80 90 100
final_exam
Результаты экзамена

Рис. 4.31. Гистограмма с интервалами по 2 единицы


Ясно, что выбор ширины интервалов очень важен для внешнего вида гисто-
граммы, но как же определиться с их числом? Эта проблема подробно обсуждалась
математиками, но осталась без однозначного ответа. (Если вас интересует очень
специальное обсуждение, посмотрите статью Ванда (Wand), упомянутую в прило-
жении В.) Нет единственно верного ответа на данный вопрос, но есть некоторые
эмпирические правила. Во-первых, все интервалы вместе должны покрывать весь
размах данных. Кроме того, одно из обычных эмпирических правил гласит, что
число интервалов должно быть равно квадратному корню из числа наблюдений
в данных. Другое — что оно никогда не должно быть меньше шести. Эти правила
явно противоречат друг другу в данном случае, поскольку √26 = 5,1, что меньше 6,
так что приходится использовать здравый смысл, а также пробовать разное число
интервалов и их ширину. Если изменение этих величин сильно меняет визуальное
отображение данных, стоит изучить их распределение подробнее.

Двумерные диаграммы
Диаграммы, содержащие информацию о связи двух переменных, называют дву-
мерными: самый частый пример – это диаграмма рассеяния. В диаграммах рассея-
Двумерные диаграммы 137

ния каждая точка в данных задается парой чисел, часто называемых x и y, каждую
точку изображают в координатных осях; этот метод должен быть вам знаком, если
вы когда-то использовали декартовы координаты в школе на уроках математи-
ки. Обычно вертикальную ось называют осью y, и на ней откладывают значения y
для каждой точки. Горизонтальную ось называют осью x, и на ней откладывают
значения x для каждой точки. Диаграммы рассеяния – это очень важное средство
изучения двумерных связей между переменными, которые подробнее разбирают-
ся в главе 7.
Диаграммы рассеяния
Взгляните на данные, приведенные в табл. 4.9, содержащие результаты математи-
ческой и речевой частей Академического оценочного школьного теста на способ-
ности (SAT, Scholastic Aptitude Test) гипотетической группы из 15 учеников.
Таблица 4.9. Результаты теста для 15 учеников
Математика Речь
750 750
700 710
720 700
790 780
700 680
750 700
620 610
640 630
700 710
710 680
540 550
570 600
580 600
790 750
710 720

Кроме того что все эти результаты достаточно высокие (этот тест калибруют та-
ким образом, чтобы медианное значение составляло 500, а большинство результа-
тов сильно выше этого числа), по сырым данным сложно сказать что-то про связь с
результатами выполнения математической и речевой частей теста. Иногда резуль-
таты по математике выше, иногда речевая часть удается лучше, а часто результаты
сходные. Однако построение диаграммы рассеяния двух переменных, такой как
на рис. 4.32, с результатами по математике на оси y (вертикальной) и речевыми на
оси x (горизонтальной) выявляет связь между ними.
138 Глава 4. Описательная статистика и графическое представление...

800

750

700

Математика
Math 650

600

550

500
500 600 700 800
Verbal
Речь

Рис. 4.32. Диаграмма рассеяния результатов


по математике и по речи
Несмотря на наличие небольших отклонений, результаты речевой и математи-
ческой частей сильно линейно связаны. У учеников с хорошо развитой речью в це-
лом выше результат математической части, и наоборот, а у тех, у кого одна из частей
написана плохо, и вторая в целом будет выполнена хуже. Однако не всегда связи
между переменными линейные. На рис. 4.33 приведены диаграмма рассеяния силь-
но связанных переменных, связь между которыми не линейная, а квадратичная.
120

100

80

60

40

20

0
-15 -10 -5 0 5 10 15

Рис. 4.33. Квадратичная связь между переменными


В данных, представленных на этой диаграмме рассеяния, значения x в каждой
паре – это целые числа от –10 до 10, а значения y – это квадраты значений x, так
что получается всем знакомая парабола. Многие статистические методы подра-
зумевают линейную связь между переменными, и сложно понять, правда это или
нет, просто посмотрев на сырые данные, так что построение диаграммы рассеяния
для всех важных пар переменных в данных – это простой способ проверить подоб-
ное предположение.
Двумерные диаграммы 139

Линейные графики
Линейные графики – это тоже часто используемый способ изображения связей
между двумя переменными, обычно между временем на оси x и какой-то другой
переменной на оси y. Единственное требование для построения линейного графи-
ка, чтобы каждому значению на оси x соответствовало только одно значение на
оси y, так что он не подойдет для таких данных, как результаты теста, представ-
ленные выше. Посмотрите на табл. 4.10 с данными Центра по предупреждению и
контролю заболеваний (ЦПКЗ), показывающими процент взрослых людей с ожи-
рением в США за каждый год в течение 13 лет.
Таблица 4.10. Встречаемость ожирения среди взрослых в США, 1990–2002
Год Встречаемость ожирения
1990 11.6%
1991 12.6%
1992 12.6%
1993 13.7%
1994 14.4%
1995 15.8%
1996 16.8%
1997 16.6%
1998 18.3%
1999 19.7%
2000 20.1%
2001 21.0%
2002 22.1%

Мы можем видеть из этой таблицы, что встречаемость ожирения равномерно


росла; изредка случалось ее понижение, но чаще всего она увеличивалась на 1–2%
каждый год. Эту же информацию можно представить в виде линейного графика,
как на рис. 4.34, что делает тенденцию к росту с течением времени еще более за-
метной.
Хотя этот график является довольно простым методом представления данных,
визуальное воздействие, которое он оказывает, сильно зависит от выбранной шка-
лы и интервала оси y (которая в данном случае показывает встречаемость ожире-
ния). На рис. 4.34 показано разумное отображение данных, но если мы захотим
усилить эффект на зрителя, мы можем раздвинуть шкалу, уменьшив интервал
оси y (вертикальной), как на рис. 4.35.
На рис. 4.35 представлены те же данные, что и на рис. 4.34, но с более узким интер-
валом на оси y (10–22% вместо 0–30%), и это визуально увеличивает различия меж-
ду годами. Рисунок 4.35 не обязательно показывает неверный способ изображения
данных (хотя многие считают, что всегда стоит включать 0 в случае графика, изоб-
140 Глава 4. Описательная статистика и графическое представление...

ражающего проценты), но он подчеркивает легкость манипуляции внешним видом


абсолютно правильных данных. Между прочим, выбор вводящего в заблуждение
интервала – это один из верных способов «лгать при помощи статистики» (см. ниже
врезку «Как лгать при помощи статистики», чтобы узнать подробнее об этом).

30

25
ожирения

20
Percent Obese
Встречаемость

15

10

1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
Year
Год

Рис. 4.34. Ожирение среди взрослых США, 1990–2002

22

20
ожирения

18
Percent Obese
Встречаемость

16

14

12

10

1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
Year
Год

Рис. 4.35. Ожирение среди взрослых США, 1990–2002 при использовании


ограниченного интервала для усиления визуального впечатления от тенденции
Двумерные диаграммы 141

Этот же прием работает и в обратную сторону – если мы изобразим те же дан-


ные с использованием широкого интервала для вертикальной оси, изменения за
исследуемый отрезок времени покажутся меньше, как на рис. 4.36.

100

80
ожирения

60
Percent Obese
Встречаемость

40

20

10

1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
Year
Год

Рис. 4.36. Ожирение среди взрослых США, 1990–2002, при использовании


широкого диапазона значений по оси ординат для ослабления визуального
впечатления от имеющейся тенденции

На рис. 4.36 показаны те же самые данные об ожирении, что и на рис. 4.34 и


4.35, но с широким интервалом (0–100%) на вертикальной оси для уменьшения
визуального воздействия тенденции. Так какую же шкалу выбрать? Нет единс-
твенно верного ответа на этот вопрос; везде представлена абсолютно одинаковая
информация, и, строго говоря, ни один из вариантов не является ошибочным.
В данном случае, если бы я представляла этот график без каких бы то ни было
других графиков для сравнения, я бы использовала шкалу из рис. 4.34, поскольку
она показывает истинный минимум данных (0%, который является минимально
возможным значением) и создает разумное пространство над максимальным зна-
чением в данных. Вне зависимости от проблем с выбором масштаба для одного
графика, в случае если вы приводите несколько графиков для сравнения (к при-
меру, графики, показывающие встречаемость ожирения в нескольких странах за
один и тот же промежуток времени, или графики с различными показателями
здоровья за один и тот же период), они всегда должны иметь одну и ту же шкалу,
чтобы избегать неверной трактовки читателем.
142 Глава 4. Описательная статистика и графическое представление...

Как лгать при помощи статистики


Даррел Хафф (Darrel Huff) был независимым писателем, который одновременно ра-
ботал редактором изданий Look («Взгляд»), Better Homes and Gardens («Как улучшить
ваш дом и сад») и Liberty («Свобода»). Однако его лучшей заявкой на известность стала
классическая книга «Как лгать при помощи статистики» (How to Lie with Statistics), впер-
вые опубликованная в 1954 году. Некоторые считают, что это самая читаемая книга по
статистике в мире. Хафф не был профессиональным статистиком, его представление
темы можно описать разве что как неформальное, а некоторые иллюстрации в этой кни-
ге сейчас бы посчитали оскорбительными, если бы их включили в современную книгу.
Однако данная книга сохранила свою популярность в течение всех этих лет; она все еще
переиздается и была переведена на много языков.
Хафф берет многие из своих примеров «лжи», как он называет обманчивое представ-
ление информации, из СМИ, политических и рекламных текстов. Некоторые из его са-
мых метких примеров приведены в главе про графическое представление данных, и они
включают такие ошибки, как специально вводящий в заблуждение масштаб и полное
отсутствие подписей по осям. Одна из причин такой популярности этой книги состоит в
том, что многие из методов введения читателя в заблуждение, обнаруженные им в 1954
году, используются и по сей день.

Упражнения
Как и в случае любой другой области статистики, обучение какому-то методу
описательной статистики требует практики. Здесь специально приведены очень
простые данные, потому что если вы сможете правильно применить метод к 10
наблюдениям, вы сможете использовать его и для 1000 наблюдений.
Мой совет состоит в следующем: попробуйте решить задачи несколькими спо-
собами, к примеру вручную, с помощью калькулятора и с помощью любых до-
ступных вам программ. Даже программы для работы с электронными таблицами,
такие как Microsoft Excel, предоставляют возможность воспользоваться многими
математическими и статистическими функциями. (Хотя польза от применения
этих функций для серьезного статистического анализа находится под вопросом,
они могут быть полезны для первичного анализа; см. ссылки про Excel в приложе-
нии C, чтобы узнать об этом подробнее.) Кроме того, решение проблемы несколь-
кими способами придаст вам уверенности в том, что вы корректно используете
устройства и программы.
Большинство графиков и диаграмм строят с помощью компьютерных про-
грамм, и хотя у каждого пакета есть преимущества и недостатки, большинство из
них могут создавать большинство диаграмм, если не все, представленные в этой
главе, как и множество других. Лучший способ вникнуть в методы графического
представления данных – это изучить любую доступную вам программу и прак-
тиковаться в изображении данных, с которыми вы работаете. (Если вы в данный
момент не работаете ни с какими данными, в Интернете доступно множество на-
боров данных, которые вы можете бесплатно скачать.) Помните, что графическое
представление – это способ общения, и держите в голове то, зачем вы строите тот
или иной график.
Упражнения 143

Задача
Какую из перечисленных мер центральной тенденции следует использовать в
какой ситуации? Придумайте какие-нибудь примеры для каждой из них из вашей
области работы или учебы.
• Среднее.
• Медиана.
• Мода.
Решение
• Медиана подойдет для интервальных или характеризующих отношения
непрерывных симметричных данных без сильных выбросов.
• Медиана подойдет для непрерывных асимметричных данных, ранговых
данных или данных с сильными выбросами.
• Мода чаще всего применяется для категориальных данных или непрерывных
данных, в которых одно из значений встречается сильно чаще остальных.
Задача
Найдите несколько примеров обманчивого применения статистической графи-
ки и объясните, в чем проблема с каждым из них.
Решение
Это не должно быть сложно ни для кого, если вы следите за новостными СМИ,
но если вам не удается это сделать, поищите в Интернете по ключевой фразе
«misleading graphics» (примерный перевод – обманчивые графики).
Задача
Один из следующих наборов данных следует изобразить в виде столбчатой диа-
граммы, а другой — в виде гистограммы; определите, какой метод подойдет для
каких данных, и объясните, почему.
1. Данные о росте (в сантиметрах) 10 000 поступивших в университет.
2. Данные о специализациях, выбранных 10 000 поступившими в универси-
тет.
Решение
1. Данные о росте следует изобразить в виде гистограммы, поскольку это не-
прерывная переменная, имеющая большое число возможных значений.
2. Данные о специализации лучше изобразить в виде столбчатой диаграммы,
поскольку это категориальная переменная с ограниченным набором воз-
можных значений (хотя если есть много вариантов специализации, то бо-
лее редкие варианты придется объединить для большей ясности).
Задача
Только один из следующих наборов данных подходит для изображения в виде
круговой диаграммы. Определите, какой, и объясните, почему.
1. Заболеваемость гриппом за два последних года, разделенная по месяцам.
144 Глава 4. Описательная статистика и графическое представление...

2. Число дней больничных, связанных с пятью самыми частыми причинами


госпитализации (пятая категория – это «все остальные», и она включает
все причины отсутствия на работе, кроме первых четырех).
Решение
1. Круговая диаграмма не подходит для данных о заболеваемости гриппом,
поскольку в ней было бы слишком много категорий (24), а многие из них,
вероятно, окажутся очень похожими по размеру (поскольку заболеваемость
гриппом очень мала в летние месяцы), да и на самом деле данные не отража-
ют части, составляющие единое целое. Лучше в данном случае использовать
столбчатую диаграмму или линейный график, показывающий число случаев
гриппа по каждому месяцу или времени года.
2. Данные о больничных хорошо подходят для круговой диаграммы, посколь-
ку есть всего пять категорий, и все части в сумме дают 100%. Из данного
описания остается неясным, насколько разные категории (секторы) отли-
чаются друг от друга по размеру; если они заметно различаются, это еще
один аргумент в пользу использования круговой диаграммы.
Задача
Чему равна медиана следующего набора данных?
832769121
Решение
Данные содержат 9 измерений, что является нечетным числом; таким образом,
медиана – это срединное значение, если отсортировать значения по их величине.
Если рассмотреть этот вопрос с математической точки зрения, раз n = 9 чисел, то
медиана равна числу под номером (n + 1)/2; таким образом, медиана – это число
под номером (9 + 1)/2, то есть пятое число.
Задача
Чему равна медиана следующего набора данных?
7 15 2 6 12 0
Решение
Данные содержат 6 измерений, что является четным числом; таким образом,
медиана – это среднее двух срединных значений, если отсортировать их по ве-
личине, в данном случае 6 и 7. Если рассмотреть этот вопрос с математической
точки зрения, то медиана для набора данных с четным числом измерений равна
среднему чисел под номерами (n)/2 и (n)/2 + 1; в данном случае n = 6, таким обра-
зом, медиана – это среднее чисел под номерами (6)/2 и (6)/2 + 1, то есть третьего
и четвертого чисел.
Задача
Чему равны среднее и медиана следующих (конечно, странных) данных?
1, 7, 21, 3, –17
Упражнения 145

Решение
Среднее составляет ((1 + 7 + 21 + 3 + (–17))/5 = 15/5 = 3.
Медиана – это, поскольку число наблюдений нечетное, число под номером
(n + 1)/2, то есть третье. Отсортированные данные выглядят как (–17, 1, 3, 7, 21),
то есть медиана, равная третьему числу, равна 3.
Задача
Чему равны дисперсия и стандартное отклонение следующего набора данных?
Считайте μ = 3.
135
Решение
Формула для расчета дисперсии для генеральной совокупности приведена на
рис. 4.37.

Рис. 4.37. Формула для дисперсии для генеральной совокупности

Формула для выборки приведена на рис. 4.38.

Рис. 4.38. Формула для дисперсии для выборки

В данном случае n = 3, x = 3, а сумма квадратов отклонений равна


(–2)2 + 02 + 22 = 8.
Дисперсия для генеральной совокупности равна 8/3, или 2,67, а стандартное от-
клонение для генеральной совокупности равно квадратному корню из дисперсии,
то есть 1,63. Для выборки дисперсия составляет 8/2, или 4, а стандартное отклоне-
ние равно квадратному корню из дисперсии, то есть 2.
ГЛАВА 5.
Категориальные данные

Категориальная переменная – это такая переменная, у которой все возможные


значения составляют фиксированный набор категорий, а не чисел, измеряющих
величину на непрерывной шкале. Например, человек может описывать свой пол
как мужской или женский, а деталь может быть или качественной, или бракован-
ной. Также возможно наличие более двух категорий. К примеру, в Соединенных
Штатах человека можно отнести к республиканцам, демократам или политически
независимым.
Категориальные переменные могут быть таковыми по своей природе (как
принадлежность к определенной партии) без какой-либо числовой шкалы в ос-
нове измерений, так и их можно создать с помощью разбиения непрерывной или
дискретной величины на категории. Давление крови – это мера давления, ока-
зываемого кровью на стенки сосудов, и она измеряется в миллиметрах ртутного
столба (мм. рт. ст.), но часто её анализируют с использованием категорий, таких
как низкое, нормальное, прегипертензия, гипертензия. Дискретные переменные
(то есть такие, которые могут принять определенные значения на промежутке)
также можно сгруппировать в категории. Исследователь может собирать точ-
ную информацию о числе детей в семье (0 детей, 1 ребенок, 2 ребенка, 3 ребенка
и т. д.), но после этого может сгруппировать эти числа в категории для каких-
то целей анализа, к примеру так: 0 детей, 1–2 ребенка, 3 и более детей. Такой
метод группирования часто применяется в случаях, когда вариантов значений
переменной много и некоторые из них обеднены данными. В случае числа де-
тей в семье, к примеру, в данных вполне может оказаться слишком мало семей
с большим числом детей, и низкие частоты в таких категориях могут негативно
повлиять на мощность исследования или сделать невозможным применение не-
которых статистических методов.
Хотя премудрости группирования непрерывных и дискретных переменных в
категории обсуждаются (некоторые исследователи называют это выбрасыванием
информации, поскольку такой подход приводит к потере информации о разбросе
внутри каждой категории), это обычная практика во многих областях. Разбиение
непрерывных данных проводят по многим причинам, включая как, например, то,
что это принято в данной профессиональной области, так и для решения проблем
с распределением в данных.
RґC-таблицы 147

Методы работы с категориальными данными можно применять для анализа


порядковых переменных, то есть таких, в которых значения можно упорядочить
по величине, но расстояние между соседними элементами не обязательно оди-
наковое. (Подробнее порядковые переменные обсуждаются в главе 1.) Хорошо
известная шкала Лайкерта (Likert), в которой испытуемые выбирают ответы из
пяти упорядоченных категорий (таких как «Полностью согласен», «Согласен»,
«Затрудняюсь ответить», «Не согласен», «Полностью не согласен»), – это класси-
ческий пример порядковой переменной. Существует целый набор аналитических
методов для работы с порядковыми переменными, которые сохраняют информа-
цию об их порядке. Если есть выбор, лучше использовать специальные методы
для порядковых переменных, чем общие методы для категориальных, поскольку
первые в целом мощнее.
Для категориальных и порядковых данных существуют специальные методы
анализа. В этой главе мы обсудим самые обычные подходы, используемые для
таких переменных, и кроме того, некоторые из этих методов включены и в другие
главы. Отношение вероятностей, отношение рисков и критерий Мантеля–Хен-
зеля (Mantel–Haenszel) описаны в главе 15, кроме того, некоторые непарамет-
рические методы из главы 13 применимы к порядковым или категориальным
данным.

R×C-таблицы
В случае, когда анализ касается исследования связи между двумя категориаль-
ными переменными, их распределение в данных часто показывают с помощью
R×C-таблиц, которые чаще называют таблицами сопряженности. R в R×C-табли-
це относится к строкам, а C – к колонкам, или столбцам1, и конкретные таблицы
тоже можно описывать по числу строк и столбцов, которые они содержат. Строки
и столбцы всегда называют именно в таком порядке, договоренность, которую так-
же соблюдают при описании матриц и в записях с индексом. Иногда отдельно вы-
деляют таблицы 2×2, в которых показывают общее распределение двух перемен-
ных с двумя значениями каждая, и таблицы более высоких размерностей. И хотя
можно считать таблицы 2×2 частным случаем R×C-таблиц, в котором и R, и C
равны 2, эта классификация может быть полезной для обсуждения методов, раз-
работанных именно под таблицы 2×2. Выражение R×C читается как «R на C», и то
же применимо к конкретным размерам таблиц, то есть 3×2 читается как «3 на 2».
Положим, нас интересует исследование связи между широкими категориями
возраста и здоровья, а последнее определяется по известной пятибалльной шкале
оценки общего здоровья. Мы решаем, на какие категории разбить возраст, и соби-
раем данные о выборке испытуемых, классифицируя их по возрасту (используя
выбранные категории) и состоянию здоровья (используя пятибалльную шкалу).
Затем мы смотрим на эту информацию в виде таблицы сопряженности, организо-
ванной как табл. 5.1.
1
R – от англ. Row, C – от англ. Column. – Прим. перев.
148 Глава 5. Категориальные данные

Таблица 5.1. Таблица сопряженности состояния здоровья и возрастных групп

Великолепное Очень хорошее Хорошее Неплохое Плохое

< 18 лет

18–35 лет

40–64 лет

≥ 65 лет

Ее можно описать как таблица 4×5, поскольку она содержит 4 строки и 5 столб-
цов. Каждая ячейка показывает число людей из выборки с парой соответствую-
щих исследуемых характеристик: число людей до 18 с великолепным здоровьем,
число людей 18–39 лет с великолепным здоровьем и так далее.

Меры согласия
Описанные в этой книге меры надежности применимы в основном к непрерыв-
ным измерениям. В случае, когда измерения касаются деления на категории, на-
пример классификация деталей на качественные и бракованные, лучше подходят
меры согласия. К примеру, мы хотим сравнить согласованность результатов двух
диагностических тестов на определенное заболевание или проверить, одинаково
ли три наблюдателя расклассифицируют школьников в классе по их поведению
на приемлемое и недопустимое. В обоих случаях некто выбирает одну оценку из
определенного набора категорий, и нам интересно, насколько хорошо результаты
классификации соотносятся друг с другом.
Процент согласия – это самая простая мера согласия; его можно рассчитать, раз-
делив число случаев совпадения оценок на общее число оценок. К примеру, если из
100 оценок наблюдатели согласны в 80% случаев, то процент согласия составляет
80/100, или 0,8. Большой проблемой простого процента согласия является то, что
высокий процент совпадения может получиться чисто случайно; таким образом,
сложно сравнивать проценты согласия между разными ситуациями, когда согласо-
ванность по случайным причинам может заметно различаться.
Однако этот недостаток можно обойти, используя другую обычную меру согла-
сия, называемую каппой Коэна, каппа-коэффицент, или просто каппа. Изначаль-
но эту меру разработали для сравнения результатов двух оценщиков или тестов,
но позднее расширили для использования на большем числе классификаторов.
Использование каппы предпочтительно по сравнению с процентом согласия, по-
скольку она включает поправку на случайные совпадения (хотя статистики спо-
рят о том, насколько эта поправка успешна; подробнее смотрите во врезке ниже).
Каппу легко получить с помощью сортировки результатов в гипотетической сетке
и расчетов, как показано в табл. 5.2. Этот гипотетический пример связан с согласо-
ванностью двух видов тестов на наличие (З+) или отсутствие (З–) определенного
заболевания.
RґC-таблицы 149

Таблица 5.2. Согласие двух тестов с двумя вариантами результатов


Тест 1
+ –
+ 50 10 60
Тест 2
– 10 30 40
60 40 100

Четыре ячейки с данными часто обозначают следующим образом:


+ –
+ a b
– c d

Ячейки a и d обозначают согласия (в a – случаи, когда оба теста дали положи-


тельный результат, то есть наличие заболевания, а в d – случаи, когда оба теста
дали отрицательный результат), тогда как b и c обозначают несогласия.
Формула для каппы выглядит следующим образом:

где Pо = наблюдаемые согласия, а Pe = наблюдаемые несогласия.


Pо = (a + d)/(a + b + c + d),
то есть число случаев согласия, поделенное на общее число наблюдений. В данном
случае
Po = 80/100 = 0,80;
Pe = [(a + c)(a + b)]/(a + b + c + d)2 + [(b + d)(c + d)]/(a + b + c + d)2,
а это число случаев согласия, ожидаемых случайно. Ожидаемое согласие в данном
случае составляет следующее число:
(60*60)/(100*100) + (40*40)/(100*100) = 0,36 + 0,16 = 0,52.
В данном случае каппа рассчитывается таким образом:

Каппа может принимать значения от –1 до +1; значение 0 она примет, если чис-
ло наблюдаемых совпадений равно числу ожидаемых случайных, а 1 – если все
наблюдения согласованы. Не существует абсолютных стандартов, по которым
можно судить о том, велико ли данное значение каппы или мало; однако многие
исследователи придерживаются указаний о степени согласования при определен-
ных значениях каппы, опубликованных Ландисом и Кохом (Landis and Koch) в
1977 году:
150 Глава 5. Категориальные данные

<0 Плохое
0–0,20 Слабое
0,21–0,40 Заметное
0,41–0,60 Среднее
0,61–0,81 Сильное
0,81–1,0 Почти идеальное
По этим меркам у нас среднее согласование. Обратите внимание, что процент
согласования составляет 0,80, а каппа – 0,58. Каппа всегда не больше процента
согласования, поскольку она включает поправку на случайные совпадения.
Для альтернативного взгляда на каппу (обращенного к более продвинутым ста-
тистикам) прочитайте следующую врезку.

Неоднозначная каппа
Каппу Коэна часто преподают и широко применяют, но ее использование не лишено
противоречий. Каппу обычно определяют как величину, показывающую согласие сверх
случайного, или, проще говоря, согласие с поправкой на случайность. У нее есть два
применения: как статистика критерия для определения того, согласуются ли два набора
оценок лучше, чем можно было бы ожидать случайно (двумя вариантами ответа: да или
нет), и как мера силы согласования (которая выражается в числе от 0 до 1).
Хотя у большинства исследователей нет проблем с первым применением каппы, не-
которые возражают против второго. Проблема состоит в том, что расчет ожидаемого
случайного согласия основан на том, что оценки независимы, условие, редко встречаю-
щееся на практике. Поскольку каппу часто применяют для оценки согласования между
множеством отдельных оценок одного и того же наблюдения, будь это поведение ре-
бенка в классе или результаты рентгена у человека с подозрением на туберкулез, мы бы
ожидали чего-то большего, чем случайного совпадения. В таких случаях каппа переоце-
нивает согласование между тестами, наблюдателями и тому подобное за счет недооце-
нивания наблюдаемого согласования, которое на самом деле случайное.
Критику каппы, включая длинный список относящейся к этому литературы, можно най-
ти на веб-сайте доктора Джона Уеберсакса (John Uebersax).

Распределение хи-квадрат
При проверке гипотез о категориальных данных нам нужен какой-то способ
оценить значимость наших результатов. В случае таблиц сопряженности часто
лучшим вариантом статистики является один из тестов хи-квадрат, которые ис-
пользуют известные свойства распределения хи-квадрат. Распределение хи-квад-
рат – это непрерывное распределение, которое широко применяется в критери-
ях значимости, поскольку многие из их статистик распределены по хи-квадрату
в случае, если нулевая гипотеза верна. Умение соотносить статистику критерия
с известным распределением делает возможным определение вероятности полу-
чить какое-то значение статистики.
Распределение хи-квадрат – это частный случай гамма-распределения, который
определяется только одним параметром, k, числом степеней свободы. В распреде-
Распределение хи-квадрат 151

лении хи-квадрат есть только положительные значения, поскольку оно основано


на сумме квадратов квантилей, что вы увидите позже, и имеет правую асиммет-
рию. Его форма изменяется в зависимости от k, особенно сильно при маленьких
значениях параметра, что видно на четырех распределениях хи-квадрат на рис. 5.1.
При приближении k к бесконечности распределение хи-квадрат стремится (стано-
вится очень похожим на) к нормальному распределению.
Функция плотности распределения Функция плотности распределения
Chi-Square
вероятности PDF (1 df)(1 df)
хи-квадрат Chi-Square
вероятности PDF (2 df)(2 df)
хи-квадрат
4 0.5
Плотность вероятности

Плотность вероятности
0.4
Probability Density

Probability Density
3
0.3
2
0.2
1 0.1
0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
X X
Функция плотности распределения Функция плотности распределения
Chi-Square
вероятности PDF (5 df)(5 df)
хи-квадрат Chi-Square
вероятности PDF (10 df)(10 df)
хи-квадрат
0.2 0.1
вероятности
вероятности
Density

Density

0.15 0.075
Probability

Probability

0.1 0.05
Плотность
Плотность

0.05 0.025

0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
X X

Рис. 5.1. Функция плотности распределения хи-квадрат при различном числе


степеней свободы
На рис. D.11 представлен список критических значений распределения хи-
квадрат, который можно использовать, чтобы определить значимость результа-
тов критерия. К примеру, критическое значение для уровня значимости 0,05 для
распределения хи-квадрат с одной степенью свободы составляет 3,84. Любой ре-
зультат критерия со значением выше данного можно считать значимым для теста
хи-квадрат на независимость таблицы 2×2 (описывается ниже).
Обратите внимание, что 3,84 = 1,962 и то, что 1,96 – это критическое значение
для Z-распределения (стандартного нормального распределения) для двухсто-
роннего критерия при уровне значимости 0,05. Это не просто совпадение, при-
чина этого равенства лежит в математической связи между Z-распределением и
распределением хи-квадрат.
Говоря формально, если Xi – это независимые переменные, распределенные по
стандартному нормальному закону с μ = 0 и σ = 1, а случайная величина Q опре-
деляется как
152 Глава 5. Категориальные данные

то Q будет распределена по хи-квадрату с k-степенями свободы.


Два важных момента, о которых стоит помнить, – это что для расчета значения
хи-квадрата необходимо знать число степеней свободы и что критические значе-
ния в целом возрастают с ростом числа степеней свободы. При уровне значимости
0,05 критическое значение для одностороннего теста хи-квадрат с одной степенью
свободы составляет 3,84, но при 10 степенях свободы оно уже равно 18,31.

Тест хи-квадрат
Критерий хи-квадрат – это один из наиболее распространенных способов изуче-
ния связей между двумя и более категориальными переменными. Проведение это-
го теста включает расчет статистики хи-квадрат и ее сравнение с распределением
хи-квадрат, чтобы найти вероятность данного результата критерия. Есть несколь-
ко типов критерия хи-квадрат; если не сказано иное, в данной главе обозначение
«тест хи-квадрат» относится к тесту хи-квадрат Пирсона, одного из наиболее
обычных типов.
Есть три разновидности критериев хи-квадрат. Первый из них называют кри-
терием независимости хи-квадрат. В случае двух переменных этот критерий про-
веряет нулевую гипотезу о независимости переменных друг от друга, то есть об
отсутствии связи между ними. Альтернативная гипотеза состоит в том, что они
зависимы, то есть связаны между собой.
К примеру, мы можем собрать данные о курении и наличии диагноза рака лег-
ких в случайной выборке взрослых. Каждая из этих переменных дихотомическая:
человек или курит, или нет, и у него или диагностирован рак легких, или нет. Со-
берем наши данные в таблицу частот, представленную в табл. 5.3.
Таблица 5.3. Курение и рак легких

Диагностирован рак легких Не диагностирован рак легких

Курят 60 300

Не курят 10 390

При взгляде на эти данные бросается в глаза, что, вероятно, есть связь между
курением и раком легких: у 20% курящих диагностирован рак легких, однако у
некурящих его обнаружили только у 2,5%. Впечатление может быть обманчиво,
поэтому мы проведем тест хи-квадрат на независимость. Вот наши гипотезы:
H0: курение и рак легких независимы;
H1: курение и рак легких связаны.
Хотя тесты хи-квадрат обычно рассчитывают с помощью компьютера, особенно
в случае таблиц большего размера, стоит один раз просчитать все шаги вручную
Тест хи-квадрат 153

в качестве простого примера. Критерий хи-квадрат основан на разнице между


наблюдаемыми и ожидаемыми значениями в каждой из ячеек таблицы 2×2.
Наблюдаемые значения – это просто те, которые мы получили из данных по вы-
борке (пронаблюдали), тогда как ожидаемые значения – это те, которые мы бы
ожидали увидеть в том случае, если эти переменные независимы. Для расчета
ожидаемых значений воспользуйтесь формулой, приведенной на рис. 5.2.

сумма i-й строки сумма j-го столбца


общая сумма

Рис. 5.2. Расчет ожидаемых значений для ячейки


В этой формуле Eij – это ожидаемое значение для ячейки ij, а i и j обозначают
соответственно строку и столбец ячейки. Эта запись с нижним индексом часто ис-
пользуется в статистике, так что стоит поговорить о ней сейчас. В табл. 5.4 показа-
но, как такой способ записи используется для обозначения ячеек в таблице 2×2.
Таблица 5.4. Запись с нижним индексом для таблицы 2×2
Ячейка11 Ячейка12 Строка 1 (i = 1)
Ячейка21 Ячейка21 Строка 2 (i = 2)
Столбец 1 (j = 1) Столбец 2 (j = 2)

В табл. 5.5 добавлены суммы по столбцам и строкам к примеру с курением и


раком легких.
Таблица 5.5. Данные о курении и раке легких с суммами по строкам и столбцам

Диагностирован рак легких Не диагностирован рак легких Сумма

Курят 60 300 360

Не курят 10 390 400

Сумма 70 690 760

Частота для ячейки11 составляет 60, для ячейки12 – 300, сумма по первой строке
равна 360, сумма по первой колонке составляет 70 и так далее. Используя запись
с точкой, сумма по строке 1 обозначается как 1., сумма по строке 2 – как 2., сумма
по колонке 1 – .1, и .2 для колонки 2. Логика этой записи состоит в том, что, к
примеру, сумма по первой строке включает значения для обоих колонок, 1 и 2, так
что значение номера колонки замещается точкой. Аналогичным образом сумма по
столбцам включает значения обеих строк, так что обозначения строки замещают-
ся точкой. В данном примере 1. = 360, 2. = 400, .1 = 70 и .2 = 690.
Значения сумм по колонкам и столбцам называются краевыми значениями, по-
скольку их записывают по краям таблицы. Они отражают частоты одной перемен-
ной в исследовании безотносительно ее связи с другой переменной, так что крае-
вая частота для наличия диагноза рака легких составляет 70, а для курения – 360.
154 Глава 5. Категориальные данные

Числа в таблице (60, 300, 10 и 390) называют совместными частотами, поскольку


они отражают число испытуемых, имеющих заданные значения обеих перемен-
ных. К примеру, совместная частота для курильщиков с диагнозом рака легких в
данной таблице составляет 60.
Если бы две переменные не были связаны, мы бы ожидали, что частоты в каждой
ячейке были бы равны произведению краевых значений, поделенному на объем вы-
борки. Другими словами, мы бы ожидали, что совместные частоты определяются
только распределением краевых значений. Это означает, что если курение и рак лег-
ких не связаны, то мы увидим, что число курильщиков с раком легких будет опре-
деляться только числом курильщиков и числом больных раком в выборке. По этой
логике вероятность иметь рак легких должна быть примерно одинаковой у курящих
и некурящих, если курение действительно не влияет на развитие рака легких2.
Используя предыдущую формулу, мы можем рассчитать ожидаемые значения
для каждой ячейки, как показано на рис. 5.3.

Рис. 5.3. Расчет ожидаемых значений ячеек


Наблюдаемые и ожидаемые значения для данных о раке легких представлены
в табл. 5.6; ожидаемые значения указаны в скобках. Нам нужен какой-то способ
определить, связаны ли различия между ними только со случайностью или они
являются значимыми. Мы можем это сделать с помощью критерия хи-квадрат.
Таблица 5.6. Наблюдаемые и ожидаемые значения в данных о курении и раке легких

Диагностирован рак легких Не диагностирован рак легких Сумма

Курят 60 (33.16) 300 (362.84) 360

Не курят 10 (36.84) 390 (363.16) 400

Сумма 70 690 760

Критерий хи-квадрат основан на квадрате разницы между наблюдаемыми и


ожидаемыми значениями в каждой ячейке таблицы и использует формулу, при-
веденную на рис. 5.4.
2
Или наоборот, рак легких на курение; или у них обоих общая причина – как всегда, мы из статистичес-
ки значимой связи не можем делать выводы о том, что – причина, а что – следствие. – Прим. перев.
Тест хи-квадрат 155

Рис. 5.4. Формула для расчета значения хи-квадрат


Чтобы понять, что означает статистика хи-квадрат, вам надо выполнить следую-
щие шаги:
1. Рассчитать наблюдаемые и ожидаемые значения для ячейки11.
2. Возвести их разницу в квадрат и разделить на ожидаемое значение.
3. Повторить первые два шага для всех остальных ячеек.
4. Сложить все полученные на шагах 1–3 числа.
Продолжая наш пример, для ячейки11 расчет проходит следующим образом:

Повторив это с остальными ячейками, получим следующие значения: 2,2 для


ячейки12, 19,6 для ячейки21 и 2,0 для ячейки22. Сумма составляет 45,5, что в пре-
делах ошибки округления от того, что мы получили, используя статистическую
программу SPSS, 45,474.
Для того чтобы понять, что статистика хи-квадрат означает, вам надо знать чис-
ло ее степеней свободы. Форма распределения хи-квадрат зависит от числа его
степеней свободы, и, соответственно, в зависимости от него меняются и критичес-
кие значения распределения. В случае простого критерия хи-квадрат число сте-
пеней свободы составляет (r – 1)*(c – 1), то есть (число строк минус 1) умножить
на (число колонок минус 1). Для таблицы 2×2 число степеней свободы составляет
(2 – 1)*(2 – 1) = 1; для таблицы 3×5 их (3 – 1)*(5 – 1) = 8.
Рассчитав значение хи-квадрат и число степеней свободы вручную, мы мо-
жем посмотреть в таблицу значений хи-квадрат, чтобы сравнить наше значение
с соответствующим критическим значением. Судя по рис. D.11 в приложении D,
критическое значение для уровня значимости 0,05 составляет 3,841, тогда наше
число 45,5 сильно его превышает, так что при уровне значимости 0,05 мы должны
отвергнуть нулевую гипотезу о независимости переменных. Если вы незнакомы с
процессом проверки гипотез, вам может быть полезно просмотреть соответствую-
щий раздел главы 3 до того, как продолжать чтение этой главы. Компьютерные
программы обычно, кроме значения хи-квадрат и числа степеней свободы, выдают
p-значение, и если оно ниже нашего уровня значимости, мы можем отвергнуть ну-
левую гипотезу. В данном примере будем использовать уровень значимости 0,05.
Если верить SPSS, p-значение для нашего результата (45,474) меньше 0,0001, что
много меньше 0,05 и говорит о том, что мы должны отвергнуть нулевую гипотезу
об отсутствии связи между курением и раком легких.
Критерий равенства пропорций хи-квадрат рассчитывают ровно так же, как и
критерий независимости, но он проверяет другую гипотезу. Критерий равенства
156 Глава 5. Категориальные данные

пропорций используется с данными, взятыми из нескольких независимых выбо-


рок, а нулевая гипотеза состоит в том, что распределение какой-то переменной
одинаково во всех генеральных совокупностях. К примеру, мы можем взять слу-
чайные выборки из разных этнических групп и проверить, одинакова ли частота
рака легких во всех генеральных совокупностях; нулевая гипотеза была бы в том,
что они все одинаковые. Расчеты бы проходили так же, как и в предыдущем при-
мере: испытуемых надо было бы расклассифицировать по этнической группе и
наличию рака легких, рассчитать ожидаемые значения, статистику хи-квадрат и
число степеней свободы, сравнить статистику с таблицей значений распределения
хи-квадрат с нужным числом степеней свободы или же получить точное p-значе-
ние с помощью статистического пакета.
Критерий согласия хи-квадрат используют для проверки гипотезы о том, что
распределение какой-либо категориальной переменной в генеральной совокуп-
ности совпадает с заданным распределением, тогда как альтернативная гипотеза
гласит, что распределение этой переменной какое-то иное, но не предполагаемое.
Этот критерий рассчитывают, используя ожидаемые значения, основанные на
гипотетическом распределении, и различные категории или группы обозначают
нижним индексом i, от 1 до g (как показано на рис. 5.5).

Рис. 5.5. Формула для расчета критерия согласия хи-квадрат


Обратите внимание на то, что в этой формуле нижние индексы не парные, то
есть, к примеру, Ei, а не Eij. Это связано с тем, что для критерия согласия данные
чаще всего организованы в одну строку, поэтому и необходим только один индекс.
Число степеней свободы в критерии согласия хи-квадрат составляет (g – 1).
Положим, мы считаем, что у 10% людей в определенной популяции понижен-
ное кровяное давление (гипотензия), у 40% нормальное давление, у 30% прегипер-
тензия, а 20% – гипертензики. Мы можем проверить эту гипотезу, набрав выборку
и сравнив наблюдаемые частоты с гипотетическими (ожидаемыми значениями);
мы будем использовать уровень значимости 0,05. В табл. 5.7 приведен пример воз-
можных данных.
Таблица 5.7. Ожидаемые и наблюдаемые значения распределения кровяного
давления

Гипотензия Нормальное Прегипертензия Гипертензия Сумма

Ожидаемая
0.10 0.40 0.30 0.20 1.00
доля

Ожидаемое
10 40 30 20 100
число случаев

Наблюдаемое
12 25 50 13 100
число случаев
Тест хи-квадрат 157

Рассчитанное значение хи-квадрат для этих данных составляет 21,8 с тремя


степенями свободы, и оно значимо. (Критическое значение для уровня значимос-
ти 0,05 составляет 7,815, что можно видеть из таблицы значений хи-квадрат на
рис. D.11 в приложении D.) Поскольку наше расчетное значение больше крити-
ческого, мы должны отвергнуть нулевую гипотезу о распределении уровней кро-
вяного давления в этой популяции.
Критерий хи-квадрат Пирсона подходит для данных, в которых все наблю-
дения независимы (то есть, к примеру, каждого испытуемого измеряют только
1 раз), а категории взаимно исключающие и перекрывают все возможные значе-
ния (то есть в каждом случае можно однозначно отнести испытуемого к ровно
одной ячейке). Кроме того, предполагается, что ни в одной из ячеек ожидаемое
значение не меньше 1, и не более чем у 20% ячеек ожидаемое значение меньше 5.
Причина возникновения двух последних требований связана с тем, что крите-
рий хи-квадрат асимптотический, и его некорректно применять к разреженным
данным (то есть таким, в которых у одной или нескольких ячеек маленькая ожи-
даемая частота).
Поправка Йейтса на непрерывность – это процедура, разработанная британс-
ким статистиком Франком Йейтсом (Frank Yates) для критерия независимости
хи-квадрат при работе с таблицами 2×2. Распределение хи-квадрат непрерывное,
однако данные, используемые в критерии хи-квадрат, дискретные, и поправка
Йейтса была придумана как раз для того, чтобы исправить это несоответствие.
Поправку Йейтса очень легко применить. Вам просто надо вычесть 0,5 из абсо-
лютного значения разницы наблюдаемых и ожидаемых значений до возведения в
квадрат; это слегка понижает значение статистики хи-квадрат. Формула хи-квад-
рат с поправкой Йейтса на непрерывность приведена на рис. 5.6.

Рис. 5.6. Формула хи-квадрата с поправкой Йейтса на непрерывность


Идея поправки Йейтса состоит в том, что уменьшение значения хи-квадрат
приводит к уменьшению вероятности ошибки первого рода (ошибочного отвер-
жения нулевой гипотезы). Однако использование поправки Йейтса одобряется
далеко не всеми; некоторые исследователи считают, что она может приводить к
слишком сильной коррекции с понижением мощности и повышению вероятности
ошибки второго рода (ошибочного неотвержения нулевой гипотезы). Некоторые
статистики отвергают поправку Йейтса в принципе, хотя другие находят ее полез-
ной в случае разреженных данных, особенно если хотя бы в одной ячейке ожидае-
мая величина меньше 5. Менее противоречивый метод работы с такими данными
в случаях, когда предположения о распределении, упомянутые выше (не более
20% ячеек с ожидаемым значением меньше 5 и без ячеек с ожидаемым значением
меньше 1), не выполняются, – это использование точного теста Фишера, который
обсуждается ниже, вместо критерия хи-квадрат.
158 Глава 5. Категориальные данные

Тест хи-квадрат часто рассчитывают и для таблиц большего размера, чем 2×2,
хотя для в таких ситуациях обычно используют компьютерные программы, по-
скольку с ростом числа ячеек расчеты быстро становятся очень громоздкими. Нет
никакого теоретического ограничения на число строк и столбцов, которые можно
включить, но два фактора создают практические ограничения: возможность сде-
лать адекватные выводы (попробуйте это сделать с таблицей 30×30!) и необходи-
мость избегать пустых ячеек, что было сказано ранее. Иногда данные собирают в
виде большого числа категорий, но потом их объединяют в меньшее число групп,
чтобы избежать пустых ячеек. К примеру, информацию о семейном положении
можно собирать в виде большого числа категорий (женат/замужем, холост/не
замужем, в разводе, проживание с партнером, вдовец/вдова и т. п.), но для неко-
торых видов анализов исследователь может решить сократить число категорий
(к примеру, до женат/замужем и холост/не замужем) из-за недостаточного числа
испытуемых в более мелких категориях.

Точный тест Фишера


Точный тест Фишера (или просто тест Фишера) – это непараметрический кри-
терий, аналогичный тесту хи-квадрат, но его можно применять с небольшим ко-
личеством данных или в случае разреженного распределения данных, которые не
подходят под требования хи-квадрата. Тест Фишера основан на гипергеометри-
ческом распределении и рассчитывает точную вероятность наблюдения такого
распределения, как в данных, или более экстремального, отсюда и слово «точный»
в названии. Это не асимптотический тест, так что он не ограничен правилами о
разреженности, которые относятся к тесту хи-квадрат. Обычно для расчета теста
Фишера используют компьютерные программы, особенно для таблиц большего
размера, чем 2×2, из-за занудности расчетов. Ниже следует простой пример с таб-
лицей 2×2.
Положим, нас интересует связь между употреблением некоего уличного нарко-
тика и внезапной остановкой сердца у молодых людей. Поскольку наркотик неза-
конный и новый для нашего района, и, кроме того, остановки сердца очень редко
встречаются у молодых людей, мы не смогли собрать достаточно данных, чтобы
провести тест хи-квадрат. В табл. 5.8 приведены данные для анализа.
Таблица 5.8. Точный тест Фишера: расчет связи между употреблением
нового уличного наркотика и внезапной остановкой сердца у молодых людей

Остановка сердца Нет остановки сердца Сумма

Употребляли наркотик 7 2 9

Не употребляли наркотика 5 6 11

Сумма 12 8 20

Наши гипотезы:
Точный тест Фишера 159

H0: риск внезапной остановки сердца у употреблявших и не употреблявших


наркотика одинаковый.
H1: риск внезапной остановки сердца у употреблявших новый наркотик выше.
Точный тест Фишера рассчитывает вероятность получить результат не менее
экстремальный, чем тот, который был найден в исследовании. Более экстремаль-
ный результат в данном случае – это такой, в котором отличие в частоте внезапной
остановки сердца у употреблявших и не употреблявших наркотик еще больше,
чем в наших данных (при том же объеме выборки). Пример более экстремального
результата приведен в табл. 5.9.
Таблица 5.9. Более экстремальное распределение данных для примера
с употреблением наркотика и внезапной остановкой сердца

Остановка сердца Нет остановки сердца Сумма

Употребляли наркотик 8 1 9

Не употребляли наркотика 4 7 11

Сумма 12 8 20

Формула точной вероятности для таблицы 2×2 приведена на рис. 5.7.

Рис. 5.7. Формула точного теста Фишера


В данной формуле «!» означает факториал (4! = 4 × 3 × 2 × 1), а ячейки и крае-
вые значения обозначены в соответствии с табл. 5.10.
Таблица 5.10. Табличная запись
a b r1
c d r2
c1 c2 n

В нашем случае a = 8, b = 1, c = 4, d = 7, r1 = 9, r2 = 11, c1 = 12, c2 = 8 и n = 20. Поче-


му эта таблица более экстремальна, чем наши данные? Потому что если бы между
употреблением наркотика и внезапной остановкой сердца не было бы связи, мы
бы ожидали увидеть такое распределение, как на табл. 5.11.
Таблица 5.11. Ожидаемые данные при условии независимости

Остановка сердца Нет остановки сердца Сумма

Употребляли наркотик 5.4 3.6 9

Не употребляли наркотика 6.6 4.4 11

Сумма 12 8 20
160 Глава 5. Категориальные данные

В наших наблюдаемых данных связь между употреблением наркотика и вне-


запной остановкой сердца сильнее (больше смертей, чем ожидаемое значение для
употреблявших наркотик), так что любая таблица, в которой связь еще сильнее,
чем наблюдаемая в данных, более экстремальна и, таким образом, менее вероятна
в случае, если употребление наркотика и остановка сердца независимы.
Чтобы найти p-значение для точного теста Фишера вручную, нам бы пришлось
найти вероятности всех более экстремальных таблиц и сложить их. К счастью,
алгоритмы расчета теста Фишера включены практически во все статистические
пакеты, и существует множество онлайн-калькуляторов, которые могут сделать
этот расчет за вас. Используя калькулятор, доступный на странице, поддерживае-
мой Джоном С. Пеццуло (John C. Pezzullo), профессором фармакологии и биоста-
тистики в отставке, мы находим одностороннее p-значение точного теста Фишера
для данных из табл. 5.7, и оно составляет 0,157. Мы используем односторонний
критерий, поскольку наша гипотеза односторонняя; нас интересует, не повышает
ли новый наркотик риск внезапной остановки сердца. Используя уровень значи-
мости 0,05, мы не можем считать этот результат значимым, так что мы не отвер-
гаем нулевую гипотезу о том, что новый наркотик не связан с увеличением риска
внезапной остановки сердца.

Парный тест МакНемара


Критерий МакНемара (McNemar) – это вид теста хи-квадрат, который применяют
в тех случаях, когда данные получены из связанных выборок, или в случае парных
данных. Например, мы можем использовать тест МакНемара для анализа резуль-
татов опроса общественного мнения до и после просмотра испытуемыми полити-
ческой рекламы. В данном примере от каждого человека мы получим два ответа,
один до и второй после просмотра. Мы не можем использовать эти два ответа на
один и тот же вопрос как независимые, так что не можем применять критерий
хи-квадрат Пирсона; вместо этого мы предполагаем, что два ответа, полученные
от одного и того же испытуемого, будут более сильно связаны, чем два ответа,
полученные от случайных людей. Тест МакНемара также подойдет для анализа
ответов пар муж-жена или братьев и сестер на один и тот же вопрос. В случае брать-
ев и сестер или мужей-жен, хотя данные и получены от разных людей, каждый
человек в паре настолько сильно связан с другим, что мы ожидаем, что они будут
более похожими, чем случайные люди из генеральной совокупности. Критерий
МакНемара также можно применять для анализа данных, собранных на группах
испытуемых, настолько похожих по ключевым свойствам, что их больше нельзя
считать независимыми. К примеру, в медицинских исследованиях иногда изучают
встречаемость некоторого заболевания в зависимости от возраста, пола, расовой
принадлежности или национальности и подобных характеристик и применяют
такие тесты, как критерий МакНемара, поскольку испытуемые настолько сильно
похожи, что их считают скорее связанными выборками, чем независимыми.
Положим, мы хотим определить эффективность политической рекламы для
влияния на мнение людей о смертной казни. Один из подходов сделать это со-
Парный тест МакНемара 161

стоит в сборе мнения людей о том, поддерживают они высшую меру или нет, до
и после просмотра 30-секундного ролика, пропагандирующего отмену смертной
казни. Посмотрите на гипотетические данные в табл. 5.12.
Таблица 5.12. Критерий МакНемара для мнения по поводу смертной казни
до и после просмотра политической рекламы

После просмотра ролика


За смертную Против
Сумма
казнь смертной казни
За смертную казнь 15 25 40
До просмотра 10 20 30
Против смертной казни
ролика
Сумма 25 45 70

Больше людей были против смертной казни после просмотра ролика, чем до
того, но достоверно ли отличие? Мы можем это проверить с помощью критерия
хи-квадрат МакНемара, который рассчитывается по формуле на рис. 5.8.

Рис. 5.8. Формула для теста хи-квадрат МакНемара


Эта формула использует метод указания ячеек с помощью буквенных обозначе-
ний по такой схеме, как в табл. 5.13
Таблица 5.13. Способ буквенного обозначения ячеек в таблице 2×2
a b
c d

Обратите внимание, что формула основана исключительно на распределении


дискордантных пар (b и c), в данном случае тех, в которых человек изменил свое
мнение после просмотра ролика. Статистика МакНемара распределена по хи-
квадрату с одной степенью свободы. Расчеты приведены на рис. 5.9.

Рис. 5.9. Расчет критерия хи-квадрат МакНемара


Как вы можете увидеть из таблицы значений хи-квадрат (рис. D.11 в прило-
жении D), при уровне значимости 0,05 критическое значение распределения хи-
квадрат составляет 3,84, так что наш результат свидетельствует о необходимости
отвергнуть нулевую гипотезу о том, что просмотр ролика никак не влияет на мне-
ние людей о смертной казни. Кроме того, с помощью компьютерного анализа я оп-
ределила, что точная вероятность получить такую (6,43) или более экстремальную
162 Глава 5. Категориальные данные

статистику хи-квадрат составляет 0,017, если бы мнение людей не менялось после


просмотра ролика, что подчеркивает значимость результатов этого исследования
и необходимость отвергнуть нулевую гипотезу.

Пропорции: большие выборки


Пропорция – это доля, в которой все случаи из числителя также входят и в знаме-
натель. К примеру, мы можем говорить о пропорции (доле) студенток в каком-то
университете. В числителе будет стоять число студенток, а в знаменателе – число
всех студентов университета, как мужского, так и женского пола. Или же мы можем
говорить о доле студентов какого-то университета, специализирующихся на химии.
В числителе будет число студентов-химиков, а в знаменателе – число всех студен-
тов университета (вне зависимости от специализации). Пропорции более подробно
обсуждаются в главе 15. Данные, которые можно описать в терминах пропорций, –
это особый случай категориальных данных, в которых есть две категории: студенты
мужского и женского пола в первом примере, химики и не химики во втором.
Многие статистики, обсуждаемые в этой главе, такие как точный тест Фишера
и критерии хи-квадрат, можно использовать для проверки гипотез о пропорци-
ях. Однако в случае достаточного объема выборки можно применять некоторые
дополнительные виды критериев, которые используют нормальное приближение
биномиального распределения; это возможно из-за того, что, как говорилось в
главе 3, биномиальное распределение начинает очень напоминать нормальное с
ростом n (объема выборки). Какого объема выборки достаточно? Эмпирическое
правило гласит, что как np, так и n(1 – p) должны быть не меньше 5.
Поставьте себя на место менеджера на фабрике, который утверждает, что 95%
шурупов определенного вида, выпускаемых на фабрике, имеют диаметр между
0,50 и 0,52 сантиметра. Один из клиентов жалуется, что в недавней поставке было
слишком много неразмерных шурупов, так что вы решили взять выборку из 100
шурупов и измерить их, чтобы посмотреть, сколько из них соответствует стандар-
ту. Вы проведете одновыборочный Z-критерий, чтобы проверить вашу предпола-
гаемую гипотезу о том, что 95% шурупов соответствуют указанным стандартам, со
следующими гипотезами:
H0: π ≥ 0,95;
H1: π < 0,95,
где π – это доля шурупов, соответствующих стандартам, в генеральной совокуп-
ности (диаметр между 0,50 и 0,52 см). Обратите внимание, что это односторонний
критерий; вы будете рады, если хотя бы 95% шурупов соответствуют стандарту,
и счастливы, если даже больше, чем 95%. (Лучше всего было бы, если бы 100%
соответствовали стандартам, но не бывает идеально точного производственного
процесса.) В вашей выборке 91 шуруп соответствовал указанным размерам. До-
статочен ли этот результат для того, чтобы при уровне значимости 0,05 отвергнуть
нулевую гипотезу о том, что хотя бы 95% шурупов этого типа, произведенных на
вашей фабрике, соответствуют стандартам?
Пропорции: большие выборки 163

Формула для расчета одновыборочного Z-теста пропорций приведена на рис. 5.10.

Рис. 5.10. Формула для одновыборочной Z-статистики для пропорций


В этой формуле π0 – это предполагаемая пропорция в генеральной совокуп-
ности, p – это пропорция в выборке и n – это объем выборки.
Подстановка чисел в эту формулу дает Z-значение, равное –1,835, как показано
на рис. 5.11.

Рис. 5.11. Расчет одновыборочной Z-статистики для пропорций


Критическое значение для одновыборочного Z-критерия при нашей гипотезе и
уровне значимости составляет –1,645. Наша статистика –1,835 более экстремаль-
на, чем это значение, так что мы отвергаем нулевую гипотезу и заключаем, что
меньше 95% шурупов этого вида, произведенных на нашей фабрике, соответству-
ют указанным стандартам.
Кроме того, мы можем проверять отличия между пропорциями в генеральных
совокупностях в случае большого объема выборок. Предположим, нас интересу-
ет доля курящих старшеклассников, и мы хотим сравнить этот показатель у двух
стран. Нашей нулевой гипотезой будет то, что пропорции в двух странах одинако-
вы, так что мы проведем двухсторонний тест со следующими гипотезами:
H0: π1 = π2;
H1: π1 ≠ π2.
Считая, что предположения об объеме выборок выполнены (np ≥ 5, n(1 – p) ≥ 5
для обеих выборок), мы можем применить формулу с рис. 5.12 для расчета Z-ста-
тистики для разницы между пропорциями для двух генеральных совокупностей.

Рис. 5.12. Формула для расчета Z-статистики равенства пропорций


В этой формуле p1 – это пропорция в выборке 1, p2 – это пропорция в выборке 2,
n1 – это объем выборки 1, n2 – это объем выборки 2 и p̂ – это объединенная про-
порция, рассчитанная как сумма успехов в обеих выборках (в данном случае число
курильщиков), разделенная на сумму объемов выборок.
164 Глава 5. Категориальные данные

Предположим, мы взяли выборки по 500 старшеклассников в каждой из стран; в


стране 1 выборка включала 90 курильщиков; в стране 2 обнаружилось 70 курящих
испытуемых. Достаточно ли нам этих данных, чтобы отвергнуть нулевую гипоте-
зу о равенстве пропорций курящих старшеклассников в двух странах? Мы можем
проверить это с помощью двухвыборочного Z-теста, как показано на рис. 5.13.

Рис. 5.13. Расчет Z-статистики для разницы двух пропорций


Обратите внимание: наша объединенная пропорция составляет
(90 + 70)/(500 + 500) = 160/1000 = 0,16.
Это Z-значение менее экстремально, чем 1,96 (значение, необходимое для того,
чтобы отвергнуть нулевую гипотезу при уровне значимости 0,05; вы можете про-
верить это с помощью таблицы нормального распределения (рис. D.3 в прило-
жении D)), так что мы не можем отвергнуть нулевую гипотезу о равенстве долей
курильщиков среди старшеклассников в двух странах.

Корреляции для категориальных


данных
Самая обычная мера связи двух переменных, коэффициент корреляции Пирсона
(обсуждается в главе 7), требует того, чтобы переменные были хотя бы интерваль-
ными. Тем не менее были разработаны меры связи для категориальных и порядко-
вых данных, и они имеют смысл, сходный с коэффициентом корреляции Пирсона.
Эти меры часто рассчитывают с помощью статистических программ или онлайн-
калькуляторов, хотя можно это сделать и вручную.
Как и в случае коэффициента корреляции Пирсона, корреляции, обсуждаемые в
этом разделе, – это исключительно меры связи, и ни в кое случае нельзя делать вы-
воды о причинно-следственных взаимодействиях только на основании коэффици-
ента корреляции. Есть огромное множество подобных мер, некоторые из которых
известны под несколькими названиями; здесь описаны некоторые из самых часто
используемых статистик. Хороший подход в случае, если вы используете статис-
тический пакет, – это посмотреть, какие из мер он поддерживает, а затем изучить,
что из них подходит для ваших данных, поскольку существует очень большое раз-
нообразие видов корреляций.

Бинарные переменные
Фи – это мера степени связи между двумя бинарными переменными (двумя кате-
гориальными переменными, каждая из которых принимает только два значения).
Фи рассчитывают для таблиц 2×2; V Крамера (Cramer’s V) аналогична фи для таб-
Корреляции для категориальных данных 165

лиц большего размера. Используя метод указания ячеек как в табл. 5.10, формула
для расчета фи приведена на рис. 5.14.

Рис. 5.14. Формула для фи-статистики


Мы можем рассчитать фи для данных по курению/раку легких из табл. 5.3, как
показано на рис. 5.15.

Рис. 5.15. Расчет фи-статистики


Кроме того, фи можно рассчитать, разделив статистику хи-квадрат на n и взяв
квадратный корень из полученного значения, как показано на рис. 5.16.

Рис. 5.16. Альтернативная формула для фи-статистики


Обратите внимание, что первый метод расчета может дать как положительный,
так и отрицательный результат, тогда как второй – только положительный, по-
скольку статистика хи-квадрат всегда положительна3. Значение фи, полученное с
помощью статистики хи-квадрат по второму методу, можно считать за абсолютное
значение результата расчета по первой формуле. Это хорошо видно при анализе
данных из табл. 5.14.
Таблица 5.14. Пример для фи
10 20
20 10

Рассчитав фи по первой формуле, мы получили –0,33, а по второй – 0,33. Вы


можете проверить это с помощью компьютерного пакета или онлайн-калькулято-
ра, или же проведя расчеты вручную. Разумеется, если бы мы поменяли порядок
следования колонок, мы бы получили положительный результат с помощью обо-
их методов. Если у колонок нет естественного порядка (к примеру, если они пред-
ставляют из себя неупорядоченные категории вроде цвета), нас может не заботить
направление связи, а только ее сила. В других случаях ситуация может быть иной,
к примеру если колонки представляют из себя наличие или отсутствие болезни.
В последнем случае надо быть внимательными к расположению данных в табли-
це, чтобы избежать неверной интерпретации результатов.
3
Кроме того, если не учитывать мнимых чисел, квадратный корень всегда неотрицателен. – Прим.
перев.
166 Глава 5. Категориальные данные

Интерпретация фи не так однозначна, как интерпретация коэффициента кор-


реляции Пирсона, поскольку максимальное и минимальное значения фи зависят
от краевого распределения данных. Если обе переменные разделены ровно 50 на
50 (половина с одним значением, половина – с другим), фи может принимать зна-
чения (–1, +1) при расчете по первому методу и (0, 1) – по второму. Если у пере-
менных распределение иное, то фи может принимать меньший набор значений.
Это подробнее обсуждается в статье Дэвенпорта и Эль-Санхурри (Davenport and,
El-Sanhurry), упомянутой в приложении C. Помня об этом ограничении, в осталь-
ном интерпретация фи сходна с таковой для коэффициента корреляции Пирсона,
так что значение –0,33 говорит о средней отрицательной связи (следует помнить,
что нет точного определения «средней силы связи», и такой результат может счи-
таться сильным в одной области и довольно слабым – в другой).
V Крамера – это обобщение фи для таблиц, больших, чем 2×2. Формула для
V Крамера сходна с таковой для второго метода расчета фи, что показано на
рис. 5.17:

Рис. 5.17. Формула для расчета V Крамера


где в знаменателе стоит n, умноженное на меньшее число из (r – 1) и (c – 1), то есть
минимум из двух чисел: число строк минус 1 и число столбцов минус 1. Для табли-
цы 4×3 это число будет 2, то есть 3 – 1. Для таблицы 2×2 формула для V Крамера
совпадает с формулой для второго метода расчета фи.
Предположим, значение хи-квадрат для таблицы 3×4 с n = 200 составляет 16,70.
V Крамера для этих данных приведена на рис. 5.18.

Рис. 5.18. Расчет V Крамера

Точечно-бисериальный коэффициент корреляции


Точечно-бисериальный коэффициент корреляции – это мера связи между ди-
хотомической и непрерывной переменными. Математически он эквивалентен
коэффициенту корреляции Пирсона (подробно обсуждается в главе 7), но из-за
дихотомичности одной из переменных можно применять другую формулу для
расчета.
Предположим, что нас интересует сила связи между полом (дихотомическая
переменная) и ростом (непрерывная переменная) у взрослых. Точечно-бисериаль-
ный коэффициент симметричен, как и коэффициент корреляции Пирсона, но для
простоты обозначения мы запишем пол как X и рост как Y, причем закодируем Y
так: 0 – мужчины, 1 – женщины. Мы берем выборку мужчин и женщин и рассчи-
Порядковые переменные 167

тываем точечно-бисериальный коэффициент корреляции с помощью формулы,


приведенной на рис. 5.19.

Рис. 5.19. Формула для точечно-бисериального коэффициента корреляции


В этой формуле X1 – это средний рост женщин, X0 – средний рост мужчин,
p – доля женщин, sx – стандартное отклонение X.
Предположим, в нашей выборке средний рост мужчин составляет 69,0 дюйма4,
64,0 дюйма5 – средний рост женщин, стандартное отклонение роста составляет 3,0
дюйма6, и в выборке 55% женщин. Мы рассчитываем корреляцию между полом и
ростом у взрослых, как показано на рис. 5.20.

Рис. 5.20. Точечно-бисериальная корреляция между полом и ростом


Корреляция на уровне –0,829 – это показатель сильной связи, что говорит о том,
что рост и пол каким-то образом тесно взаимосвязаны в популяции США. Корре-
ляция отрицательная, поскольку мы закодировали женщин (которые в среднем
ниже) как 1, а мужчин – как 0; если бы мы закодировали эту переменную наобо-
рот, корреляция бы составляла 0,829. Обратите внимание, что средние и стандар-
тное отклонение, использованные в этом подсчете, близки к реальным данным по
США, так что сильная связь между полом и ростом существует не только в этом
упражнении, но и в жизни.

Порядковые переменные
Самая обычная статистика для корреляции порядковых данных (то есть тех, в ко-
торых данные упорядочены в смысле «меньше-больше», но нет равного расстояния
между значениями) – это ранговая корреляция Спирмена (Spearman’s rank-order
coefficient), также называемая ро Спирмена или r Спирмена, иногда обозначаемая rs.
Ро Спирмена основана на рангах данных по величине (первый, второй, третий и так
далее), а не на самих значениях. Ранжирование класса – это пример порядковых
данных; ученику с наибольшим средним баллом присваивают номер один, со вто-
рым по величине средним баллом – номер два и так далее, но при этом вы не зна-
ете, такая же ли разница между первым и вторым учениками, как между вторым и
третьим. Даже если данные на самом деле измеряются на непрерывной шкале, как
средний балл в школе, часто при поступлении в колледжи используются именно
ранги из-за сложностей в сравнении оценок в разных классах и школах.
4
Примерно 175 см. – Прим. перев
5
Примерно 162 см. – Прим. перев.
6
7.62 см. – Прим. перев.
168 Глава 5. Категориальные данные

Для расчета ро Спирмена проранжируйте все значения каждой переменной по


отдельности, поставив в соответствие равным значениям усредненный ранг. Затем
посчитайте разницу в рангах для каждой пары значений и рассчитайте ро Спирме-
на с помощью формулы, приведенной на рис. 5.21.

Рис. 5.21. Формула для ро Спирмена


Положим, нас интересует связь между временем, проведенным за учебой в не-
делю, и результатом итогового экзамена. Мы собираем данные об обеих перемен-
ных, как показано в табл. 5.15 (данные упрощены для иллюстрации, чтобы мини-
мизировать ручные расчеты).
Таблица 5.15. Число часов, потраченных на учебу каждую неделю, и результат
экзамена
Время учебы Результат
Студент Ранг Ранг di di2
(часы) экзамена
1 10 7 93 7 0 0
2 12 9 98 8 1 1
3 8 5 99 9 –4 16
4 15 10 100 1 0 0
5 4 1 92 6 –5 25
6 11 8 90 5 3 9
7 6 3 80 2 1 1
8 7 4 82 3 1 1
9 9 6 84 4 2 4
10 5 2 75 1 1 1

Похоже, что большие затраты времени на учебу связаны с более высокой оцен-
кой, однако связь не идеальная (студент № 3 получил высокую оценку, хотя потра-
тил среднее количество времени на учебу, а студент № 5 получил хорошую оценку,
хотя занимался относительно немного). Мы рассчитаем ро Спирмена, чтобы полу-
чить более точную оценку этой связи. Обратите внимание на то, что мы возводим
разницу в рангах в квадрат, так что не имеет значения, вычитаете вы ранг времени
обучения из ранга оценки (как сделали мы) или же наоборот. Сумма di2 составляет
58, а ро Спирмена для этих данных показана на рис. 5.22.

Рис. 5.22. Расчет ро Спирмена


Порядковые переменные 169

Это подтверждает то, что мы предполагали, посмотрев на данные: есть доста-


точно сильная, но не идеальная связь между затратами времени на занятия и ре-
зультатом экзамена.
Гамма Гудмана и Краскела (Goodman and Kruskal’s gamma), часто называемая
просто гамма, – это мера связи между порядковыми переменными, которая осно-
вана на числе конкордантных и дискордантных пар в двух переменных. Иногда ее
называют мерой монотонности, поскольку она говорит о том, как часто перемен-
ные принимают значения в том порядке, который ожидается. Если я вам скажу,
что две переменные положительно связаны друг с другом и что второе число в
переменной 1 больше, чем первое, то вы будете ожидать, что второе число в пере-
менной 2 тоже выше первого. Тогда это будет конкордантная пара. Если же второе
число в переменной 2 будет меньше, чем первое, это будет дискордантная пара.
Для ручного расчета гаммы мы сначала должны получить распределение частот
для двух переменных, сохраняя в них естественный порядок.
Представьте себе гипотетические данные об ИМТ (индекс массы тела, мера от-
ношения массы к росту) и кровяном давлении. В целом высокий ИМТ связан с
высоким давлением, но это не так для каждого отдельного человека. У некоторых
полных людей нормальное давление, а у некоторых людей с правильным весом
давление повышено. Есть ли сильная связь между массой тела и кровяным давле-
нием в данных в табл. 5.16?
Таблица 5.16. Пример данных для расчета гаммы
Кровяное давление
Нормальный Прегипертензия Гипертензия
Нормальный 25 15 5
ИМТ
Повышенный 10 10 25

Формулы для расчета гаммы используют обозначение ячеек как в табл. 5.17.
Таблица 5.17. Обозначения ячеек для расчета гаммы
a b c
d e f

Сначала нам надо найти число конкордантных (P) и дискордантных пар (Q)
следующим образом:
P = a (e + f) + bf = 25(10 + 25) + 15(25) = 875 + 375 = 1250,
Q = c (d + e) + bd = 5(10 + 10) + 15(10) = 100 + 150 = 250.
Затем гамму рассчитывают так, как показано на рис. 5.23.

Рис. 5.23. Расчет гаммы Гудмана и Краскела


170 Глава 5. Категориальные данные

Смысл гаммы ясен: если есть сильная связь между двумя переменными, доля
конкордантных пар должна быть выше; таким образом, чем больше гамма, тем бо-
лее слабой связи она соответствует. Гамма симметрична, поскольку нет разницы,
какая из переменных рассматривается как зависимая, а какая – как независимая;
значение гаммы будет одинаковым в любом случае. Гамма не делает поправку на
равные ранги в данных.
Морис Кендалл (Maurice Kendall) разработал три немного отличающихся вида
порядковой корреляции как альтернативы гамме. Статистические компьютерные
программы иногда используют более сложные формулы для расчета этих статистик,
так что стоит проверять, какой именно метод расчета используется, по руководству
к программам. Все варианты статистики тау Кендалла, как и гамма, симметричны.
Тау-a Кендалла основана на разнице числа конкордантных и дискордантных
пар, разделенной на меру, основанную на общем числе пар (n = объем выборки),
как показано на рис. 5.24.

Рис. 5.24. Формула для тау-a Кендалла


Тау-b Кендалла – это похожая мера связи, основанная на конкордантных и дис-
кордантных парах, с учетом поправки на число равных рангов. Если назвать пе-
ременные X и Y, тау-b рассчитывается как P – Q, поделенное на геометрическое
среднее числа пар X с уникальным рангом (X0) и числа пар Y с уникальным рангом
(Y0). Тау-b может достигать 1,0 и –1,0 только в случае квадратных таблиц (таблиц
с одинаковым числом строк и столбцов). Формула для тау-b Кендалла приведена
на рис. 5.25.

Рис. 5.25. Формула для тау-b Кендалла


В этой формуле X0 – это число пар X с уникальным рангом, Y0 – это число пар Y
с уникальным рангом.
Тау-c Кендалла используют для неквадратных таблиц и рассчитывают, как по-
казано на рис. 5.26.

Рис. 5.26. Формула для тау-c Кендалла


В этой формуле m – это число строк или столбцов, в зависимости от того, какое
из них меньше, а n – это объем выборки.
Шкала Лайкерта и шкалы семантического дифференциала 171

d Сомерса (Somers’s d) – это асимметричный вариант гаммы, так что расчет ста-
тистики меняется в зависимости от того, какую из переменных мы считаем неза-
висимой, а какую – зависимой. Кроме того, d Сомерса отличается от гаммы в том,
что она включает поправку на число пар с равным рангом в независимой перемен-
ной. Если гипотеза заключается в том, что X предсказывает значение Y, d Сомерса
будет поправлено на число равных рангов в X. Если, наоборот, Y предсказывает
X, то поправка будет касаться равных рангов в Y. Как и в тау-b, равные ранги в d
Сомерса удаляются из знаменателя. Используя обозначения X0 = число уникаль-
ных рангов в X, а Y0 = число уникальных рангов в Y, d Сомерса рассчитывают, как
показано на рис. 5.27.
P–Q
d(предсказание Y по X)
P + Q + X0

P–Q
d(предсказание X по Y)
P + Q + Y0
Рис. 5.27. Формулы для d Сомерса
Симметричное значение для d Сомерса можно получить, взяв среднее от двух
асимметричных значений, полученных по этим формулам.

Шкала Лайкерта и шкалы


семантического дифференциала
Исследователи разработали несколько типов шкал для измерения свойств, у кото-
рых нет естественной единицы измерения, таких как мнения, отношения и впечатле-
ния. Самая известная из таких шкал – это шкала Лайкерта, предложенная Ренсисом
Лайкеротом (Rensis Likert) в 1932 году и широко используемая по сей день в самых
различных областях от образования до здравоохранения и менеджмента. В типич-
ном вопросе, построенном по шкале Лаймерта, испытуемому дают утверждение и
предлагают выбрать из упорядоченного списка возможных ответов. К примеру:
Мои занятия в Высшей школе Линкольна (Lincoln East High School)
подготовили меня к занятиям в университете.
1. Полностью согласен.
2. Согласен.
3. Затрудняюсь ответить.
4. Не согласен.
5. Полностью не согласен.

Это классическая порядковая шкала; мы можем быть достаточно уверены, что


«Полностью согласен» показывает более сильное согласие, чем «Согласен», а «Со-
гласен» – более сильное, чем «Затрудняюсь ответить», однако мы не знаем, одина-
ково ли отличие между «Согласен» и «Полностью согласен» с отличием между «За-
трудняюсь ответить» и «Согласен», и одинаковы ли они для разных испытуемых.
172 Глава 5. Категориальные данные

Методы работы с категориальными и порядковыми данными, описанные в этой


главе, подходят для анализа данных, собранных с помощью шкалы Лайкерта, как и
некоторые непараметрические методы, описанные в главе 13. Тот факт, что ответы
в шкале Лайкерта часто обозначают номерами, иногда приводит к использованию
исследователями методов, разработанных для интервальных данных. К примеру,
вы можете найти опубликованные статьи, где указаны среднее и дисперсия для
данных, собранных с помощью шкалы Лайкерта. Исследователь, выбирающий та-
кой путь (использования данных, собранных с помощью шкалы Лайкерта, как ин-
тервальных), должен понимать всю противоречивость этого подхода и что многие
издатели не примут подобного анализа, а задача по доказательству возможности
отхода от порядковых и категориальных методов в случае анализа таких данных
целиком и полностью лежит на самом исследователе.
В шкале Лайкерта часто используют пять уровней реакции испытуемого, по-
скольку, как считается, три уровня не дают достаточного числа вариантов ответа,
тогда как семь предоставляют слишком большой выбор. Кроме того, есть данные,
что люди не любят выбирать крайние значения из многих вариантов. Однако
некоторые исследователи вообще предпочитают четное число вариантов ответа,
обычно четыре или шесть, чтобы убрать среднюю категорию, которую испытуе-
мые могут выбирать по умолчанию.
Шкала семантического дифференциала похожа на шкалу Лайкерта, за тем
исключением, что отдельные варианты ответа не имеют названия, а обозначены
только крайние значения. Предыдущий вопрос из шкалы Лайкерта можно пере-
формулировать в стиле семантического дифференциала следующим образом:
Пожалуйста, оцените вашу академическую подготовку в Высшей школе Линкольна
в отношении требований университетского обучения:
Великолепная подготовка 1 2 3 4 5 Недостаточная подготовка

Из-за отсутствия необходимости давать названия отдельным точкам в шка-


лах семантического дифференциала часто используют больше вариантов ответа.
Пользуется популярностью десятибалльная шкала, поскольку людям знакома де-
сятибалльная система оценки (отсюда и популярная в английском языке фраза
«a perfect 10», обозначающая высшую оценку чего-либо; дословно переводится
как «идеальная десятка»). Как и в случае шкалы Лайкерта, шкалы семантическо-
го дифференциала по своей природе порядковые, хотя в случае большого числа
предложенных вариантов некоторые исследователи считают, что можно анализи-
ровать их как интервальные.

Ренсис Лайкерт (1903–1981)


Ренсис Лайкерт (произносится с ударением на первый слог) был американским социо-
логом, специализировавшимся на исследовании организации и теории управления.
Лайкерт получил степень бакалавра (BA) социологии в Мичиганском университете в
1926 году, а степень кандидата психологических наук (PhD) в Колумбийском университе-
те в 1932 году; он разработал шкалу Лайкерта как часть своей диссертации. Лайкерт был
основателем Института социологии Мичиганского университета и был его директором с
Упражнения 173

1946 до 1970 года; последние годы своей жизни он консультировал корпорации и писал
книги по теории управления. Главный вывод его работы делает его очень популярным
среди мотивированных студентов и работников по всему миру: Лайкерт разработал ос-
новы управления на основе участия и методов организации, ориентированных на чело-
века, на базе своих исследований, показавших, что существует обратная связь между
принуждающим стилем управления и эффективностью работы сотрудников.

Упражнения
Вот несколько вопросов на повторение тем, обсужденных в этой главе.

Задача
Каковы измерения таблиц 5.18 и 5.19? Сколько будет степеней свободы в кри-
терии независимости хи-квадрат для таких данных?
Таблица 5.18. R×C-таблица (а)

Таблица 5.19. R×C-таблица (б)

Решение
Размерности таблиц равны 3×4 (таблица а) и 4×3 (таблица б). Помните, что
таблицы описывают как R×C, то есть (число строк)×(число столбцов). Число
степеней свободы для первой таблицы равно (3 – 1)(4 – 1) = 6 и (4 – 1)(3 – 1) = 6
для второй, поскольку число степеней свободы для хи-квадрата рассчитывают как
(r – 1)(c – 1).

Задача
Рассчитайте процент согласия и каппу по данным из следующей таблицы.
Таблица 5.20. Согласие двух оценщиков
Оценщик 2
+ –
Оценщик 1 + 70 15 85
– 30 25 55
100 40 140
174 Глава 5. Категориальные данные

Решение
Процент согласия = 95/140 = 0,68.
Каппа = 0,30.
Po = (70 + 25)/140 = 0,68.
Pe = (85*100)/(140*140) + (40*55)/(140*140) = 0,54.

Рис. 5.28. Расчет каппы

Задача
Какова нулевая гипотеза критерия независимости хи-квадрат?
Решение
Переменные независимы, что одновременно означает, что совместные частоты
можно точно предсказать с помощью краевых частот.

Задача
Какова нулевая гипотеза критерия равенства пропорций хи-квадрат?
Решение
Нулевая гипотеза состоит в том, что две или более выборки, взятые из разных
генеральных совокупностей, имеют одинаковое распределение изучаемых пере-
менных.

Задача
Какая статистическая мера подойдет для оценки связи между двумя независи-
мыми переменными, приведенными в табл. 5.21? Каково значение этой статисти-
ки, какие выводы можно из него сделать?
Таблица 5.21. Две независимые переменные
D+ D–
E+ 25 10
E– 2 5

Решение
Поскольку это таблица 2×2 и в двух ячейках ожидаемые значения меньше 5
(ячейки c и d), следует использовать точный тест Фишера. Значение, полученное
с помощью компьютерной программы, составляет 0,077, что не дает оснований для
того, чтобы отвергнуть нулевую гипотезу об отсутствии связи между E и D.

Задача
Каковы ожидаемые значения для табл. 5.22? Чему равна статистика хи-квад-
рат? Каковы ваши выводы по поводу связи между вхождением в группу риска и
заболеванием, судя по этим данным?
Упражнения 175

Таблица 5.22. Расчет ожидаемых значений


D+ D–
E+ 25 30
E– 15 5

Решение
Ожидаемые значения приведены в табл. 5.23.
Таблица 5.23. Ожидаемые значения: решение
D+ D–
E+ 29.3 25.7
E– 10.7 9.3

Хи-квадрат (1) = 5,144, p = 0,023. Этого достаточно, чтобы отвергнуть нулевую


гипотезу о независимости вхождения в группу риска от заболевания. Мы можем
сделать тот же вывод, основываясь на таблице хи-квадрат (рис. D.11 в приложе-
нии D): 5,144 больше критического значения на уровне значимости 0,025 (5,024)
для одностороннего критерия хи-квадрат с одной степенью свободы, что говорит
о том, что мы должны отвергнуть нулевую гипотезу, если мы используем уровень
значимости 0,05.

Задача
В табл. 5.24 представлены политические предпочтения семейных пар. Рассчи-
тайте соответствующую статистику, чтобы проверить, независимы ли политичес-
кие предпочтения мужей и жен от их супруги или супруга.
Таблица 5.24. Политические предпочтения мужей и жен
Жена
Республиканец Демократ

Муж Республиканец 20 30
Демократ 20 20

Решение
Из-за того, что данные взяты из связанных пар, в данном случае подходит тест
МакНемара. Расчеты приведены на рис. 5.29. Значение хи-квадрата МакНемара
равно 2,00, что ниже критического значения для критерия хи-квадрат с одной сте-
пенью свободы при уровне значимости 0,05, так что у нас нет оснований отвергнуть
нулевую гипотезу о независимости политических предпочтений мужей и жен друг
от друга.

Рис. 5.29. Расчет критерия МакНемара


176 Глава 5. Категориальные данные

Задача
Какую из тау-статистик Кендалла следует применить при анализе данных в
табл. 5.25?
Таблица 5.25. Уровень образования и удовлетворенность работой
Удовлетворенность работой
Не удовлетворен Нейтральное Удовлетворен
отношение
Образование Неполное среднее 45 20 10
Среднее 15 15 20
Неполное высшее 30 10 25
Высшее 10 15 30

Решение
Следует использовать тау-c Кендалла, поскольку таблица не квадратная (в ней
4 строки и 3 колонки).

Задача
В чем проблема при анализе данных, полученных с помощью шкалы Лайкерта
и подобных шкал отношения как интервальных данных?
Решение
Нет естественной метрики для таких искусственных конструктов, как отно-
шение или мнение. Мы можем разрабатывать порядковые шкалы (то есть отве-
ты можно ранжировать по степени согласия, например) для их измерения, но нет
никакой возможности определить, равномерно ли распределены точки на такой
шкале. Таким образом, данные, собранные с помощью таких шкал, как шкала Лай-
керта, и подобных, следует анализировать как порядковые или категориальные, а
не интервальные или характеризующие отношения.
Задача
В какой ситуации вы бы использовали V-статистику Крамера?
Решение
V Крамера – это более общий вариант фи-статистики, который характеризует
силу связи между двумя категориальными переменными с более чем двумя уров-
нями. Для бинарных переменных V Крамера эквивалентна фи.
Задача
Вы узнали результаты государственого опроса, которые гласят, что 30% сту-
дентов университетов не удовлетворены своей внешностью. Вы хотите узнать,
сохраняется ли пропорция в вашем местном университете (20 000 студентов), так
что вы берете случайную выборку объемом в 150 студентов и узнаете, что 30 не
удовлетворены своей внешностью. Проведите соответствующий тест, чтобы уз-
нать, значимо ли отличается пропорция в вашем университете от результатов го-
сударственного опроса.
Упражнения 177

Решение
Вопрос требует использовать одновыборочную Z-статистику с двухсторонним
критерием (поскольку вас интересует наличие отличий в результатах опроса в ва-
шем университете от результатов по всей стране в любую сторону). Статистика
теста приведена на рис. 5.30.

Рис. 5.30. Расчет одновыборочной Z-статистики для пропорций


Используя стандартный уровень значимости 0,05 и двухсторонний критерий,
мы видим, что критическое Z-значение составляет 1,96 (вы можете его найти на
рис. D.3 в приложении D). Наше Z-значение больше критического, так что мы от-
вергаем нулевую гипотезу о равенстве пропорций студентов, не удовлетворенных
своей внешностью, в вашем университете и по всей стране.

Парадокс Симпсона
Парадокс Симпсона описывает те ситуации, когда направление связи обращается при
объединении данных из нескольких групп. Он хорошо известен среди фанатов бейсбола.
К примеру, даже если у игрока А средний счет (batting average, доля успешных ударов)
выше, чем у игрока Б в каждом из двух годов, тем не менее в среднем за оба года у игро-
ка А счет может быть ниже. Посмотрите на табл. 5.26.
У игрока Б был выше счет в каждом из годов, однако если их объединить, то его счет
окажется ниже. Этот феномен возникает из-за разного числа ударов каждого игрока в
каждом из годов.
Таблица 5.26. Парадокс Симпсона в бейсболе
2000 2001 Объединенные
Игрок Удары At-bats Среднее Удары At-bats Среднее Удары At-bats Среднее
A 10 50 0,2 200 600 0,333 210 650 0,323
B 85 400 0,213 50 145 0,345 135 545 0,248

Парадокс Симпсона был причиной споров о половой дискриминации при поступлении


в университет несколько лет назад. Иск, поданный против Калифорнийского универси-
тета, был отклонен, поскольку было показано, что та дискриминация, которая имелась
на первый взгляд (меньший процент женщин, чем мужчин, поступил в университет), мо-
жет быть объяснена тем, что поступление определяется на уровне факультета, и боль-
шинство женщин поступали на те факультеты, куда процент принятых абитуриентов был
в целом ниже, тогда как большинство мужчин, наоборот, поступали на те факультеты, где
процент принятых абитуриентов был выше. На самом деле на большинство факультетов
приняли мужчин даже немного меньше, чем женщин, но эта ситуация оказалась обра-
щенной при объединении данных со всех факультетов.
Также парадокс Симпсона проявляется при оценке лекарств, когда лекарство А прояв-
ляет себя лучше, чем лекарство Б, в обеих выборках, но оказывается менее эффектив-
ным, если выборки объединить. Некоторые статистики полагают, что в таких обстоятель-
ствах это вообще не следует называть парадоксом, потому что это тогда означает, что
между двумя переменными есть какая-то причинная связь.
178 Глава 5. Категориальные данные

Таблица 5.27. Обзор всех тестов, упомянутых в этой главе

Название критерия Тип данных Что проверяется

Процент согласия Одна категориальная перемен- Насколько хорошо оценки совпа-


ная, две оценки дают?
Каппа Коэна Одна категориальная перемен- Насколько хорошо оценки совпада-
ная, две оценки ют после поправки на случайность?
Тест независимости Две или более категориальные Независимы ли переменные?
хи-квадрат переменные
Критерий хи-квадрат Одна категориальная перемен- Распределена ли переменная
равенства пропорций ная, выборки из двух или более одинаково во всех популяциях, из
генеральных совокупностей которых взяты выборки?
Критерий согласия Одна категориальная перемен- Распределена ли переменная по
хи-квадрат ная, предполагаемое распре- предполагаемому закону в гене-
деление для нее ральной совокупности, из которой
взята выборка?
Точный тест Фишера Две категориальные перемен- Независимы ли все переменные?
ные; данные могут быть разре-
женными
Критерий МакНемара Одна дихотомическая пере- Равны ли пропорции в парах?
менная, измеренная на парах
Z-критерий пропорции Дихотомическая переменная, Отличается ли пропорция в гене-
для больших выборок одна большая выборка ральной совокупности от задан-
(np ≥ 5, n(1 – p) ≥ 5) ной?
Z-критерий равенства Дихотомическая переменная, Одинаковы ли пропорции перемен-
пропорций для двух две большие выборки ной в генеральных совокупностях,
больших выборок (np ≥ 5, n(1 – p) ≥ 5) из которых взяты выборки?
Фи Две бинарные переменные Насколько сильно связаны перемен-
ные?
V Крамера Две категориальные перемен- Насколько сильно связаны перемен-
ные ные?
Точечно-бисериальная Одна дихотомическая и одна Насколько сильно связаны перемен-
корреляция непрерывная переменная ные?
Ро Спирмена Две ранжированные перемен- Насколько сильно связаны перемен-
ные ные?
Гамма Гудмана Две порядковые переменные Насколько сильно связаны перемен-
и Краскела ные (на основании конкордантных и
дискордантных пар)?
Тау-a Кендалла Две порядковые переменные Насколько сильно связаны перемен-
ные (на основании конкордантных и
дискордантных пар)?
Тау-b Кендалла Две порядковые переменные Насколько сильно связаны перемен-
ные (на основании конкордантных и
дискордантных пар)?
Тау-c Кендалла Две порядковые переменные Насколько сильно связаны перемен-
ные (на основании конкордантных и
дискордантных пар; можно исполь-
зовать для неквадратных таблиц)?
ГЛАВА 6.
t-критерий

t-распределение было впервые описано химиком, работавшим над контролем


качества в пивоварне Гинесс (Guiness) в Ирландии, Уилльямом Сили Госсетом
(William Sealy Gosset). Госсет представил t-распределение в статье под псевдо-
нимом Стьюдент (Student); именно поэтому t-распределение также часто назы-
вают распределением Стьюдента, а t-критерий — критерием Стьюдента. Есть
три основных типа t-критериев, все они имеют отношение к проверке разницы
в средних значениях и включают сравнение статистики теста с t-распределени-
ем для определения справедливости полученной величины статистики в случае
верности нулевой гипотезы. Однофакторный дисперсионный анализ (ANOVA)
с двумя факторами математически эквивалентен t-критерию, но t-критерий на-
столько часто применяется, что заслуживает отдельной главы. Кроме того, по-
нимание логики t-критерия должно помочь в понимании более сложной логики
дисперсионного анализа.

t-распределение
Если вы незнакомы со статистикой вывода, то, прежде чем читать дальше, вам
может быть полезно сначала ознакомиться с главой 3. Статистические выводы
о реальных данных основываются в том числе и на знании распределения веро-
ятности. В главе 3 мы обсуждали нормальное и биномиальное распределения; в
данной главе мы познакомимся с t-распределением. Как и нормальное распреде-
ление, t-распределение непрерывное и симметричное. В отличие от нормального
распределения, форма t-распределения зависит от числа степеней свободы вы-
борки, то есть числа параметров, которые могут изменяться. В случае t-распреде-
ления основной эффект на число степеней свободы оказывает размер выборки,
и у тестов для более крупных выборок в целом больше степеней свободы, чем в
случае небольших выборок. Расчет числа степеней свободы для различных ти-
пов t-критериев будет обсуждаться в разделах, посвященных соответствующим
типам критериев.
Как отмечалось выше, Госсет разработал t-распределение для практических за-
дач. Будучи работником отдела контроля качества в пивоварне Гинесс, он пытал-
ся разрешить проблему использования выборки ограниченного размера. Главное
180 Глава 6. t-критерий

наблюдение Госсета касалось влияния объема выборки на вероятность того, что


среднее по генеральной совокупности лежит не дальше определенных границ от
среднего выборки. Существует две основные причины использования t-распре-
деления при проверке различий в средних: работа с совокупностью, которая, как
мы считаем, распределена нормально, и неизвестное стандартное отклонение
генеральной совокупности, когда нам приходится использовать стандартное от-
клонение выборки как замену отклонению генеральной совокупности. Если мы
работаем с выборкой слишком маленького объема, чтобы применить центральную
предельную теорему, и мы не уверены в нормальности распределения генеральной
совокупности, из которой мы взяли выборку, то нам придется применять непара-
метрические тесты (обсуждаются в главе 13).

Функция плотности t-распределения Функция плотности t-распределения


(1 ñòåïåíü
t PDF (1ñâîáîäû)
df) (10 ñòåïåíåé
t PDF (10ñâîáîäû)
df)
0.4 0.4
âåðîÿòíîñòè

âåðîÿòíîñòè
Density

0.3 Density 0.3


Probability

Probability

0.2 0.2
Ïëîòíîñòü

Ïëîòíîñòü

0.1 0.1

0 0
-5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5
X X
Функция плотности t-распределения Функция плотности t-распределения
t PDF (20ñâîáîäû)
(20 ñòåïåíåé df) t PDF (30ñâîáîäû)
(30 ñòåïåíåé df)
0.4 0.4
Probabilityâåðîÿòíîñòè

Probabilityâåðîÿòíîñòè
Density

Density

0.3 0.3

0.2 0.2
Ïëîòíîñòü

Ïëîòíîñòü

0.1 0.1

0 0
-5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5
X X

Рис.6.1. Четыре t-распределения


Как показано на рис. 6.1, t-распределение напоминает нормальное распределе-
ние, причем главное отличие состоит в более «тяжелых» хвостах, что говорит о
том, что крайние значения в t-распределении встречаются чаще, чем в нормаль-
ном. С ростом объема выборки (и, соответственно, числа степеней свободы) t-рас-
пределение становится все более похожим на нормальное.
Госсет обнаружил, что в случае выборки из нормально распределенной совокуп-
ности и использования стандартного отклонения выборки для оценки дисперсии
совокупности распределение средних выборок из этой совокупности по перемен-
ной x можно описать формулой, представленной на рис. 6.2.
t-распределение 181

Рис. 6.2. Формула t-распределения


В этой формуле x – это среднее выборки, μ – это среднее генеральной совокуп-
ности, s – это стандартное отклонение выборки, а n – это объем выборки.
Эта формула очень напоминает формулу Z-значения, приведенную в главе 3;
единственное отличие заключается в том, что при вычислении t-статистики ис-
пользуется стандартное отклонение выборки, тогда как при вычислении Z-значе-
ния – отклонение генеральной совокупности.
В приложение D входит таблица (рис. D.7) с верхними критическими значе-
ниями t-распределения для различных степеней свободы; мы говорим о «верхних
критических значениях», поскольку t-распределение симметрично, поэтому нет
никакого смысла выписывать также и нижние значения (они будут равны значе-
ниям в данной таблице со знаком «минус»). Из-за того, что в таблицу включены
только положительные значения, для нахождения критического значения в двух-
стороннем t-критерии мы берем колонку со значением α, равным половине иско-
мого. Для двухстороннего критерия с α = 0,05 мы должны использовать столбец
для α = 0,025. Неудивительно, что с ростом объема выборки критические значения
t-распределения стремятся к таковым для стандартного нормального распределе-
ния. Например, мы знаем (из рис. D.7 в приложении D, как и из обсуждения в
главе 3), что в стандартном нормальном распределении для двухстороннего теста
с α = 0,05 верхнее критическое значение равно 1,96. Для двухстороннего теста с
использованием t-распределения с α = 0,05 верхнее критическое значение зависит
от числа степеней свободы (df). Для df = 1 оно составляет 12,706; для df = 100 верх-
нее критическое значение равно 2,228; для df = 30 – 2,042; для df = 50 – 2,009; для
df = 100 – 1,984; для бесконечного числа степеней свободы верхнее критическое
значение составит 1,96.

Уилльям Сили Госсет


Уилльяма Сили Госсета часто рассматривают как первого промышленного статистика
современности. Хотя его работа была мотивирована прагматическими интересами его
работодателя (Артур Гиннесс, Сын и Ко – Arthur Guiness, Son & Co – изготовители пива),
его прикладные результаты послужили основой для возникновения набора важнейших
статистических тестов, основанных на распределении, которое он описал. После систе-
матического применения близких методов, таких как корреляция, для решения рабочих
задач он выделил фундаментальное ограничение выборок малого объема и методик, ко-
торые подразумевают большое число наблюдений и/или экспериментов для определе-
ния статистической значимости. Более поздние методы, такие как дисперсионный ана-
лиз, разработанный Р. А. Фишером (R. A. Fischer), в значительной степени полагаются на
выведенное Госсетом t-распределение. Жизнь и работа Госсета служат великолепным
примером взаимодействия между прикладными и теоретическими исследованиями.
182 Глава 6. t-критерий

Одновыборочный t-критерий
Одно из возможных применений t-критерия состоит в сравнении средних выборки
и совокупности с известным средним. Например, вас интересует влияние свинца
на умственное развитие детей. Вы знаете, что в среднем пятилетние дети в США
получают 100 баллов в определенном тесте на умственное развитие. У вас есть вы-
борка из 15 пятилетних детей, контактировавших со свинцом, и вы хотите узнать,
не повлияло ли это на их умственные способности, измеряемые при помощи упо-
мянутого теста. Вы также знаете, что в целом результаты теста в генеральной со-
вокупности распределены по нормальному закону. Ваша нулевая гипотеза состоит
в том, что нет разницы между выбранной группой и генеральной совокупностью в
целом, и вы проводите двухсторонний t-тест с уровнем значимости 0,05.
Формула для одновыборочного t-критерия показана на рис. 6.3.

Рис. 6.3. Формула одновыборочного t-критерия


В этой формуле x обозначает выборочное среднее, μ0 – это среднее для срав-
нения (средний уровень умственного развития для всех 5-летних детей в США),
s – это стандартное отклонение вашей выборки, и n – это ее объем.
Формулы для расчета среднего и стандартного отклонений выборки показаны
на рис. 6.4 и 6.5.

Рис. 6.4. Расчет выборочного среднего

Рис. 6.5. Расчет выборочного стандартного отклонения


В этой формуле xi – это отдельное значение x, x – это выборочное среднее, s –
это выборочное стандартное отклонение, а n – это объем выборки.
Также существует расчетная формула для стандартного отклонения выборки,
математически идентичная формуле с рис. 6.4, но более простая для ручного рас-
чета; она приведена на рис. 6.6.
Одновыборочный t-критерий 183

Рис. 6.6. Расчетная формула для выборочного стандартного отклонения


Если вам хочется попрактиковаться в использовании этих формул, то в конце
главы приведен полностью разобранный пример. Для его решения предположите,
что выборочное среднее равно 90, стандартное отклонение равно 10, а объем вы-
борки – 15, и используйте эти данные для расчета t-статистики, как показано на
рис. 6.7.

Рис. 6.7. Расчет одновыборочного t-критерия


Число степеней свободы для одновыборочного t-критерия равно n – 1; в данном
примере df = 15 – 1 = 14. Из таблицы верхних критических значений t-распреде-
ления (рис. D.7 в приложении D) мы видим, что для двухстороннего t-критерия
с 14 степенями свободы и уровнем значимости 0,05 оно равно 2,145. Поскольку
абсолютное значение t-статистики в наших данных превосходит верхнее крити-
ческое значение (|–3,87| > 2,145), мы отвергаем нулевую гипотезу о том, что в сред-
нем контактировавшие со свинцом дети выполняют тест на умственное развитие
столь же успешно, как и все дети их возраста в популяции. Из-за того, что разность
среднего и t-статистики отрицательна, мы также можем утверждать, что в среднем
их умственные способности ниже, чем в генеральной совокупности всех детей их
возраста.

Доверительный интервал для одновыборочного


t-критерия
Кроме статистики критерия и величины достоверности, нам часто нужно рассчи-
тать и доверительный интервал. Доверительный интервал (ДИ1) – это диапазон
значений вокруг среднего: если мы будем брать бесконечное число выборок того
же размера из той же генеральной совокупности, x% раз истинное среднее гене-
ральной совокупности будет попадать в доверительный интервал, рассчитанный
из выборок. Если мы рассчитаем 95%-ный доверительный интервал (самый часто
применимый), то x = 95, так что мы можем утверждать, что 95% всех доверитель-
ных интервалов, рассчитанных из бесконечного числа выборок этой генеральной
1
Или CI, от англ. confidence interval. – Прим. пер.
184 Глава 6. t-критерий

совокупности, будут включать в себя ее истинное среднее. Говоря более общо, до-
верительный интервал говорит нам об аккуратности точечной оценки, такой как
выборочное среднее. Широкий доверительный интервал указывает на то, что если
бы мы взяли другую выборку, то могли бы получить отличающееся выборочное
среднее, тогда как если он узкий, то, взяв другую выборку, мы, скорее всего, полу-
чили бы достаточно близкое значение выборочного среднего.
Формула для расчета двухстороннего доверительного интервала для среднего в
случае одновыборочного t-критерия приведена на рис. 6.8.

Рис. 6.8. Формула доверительного интервала для одновыборочного t-критерия


В нашем примере, α = 0,05, x = 90, df = n – 1 = 14, s = 10, t0,025,14 = 2,145 (из табли-
цы на рис. D.7 в приложении D), и n = 15.
Подстановка этих значений в формулу дает нам ответ, приведенный на
рис. 6.9.

Рис. 6.9. Расчет доверительного интервала для одновыборочного t-критерия


95%-ный доверительный интервал для нашей оценки истинного среднего со-
ставляет (84,46, 95,54). Заметим, что эти числа иногда называют нижней и верхней
границами доверительного интервала; в этом примере нижняя граница составляет
84,46, а верхняя – 95,54.
При расчете одностороннего доверительного интервала замените ± либо на +,
либо на –, в зависимости от необходимости. Для расчета доверительного интерва-
ла с другой вероятностью попадания среднего в него используйте соответствую-
щее критическое значение из таблицы t-значений. Например, для одностороннего
90%-го доверительного интервала с 20 степенями свободы верхнее критическое
значение t-распределения составляет 1,325.

t-критерий для независимых выборок


t-критерий для независимых выборок, также называемый двухвыборочным t-кри-
терием, сравнивает средние двух выборок. Задача этого теста состоит в проверке,
равны ли средние генеральных совокупностей, из которых были взяты выборки.
Предполагается, что члены двух выборок не связаны (никто не измерен дважды,
нет братьев и сестер и т. п.) и выбраны из своих совокупностей независимо. Кро-
ме того, мы предполагаем, что генеральные совокупности имеют приблизительно
нормальное распределение, если только объемы выборок недостаточно велики,
чтобы применить центральную предельную теорему, и дисперсии двух совокупнос-
t-критерий для независимых выборок 185

тей приблизительно равны. Этот критерий часто применяют во многих областях,


и обычно для его расчета используют компьютерные программы, которые также
включают критерий равенства дисперсий совокупностей (например, тест Левене,
тест Брауна–Форсайта (Brown–Forsythe test) или тест Бартлетта (Bartlett’s test))
и методы для исправления ситуации, если это предположение оказывается невер-
ным.
Формула для расчета t-критерия для независимых выборок приведена на рис. 6.10.

где

Рис. 6.10. Формула для расчета t-критерия для независимых выборок


В этой формуле x1 и x2 – это средние двух выборок,
μ1 и μ2 – это средние двух генеральных совокупностей,
s2p – это объединенная дисперсия,
n1 и n2 – это объемы двух выборок, а
s21 и s22 – это дисперсии двух выборок.
Заметим, что часто нулевая гипотеза t-критерия для независимых выборок со-
стоит в том, что разница между истинными средними равна 0, тогда выражение
(μ1 – μ2) можно опустить.
Число степеней свободы для двухвыборочного t-критерия составляет
(n1 + n2 – 2), то есть на 2 меньше, чем общее число элементов двух выборок.
Это сложная формула, но стоит сделать шаг назад и посмотреть на ее общую
форму до того, как застрять в деталях. Формула для двухвыборочного t-критерия
для независимых выборок сходна с таковой для одновыборочного t-критерия в
том, что числитель – это разница между средними, а знаменатель – мера разброса,
включающая как разброс внутри выборок, так и их объем. Статистика парного тес-
та тоже будет следовать этой общей форме, хотя и будет отличаться в некоторых
тонкостях.
Давайте рассмотрим пример. Стар как мир вопрос о том, кто находится в луч-
шей форме – мужчины-футболисты или мужчины-танцоры в балете; поэтому
спортивный физиолог организует исследование для ответа на него совместно с
местной группой исследователей из госпиталя. Две группы – это независимые со-
вокупности, поскольку ни один из футболистов не танцует в балете. Два списка
танцоров и футболистов ведутся их соответствующими профессиональными ас-
социациями, из них следует, что и футболистов, и танцоров можно найти по всей
186 Глава 6. t-критерий

стране; испытуемые выбираются случайным образом из каждой группы. Посколь-


ку и танцоры, и футболисты – очень занятые люди, удается договориться только
с 10 членами каждой группы. Всех участников исследуют с помощью набора зада-
ний на физическую подготовку, включая ходьбу, бег и прыжки, а также измеряют
соответствующие физиологические показатели, такие как постоянство частоты
сердечных сокращений, скорость распространения пульсовой волны и т. п. Эти
измерения вместе образуют единый показатель физической формы, принимаю-
щий значения от 0 до 100. Опыт использования подобного метода оценки с этим
способом подсчета результатов показывает, что эти показатели распределены в ге-
неральной совокупности приблизительно нормально.
Всех участников исследуют в одном и том же учреждении в одно время дня, а их
результаты оценивают и объединяют одни и те же врачи. Результаты обеих групп
приведены в табл. 6.1.
Таблица 6.1. Результаты оценки физического
состояния футболистов и танцоров балета

Танцоры балета Футболисты


89.2 79.3
78.2 78.3
89.3 85.3
88.3 79.3
87.3 88.9
90.1 91.2
95.2 87.2
94.3 89.2
78.3 93.3
89.3 79.9

Мы будем использовать значение α = 0,05 в этом исследовании. Вы можете рас-


считать t-статистику целиком вручную, используя формулы для подсчета стан-
дартного отклонения, приведенные в данной главе ранее (и помня, что диспер-
сия – это квадрат стандартного отклонения). Для ускорения этого процесса мы
рассчитали необходимые величины за вас, назвав танцоров балета группой 1, а
футболистов – группой 2:
x1 = 87,95
x2 = 85,19
s12 = 32,38
s22 = 31,18
Если бы мы использовали компьютерную программу, мы могли бы проверить
предположение о равенстве дисперсий с помощью теста Левене (или альтернатив-
ного – это обсуждается подробнее дальше в этой главе, в разделе, посвященном
t-критерию для выборок с неравной дисперсией), проверяющего нулевую гипоте-
t-критерий для независимых выборок 187

зу о том, что дисперсии двух совокупностей равны. (Если мы не можем отвергнуть


эту нулевую гипотезу, то можно применять t-критерий.)
Объединенная дисперсия выборок рассчитывается, как показано на рис. 6.11.

Рис. 6.11. Расчет объединенной дисперсии


Число степеней свободы df = n1 + n2 – 2 = 18. Наша нулевая гипотеза состоит в
том, что в среднем спортивная форма в двух группах одинакова, то есть μ1 – μ2 = 0.
Для проверки этой нулевой гипотезы мы рассчитываем t-статистику, как показано
на рис. 6.12.

Рис. 6.12. Расчет t-статистики


На рис. D.7 в приложении D мы видим, что верхнее критическое значение для
двухстороннего t-критерия с уровнем значимости 0,05 и 18 степенями свободы
составляет 2,101. Абсолютное значение нашей t-статистики ниже него (то есть
ближе к нулю), так что мы не можем отвергнуть нулевую гипотезу и заключаем,
что это исследование не дало никаких доказательств различной физической под-
готовки у футболистов и танцоров балета.

Доверительный интервал для t-критерия


для независимых выборок
Для расчета двухстороннего доверительного интервала для этого типа t-критерия
мы используем формулу, приведенную на рис. 6.13.

где

Рис. 6.13. Формула доверительного интервала для t-критерия


для независимых выборок
Есть несколько моментов, касающихся этой формулы, которые стоит отметить:
• это доверительный интервал для разницы между средними двух совокуп-
ностей;
188 Глава 6. t-критерий

• для значения t —α ,df мы берем верхнее критическое t-значение для df и поло-


2
вины заданного значения альфа из таблицы t-распределения, такой как на
рис. D.7 в приложении D;
• если бы это был односторонний доверительный интервал, мы бы использо-
вали верхнее критическое t-значение для α, а не для —α
2 , и поставили бы знак
«плюс» или «минус», а не ±, в зависимости от направления интервала;
• формула включает ранее рассчитанный делитель из формулы t-критерия
для независимых выборок.
Для наших данных мы используем α = 0,05 и рассчитываем 95%-ный двухсто-
ронний доверительный интервал; результат показан на рис. 6.14.

Рис. 6.14. Расчет 95%-го двухстороннего доверительного интервала


для t-критерия для независимых выборок
Заметьте, что этот интервал включает 0, который является нашим нулевым
значением (значением, с которым мы сравнивали выборочные средние, согласно
нашей нулевой гипотезе); такой результат ожидаем для этих данных, поскольку
мы не увидели статистически значимые различия и не отвергли нулевую гипотезу
ранее.

t-критерий для парных измерений


Для проведения t-критерия для повторных измерений, также известного как t-кри-
терий для зависимых выборок, или парный t-критерий, элементы двух выборок
должны быть не независимы, а связаны каким-то образом. Иногда данные в вы-
борках – это измерения, сделанные дважды на одних и тех же людях, например
кровяное давление до и после приема лекарства. Иногда данные собирают для лю-
дей, родственных каким-то образом, например мужей и жен или чьих-то потом-
ков. Иногда данные получают из выборок разных людей, но слишком сходных по
другим характеристикам, так что их уже нельзя рассматривать как независимые
выборки. Измерения рассматриваются как парные, то есть выборки должны быть
одного размера.
Формула для расчета t-статистики для парного t-критерия основана на разно-
стях, рассчитанных для каждой пары элементов выборок. Статистика теста при-
ведена на рис. 6.15.

Рис. 6.15. Формула для парного t-критерия


t-критерий для парных измерений 189

В этой формуле d = средняя разница, μ1 и μ2 – это средние двух совокупностей,


sd – это стандартное отклонение разниц, а n – число пар.
Нулевая гипотеза для парного t-критерия обычно состоит в том, что средняя
разница (d) равна 0, тогда как альтернативная гипотеза говорит, что она отлична
от 0. Как и с двухвыборочным t-критерием, часто величина (μ1 – μ2) предполага-
ется равной 0, и в таком случае ее можно опустить.
Под разницей понимается просто отличие в значениях парных измерений, на-
пример кровяное давление до лечения минус кровяное давление после лечения.
Мы рассчитываем эту разницу для каждой пары, а затем вычисляем их среднее
и стандартное отклонение для расчета t-статистики. Заметим, что n в контексте
парного t-критерия относится к числу пар, а не числу измерений. Число степеней
свободы df = n – 1.
Вы можете разобраться в этом лучше, если посмотрите на пример. Предполо-
жим, мы хотим проверить эффективность программы диеты с физическими уп-
ражнениями в снижении общего уровня холестерина у мужчин среднего возраста.
Мы решили использовать парный t-критерий, поскольку мы будем измерять уро-
вень холестерина дважды для каждого подопытного, до начала программы и еще
раз после ее окончания. Этот метод иногда называют «использование объектов
как их собственные контроли», поскольку, измеряя каждого человека дважды, мы
надеемся убрать или минимизировать влияние всех индивидуальных особеннос-
тей, не относящихся к тому, что нас интересует, то есть тому, как уровень холесте-
рина испытуемого изменяется в зависимости от диеты и программы упражнений.
Мы считаем, что изменения уровня холестерина в ответ на условия эксперимента
в генеральной совокупности распределены приблизительно нормально, и у нас
всего лишь 10 испытуемых, так что парный t-критерий – это подходящий метод.
Экспериментальные данные приведены в табл. 6.2.
Таблица 6.2. Уровень холестерина до и после диеты и упражнений
До После Разница (d) (После – До)
220 200 –20
240 210 –30
225 210 –15
180 170 –10
210 220 10
190 180 –10
195 190 –5
200 190 –10
210 220 10
240 210 –30

Очевидно, что у большинства испытуемых уровень холестерина понизился


после окончания программы, но была ли разница статистически значимой? Для
190 Глава 6. t-критерий

выяснения этого мы рассчитаем парную t-статистику, используя следующие зна-


чения, полученные из данных:
d = –11;
sd = 13,9.
Мы проведем двухсторонний парный t-тест с уровнем значимости 0,05. Наша
нулевая гипотеза состоит в том, что средние совокупностей равны, то есть их раз-
ница равна 0; t-статистика для этих данных приведена на рис. 6.16.

Рис. 6.16. Расчет парного t-критерия


Поскольку у нас всего 10 пар, то степеней свободы 9 (df = n – 1). Используя
таблицу верхних критических значений для t-распределения (рис. D.7 в прило-
жении D), мы нашли, что критическое значение для двухстороннего t-критерия
с 9 степенями свободы и α = 0,05 составляет 2,262. Абсолютное значение нашей
t-статистики превосходит это число, поэтому мы отвергаем нулевую гипотезу и
заключаем, что упражнения и диета оказали значимый эффект на общий уровень
холестерина. Поскольку средняя разница и t-статистика отрицательные, мы также
можем утверждать, что оздоровительная программа привела к снижению холесте-
рина у ее участников.
Вы можете задаться вопросом, что это за две генеральные совокупности, о ко-
торых мы говорим в данном примере. Измерения до программы рассматриваются
как взятые из генеральной совокупности мужчин среднего возраста, а измерения
после – из генеральной совокупности мужчин среднего возраста, прошедших оздо-
ровительную программу. Разумеется, вторая генеральная совокупность сущест-
вует только в теории, поскольку это новая программа, то есть что мы на самом
деле делаем, так это предполагаем, что произойдет с общим уровнем холестерина
в первой генеральной совокупности, если вся она пройдет через исследуемую про-
грамму.

Доверительный интервал для t-критерия


для парных измерений
Для расчета доверительного интервала в случае парного t-критерия используйте
формулу, показанную на рис. 6.17.

Рис. 6.17. Формула для доверительного интервала для парного t-критерия


t-критерий для выборок с неравной дисперсией 191

Расчеты для данных из нашего примера приведены на рис. 6.18.

Рис. 6.18. Расчет двухстороннего 95%-го доверительного интервала


для парного t-критерия
Обратите внимание, что этот доверительный интервал не включает 0; этого сле-
довало ожидать, поскольку мы увидели значимый результат, применив t-крите-
рий, то есть отвергли нулевую гипотезу о том, что средняя разница равна 0.

t-критерий для выборок с неравной


дисперсией
Одно из допущений, лежащих в основе t-критерия для независимых выборок, со-
стоит в приблизительном равенстве дисперсий генеральных совокупностей, из
которых взяты выборки; это также называют предположением об однородности
дисперсии, или, проще, предположением об однородности. Если это условие не
выполняется и дисперсии генеральных совокупностей в реальности различаются,
возрастает риск ошибок как первого, так и второго рода. Это связано с объеди-
нением дисперсий выборок при проведении t-теста для независимых выборок, и
результаты этого теста сильно искажаются, если выборки взяты из совокупностей
с отличающейся дисперсией. Задача проверки гипотезы о двух независимых вы-
борках с различающейся дисперсией известна под названием проблемы Берен-
са–Фишера (Behrens–Fisher), и было предложено несколько ее решений.
Если вы используете статистическую программу для проведения t-теста для
независимых выборок, то, скорее всего, она включает алгоритм проведения од-
ного или нескольких тестов на однородность дисперсии. Примеры такого рода
тестов включают тест Левене, тест Брауна–Форсайта и тест Бартлетта. Тест Ле-
вене основан на среднем, а критерий Брауна–Форсайта – это расширение теста
Левене, использующее усеченное среднее либо медиану. Тест Бартлетта наиболее
чувствителен к отклонениям от нормальности (это не то же самое, что равенство
дисперсий), так что его следует применять, только если вы уверены в примерно
нормальном распределении совокупностей, из которых взяты выборки. Важно
тут, однако, использовать любой из этих тестов, если это вам доступно, чтобы про-
верить условие однородности. Технические детали различных тестов со ссылками
на профессиональную литературу про них доступны в Руководстве по инженер-
ной статистике национального института стандартов и технологий (Engineering
Statistics Handbook of the National Institute for Standards and Testing), документ
свободно доступен в Интернете (http://itl.nist.gov/div898/handbook/index.htm).
Если предположение об однородности не выполнено, вы можете использовать
один из непараметрических аналогов t-критерия для независимых выборок (об-
суждается в главе 13) или применить t-критерий для выборок с неравной диспер-
192 Глава 6. t-критерий

сией, также известный как t-тест Велча (Welch’s t-test). Выбор одного из этих ва-
риантов особенно важен, когда вы работаете с небольшими выборками, или когда
вы хотите быть очень аккуратными с выводами. t-критерий Велча использует не-
много отличающуюся формулу для расчета t-статистики и сложную формулу для
расчета числа степеней свободы.
Для расчета t-статистики тест Велча использует формулу, приведенную на
рис. 6.19.

Рис. 6.19. Формула для t-критерия Велча


В этой формуле x1 и x2 – это выборочные средние, s12 и s22 – это выборочные
дисперсии, а n1 и n2 – объемы выборок.
Обратите внимание, что формула для критерия Велча не включает объединен-
ную дисперсию. Серьезное усилие требуется при подсчете числа степеней свобо-
ды для теста Велча, что видно на рис. 6.20.

Рис. 6.20. Формула для расчета числа степеней свободы для критерия Велча
Рассчитав t-статистику и число степеней свободы, вы продолжаете анализ так
же, как и с любой другой t-статистикой, сравнивая ваш результат с таблицей кри-
тических значений t-распределения (такой как на рис. D.7 в приложении D) и
принимая решение в соответствии с ней.

Упражнения
Хотя вы могли бы использовать статистический пакет, такой как Minitab, SPSS,
STATA или SAS, для расчета t-критерия и его уровня значимости, поработав с
некоторыми примерами вручную, можно лучше понять внутреннее устройство
этого критерия. Далее, если вам понадобится изучить ситуации, связанные с ра-
ботой или учебой, включающие небольшие выборки, вы можете начать трениро-
ваться в работе с ними, используя t-критерий. Если вы понимаете детали расчета
t-критерия вручную, тогда использование статистического пакета станет для вас
значительно проще. Кроме того, многие статистические пакеты выдают довольно
запутанные результаты, если вы не знаете, на что в них смотреть; так что самостоя-
Упражнения 193

тельная проработка некоторых примеров может поспособствовать обнаружению


нужной информации в море чисел.

Задача
Менеджер на фабрике обеспокоена высоким числом несчастных случаев на
предприятии, которым она управляет, поэтому она организует программу безо-
пасности, включающую образование рабочих, улучшение освещения на фабрике
и назначение премий бригадам, улучшившим свои показатели по этой проблеме.
Среднее число инцидентов в неделю до программы было равно 5, а распределение
было приблизительно нормальным. Она хочет знать, изменилось ли оно после на-
чала программы. Она берет выборку из 15 недель после программы и использует
служебные записи для определения числа происшествий, случившихся в течение
каждой из этих недель. Данные представлены в табл. 6.3. Какой тест следует при-
менить, чтобы определить, изменилось ли среднее число происшествий в неделю
после начала программы? Какова статистика критерия и что она говорит об эф-
фективности программы?
Таблица 6.3. Число происшествий за неделю

Номер недели 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Число
5 6 6 4 5 3 2 7 5 4 1 0 3 2 5
происшествий

Решение
Она должна использовать одновыборочный t-критерий, сравнивая среднее
число происшествий в неделю, рассчитанное для 15 недель после программы, со
средним по совокупности недель до программы. Она должна использовать двух-
сторонний критерий, поскольку существует вероятность, что частота инцидентов
увеличилась после начала программы, и ей точно стоит узнать об этом. Таким об-
разом, она проведет двухсторонний одновыборочный t-критерий с нулевой гипо-
тезой о том, что нет достоверной разницы между средними выборки и генеральной
совокупности, и она будет использовать стандартный уровень значимости 0,05.
Вот информация, необходимая для расчета статистики:
μ0 = 5 (дано)
n = 15 (дано)
x = 3,87
s = 2,00
Сначала мы рассчитываем выборочное среднее и стандартное отклонение, как
показано на рис. 6.21 и 6.22.

Рис. 6.21. Расчет выборочного среднего


194 Глава 6. t-критерий

Рис. 6.22. Расчет выборочного стандартного отклонения


Затем мы подставляем эти числа в формулу для статистики одновыборочного
t-критерия, как показано на рис. 6.23.

Рис. 6.23. Расчет одновыборочного t-критерия


У нас 14 степеней свободы (df = n – 1). В соответствии с рис. D.7 в приложе-
нии D верхнее критическое значение для двухстороннего теста с 14 степенями
свободы и при уровне значимости, равном 0,05, составляет 2,145. Абсолютное
значение нашей t-статистики превосходит критическое значение, поэтому мы от-
вергаем нулевую гипотезу об отсутствии различий между частотой происшествий
за неделю до и после начала программы безопасности. Поскольку разница между
выборочным средним и средним генеральной совокупности отрицательная, как и
t-статистика, мы, кроме того, можем заключить, что программа снизила частоту
инцидентов.

Задача
Каков 95%-ный доверительный интервал для нашей оценки среднего генераль-
ной совокупности при таких результатах?
Решение
Мы рассчитываем 95%-ный двухсторонний доверительный интервал, как пока-
зано на рис. 6.24.

Рис. 6.24. Расчет 95%-го доверительного интервала


для одновыборочного t-критерия
Обратите внимание, что верхнее критическое значение 4,97 очень близко к
среднему по совокупности. Этого можно было ожидать, поскольку наша выбороч-
ная t-статистика еле-еле превосходит критическое значение при значимости 0,05;
Упражнения 195

то есть мы с трудом достигли стандартной величины, для того чтобы отвергнуть


нулевую гипотезу о равенстве разницы между выборочным средним и средним
генеральной совокупности нулю.

Задача
Каков 90%-ный доверительный интервал для нашей оценки среднего по сово-
купности при таких результатах по выборке?
Решение
Для расчета 90%-го доверительного интервала все, что нам нужно изменить в
формуле, использованной в предыдущем задании, – это верхнее критическое зна-
чение. Используя рис. D.7 в приложении D, мы видим, что для двухстороннего
доверительного интервала критическое значение для уровня значимости 0,10 при
df = 14 составляет 1,761. Подставив это в формулу, получим результат, показан-
ный на рис. 6.25.

Рис. 6.25. Расчет 90%-го доверительного интервала


для одновыборочного t-критерия
Обратите внимание, что 90%-ный доверительный интервал уже, чем 95%-ный
для того же набора данных. Этого следует ожидать из-за меньших критических
t-значений, используемых для 90%-го интервала. Другими словами, 90%-ный дове-
рительный интервал включает меньше суммарной вероятности, чем 95%-ный, так
что неудивительно, что он уже него.
Таблица 6.4. Различные t-критерии и их применение

t-критерий Тип данных На какой вопрос дает ответ


Одновыборочный Одна выборка, непрерывные данные, Относится ли выборка к совокуп-
t-критерий приблизительная нормальность ности с заданным средним?
Двухвыборочный Две независимые выборки, непре- Относятся ли выборки к совокуп-
t-критерий рывные данные, приблизительная ностям с равными средними?
нормальность, приблизительно
равная дисперсия
Парный Две связанные выборки, равный Относятся ли выборки к совокуп-
t-критерий размер выборок, непрерывные дан- ностям с равными средними?
ные, приблизительная нормальность
разниц
t-критерий для вы- Две независимые выборки, непре- Относятся ли выборки к совокуп-
борок с различаю- рывные данные, приблизительная ностям с равными средними?
щейся дисперсией нормальность
ГЛАВА 7.
Коэффициент корреляции
Пирсона

Коэффициент корреляции Пирсона – это мера линейной связи между двумя ин-
тервальными или характеризующими отношения переменными. Хотя существуют
другие типы корреляции (некоторые из них обсуждаются в главе 5, включая ко-
эффициент ранговой корреляции Спирмена), коэффициент корреляции Пирсона
наиболее обычен, а слово «Пирсона» часто опускают, и мы просто говорим про
«корреляцию» или «коэффициент корреляции». Если не сказано иное, в данной
книге «корреляция» относится к коэффициенту корреляции Пирсона. Корреля-
ции часто рассчитывают в разведочной фазе исследовательского проекта, чтобы
увидеть, как связаны друг с другом различные непрерывные переменные, также
часто для исследования этих связей строят диаграммы рассеяния (обсуждаются
в главе 4). Тем не менее некоторые корреляции являются интересными сами по
себе, их можно проверять на достоверность, и их логично использовать как отдель-
ные величины. Понимание коэффициента корреляции Пирсона – это основа для
понимания линейной регрессии, так что стоит потратить время на изучение этой
статистики и как следует понять, что она вам говорит о связи между двумя пере-
менными. Самое главное в корреляции – то, что это мера наблюдаемой связи, сама
по себе она никак не может выявить причину. Многие переменные в реальном
мире сильно коррелируют друг с другом, но эти связи могут объясняться случаем,
влиянием других переменных или другими неизвестными причинами. Даже если
между величинами есть причинно-следственная связь, она может работать в дру-
гую сторону, чем мы предполагаем. Поэтому даже самая сильная корреляция сама
по себе не может свидетельствовать о причинно-следственной связи; она может
быть подтверждена только с помощью постановки эксперимента (обсуждается в
главе 18). В этой главе мы обсуждаем общее значение связи в контексте статисти-
ки и затем подробно разбираем коэффициент корреляции Пирсона.

Связь
Повседневная жизнь полна переменными, которые кажутся ассоциированными
или связанными друг с другом, и обнаружение этих связей и есть основная задача
Связь 197

науки. Однако ничего сложного или загадочного в понимании взаимосвязей меж-


ду величинами нет; люди все время думают в терминах связей и часто ассоциируют
с ними причинно-следственные взаимодействия. Родители, которые наставляют
детей питаться больше овощами и меньше – нездоровой пищей, вероятно, дела-
ют это, поскольку думают, что есть связь между рационом и здоровьем, а атлеты,
которые тратят много часов на тренировки, скорее всего, делают это, потому что
считают, что интенсивные тренировки приведут их к успеху. Иногда такие здра-
вые мысли поддерживаются экспериментальными данными, иногда – нет, но лю-
дям, похоже, свойственно замечать, что некоторые события вроде бы происходят
одновременно, и верить, что одно из них вызывает другое. Как ученые (или просто
люди, понимающие в статистике) мы должны привыкнуть задаваться вопросами,
является ли кажущаяся связь реальной, и если да, то есть ли в ней причинно-
следственные взаимоотношения.
Вот несколько примеров выводов, основанных на наблюдениях, но, очевидно,
неверных:
• Есть сильная связь между продажами мороженого и числом утонувших,
так что причина этого в том, что люди идут купаться слишком рано после
того, как съели мороженое, у них сводит мышцы, и они тонут.
• Есть сильная связь между результатом теста на словарный запас и разме-
ром обуви, что можно объяснить тем, что у высоких людей мозг больше, и
поэтому они могут запомнить больше слов.
• Число аистов в регионе сильно связано с уровнем рождаемости, так что,
очевидно, аисты и правда приносят детей.
• Мэр города заметил сильную корреляцию между победами местной спор-
тивной команды в соревнованиях и парадами1 и решил проводить больше
парадов, чтобы улучшить результаты местных команд.
Вот настоящие объяснения:
• И потребление мороженого, и плавание более обычны в теплое время года,
так что очевидная связь объясняется влиянием третьего фактора, темпера-
туры (или времени года).
• Исследование проводили на школьниках, а их возраст не учитывали. Ве-
роятно, старшие дети окажутся выше (с большим размером обуви) и будут
иметь более обширный словарный запас, чем младшие дети; таким образом,
наблюдаемая связь обусловлена третьей переменной, возрастом.
• Аисты чаще встречаются в сельской местности, а рождаемость также обыч-
но выше вне городов, так что связь объясняется влиянием другого фактора,
типа местности.
• Это обращенная причинно-следственная связь – парады проводят после
побед в чемпионатах, так что успешный сезон для команд – это причина
парадов, а не проведение парадов улучшает их результаты.

1
В оригинале – ticker-tape parades, то есть парады, сопровождающиеся посыпанием конфетти и наре-
занной бумагой с близлежащих зданий. – Прим. пер.
198 Глава 7. Коэффициент корреляции Пирсона

Стоит заметить, что даже если логичная причина связи двух переменных отсутст-
вует, связь между ними можно обнаружить просто по случайности. Это особенно
важно для исследований очень больших выборок, когда даже слабая корреляция
может оказаться статистически значимой, но при этом не иметь никакого практи-
ческого значения. Также стоит отметить, что даже в случаях сильных связей меж-
ду переменными, таких как курение и рак легких, она может проявляться очень
по-разному на уровне отдельных случаев. Некоторые люди курят на протяжении
многих лет и никогда не заболевают, в то время как некоторые несчастные полу-
чают рак легких, даже если не курили никогда в своей жизни.

Диаграмма рассеяния
Диаграмма рассеяния – это полезное средство для изучения взаимоотношений
между переменными, и обычно создание таких диаграмм для непрерывных пере-
менных проводится на разведочной стадии работы с данными. Диаграмма рассея-
ния – это диаграмма для двух непрерывных переменных. Если идея эксперимента
подразумевает, что одна из переменных является независимой, а вторая зависит
от нее, то первую откладывают по оси x (горизонтальной), а вторую – по оси y
(вертикальной); если такие взаимоотношения неизвестны, то не имеет значения,
какая переменная отложена на какой оси. Каждому члену выборки соответствует
одна точка на графике, описываемая набором координат (x, y); если вы когда-либо
использовали картезианские координаты2 в школе, то вы уже знакомы с этим про-
цессом. Диаграммы рассеяния дают вам возможность почувствовать общие свойст-
ва связи между переменными, включая такие, как направление (положительное
или отрицательное), силу (сильная или слабая) и форму (линейная, квадратичная
и т. п.). Кроме того, диаграммы рассеяния – это хороший способ получить общее
впечатление о разбросе данных и увидеть, есть ли какие-то выбросы, случаи, кото-
рые на первый взгляд не похожи на остальные.
Важно исследовать двумерные связи (связи между двумя переменными), по-
скольку многие часто используемые методы предполагают, что они линейные,
предположение, совсем не обязательно соблюдаемое для произвольной пары
переменных из каких-то данных. Линейность в данном контексте означает «рас-
положение на прямой линии», в то время как любые другие взаимосвязи счита-
ются нелинейными, хотя мы можем охарактеризовать другие типы связи и более
конкретно, например как квадратичную или экспоненциальную. Разумеется, мы
не ожидаем, что в реальности данные идеально подходят под какую-то математи-
ческую модель; под линейной связью мы подразумеваем ситуацию, когда данные
кажутся расположенными поблизости от прямой линии.
Кроме того, мы можем создать матрицу диаграмм рассеяния, в которой пред-
ставлено множество таких диаграмм, так что мы можем легко увидеть связи меж-
ду парами переменных. На рис. 7.1 показана такая матрица диаграмм рассеяния,
созданная Ллойдом Курье (Lloyd Currie) из Национального института стандартов
и технологии (National Institute of Standards and Technology) для изучения свя-
2
Картезианские координаты также часто называют декартовыми. – Прим. пер.
Диаграмма рассеяния 199

зей между четырьмя загрязнителями: калием, свинцом, железом и оксидом серы.


Диаграммы рассеяния для каждой пары переменных расположены на пересече-
нии соответствующих столбцов и строк, так, в ячейке (1, 2) (первая строка, второй
столбец) показана связь между калием и свинцом, а в ячейке (1, 3) – между калием
и железом и так далее.

Данные о загрязнении

Калий

Свинец

Железо

Оксид
серы

Рис. 7.1. Матрица диаграмм рассеяния для четырех загрязнителей

Взаимосвязи между непрерывными


переменными
В линейной алгебре мы часто описываем связи между двумя переменными с по-
мощью уравнения вида:
y = ax + b.
В этой формуле y – это зависимая переменная, x – независимая переменная,
a – коэффициент наклона, b – константа.
Заметим, что иногда вместо a в данном уравнении используют m – это другой
способ записи, никак не меняющий смысла уравнения. Как a, так и b могут быть
положительными, отрицательными или равняться нулю. Для нахождения значе-
ния y для заданного значения x вам надо просто умножить x на a, а затем приба-
вить b. Такие уравнения, как это, описывают идеальную связь (зная значения x,
a и b, мы можем найти точное значение y), тогда как уравнения, описывающие
реальные данные, обычно включают также величину ошибки, показывая наше по-
нимание того, что уравнение дает нам предсказанное значение y, которое может не
совпадать с истинным. Тем не менее стоит посмотреть на графики, точно заданные
уравнениями, чтобы почувствовать, как при построении выглядят идеальные свя-
зи; это должно помочь замечать схожие тенденции в реальных данных.
На рис. 7.2 показана взаимосвязь между двумя переменными, x и y, которые
связаны идеальной положительной связью: x = y. В этом уравнении b = 0, a = 1, и
200 Глава 7. Коэффициент корреляции Пирсона

в каждом случае значения x и y совпадают. Это уравнение выражает положитель-


ную связь, поскольку с ростом значения x так же растет и y; в графике с положи-
тельной связью точки идут из нижнего левого угла в верхний правый.

15

10

-15 -10 -5 0 5 10 15
-5

-10

-15

Рис. 7.2. График модели y = x


На рис. 7.3 изображена отрицательная зависимость между x и y: эти точки опи-
сываются уравнением y = –x. В этом уравнении a = –1, b = 0. Заметьте, что при от-
рицательной зависимости при росте значения x значение y уменьшается, а точки
на графике идут из верхнего левого угла в нижний правый.

15

10

-15 -10 -5 0 5 10 15
-5

-10

-15

Рис. 7.3. График модели y = –x


На рис. 7.4 показана положительная зависимость между x и y, определенная
моделью y = 3x + 2. Заметьте, что эта связь все так же идеальна (в том смысле что,
зная модель и значение x, мы можем рассчитать точное значение y) и выглядит как
прямая линия. Однако, в отличие от двух предыдущих графиков, линия больше
не проходит через начало координат (0, 0), потому что значение b (константы)
равно 2, а не 0.
Диаграмма рассеяния 201

25
20
15
10
5

-15 -10 -5 0 5 10 15
-5
-10
-15
-20
-25

Рис. 7.4. График модели y = 3x + 2


В трех предыдущих случаях уравнение прямой указывало на сильную связь
между переменными. Однако это не всегда так; прямая может показывать отсутст-
вие связи между переменными. Даже если одна из переменных постоянна (то есть
ее значение не меняется), в то время как значение другой переменной непостоянно,
то такое взаимоотношение все равно можно выразить в виде уравнения (и графи-
ка) прямой для несвязанных переменных. Например, уравнение x = –3, которому
соответствует график на рис. 7.5; вне зависимости от значения y значение x всегда
одно и то же, таким образом, между x и y нет никакой связи. Коэффициент накло-
на этого уравнения не определен, поскольку в уравнении, использованном для его
расчета, нулевой знаменатель.

-6 -4 -2 0 2 4 6
-2

-4

-6

Рис. 7.5. График модели x = –3


Уравнение для расчета коэффициента наклона приведено на рис. 7.6:
202 Глава 7. Коэффициент корреляции Пирсона

Рис. 7.6. Уравнение для расчета коэффициента наклона прямой


где x1 и x2 – это два произвольных значения x из данных, а y1 и y2 – соответствую-
щие значения y.
Если x1 и x2 совпадают, у этой дроби знаменатель равен нулю, так что уравнение
и коэффициент наклона не определены.
Уравнение y = –3 также описывает отсутствие связи между x и y, в данном слу-
чае из-за того, что коэффициент наклона равен нулю. В этом уравнении y всегда
равен –3 вне зависимости от того, чему равен x. График для этого уравнения – го-
ризонтальная линия, как показано на рис. 7.7.

-6 -4 -2 0 2 4 6
-2

-4

-6

Рис. 7.7. График модели y = –3


Для реальных данных мы не ожидаем, что уравнение будет идеально описывать
связь между переменными, а график будет идеальной прямой, даже если имеется
довольно сильная линейная зависимость. Посмотрите на график на рис. 7.8, где
изображены почти те же данные, что и на рис. 7.9; отличие состоит в том, что к
данным мы прибавили некоторую случайную ошибку, так что идеальная прямая
больше не наблюдается. Взаимосвязь x и y все равно линейная и положительная,
но мы больше не можем точно предсказать значение y по значению x с помощью
уравнения. Другими словами, знание значения x помогает нам предсказать зна-
чение y (в противоположность предсказанию без знания x), но мы понимаем, что
наше предсказанное значение y может на сколько-то отличаться от истинного зна-
чения из данных.
Диаграмма рассеяния 203

30
25
20
15
10
5

-15 -10 -5 0 5 10 15
-5
-10
-15
-20

Рис. 7.8. График для сильной положительной связи

30
25
20
15
10
5

-15 -10 -5 0 5 10 15 20
-5
-10
-15
-20

Рис. 7.9. График для более слабой положительной связи


Две переменные могут быть связаны сильно, но не линейно. В качестве зна-
комого примера можно привести уравнение y = x2, которое описывает идеальную
связь, поскольку при известном значении x мы знаем абсолютно точно, чему ра-
вен y. Тем не менее эта зависимость квадратичная, а не линейная, что можно ви-
деть на рис. 7.10. Возможность заметить сильные нелинейные связи – это одна из
важнейших причин для построения графиков по вашим данным.
На рис. 7.11 показан другой обычный тип нелинейной зависимости, логариф-
мическая, определенная уравнением y = ln(x), где ln означает «натуральный лога-
рифм от».
204 Глава 7. Коэффициент корреляции Пирсона

120

100

80

60

40

20

-15 -10 -5 0 5 10 15

Рис. 7.10. График идеальной квадратичной зависимости

3.5

3.0

2.5

2.0

1.5

1.0

0.5

0
0 5 10 15 20 25

Рис. 7.11. График идеальной логарифмической зависимости


Если вы заметили нелинейную зависимость в своих данных, то может оказать-
ся, что ее можно преобразовать в зависимость, близкую к линейной; это подробнее
обсуждается в главе 3. Узнавать такие нелинейные зависимости и помнить разные
способы их «исправления» – важное умение для всех, кто работает с данными.
В случае данных, показанных на рис. 7.10, если мы преобразуем y, взяв квадрат-
ный корень от него, и затем построим зависимость √y от x, мы увидим, что зави-
симость стала линейной. Аналогично, в случае данных, приведенных на рис. 7.11,
мы можем преобразовать y в ey и построить диаграмму его зависимости от x, тогда
мы увидим линейную зависимость между переменными.
Коэффициент корреляции Пирсона 205

Коэффициент корреляции Пирсона


Диаграммы рассеяния – это важное средство визуального изучения связей между
парами переменных. Тем не менее мы также можем захотеть получить статисти-
ческую оценку этих связей и проверить их на значимость. Для двух непрерывных
или характеризующих отношения переменных самая важная мера связи – это ко-
эффициент корреляции Пирсона, также называемый линейным коэффициентом
корреляции, обозначаемый как ρ (греческая буква «ро») для генеральной совокуп-
ности и r – для выборки.
Этот коэффициент может принимать значения в интервале (–1, 1), где 0 свиде-
тельствует об отсутствии связи между переменными, большие абсолютные значе-
ния показывают более сильную связь (если никакая из переменных не является
константой, как в случае данных на рис. 7.5 и 7.7). Значение коэффициента кор-
реляции может вводить в заблуждение, если на самом деле связь нелинейная, из-
за чего всегда следует строить график для ваших данных. Такие характеристики
связи, как «сильная» и «слабая», не имеют строгого численного соответствия, но
связь, описываемая как сильная, будет ближе к линейной, с точками, лежащими
ближе к прямой, чем в случае слабой связи. В некоторой степени определения
сильных и слабых связей зависят от области исследований или традиции, так что
вам придется узнать, что как называют в вашей области науки. Несколько приме-
ров диаграмм рассеяния данных с разной величиной r приведены на рис. 7.12, 7.13
и 7.14, чтобы показать, как выглядят связи различной силы.

50

40

30

20

10

0
0 5 10 15 20 25

-10

Рис. 7.12. Диаграмма рассеяния (r = 0.84)


206 Глава 7. Коэффициент корреляции Пирсона

25

20

15

10

0
0 5 10 15 20 25 30 35

Рис. 7.13. Диаграмма рассеяния (r = 0.55)

25

20

15

10

0
0 5 10 15 20 25 30 35

Рис. 7.14. Диаграмма рассеяния (r = 0.09)


Хотя коэффициенты корреляции часто рассчитывают с помощью компьютер-
ных программ, их так же легко рассчитать вручную. Формула для коэффициента
корреляции Пирсона представлена на рис. 7.15.

Рис. 7.15. Формула коэффициента корреляции Пирсона


Коэффициент корреляции Пирсона 207

В этой формуле SSx – это сумма квадратов отклонений x, SSy – это сумма квад-
ратов отклонений y и SSxy – это сумма квадратов отклонений x и y.
Все этапы этих расчетов просты, но процесс может быть утомительным, осо-
бенно для данных большого объема. Для расчета суммы квадратов x необходимо
проделать следующее:
1. Из каждого значения x вычесть среднее по всем значениям x. Это называют
отклонениями.
2. Возвести каждое отклонение в квадрат.
3. Сложить все квадраты отклонений (отсюда название «сумма квадратов от-
клонений»).
На рис. 7.16 это показано в виде формулы.

Рис. 7.16. Формула суммы квадратов отклонений


В этой формуле xi – это отдельное значение x, x – это среднее по всем значени-
ям x и n – это объем выборки.
Из этой формулы хорошо понятно, как вычислять SSx, но ее использование
может потребовать большого количества времени. Сумму квадратов отклонений
можно получать также с помощью расчетной математически тождественной фор-
мулы, показанной на рис. 7.17, ручной расчет с помощью которой может оказаться
менее утомительным.

Рис. 7.17. Расчетная формула для суммы квадратов x


Первая часть формулы указывает на то, что нужно возвести каждое значение x
в квадрат, а затем сложить их. Вторая часть указывает на необходимость возвести
сумму всех значений x в квадрат, а затем разделить эту сумму на объем выборки.
Затем, чтобы получить SSx, нужно вычесть вторую величину из первой.
Для расчета суммы квадратов отклонений y повторите ту же процедуру, но со
значениями y и средним по значениям y.
Процесс расчета ковариации сходен, но вместо возведения отклонений для каж-
дого значения x или y в квадрат вам надо перемножить соответствующие значения
отклонений для x и y друг на друга. Этот процесс представлен в виде формулы на
рис. 7.18.

Рис. 7.18. Расчет суммы квадратов отклонений x и y


208 Глава 7. Коэффициент корреляции Пирсона

Также существует расчетная формула для суммы квадратов отклонений x и y,


которая приведена на рис. 7.19.

Рис. 7.19. Расчетная формула для суммы квадратов отклонений x и y


Принцип использования этих формул может стать понятнее после изучения
примера. Предположим, мы получили выборку 10 американских старшеклассни-
ков и анализируем результаты выполнения ими разделов Академического оце-
ночного теста (Scholastic Aptitude Test), направленных на проверку вербальных и
математических умений, которые приведены в табл. 7.1. (В каждом разделе этого
теста можно получить от 200 до 800 баллов.) Для облегчения восприятия данных
мы выстроили их в порядке увеличения баллов, полученных за вербальные уме-
ния, но это никак не связано с расчетами.
Таблица 7.1. Баллы за разделы Академического оценочного теста,
направленные на проверку вербальных и математических умений

Ученик Речь Математика


1 490 560
2 500 500
3 530 510
4 550 600
5 580 600
6 590 620
7 600 550
8 600 630
9 650 650
10 700 750

Вот информация, которая вам понадобится для использования расчетных фор-


мул (или чтобы проверить себя, если вы подсчитали эти величины самостоятель-
но):
n = 10.
⎛ n




∑ x ⎟⎟⎠ = 5 790
i =1
i

∑x i =1
2
i = 3 390 500
Коэффициент детерминации 209

⎛ n




∑ y ⎟⎟⎠ = 5 790
i =1
i

∑y
i =1
2
i = 3 612 500

∑ (x y )= 3 494 000
i =1
i i

Затем мы подставляем эти числа в расчетные формулы, как показано на


рис. 7.20.

Рис. 7.20. Расчет r для вербальных и математических результатов


Академического оценочного теста
Корреляция между речью и математикой в этом тесте составляет 0,87 – сильная
положительная связь, говорящая о том, что ученики, которые получают высокие
результаты в одной части, так же чаще хорошо выполняют вторую. Заметьте, что
корреляция симметрична, так что мы не должны постулировать, что одна пере-
менная влияет на другую, а только то, что мы увидели связь между ними.

Проверка статистической значимости


коэффициента корреляции Пирсона
Мы также хотим определить, значима ли данная корреляция. Нулевая гипотеза
для корреляционного анализа обычно следующая: переменные не связаны, то есть
r = 0, и именно эту гипотезу мы проверяем в этом примере; альтернативная ги-
потеза состоит в том, что r ≠ 0. Мы будем использовать уровень значимости 0,05
и рассчитаем статистику для проверки значимости отличия наших результатов
от 0, как это показано на рис. 7.21. Эта статистика имеет t-распределение с (n – 2)
степенями свободы; степени свободы – это статистический термин, характеризую-
210 Глава 7. Коэффициент корреляции Пирсона

щий число величин, которые могут меняться в определенной ситуации. Это также
число, которое нам надо знать, чтобы использовать правильное t-распределение
для оценки наших результатов.

Рис. 7.21. Формула для проверки статистической значимости коэффициента


корреляции Пирсона
В рис. 7.21 r – это коэффициент корреляции Пирсона для выборки, n – это ее
объем. Для наших данных расчет приведен на рис. 7.22.

Рис. 7.22. Расчет теста на значимость корреляции между баллами


за математическую и вербальную части Академического оценочного теста
В соответствии с таблицей t-распределения (рис. D.7 в приложении D) крити-
ческое значение для двустороннего t-критерия с 8 степенями свободы при α = 0,05
равно 2,306. Поскольку наше расчетное значение, равное 5,02, превосходит крити-
ческое, мы отвергаем нулевую гипотезу о том, что результаты в математической и
вербальных частях не связаны. Мы также рассчитали точное p-значение для этих
данных с помощью онлайн-калькулятора и получили двустороннее p-значение,
равное 0,0011, что также показывает, что наши результаты очень маловероятны,
если на самом деле эти переменные не связаны в генеральной совокупности, из
которой мы брали выборку.

Коэффициент детерминации
Коэффициент корреляции показывает силу и направление линейной связи
между двумя переменными. Вам также может понадобиться узнать, какую долю
дисперсии одной переменной можно связать с другой переменной. Для нахож-
дения этой величины вы можете рассчитать коэффициент детерминации, кото-
рый равен просто r2. В нашем примере с тестом r2 = 0,872 = 0,76. Это означает,
что 76% дисперсии в результатах вербальной части можно связать с результатом
для математической части, и наоборот. Мы еще поговорим о коэффициенте де-
терминации в главах, посвященных регрессии, потому что очень часто одной из
задач при построении регрессионной модели является поиск набора независи-
мых переменных, которые могут объяснять большую долю дисперсии зависимой
переменной.
Упражнения 211

Упражнения
Задача
Какие из приведенных диаграмм рассеяния (рис. 7.23, 7.24 и 7.25) указывают на
то, что две переменные линейно связаны? Установите для них направление связи
и оцените ее силу, то есть коэффициент корреляции Пирсона для соответствую-
щих данных. Учтите, что никто не ожидает от вас определения точного значения
коэффициента корреляции на глаз, однако полезно уметь его правдоподобно
предсказывать.

35

30

25

20

15

10

-10 0 10 15 20 25 35

Рис. 7.23. Диаграмма рассеяния (a)

1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.1
0.1
0
0 10 10 15 20 25 30 35

Рис. 7.24. Диаграмма рассеяния (b)


212 Глава 7. Коэффициент корреляции Пирсона

90
80
70
60
50
40
30
20
10

-15 -10 -5 0 5 10 15

Рис. 7.25. Диаграмма рассеяния (c)

Решение
a) Сильная положительная связь (r = 0,84).
b) Слабая связь (r = 0,11).
c) Нелинейная квадратичная связь. Заметьте, что r = –0,28 для этих данных –
это достаточно большой коэффициент корреляции, так что без диаграммы
рассеяния мы могли легко не заметить нелинейную природу связи между
этими двумя переменными.

Задача
Найдите коэффициенты детерминации для каждого набора данных из преды-
дущей задачи, если это имеет смысл, и проанализируйте их.
Решение
a) r2 = 0,842 = 0,71;
71% дисперсии одной переменной может быть объяснен дисперсией другой
переменной.
b) r2 = 0,112 = 0,01;
1% дисперсии одной переменной может быть объяснен дисперсией другой
переменной. Этот результат указывает на то, насколько слабой на самом
деле является корреляция величиной в 0,11.
c) r и r2 не применимы для переменных, связь между которыми нелинейна.

Задача
Некоторые исследования выявляли слабую положительную корреляцию меж-
ду ростом и умственными способностями (последние измеряются величиной
IQ), то есть более высокие люди в среднем немного умнее. Используя формулы,
Упражнения 213

представленные в этой главе, рассчитайте коэффициент корреляции Пирсона для


данных, представленных в табл. 7.2, где указан рост (в дюймах) и результаты тес-
та IQ для 10 взрослых женщин. Затем проверьте корреляцию на статистическую
значимость (проведите двусторонний тест с уровнем значимости 0,05), рассчитай-
те коэффициент детерминации и проанализируйте результаты. Для удобства мы
обозначим рост как x и IQ – как y.
Таблица 7.2. Рост и IQ

Студент Рост (дюймы) IQ

1 60 103

2 62 100

3 63 98

4 65 95

5 65 110

6 67 108

7 68 104

8 70 110

9 70 97

10 71 100

Решение
Расчеты приведены на рис. 7.26 и 7.27.
n = 10.
n

∑x
i =1
i = 661

∑x
i =1
2
i
= 43 817

∑y
i =1
i = 1025

∑y
i =1
2
i
= 105 327

∑ (x y )= 67 777
i =1
i i
214 Глава 7. Коэффициент корреляции Пирсона

Рис. 7.26. Расчет корреляции между ростом и IQ


Коэффициент детерминации = r2 = 0,018.

Рис. 7.27. Расчет t-статистики для корреляции между ростом и IQ


В этих данных мы наблюдаем слабую (r = 0,0135, r2 = 0,018) положительную
связь между ростом и IQ; тем не менее эта связь не значима (t = 0,385, p > 0,05),
так как мы не отвергаем нашу нулевую гипотезу об отсутствии связи между пере-
менными.
Если вы заинтересовались данным вопросом, посмотрите статью Кейса и Пир-
сона (Case and, Pearson), ссылка на которую дана в приложении C; хотя в первую
очередь эта статья касается связи между ростом и заработком, в ней также обоб-
щены исследования роста и интеллекта.
ГЛАВА 8.
Введение в регрессию
и дисперсионный анализ

Регрессия и дисперсионный анализ (ANOVA)1 – два метода, использующие об-


щую линейную модель (GLM)2. Если идея линейной функции вам не до конца
ясна, просмотрите обсуждение коэффициента корреляции Пирсона в главе 7.
В главах с 8 по 11 мы опишем статистические методы, в том числе достаточно
сложные, основанные на простейшем принципе линейной связи между двумя или
более переменными. Эта глава представляет самые простые линейные модели,
простые регрессии и однофакторный дисперсионный анализ; в главах с 9 по 11
я опишу более сложные методы из семейства общих линейных моделей. Мето-
ды обработки данных, описанные в этих главах, почти всегда реализуются с ис-
пользованием компьютерных программ; к счастью, большинство из этих методов
достаточно обычны, так что они присутствуют в любом статистическом пакете.
Кроме того, обычно несложно разобраться, как использовать определенный па-
кет, если вы понимаете теоретические аспекты, лежащие в основе модели. По этой
причине мы сконцентрируемся на объяснении того, как эти модели работают, но
оставим советы достаточно общими, так чтобы их можно было применить к боль-
шинству программ.

Общая линейная модель


В основе всех методов из семейства общих линейных моделей лежит предполо-
жение о том, что зависимая переменная является функцией одной или более не-
зависимых переменных. Мы часто рассуждаем в терминах предсказания или объ-
яснения зависимой переменной, используя набор независимых переменных, но
давайте сделаем шаг назад, чтобы разобраться, что же значит, что одна переменная
является функцией другой (или их набора, но, чтобы упростить задачу, для нача-
ла мы остановимся на простейшем случае одной зависимой и одной независимой
переменной). Вы, возможно, помните функции типа y = f(x) с уроков алгебры; это
1
От англ. ANalysis Of Variance. – Прим. пер.
2
От англ. General Linear Model, не следует путать с обобщенной линейной моделью – Generalized
Linear model. – Прим. пер.
216 Глава 8. Введение в регрессию и дисперсионный анализ

уравнение говорит о том что, зная значение x, мы можем вычислить значение y,


следуя процедуре, определенной в функции f(x). Вот несколько примеров функ-
ций:
• y = x означает, что значение y всегда такое же, как и значение x, так что
(x, y) = (1, 1), (2, 2), (3, 3). Запись вида (x, y) = (1, 1), (2, 2) и так далее – это
просто короткий способ сказать: «Если x = 1, то y = 1; если x = 2, то y = 2»
и так далее;
• y = ax означает, что значение y является произведением значения x и конс-
танты a. Если a = 3, то (x, y) = (1, 3), (2, 6), (3, 9) и так далее; значение y
всегда в три раза больше значения x. Если a = 0,5, то (x, y) = (1, 0,5), (2, 1),
(3, 1,5) и так далее. В этом типе модели a часто называют коэффициентом
наклона уравнения;
• y = ax + b означает, что значение y всегда является суммой произведения x
на константу