Вы находитесь на странице: 1из 488

Статистический

анализ
Подход
с использованием
ЭВМ
S ta tis tic a l A n a ly s is
A Computer Oriented Approach
Second E d itio n
A. A. Afifi
U niversity of California, Los Angeles
S. P . Azen
U niversity of Southern California, Los Angeles

Academic Press
N ew Y ork-S an Francisco-London
1979
A Subsidiary of Harcourt Brace Jovanovich, Publishers
А . А ф и ф и ,

С . Э й зе н

Статистический
анализ

П о д х о д
с и с п о л ь з о в а н и е м

Э В М

Перевод с английского
И. С. Енюкова и
И. Д. Новикова
под редакцией
Г. П. Башарина

¿¿О Щ 32 у

ММ

Москва «Мир» 1982


УДК 5 1 9 .2 4 + 61

Афифи А ., Эйзен С.
Статистический анализ: Подход с использованием ЭВМ. Пер.
с англ. — М.: Мир, 1982. — 488 с., ил.
Монография американских ученых, рассчитанная на читателей, знакомых
с основами математической сгатистики, но не имеющих опыта работы с ЭВМ и не
знающих программирования. Изложение ориентировано на применение пакетов
прикладных программ, приведены примеры из биологии, медицины, гуманитар­
ных наук.
Для математиков-прикладников, научных работников, использующих ста­
тистический анализ, для аспирантов и студентов университетов.

Редакция литературы по математическим т укам

Афифи А., Эйзен С.


СТАТИСГИЧЕСКИЙ АНАЛИЗ
ПОДХОД С ИСПОЛЬЗОВАНИЕМ ЭВМ

Научный редактор И. А. М аховая


Мл. научные редакторы И. С. Герасимова, Л. В. Бекренева
Художник А. А. Медников
Художественный редактор В. И . Шаповалов
Технический редактор М. А. Страшнова
Корректор С. А. Денисова

ИБ № 2953
С дано в набор 11.01.82. Подписано к печати 30.08.82. Формат 6 0 x 9 0 7 ц .
Б у м а га типографская № 2. Гарнитура литературная. Печать высокая.
У е л . печ. л . 30,50. Уел. кр.-отт. 3 0 ,5 0 .Уч.-изд. л. 28,51 . Изд. № 1/1730.
Тираж 15 ООО экз. Зак. № 70. Цена 2 р . 20 к.
И ЗД А Т Е Л Ь С Т В О «МИР», 129820, Москва, И-110, ГСП, 1-й Рижский пер., 2.
Ленинградская типография № 6 ордена Трудового Красного Знамени
Л енинградского объединения «Техническая книга» им. Евгении*Соколовой
Сою зполиграфпрома при Государственном комитете СССР по делам издательств,
полиграф ии и книжной торговли. 193144, г. Ленинград, ул. Моисеенко, 10.

© 1979 by Academic Press, Inc.


1702 060000—020 (E) Перевод на русский язык,
19—82, ч. 1
041 (01)—82 «Мир», 1982
От редактора перевода

Вниманию советского читателя предлагается перевод 2-го издания


книги, написанной известными специалистами в области статисти­
ческого анализа с использованием ЭВМ.
К нига имеет характер учебно-справочного руководства
и рассчитана на широкий круг читателей с разной математической
подготовкой, в том числе и на тех, кто знаком лишь с начальным
курсом основ теории вероятностей и математической статистики,
еще не имеет опыта работы с ЭВМ и не знает языков программиро­
вания. От других книг по прикладной математической статистике
данную книгу отличает элементарность и наглядность изложения.
Этому способствует большое число хорошо подобранных приме­
ров, занижающих до половины объема книги и не только име­
ющих иллюстративное назначение, но и представляющих сам о­
стоятельный интерес. Поскольку примеры носят в основном био­
медицинский характер, книга окажется особенно интересной для
медиков, биологов и социологов, начиная со студентов старших
курсов. Вместе с тем книга представляет интерес и для лиц, п р и ­
меняющих математическую статистику в других областях. П ос­
ледние могут рассматривать многочисленные примеры просто
как хорошие иллюстрации общих методов статистического а н а ­
лиза.
Д ругая отличительная особенность книги — ее ориентация
на широкое использование ЭВМ и пакетов статистических про­
грамм (ПСП). Т акая позиция позволила авторам опустить утоми­
тельное описание вычислительных процедур, коль скоро они
содержатся в ряде имеющихся книг и в документации к ПСП.
Сведения о 12 зарубеж ных ПСП приводятся в гл. 1. Информация
об имеющемся в СССР алгоритмическом и программном обеспече­
нии прикладного статистического анализа, а такж е о ПСП и орга­
низациях-разработчиках содержится в публикациях раздела А
литературы на русском языке, добавленной редактором перевода.
Авторы книги умело оперируют примерами для демонстрации
наилучших способов использования программного обеспечения:
6 От редактора перевода

выбор самой подходящей для целей исследования программы,


использование простых программ для сложного анализа, интер­
претация вывода типовых программ и т. д.
Принятый в книге «компьютерный подход» к статистическому
анализу оправдывается не только быстрым расширением парка
ЭВМ и развитием их математического обеспечения, но и тем, что
выполнение многих реальных статистических процедур без ЭВМ
просто невозможно. Хочется надеяться, что выход в свет этой
книги послужит популяризации современных методов статистиче­
ского анализа, и в частности ускорению развития, освоения и
применения ПСП в многочисленных организациях, приобщив­
шихся за последние годы к использованию ЭВМ при статистиче­
ской обработке экспериментальных данных.
Естественно, что в такой большой книге не все одинаково
удалось. Наглядный стиль изложения, избранный авторами,
неизбежно привел к тому, что ряд мест книги оказался излишне
описательным. Это прежде всего относится к приложению I,
посвященному теоретико-вероятностным основам. В связи с этим
в разделе Б литературы, добавленной редактором перевода,
содержится список учебников и учебных пособий по теории вероят­
ностей и математической статистике, а в разделе В — небольшой
список книг по статистическому анализу; это может облегчить
читателю поиск дополнительной литературы на русском языке.
При переводе книги переводчикам и редактору пришлось
преодолеть трудности, связанные с разнообразием и неоднород­
ностью терминологии в охваченных книгой областях. В частности,
было решено сохранить многочисленные и часто встречающиеся
в примерах английские медицинские аббревиатуры, добавив
к переводу их перечень с расшифровкой.
Г. П. Башарин
П о с в я щ а е тс я
М э ть ю Д . и П е н н и

П а м я ти м о е го о тц а

Предисловие ко второму изданию

Работая над вторым изданием, мы постарались расширить содер­


жание книги, дополнительно включив в нее современные методы
и процедуры а н а л и за данны х. С этой целью были добавлены сле­
дующие разделы: проверка наборов данных при помощи пакетов
статистических программ , робастные оценки параметров («винзо-
ризованные» и УИ-оценки), обработка отсутствующих наблюдений
в многомерном случае, нед авн о разработанные меры связи в т а ­
блицах сопряженности п р и зн ако в (меры Г удм ена—• К рускала,
коэффициенты ранговой коррел яц и и ) и многомерный дисперсион­
ный анализ. Кроме того, мы пересмотрели и добавили много
примеров применения математической статистики, почерпнутых
из наших исследований в области медицинских приложений (мони-
торная система наблю дения, применение байесовского метода
для многофакторного прогнозирования, применение факторного
анализа при разработке карты скрининга нарушений функции
легких и т. д .). Кроме то го , были включены некоторые класси­
ческие примеры из медицинской литературы, например фраминг-
хэмское обследование.
Другие изменения приш лось внести из-за быстрого развития
пакетов статистических программ (ПСП). Во втором издании
описываются особенности последних версий пакетов BMD-P,
SPSS и SAS, а такж е обсуж даю тся пакеты GLIM и M IN ITA B.
В книге воспроизводятся выдачи программ из некоторых ПСП.
Наконец, к двум больш им наборам данных (наборы А и В)
были добавлены нескол ько меньших. Читатель может использо­
вать многие из представленны х результатов вычислений при
оценке вновь разрабаты ваем ы х статистических программ.
Надеемся, что б л аго д ар я этим изменениям второе издание
будет лучше отвечать своем у назначению — как учебника, так
и справочника.
Мы хотели бы поблагодарить Маделин Брадвиг, Л орин Де-
керт, Жанин Формен, С а р у Ш онтген, Гейл Уильямс и Д ж ен У и л ­
сон с медицинского ф ак ультета (Dept, of Community and Family
8 Предисловие ко второму изданию

Medicine) У ниверситета Южной Калифорнии за большую помощь


при подготовке второго издания. Мы благодарим такж е г-жу Розу
Хендерсон за подготовку окончательного варианта рукописи.
Э та работа проводилась при частичной финансовой поддержке
Ц ен тр а биомедицинских наследований (grant N IH ВМ23732-01).
Н екоторые примеры в тексге отражают исследования, выполнен­
ные в этом Ц ентре.

Вена, Австрия
1977
П редисловие к первом у и здан и ю

Когда читатель открывает книгу по статистике, его прежде всего


интересует: 1) каков уровень книги, 2) каково ее содержание,
3) отличается ли она от множества других имеющихся в его рас­
поряжении книг по статистике 4) и, наконец, как пользоваться
книгой. Вот ответы на эти вопросы.
1. Уровень книги. Эта книга написана для читателей, прослу­
шавших только элементарный курс основ теории статистических
выводов и не ь :ощих опыта работы с ЭВМ. В приложении I
приводится обзор основных понятий теории статистических вы ­
водов, а в гл. 1 читатель познакомится с программистской терм и­
нологией и методами, используемыми в книге. Минимально необ­
ходимый уровень математической подготовки соответствует курсу,
изучаемому в колледжах. Когда мы рассматриваем понятия,
требующие математического аппарата, выходящего за рамки этого
курса, мы немедленно разъясняем, зачем они нужны и как ими
пользоваться. Кроме того, в книге имеются помеченные звездоч­
ками разделы, из которых читатель с более основательной мате­
матической подготовкой сможет извлечь дополнительные подроб­
ности.
2. Содержание книги. В книге содержатся как элементарные,
так и более сложные разделы. Читатель найдет в ней обзор вероят­
ностных оснований математической статистики и стандартные
процедуры статистических выводов. Кроме того, в книгу включены
регрессионный и корреляционный анализ, дисперсионный анализ
и многомерные методы. Чтобы охватить столь широкий материал,
мы исключили математические доказательства и вычислительные
формулы и сосредоточили все свое внимание на главном — как
применять статистические методы и как интерпретировать полу­
ченные результаты.
3. Отличительные особенности книги, а) Предполагалось, что
все вычисления будут проводиться на ЭВМ. Это позволило нам
избежать скучных вычислительных подробностей, которыми
обычно изобилуют стандартные учебники, а также рассмотреть
10 Предисловие к первому изданию

методы регрессионного анализа и пошагового дискриминантного


анализа, изложение которых до сих пор было возможно только
на гораздо более высоком математическом уровне.
b ) Многие сложные вопросы поясняются как математическими
формулами, так и словесными комментариями. Вводимые понятия
поясняются примерами, почерпнутыми из реальной практики.
c) Показано, как использовать простые программы для слож ­
ного анализа. Например, объясняется, как решить задачу простой
линейной регрессии, используя дескриптивные программы (опи­
сания данных), входящие в пакеты.
(!) Разъясняется, как использовать пакеты программ для ан а­
лиза данных, например для поиска замены переменных, приводя­
щей к нормальному распределению, исследованию остатков для
проверки предположений модели и т. д.
е) Разъясняю тся также нестандартные способы применения
программ из ПСП. Например, показано, как проанализировать
план латинских квадратов при помощи факторных программ
дисперсионного анализа. Показано такж е, как проверить линей­
ность регрессионной модели при помощи программ описания
данных.
Г) Разбросанные по тексту замечания содержат важную допол­
нительную информацию.
4. Использование книги. К нига задумана как справочник го
математической статистике для исследователей, в особенности для
тех, кто использует пакеты (статистических) программ. Она слу­
жит дополнением к сопровождающим пакеты руководствам, по­
скольку эти руководства обычно описывают только технику
работы с программами, т. е. инструктируют, как организовать
ввод данных, чтобы получить заданный результат.
Книгу можно использовать как учебное пособие для различ­
ных курсов. На следующих диаграммах представлены четыре
варианта, соответствующие различным уровням подготовки слу­
шателей.

Курс 1 Элементарный прикладной статистический анализ


(1 семестр, младшие курсы)

Приложение I

Глава 1

Глава 2
Предисловие к первому изданию 11

Курс 2 П рикладной статистический анализ


(1 год, 3-й курс)'

Приложение I

Глава 1

Глава 2

Глава 3 или Глава 4

Курс 3 П ри клад н ой многомерный анализ


(1 семестр, 4-й курс)

Глава 1

Разделы 3.2—3.4 Глава 5

Курс 4 И нтенсивный курс обработки данных


(1 неделя, 8 часов в день)

Глава 1

Разделы Разделы Раздел Разделы


2.4—2.5 3.1, 3.3 4.6 5.3—5.5

В книге п р и н ята следующая система нумерации: разделы


нумеруются последовательно внутри глав, подразделы, соотноше­
ния, замечания, р и су н ки и таблицы — последовательно внутри
разделов:
Разд. ¡.]' обозначает раздел ] главы ь
Разд. ¡.¿.к обозначает подраздел к раздела 1.].
Соотношение (¡о -к ) обозначает соотношение к раздела ь].
12 Предисловие к первому изданию

Табл. 1.рк обозначает таблицу к раздела ь]\


Рис. ¡._]'.к обозначает рисунок к раздела ¡ф
Зам ечание 1 . к обозначает замечание к раздела
С сы лка в тексте на замечаяие I .] . к . Ь обозначает пункт И в за ­
мечании к ]’.к. Наконец, замечания, полеченные знаком ★, до­
ступны только читателям с более основательной математической
подготовкой и могут быть пропущены без ущерба для понимания
основного текста.

Лос-Анджелес, Калифорния, 1971

БЛАГОДАРНОСТИ
Мы хотим особо поблагодарить наших сгудентов Такамуру Аси-
кагу, Энтони Аурьеима, Стьюарта Била, Чарли Бревермана,
И кбала Ф ахм и, Томаса Фарвера, Рональда Хасса, Винни Л и,
Д ж одж а М ейера, Сьюзан Сакс и Джирму Вольд-Цадик за их
зам еч ан и я, критику и помощь в проведении многих вычислений,
вошедших в книгу. Мы благодарим также Ширли Эйзен и Коллин
Гиллен Эйзен за их редакторскую й техническую помощь.
Мы признательны профессору Ричарду Беллману из Универ­
ситета Ю ж ной Калифорнии за его интерес, поддержку и советы
по отбору материала для книги. Н аш а признательность адресо­
вана т а к ж е Вирджинии Зойтл и Лиону Повандру, без админи­
стративны х талантов которых трудно было бы собрать все воедино.
Мы искренне благодарим такж е замечательных машинисток,
которые непостижимым образом переводили наши закорючки
в р еал ьн ы е с л о в а — Энн Эйземан, Бетги Хорват, Кэй Ислейб,
Д ж ордж и Лам, Джин Рот, К эти Скофильд и Шэри Уилкокс.
Больш инство данных, использованных в примерах, почерп­
нуто из совместных работ А. Афифи с отделом исследования
шока У ниверситета Ю жной Калифорнии. Понимание нюансов
в данных, обсуждаемых в книге, во многом явилось следствием
наших обсуждений и совместной работы с докторами Максом
Вейлем и Гербертом Шубином из этого отдела. Им мы выражаем
свою особую признательность.
Кроме того, мы рады поблагодарить Норму Пэлли и Д эвида
Эрбека из того же отдела за важные обсуждения разделов книги,
относящ ихся к обработке данных, а также профессора В ирдж и­
нию К л а р к из Калифорнийского университета в Лос-Анджелесе
за другие полезные дискуссии:.
Д а н н ы е примера 1.4.2 и многих задач в тексте книги поме­
щены с лю безного разрешения доктора Дж она Чепмена и гос­
пожи Энн Каулсон из того же университета.
П едислбвие к первому изданию 13

Мы обязаны распорядителям литературного наследства сэра


Рональда А. Фишера доктору Франку Иэйтсу и издательству
«Оливер'иБойд» (Эдинбург) заразрешение перепечатать таблицу I II
книги «Statistical Tables for Biological A gricultural and Medical
Research».
Мы благодарим такж е сотрудников и редакторов издательства
«Академик Пресс» за их помощь, редакционные замечания и т. д.
Помощь в проведении вычислительных работ нам оказывали
сотрудники Калифорнийского университета (в соответствии
c g r a n t R R -З от N IH Special Research Resources). Эта работа
частично субсидировалась National Institutes of H ealth G rant
No. GM 16197-03, U nited States Public H ealth Service research
grants HE05570 и GM16462 от National Heart Institute, а та к ­
же grant HS00238 от National Center for H ealth Services Re­
search and Development.
1
В в е д е н и е в а н а л и з д а н н ы х

К ак уже сказано в предисловии, эта книга служит двум основным


целям. Первая — описать практику применения основных мето­
дов классического статистического анализа как в одномерном,
так и в многомерном случаях. Вторая — проиллюстрировать
наиболее эффективное использование пакетов статистических про­
грамм (ПСП), т. е. показать а) как выбрать наилучшую для целей
проводимого анализа программу; Ь) как интерпретировать р а з ­
личные дополнительные возможности, предоставляемые програм ­
мой пакета; с) как толковать выход типовой программы и (1) к а к
использовать простые программы для сложного анализа.
В этой главе мы рассмотрим предварительные определения
и понятия, которые обычно не приводятся в книгах или курсах
по статистике. Так, в разд. 1.1 определим виды данных и типы
измерений, которые возникают в приложениях, а такж е опишем
элементарные средства для статистических измерений.
В разд. 1.2— 1.3 мы изложим общую терминологию, относя­
щуюся к применениям ЭВМ. Так, в разд. 1.2 опишем основные
компоненты в ы ч и с л и т е л ь н о й а п п а р а т у р ы , а в разд. 1.3 — основ­
ные компоненты п р о г р а м м н о г о о б е с п е ч е н и я , необходимые для
понимания принципов составления пакетов программ. В
разд. 1.3 приведем также перечень наиболее часто используе­
мых ПСП.
В разд. 1.4 мы опишем подготовку данных для программ из
ПСП и обсудим б л а н к и д л я п р о г р а м м и р о в а н и я и о п е р а т о р ы
ф о р м а т а . В этом разделе приводятся также два набора данных,
которые будут использоваться на протяжении всей книги в п ри ­
мерах и/или упражнениях. В разд. 1.5 обсуждаются требования
к хорошему ПСП, а в разд. 1.6 описываются другие важные спо­
собы использования ЭВМ для нужд статистики. В разд. 1.7
описываются этапы проверки данных, предшествующие дальней­
шему статистическому анализу.
1.1. Данные, измерения и вычислительные средства 15

1.1. Данные, измерения и вычислительные средства


Термин д а н н ы е весьма поп ул ярен в научных исследованиях.
В широком смысле он означаех фактический материал, явл я­
ющийся основой для обсуждения или принятия решений, а в ста­
ти с ти к е — это инф ормация, пригодная для анализа и интерпре­
тации. Действительно, н еко то р ы е статистики рассматривают ста­
тистический анализ как анализ данных (Tukey (1962)). В этой
книге н а б л ю д е н и я с л у ж а т реализацией некоторой случайной
величины, и они поставляю т дан н ы е для изучаемой проблемы.
Следовательно, термины «данные», «наблюдения» и «реализации»
являются синонимами и м огут за м е н я т ь друг друга.
В настоящем разделе мы обсудим типы данных, возникающих
в научных исследованиях. Д ан н ы е получаются в результате
и з м е р е н и й индивидуумов или подопытных образцов из исследу­
емой популяции. Под изм ерением мы понимаем присвоение с и м в о ­
л о в подопытным образцам в соответствии с некоторым правилом.
Эти символы могут быть буквенны ми и представлять к л а с с ы или
к а т е г о р и и в популяции и л и числовы м и. Числовые символы такж е
могут представлять категории в популяции или быть числами.
В нервом случае к ним нельзя п ри м ен ять правила арифметики,
во втором — можно. Н априм ер, е с л и 1 обозначает класс мужчин,
а 2 — женщин, то в этом; контексте 1 + 2 не имеет смысла. Однако
если 1 — число д о л ларов, заработан н ы х за некоторый день,
а 2 — за следующий д е н ь, то 1 + 2 = 3 имеет смысл и означает,
что за два дня зар аб о тан о 3 д о л л ар а.
Шкала и единицы и зм е р е н и й могут быть самыми разными.
Наиример, для любого индивидуум а из популяции взрослых
в США мы можем изм ерить а) пол; Ь) социальное положение;
с) температуру; с!) рост. О чеви д н о, что шкалы этих четырех изме­
рений совершенно р азл и ч н ы по существу, так как в а) можно
сказать, что пол одного индивидуум а о т л и ч е н о т пола другого;
в Ь) можно сказать, что п олож ение одного отличается и в ы ш е ,
чем у другого; в с) м ож н о с к а за т ь , что температура одного от­
лична, выше и н а с к о л ь к о в ы ш е , ч е м у другого; в d) можно сказать,
что рост одного отличен, больш е, на сколько больше и в о с к о л ь к о
р а з б о л ь ш е , чем у д ругого. Эти четыре примера представляют
четыре типа ш калы изм ерений, предложенные С. С. Стивенсом
(Churchman, Ratoosh (1959), гл. 2 ) и получившие следующие назва­
ния: ш к а л а н а и м е н о в а н и й , п о р я д к о в а я ш к а л а , и н т е р в а л ь н а я ш к а ­
л а и ш к а л а о т н о ш е н и й . О б с у д и м т еп ер ь коротко каждую из шкал.

1. Ш к а л а н а и м е н о в а н - и й . Эта ш кал а используется только для


классификации индивидуум ов в популяции. Каждому классу
присваивается свое обозначение так, чтобы обозначения различ­
ных классов не совп ад али . Напр имер,. если индивидуумы класси­
16 Гл. 1. Введение в анализ данных

ф ицирую тся по полу, то двум классам можно присваивать соответ­


ственно буквы М и F, слова MALE и FEM ALE или цифры 1 и 2.
С труктура шкалы наименований не изменяется, если произ­
вести взаимно однозначную подстановку обозначений. Так, в п р и ­
веденном выше примере можно подставить 1 вместо М и 2 вместо
F, и л и 2 вместо М и 1 вместо F, или 100 вместо М и 1000 вместо F
и т. д .
П овторим , что арифметические операции не имеют смысла
для ш кал ы наименований. Поэтому ни медиана, ни среднее не
им ею т смысла. Подходящей статистикой положения центра (цен­
тр ал ьн о й тенденции) является мода, так как она не изменяется
при взаим но однозначной подстановке обозначений. Например,
если м уж чин больше, чем женщин, то мода описывает класс «муж­
чины » независимо от того, будет ли он обозначен через М, 1, 2
или 1000.

2. Порядковая шкала. Эта ш кала позволяет не только разби­


вать индивидуумы на классы, но и упорядочить сами классы.
К аж д о м у классу мы присваиваем различные обозначения так,
чтобы порядок обозначений соответствовал порядку классов.
Если мы нумеруем классы, то классы находятся в числовом по­
р я д к е ; если обозначаем классы посредством букв, то классы
н ах о д ятся в алфавитном порядке; если обозначаем классы словами,
то п о р я д о к соответствует смыслу слов. Пусть, например, мы хотим
классиф ицировать индивидуумы по трем социально-экономиче­
ским категориям — низкий, средний, высокий. Если мы решили
уп оряд очи ть эти классы от низкого к высокому, то можем при­
с в о и т ь им такие обозначения: 1 — низкий; 2 — средний, 3 — вы ­
сокий , или X — низкий, Y — средний, Z — высокий, или
Н И З К И Й , С РЕД Н И Й , ВЫСОКИЙ. С другой стороны, мы можем
упорядочить классы сверху вниз, приняв, что 1 высокий,
2 — средний, 3 — низкий и т. д. В этом примере цифры и буквы
я в л я ю т с я последовательными, но это не обязательно, так к а к
м о ж н о обозначить, например, 1 — низкий, 10 — средний, 100 —
вы сокий, или А — низкий, Р — средний, Z — высокий и т. д.
С тр у к ту р а порядковой шкалы сохраняется при любой взаимно
однозначной подстановке, которая сохраняет порядок. Например,
1 -»- 2 , 2 -> 3, 3 - у х , где х > 3 — допустимая перестановка,
а 1 — 2, 2 3, 3 —*■1 — недопустимая.
Арифметические операции для этой ш калы такж е не имеют
см ы сл а, так что подходящие статистики положения должны не
за в и с е ть от значения наименований классов. Поэтому медиана
и м о д а являю тся подходящими мерами положения центра.

3. Интервальная шкала. Эта ш кала позволяет не только кл ас­


сиф ицировать и упорядочивать индивидуумы, но и количественно
7

1.1. Данные, измерения и вычислительные средства 17

оценивать различие между классами. Чтобы производить такие


сравнения, нуж но ввести единицу измерения и произвольное начало
отсчета (нуль-пункт). Например, температура в градусах по
Фаренгейту принадлеж ит интервальной шкале, где 0° F является
началом, 1° F — единицей измерения. Так, индивидуум с темпе­
ратурой 100.6° F имеет температуру на 2° F выше нормальной
(98.6° F).
Структура интервальной шкалы не изменяется при линейном
преобразовании вида х ' = ах + Ь, а > 0. Это преобразование
смещает начало н а b единиц и изменяет единицу измерения в а раз.
В качестве прим ера рассмотрим преобразование х' =
= -д- (х — 32) = 0.55л:— 17.8, где х — температура в °F. Это
преобразование переводит шкалу Фаренгейта в шкалу Цельсия.
Д л я интервальной шкалы арифметические операции имеют
смысл, так что среднее, медиана и мода — вполне подходящие
меры положения центра.

4. Шкала отношений. Эта ш кала отличается от интервальной


шкалы лишь тем, что в ней задано абсолютное начало отсчета.
В этой ш кале м ож но определить, во сколько раз одно измерение
превосходит другое. Например, рост индивидуума в дюймах
принадлежит ш кале отношений, в которой 0 дюймов есть фиксиро­
ванное начало отсчета, а 1 дюйм — единица измерения. Так,
индивидуум ростом 72 дюйма в два раза выше, чем индивидуум
ростом 36 дюймов.
Структура ш кал ы отношений не изменяется при преобразова­
нии х = сх, с > 0. Т ак, если у — 2х, то у' = 2х ' , т. е. в обоих
случаях одно изм ерение вдвое больше другого. Примером такого
преобразования является х' = х, которое преобразует дюймы
в футы. Все статистики, подходящие для интервальной шкалы,
подходят и для ш калы отношений.

При выборе методов статистического вывода исследователь


должен стремиться использовать свойства своей шкалы измерений.
Т ак, для ш калы наименований годятся только статистические
методы для неупорядоченных классов. К ним относятся критерий
X2 для полиномиального распределения, %2 как мера связанности
и выводы относительно биномиального распределения. Частично
об этом сказано в разд. 2.1 и 2.5. Д л я порядковой ш калы под­
ходят методы, основанные на понятии ранга. Последние при­
надлежат области непараметрических статистик и в книге не
обсуждаются (см ., например, Brownlee (1965), Gibbons (1971),
Noether (1967), Siegel (1956), W alsh (1965)). Статистические ме­
тоды, подходящие для интервальной шкалы, пригодны и для
18 Гл. 1. Введение в анализ данных

ш калы отнош ений и вклю чаю т п рактически все статистические


методы.
Заметим, что в дополнение к уж е введенной классиф икации
ш кал изм ерений наблю дения д елятся на дискретны е и н епреры в­
ные. Р еал и зац и и непреры вны х случайны х величин назы ваю тся
н е п р е р ы в н ы м и н а б л ю д е н и я м и , а реали зац и и дискретны х сл у ч ай ­
ных величин — д и с к р е т н ы м и н а б л ю д е н и я м и . Именованные и
порядковы е д ан ны е всегда дискретны , а интервальны е и относи­
тельные м о гу т быть как дискретными, так и непреры вны ми.
Н априм ер, тем п ер ату р а в градусах по Ф аренгейту или Ц ельсию
п р ед ставляет собой непреры вное измерение в интервальной ш кале,
а число телеф онны х вызовов за один час — дискретное измерение
в ш к ал е отнош ений. Н асгоящ ая кн и га посвящ ена в основном а н а ­
л изу н еп реры вн ы х данны х, полученных путем измерений в и н ­
тервальной ш к ал е или ш кале огношений.
Д л я облегчения вычислений при анализе данны х можно и с ­
пользовать р азл и чн ы е средства. Н апри м ер, к а р м а н н ы е к а л ь к у л я ­
т о р ы с л у ж а т сравнительно недорогим и удобным средством для
выполнения к а к простых; арифметических операций ( + , — , X ,
:, JA), т а к и вы числения логарифмических и тригоном етрических
функций (log х , е х , sin х , cos х , sin f 1 х и т . д .). Во многих к а р м а н ­
ных к а л ь к у л я т о р а х предусмотрена возможность вычислять и н е ­
которы е статистические суммы. Более дорогие модели с п а м я т ь ю
пригодны д л я выполнения многих стандартны х классических
статистически х процедур. Однако пам ять этих к а л ь к у л я то р о в,
п ред н азн ачен н ая д л я накопления данны х, ограничена.
П одходящ и м средством для реш ения больш их задач стати сти ­
ческого а н а л и за , вклю чая многомерный, являю тся э л е к т р о н н о -
вы числит ельны е м аш ины . С их помощью невыполнимая ран ее
работа станови тся рутинной. Поэтому применение современных
ЭВМ п ривело к сущ естврнному прогрессу в статистической тсо
рии. К ом поненты ЭВМ мы обсудим в разд. 1.2.
М еж ду карм ан н ы м и калькул яторам и и быстродействую щ ими
ЭВМ н а х о д я т с я н а с т о л ь н ы е Э В М , которы е сочетаю т портативность
и низкую стоим ость с достаточно высокими вычислительны ми
возм ож н остям и .
Н ако н ец , больш ую помощь при статистическом ан ал и зе п ри ­
носят м а т е м а т и ч е с к и е и с т а т и с т и ч е с к и е т а б л и ц ы (см., н а п р и ­
мер, B u rin g to n (1970), «H andbook of M athem atical Tables» (1952),
Fisher, Y ates (1963), P earson, H a rtle y (1956), Болы пев, Смирнов
(1965) *.
i.2 . Компоненты вычислительного центра. Оборудование 19

1.2. К о м п о н е н ты в ы ч и с л и т е л ь н о го центра. О борудование

В этом разделе м ы опишем: три компоненты вычислительного


центра — ц е н т р а л ь н ы й процессор, периф ерийны е уст ройст ва
и в с п о м о г а т е л ь н о е о б о р у д о в а н и е . И злож ени е носит вводный х а р а к ­
тер и имеет своей ц е л ь ю о зн а к о м и т ь читателя с основной терм ино­
логией, чтобы о б л е гч и ть е м у эффективное использование ПСП.
Центральный процессор — это та компонента вычислительной
системы, которая в ы п о л н я е т зад ан и е п ользователя. С ледова­
тельно, процессор — это та ком понента, которую обычно назы ­
ваю т ЭВМ. Он со сто и т из п а м ят и , которая хран и т информацию
в виде п оследовательности э л е к т р о н н ы х импульсов, и логических
компонент, которы е у п р а в л я ю т различны ми типами работы про­
цессора. Каждый т и п р а б о т ы назы вается командой процессору;
команды могут б ы т ь вы ч и сл и тел ьн ы м и , пересы лки, генерации
данны х, принятия реш ений и л и командами ввода-вы вода инфор­
м ации. Основная в ы ч и с л и т е л ь н а я команда — слож ение, вычита­
ние — это д ополн ен и е к сл о ж е н и ю , умножение — последователь­
н о сть сложений, а д е л е н и е — последовательность вычитаний.
Т аки е функции, к а к log, V , c o s и т. д ., являю тся последователь­
ностями этих а р и ф м е ти ч ес к и х операций. К оманды пересылки
передаю т инф орм ацию в н у т р и процессора; команды ввода-вывода
предназначены д л я п ер е д а ч п информации в или из устройств
ввода-вы вода; ко м ан д ы ге н е р а ц и и данны х генерирую т и н акап л и ­
ваю т символы. К о м ан д ы п р и н я т и я решений сравниваю т две пор­
ции информации и реш аю т, со в п ад аю т они или нет.
Обычно употребляем ы м и носителями для ввода информации
п ользователя в п р о ц ессо р яв л яю тся перфокарта, магнитная
ленте и магнит ный диск, а д л я выдачи информации из процессора
п ользователю и сп о л ьзу ю тся те ж е носители, а так ж е страницы
распечатки и граф ики. Н а п е р ф о к а р т у можно нанести до 80 код и ­
рованны х сим волов. М а г н и т н а я лен та, которая напоминает обыч­
ную магнитоф онную л ен ту, м о ж е т содерж ать до 15 млн. символов
информации. М агн и тн ы й д и с к , который напоминает обычную
грам п ластин ку, с о д е р ж и т е щ е больш е информации и имеет то
преимущ ество п е р е д л ен той , что на нем информ ация может быть
зап и сан а или н а й д е н а и п р о ч и т а н а очень быстро. Эти два носи­
тел я — лента и д и с к — и сп о л ьзу ю тс я процессором к ак внешняя
память, т. е. они с л у ж а т д л я длительного хран ен и я информации
или к ак д о п о л н и тел ьн ая п а м я т ь д л я оперативного хран ен и я тек у ­
щей информации и обм ена с основной оперативной памятью.
Ч ер ез устройство печати н а бум аж ную ленту можно выводить
цифровые таб л и ц ы , тек ст и гр у б ы е графики; граф ик, выводимый
граф опостроителем , я в л я е т с я более точным.
Устройства ввода-вывода яв л яю тс я периферийным оборудова­
нием, которое п о з в о л я е т п о л ь зо в ате л ю общ аться с центральны м
20 Гл. 1. Введение в а н а л т данных

п р о ц е с с о р о м , используя упомянуты е выше носители. В ходн ая


и н ф о р м а ц и я с перфокарт передается в процессор посредством
у с т р о й с т в а в в о д а с п е р ф о к а р т , которое считывает около 1ООО к а р т
в минуту. В ы х о д н о й п е р ф о р а т о р используется для нанесения на
к а р т ы вы ходн ой информации процессора. Н а к о п и т е л ь я а м а г н и т ­
н о й л е н т е (Н М Л ) мож ет^быть использован к ак д л я чтения, так
и для з а п и с и (со скоростью около 380 см/с). Н а к о п и т е л ь н а м а г ­
н и т н о м д и с к е предназначен для чтения и записи на дисках (со
ск о р о сть ю о к о л о 100 тыс. символов в секунду). Б ы с т р о е п е ч а т а ­
ю щ е е у с т р о й с т в о служ ит для вывода н а бум аж ную ленту, а г р а ф о ­
п о ст р о и т ель ри сует графики на бумаге специальны м пером,
у п р а в л я е м ы м процессором.
К периф ерийном у оборудованию относится так ж е удаленны й
т ер м и н а л, который п озволяет пользователю вести непосред­
ств ен н ы й д и а л о г с вычислительной системой. Одним из видов
у д а л е н н о го терм инала явл яется специальная пиш ущ ая маш инка —
т е л е т а й п , н а котором пользователь печатает команды процессору,
а п р оц ессор в свою очередь выводит свои результаты на телетайп.
Д р у г и м в и д о м яв л яется д и с п л е й , в котором вы ходная информ ация
о т о б р а ж а е т с я на катодно-лучевой трубке, а ввод производится
с помощью тел етай п а или с в е т о в о г о п е р а . Преимущ ество и сп ол ь­
з о в а н и я те р м и н а л а зак л ю ч ается в возможности п рин яти я реш ения
с р а з у п о с л е вывода информации. В следующем разделе мы обсудим
п а к е т ы програм м , которы е допускаю т такой вид диалога.
Во в с п о м о г а т е л ь н о е о б о р у д о в а н и е ВЦ входят такие устройства,
к о т о р ы е п о зво л я ю т пользователю быстро вы полнять некоторы е
м е х а н и ч е с к и е операции н а к а р тах . Т ак , к л а в и ш н ы й п е р ф о р а т о р
п р о б и в а е т о тв ер сти я в любом из 80 столбцов и 12 строк перфокарты.
О т в е р с т и е в столбце представляет цифру ог 0 до 9 ( ц и ф р о в а я
п р о б и в к а ) и л и специальны й символ типа — или -1- , а ком бинация
п р о б и в о к в столбце представляет либо б укву, либо специальны й
сим вол т и п а и т. д. Цифровые, буквенны е или сп ец и ал ь­
н ы е с и м в о л ы назы ваю тся а л ф а в и т н о - ц и ф р о в ы м и . Е щ ё всп о­
м о г а т е л ь н о е оборудование вклю чает к о н т р о л ь н и к , служ ащ ий
д л я к о н т р о л я перфорированны х карт; п е ч а т а ю щ е е у с т р о й с т в о
д л я в ы в о д а информации с перфорированны х к а р т на бум агу;
п е р ф о р а т о р , служ ащ ий для дублирования к а р т и перфорации
н а п оследую щ и е карты с формированием соответствующ их м а с­
с и в о в п ер ф о к ар т; и н т е р п р е т а т о р , служащ ий д л я декодирования
з а п е р ф о р и р о в а н н о й на карте информации и печати ее в алфавитно-
ц и ф р о в о й ф орм е н а этой ж е карте. Н аконец, с о р т и р о в а л ь н а я
м а ш и н а о су щ ествл яет за один проход сортировку колоды п ерф о­
к а р т по п р и з н а к у поля идентификации перфокарты.
1.3. Программное обеспечение 21

1 .3 . П рограм м н ое о б есп еч ен и е

П рограм м ное о б е с п е ч е н и е состоит из комплектов п р о г р а м м , т. е.


последовательностей ком анд центральному процессору, который
выполняет соответствую щ ие задан и я. С и с т е м н ы е п р о г р а м м ы на­
ходятся постоянно в оперативной памяти и позволяю т пользова­
телю работать с п р и к л а д н ы м и п р о г р а м м а м и . В этой книге термин
«программное обеспечение» обозначает прикладны е программы.
Эти программы обы чно пиш утся на п р о б л е м н о - о р и е н т и р о в а н н о м
я з ы к е , т. е. на я з ы к е , которы й ближ е к язы ку п ользователя, чем
к маш инному я з ы к у . Н аиболее популярны такие проблемно-
ориентированны е я з ы к и , к а к Кобол, Фортран и П Л /1. Так как
больш инство п акето в програм м написаны на Ф ортране, чаще
всего будем о б р ащ аться именно к нему
В зависимости от слож ности задачи (или з а д а н и я ) программа
м ож ет не содерж ать или содерж ать п о д п р о г р а м м ы . Если про­
грам м а содерж ит п одп рограм м ы , то каж дая из них выполняет
часть общей задачи и все они находятся под контролем у п р а в л я ­
ющей программы, н азы ваем о й о с н о в н о й п р о г р а м м о й . П реимущ е­
ство использования подпрограм м ы состоит в том, что она может
быть использована (и л и в ы з в а н а ) более одного р аза, чем экономится
оперативная память ц ен трального процессора. Д р у го е преиму­
щ ество подпрограм м ы состоит в том, что ее м огут и спользовать
различны е програм м ы , б лагодаря чему достигается экономия
времени и затр а т н а п р о г р а м м и р о в а н и е и о т л а д к у соответству­
ющей части задачи.
Программы м о г у т быть у н и в е р с а л ь н ы м и , т. е. использоваться
множеством задач р а зл и ч н ы х пользователей. Н априм ер, про­
грамма, которая в ы ч и с л я е т среднее из 5 наблюдений, мож ет быть
обобщ ена до п р о грам м ы , которая вычисляет среднее из п
наблю дений, где п — входной параметр, определяемый поль­
зователем . Д р у гая програм м а, которая строит гистограмму с
5 интервалами, м о ж е т быть обобщена до программы, которая
д опускает любое ч и с л о интервалов, задаваем ое пользовате­
лем.
О бщ ая п р о гр ам м а д о л ж н а быть д о к у м е н т и р о в а н а так, чтобы
любой пользователь мог применить ее для своих частны х задач.
Д окум ен таци я м о ж е т состоять или из множества пояснительны х
к а р т (называемых к а р т а м и к о м м е н т а р и я ) , вклю ченны х в колоду
к а р т программы на исходном язы ке ( и с х о д н а я к о л о д а ) , или из
рукописной и н с т р у к ц и и , или из руководства. Д л я р яд а общих
зад ач набор соответствую щ их программ и сопровож даю щ ее его
руководство могут быть предоставлены пользователю различ­
ными вы числительны м и центрам и. Такие наборы программ назы ­
ваю тся п а к е т а м и . В частн ости , если пакет программ предназначен
д л я реш ения стати сти ч ески х задач, то эти программы называю тся
22 Гл. 1. Введение в анализ данных

пакет ам и ст ат ист ических програм м (ПСП). Они и будут рас­


см атр и ваться в книге.
Е сли д ан н ы й пакет программ имеется н а ВЦ, то обычно он
х р ан и тся на ленте или диске в таком виде, в котором он мож ет
в ы зы в ать ся центральны м процессором. Д оступ пользователя
к п р о гр ам м е обеспечивают определенные у п р а в л я ю щ и е о п е р а т о р ы ,
которы е н ах о д ят программу и переписывают ее в оперативную
п ам ять. У п р авл яю щ и е операторы могут быть введены с перф окарт
или с т а к и х периферийных устройств, как телетайп или световое
перо. Во в сяк о м случае, в руководстве к пакету программ долж но
с о д ер ж ат ь ся описание методов доступа и использования про­
граммы. (П редостереж ение: так к ак во многих В Ц метод доступа
к п р о гр ам м е модифицируется, то пользователь первоначально
д о л ж ен п р о ко н сул ьти роваться у персонала ВЦ.)
П рои ллю стри руем теперь сказан н ое на примере трех популяр­
ных П С П .

П р и м ер 1 .3 .1 . Одним из наиболее распространенны х


я в л я е т с я П С П B iom edical C om puter Program s, разработанны й под
р у к о во д ство м Д иксои а в ВЦ М едицинского центра К алиф орний­
ско го у н и в ер си тета в Л ос-А нджелесе. П ервая версия этого п а­
кета — B M D — появилась в 1961 г. и быстро разви валась за счет
д о п о л н и тел ьн ы х программ, улучш ения средств и новых статисти­
ческих м ето ди к. В 1975 г. новая версия — п акет BM DP — ф акти­
чески за м е н и л а предыдущую. Версия BM DP предоставляет п оль­
зователю более гибкий язы к описания, новые статистические
методы и вычислительны е алгоритмы, а так ж е возмож ность по­
вторного а н а л и з а того ж е самого файла данных. О днако некоторы е
п р о гр ам м ы старой версии BMD не вош ли в новую версию BM DP
и п оэтом у такж е будут обсуж даться в книге.
В е р с и я BM DP обладает многими возможностями, которые
будут о б су ж д аться позднее. К ним относятся: робастные (устой­
чивые) о ц ен к и ; дополнительны е статистики д л я таблиц соп ряж ен ­
ности п р и зн ак о в ; обратный ход в регрессионном анализе; н еп ара­
м етр и ч еск и е статистические критерии; анализ повторных изме­
рений; гр аф и ч еск и й вывод, вклю чая гистограммы; двум ерны е
граф ики; граф ики нормального распределения; графики остатков
и г р а ф и к и факторных н агрузок. Программы разбиваю тся на 6 к а ­
тегорий: д ескр и п ти вн ы е (описания данных), ан ал и за таблиц соп ря­
ж енности признаков, многомерного анализа, регрессионные, спе­
ц и ал ьн ы е и дисперсионного анализа. О тносительно руководства
по и сп о л ьзо в ан и ю этого пакета см. D ixon (1977).

П р и м ер 1 .3 .2 . Д руги м популярны м пакетом яв л я е тся S t a t i ­


stic a l P a c k a g e for th e Social Sciences или SPSS, разработанны й
Н о р м ан о м Ни и его сотрудникам и из N ational O pinion R esearch
1.3. Программное обеспечение 23

C enter at th e U n iv e rsity of C hicago. Этот пакет представляет собой


ком плекс программ, п р е д н а зн а ч е н н ы х д л я ан ал и за данных общ е­
ственных наук. П о л ь зо в а т е л ю п ред оставляется возможность
производить много т и п о в ан ал и за п р и больш ой гибкости форматов
данны х, п р ео б р азо в ан и я данны х и м ан и п уляц и и с ф айлами.
SPSS позволяет п о л ь зо в ате л ю п р о и зв о д и ть анализ при помощи
управляю щ их о п е р а т о р о в , ф орм ул и руем ы х на язы ке, близком
к естественному. П р о ц ед у р ы S P S S вклю чаю т дескриптивны й
анализ, простую к о р р е л я ц и ю (д л я порядковой и интервальной
ш кал), частную к о р р е л я ц и ю , од ном ерн ую и я-мерную класси ф и ­
кацию , м асш таби рован и е Г у т м а н а и множ ество многомерных
процедур. О тносительно р у к о в о д ств а к п акету см. Nie ei a l . (1975).

Пример 1.3.3. П а к е т M IN IT A B — п ак ет ш ирокого назначе-


ння для студентов, и зу ч а ю щ и х н а ч а л ь н ы е статистические курсы .
Его мож но и сп о л ьзо в ать к а к в п а к е т н о м , так и в диалоговом
режиме. Этот п акет п р о с т д л я и зу ч е н и я и запоминания, у него
естественная связь м е ж д у и сп о л ьзо в ан и ем ЭВМ и статистическими
задачам и, пакет не з а м к н у т , п р ед о став л я е т больш ие возможности
для построения г р а ф и к о в , д л я ген ер а ц и и данны х, а такж е р азв и ­
тую систему диагности к и ош ибок. О тносительно копии системы
и руководства см. R y a n , J o in e r (1973, 1976).

П риведем теперь с п и с о к н еко то р ы х распространенны х ПСП


и их р азр а б о т ч и к о в 1) . О бзор п ак е то в на 1972 г. содерж ится
в S chucany e t a l . (1 9 7 2 ). О бзор и о ц ен к а более поздних пакетов
приводятся в отчете R. K ohm и Т . R y a n д ля C om m itee on E v a ­
lu atio n s of Program P a c k a g e s of t h e S ta tis tic a l C om puting S ection
of th e A m erican S ta t is t i c a l A sso c ia tio n . Заинтересованны й читатель
может обратиться к э т и м и сто ч н и к а м .

ПАКЕТ РАЗРАБОТЧИК
1. STATPACK 2 — на А П Л К. W . S m illie, Dept, of Computing Sci­
e n c e , U n iv. of Alberta, Edmonton,
A lb erta , Canada
2. MANOVA — программы D ea n J. C lyde, Clyde Computing Ser-
многомерного статистиче­ v ic e , 9555 N . Kendall Dr., Miami,
ского анализа Florida
3. PSTAT — ориентирован­ R o n a ld Buhler, Princeton U niv. Com-
ный на пользователя p u te r Center, Princeton, New Jersey
язык статистического
анализа

х) См. также раздел А списка литературы , добавленной редактором пере,


вода. — П р и м . ред,
24 Гл. 1. Введение в анализ данных

4. S S P —• пакет научных IBM, Data Processing D ivision, 112 E.


подпрограмм Post Rd., White Plains, New York
5. D ATA-TEX T D . J. Armor, Dept, of Social Relations,
Harvard U niv., Cambridge, Massa­
chusetts
6. IMSL библиотеки International Mathematical and Sta­
tistical Libraries, Inc., 6200 H ill-
croft, Houston, Texas
7. O S IR IS U niv. Michigan, Survey, Research Cen­
ter, Ann Arbor, Michigan
8. S A S — система статисти­ J . H. Goodnight, Institute of S tati­
ческого анализа stics, North Carolina State U niv.,
Raleigh, North Carolina
9 . C A L L /370 Service Bureau Company, 1350 Avenue
of the Americas, N ew York, New
York
10. A L IC E E. C. T. Walker, ALICE Assoc., 29
Wellesley Ave. N atick, Massachu-
setts
II. O M N IT A B II National Bureau of Standards, NBS
Tech. Note 552, Government Print­
ing Office, Washington, D. C.

12. G L IM Numerical Algorithms Group, 7 Ban­


bury Road, Oxford, England

Замечания 1.3.1. 1. При использовании ПСП принятие


р е ш е н и й остается за исследователем. П рограм ма освобождает
и сс л е д о в а т е л я от рути нн ой вычислительной работы, но интерпре­
тац и я полученных результатов зависит от его опыта и знаний.
2. П р и м ен ен и е ПСП влечет з а собой и некоторы е неудобства:
a) И ссл ед о вател ь долж ен привы кнуть к обозначениям и тре­
б о в а н и я м ПСП, причем в сопровождаю щ их пакет руководствах
часто н е достает информации для интерпретации выходных дан ­
ных.
b) П о л ь зо в а тел ю статистического пакета приходится огран и ­
ч и в а т ь с я численными методами, примененными в программах,
х о тя в его задаче эти методы м огут быть и не самыми эффектив­
ными. 1
c) В п акетах программ не предусмотрен вывод н а печать всей
и н ф о р м ац и и , необходимой пользователю . Н апример, некоторые
п р о гр ам м ы выдают лиш ь точечные оценки параметров без довери­
т е л ь н ы х интервалов.
с!) П С П пиш утся только н а базе стандартны х статистических
м е т о д и к . Е сл и исследователь хочет использовать нестандартны й
а н а л и з , он долж ен написать свою собственную программу.
1.4. Подготовка данных для пакетов программ 25

1.4. П о д г о т о в к а д а н н ы х д л я п а к е т о в п р о г р а м м

В этом разделе мы обсудим подготовку данных для обработки


на ЭВМ. М ногие данны е научного эксперимента собираю тся и з а ­
писываются вр у чн у ю , например, на лабораторны х блан ках, во­
просниках, в сп ец и альн ы х таблицах и т. д. Это объясняется как
тем, что ручная з а п и с ь доступнее и дешевле, чем автоматическая,
так и тем, что в о м ногих случаях экспериментатор долж ен при­
нимать решения относительно результатов измерений с некоторой
поправкой. С д р у го й стороны в сложных случаях объем получа­
емых данны х оп р авды вает применение специализированны х авто­
матизированны х процедур и предназначенны х для них оборудова­
ния и п рограм м ного обеспечения. Т ак ая ситуация разобран а
в примере 1.4.1.
Если данные собираю тся и записы ваю тся вручную , необходимо
придать им логичн ую и компактную форму, совместимую со сред­
ствами ввода ЭВМ . Т ак к ак диски и ленты представляю т собой
сложные носители входной информации, рассмотрим тол ьк о под­
готовку данных для наиболее часто используемого носителя —
перфокарт. П р еж де чем данны е будут нанесены на перфокарты,
необходимо составить специальную форму, называемую к о д и р о ­
в а н н о й т а б л и ц е й . Эта табли ца определяет распределение 80 столб­
цов карты по и зучаем ы м переменным. Хотя это распределение
довольно п роизвольно, приведем несколько общих рекомендаций
д ля программ н а Ф ортране.
1 . Каждому индивидуум у (или экспериментальной единице)
должен быть присвоен свой собственный идентификатор, п озвол я­
ющий отличить е го от других индивидуумов выборки. И дентифи­
каторы обычно кодирую тся в первых или последних столбцах
таблицы. Д л я этой цели часто использую тся столбцы 73—80.
Один из обычных методов идентификации, состоящ ий в при­
своении индивидуум ам последовательных целых чисел, имеет то
преимущество, ч т о карты могут быть упорядочены по идентифи­
цирующим номерам, если их последовательность наруш ена. Число
столбцов, и сп ользуем ы х д л я идентификации, определяется изве­
стным или ож идаем ы м объемом выборки. Н апример, д л я выборки
объеыа 493 н у ж н о и спользовать не менее трех столбцов. Здесь
у всех кодируем ы х данны х цифры долж ны быть в ы р а в н е н ы п о
правом у краю . Т а к , если для идентификации номера истории
болезни и сп ользую тся столбцы 73—80, то число 2 кодируется
в столбце 80, а не в столбцах 78 или 79. Аналогично, число 32
кодируется в сто л б ц ах 79 и 80. Чтобы избеж ать ошибок, часто
вводятся ведущ ие н ули , так что, например, 2 и 32 записы ваю тся
как 002 и 032.
Д ругим и прим ерам и идентификаторов являю тся 9-значный
индекс соц и альн ого страхован и я или набор из букв и цифр, пред­
26 Гл. 1. Введение в анализ данных

ставляю щ и х т а к и е свойства, к а к пол, расу, первую и последнюю


буквы п ер во го имени, дагу рож дения и др.
2. К аж д о е наблюдение долж но быть закодировано с той то ч ­
ностью , с которой п роизводятся измерения, так к а к , вообще
говоря, о к р у гл ен и е или усечение (отбрасывание младш их р а з р я ­
дов) н еж елател ьн о. Н априм ер, если тем пература записы вается
с одним десятичны м знаком после точки, то не рекомендуется
коди ровать ее как целое число. Это позволяет сохрани ть более
подробную информацию , по крайн ей мере на первых этап ах а н а ­
л и за. Н а б о л е е поздних этап ах могут производиться округление
или усечение.
3. Д л я каж д ой переменной долж но быть выделено достаточное
число столбц ов, чтобы м ок н о было записать все наблю дения в вы ­
борке — м иним альное число столбцов определяется наблю де­
нием с наи больш и м числом зн аков. Т ак, если наблю дения дали
386, 7232 и 24, то требуется не менее 4 столбцов. Если результаты
наблю дений — целые числа разной значности, то они всегда вы ­
р авн иваю тся п о правом у краю и могут бы ть дополнены ведущими
нулям и. Н ап р и м ер , указан ны е наблю дения можно зап и сать в од ­
ном из д ву х видов:

Столоец 1 2 3 4 Столбец 1 2 3 _-4-

3 8 6 0 3 8 6
7 2 3 2 ит 7 2 3 2
2 4 0 0 2 4

Е сли хотя бы одно из наблю дений является отрицательным ч и с­


лом, то с л е д у е т предусмотреть дополнительный столбец для знака
минус. Н ап р и м ер, если тр етье наблю дение дало — 24, данные
м ож но за п и са ть в виде

Столбец 1 2 3 4 5
3 8 6
7 2 3 2
2 4

З н а к плю с м ож ет предш ествовать полож ительны м числам, но


это н ео б язател ьн о .
4. Е сл и зн ач ен и я переменных вклю чаю т десятичны е дроби,
то д л я д есятичн ой точки мож но и спользовать отдельны й столбец,
а мож но э т о г о не делать. Е сли д есятичная точ ка коди руется,
она н ео б язате л ьн о долж на зан и м ать один и тот ж е столбец.
1.4. Подготовка данных для пакетов программ 27

Н априм ер, числа 723.2, 3 8 .6 и 0 .2 4 мож но кодировать в виде

Столбец 1 2 3 4 5 6

7 2 3 . 2 0
3 8 . 6 0
0 . 2 4

когда точке отводится с т о л б е ц 4, и л и в виде

Столбец 1 2 3 4 5

7 2 3 . 2
3 8 . 6
0 . 2 4 0

когда точка ставится в любом стол б ц е. Заметим, что если точка


перфорируется, то р е з у л ь т а т ы наблю ден и й не обязательно долж ны
быть выравнены по п р а в о м у к р а ю . Если десятичная точка не
кодируется, го р азм ещ е н и е д еся ти ч н о й точки определяется о п е р а ­
т о р о м ф о р м а т а (о б су ж д ается н и ж е). В этом случае предпола­
гается, что десятичная т о ч к а д о л ж н а находиться в одном и том ж е
месте и все результаты н аб лю д ен и й вы равниваю тся по правому
краю . Т ак, предыдущие н аб л ю д ен и я записы ваю тся в виде

С то лб е ц 1 2 3 4 5

7 2 3 2 0
3 8 6 0
0 2 4

где точка п р ед п о л агается м еж ду сто л б ц ам и 3 и 4. А вот пример


ошибочной записи:

Столбец 1 2 3 4 5

7 2 3 2 0
3 8 6 0
0 2 4 0

5. О т с у т с т в у ю щ е е з н а ч е н и е (н аб л ю ден и е не было выполнено


или его результат у т е р я н ) м о ж н о закоди ровать к ак пробел или
ему м ож но присвоить с п е ц и а л ь н о е з н а ч е н и е , т. е. число, которое
в действительности не м о ж е т н аб л ю д ать ся . Н априм ер, — 10.0 (фу­
тов) — специальное з н а ч е н и е д л я р о с т а индивидуума, 999 (лет) —
д ля его возраста, 9 — с п е ц и а л ь н о е зн ачение д л я порядкового
измерения со ш калой о т 1 до 7.
28 Гл. 1. Введение в анализ данных

П р о б е л неудобен, поскольку некоторые ЭВМ не отличаю т его


от ц и ф р ы 0. Поэтому, если 0 — одно из возможных значений
п ер ем ен н о й , то пробел может быть н еп равильн о прочитан к а к 0 .
П р а в д а , некоторы е ЭВМ воспринимают пробел как —0, позволяя
р а з л и ч а т ь пробел и 0 .
И с п о л ь зо в а н и е специального символа имеет тот недостаток,
что п р и кодировке мож но забы ть пробить специальный зн ак и
и с п о л ь зо в а т ь вместо него тире или пробел.
6 . П р и измерениях в ш калах наименований или порядковой
л у ч ш е присваивать цифры, чем буквы. Ж елательно не использо­
вать 0 , так к а к его мож но перепутагь с пробелом.
7. Н е рекомендуется переводить измерения в интервальной
и ли отн оси тельной ш калах в порядковую ш калу. Н априм ер,
и з м е р е н и я возраста в годах н е следует кодировать к а к «1 = менее
21», « 2 = от 21 до менее 35», «3 = 35 или более», так к а к это
п р и в о д и т к неоправданной потере исходной информации. При
н еобходи м ости такую перекодировку м ож ет произвести ЭВМ
и ли и ссл ед о в ател ь на дальнейш их этапах.
8 . И н о гд а две или более переменных м огуг быть объединены
в о д н у без потери информации. Н апример, две переменные

если в семье нет детей,


У /°*
1 " 1 1 , если в семье есть деги,
Х г — возраст старшего ребенка в семье

м о гу т быть объединены в одну

= возраст старшего ребенка в семье,

где У \ = 0, если в семье нет детей. Это объединение позволяет


и ск л ю ч и ть отсутствие данны х д л я и сэкономить место.
9. П ерем енны е следует упорядочивать так , чтобы они образо­
в ы в а л и близкие по смыслу группы . Н априм ер, п ризн аки в за я в л е ­
н и я х о приеме в университет можно разби ть на следую щие группы:
a) идентификатор (номер);
b) антропометрические данные — рост, вес и т. д.;
c) д ан н ы е об образовании — результаты тестов, 10 , средний
б ал л и т. д.
(!) д ан н ы е о работе — род зан яти й , стаж на последнем месте
р а б о т ы и т. д.
10. Д л я кодирования измерений по каж дому^-индивидууму
м о ж н о использовать и несколько карт, так что экспериментатор
не о г р а н и ч е н и ю колонкам и одной к а р т ы / При использовании
более одной карты ж елательно кодировать каж дую кар ту на
о тд ел ьн о м кодировочном бланке. Рекомендуется такж е указы вать
!

S E¡X s с
и Л\
F Т fr AGE HT 1 = M р 1YPF SP МАР нR DP MV :> в s / с I АТ МСТ ио PVT FС 1Clb ь\ с t
(cm) 2 =F V

1S ?

3; 1 )
-4 -

— /
- —1 -, —
1 1

Рис. 1.4.1. Кодировочный бланк из примера 1.4.1.


30 Гл. 1. Введение в анализ данных

идентиф икатор индивид 5гума на каждой карте и резервировать


столбцы д л я порядкового номера карты.

Пример 1 .4 .1 . В отделе исследования ш ока У ниверситета


Ю жной К алиф орнии, Л ос-А нджелес, К алифорния, данны е о м н о­
гих ф изиологических показателях каж дого из пациентов соби­
раю тся последовательно во времени. С этой целью были р азр а б о ­
таны специальны е автоматизированны е процедуры сбора данны х,
записи их н а магнитную ленту и вывода на печать (S tew art e t a l .
(1968); P a lle y e t a l . (1970)). И з множества собранных таким обра­
зом данны х был извлечен и закодирован д л я набивки на кл ави ш ­
ном перф ораторе специальны й набор данны х для использования
в прим ерах и уп раж н ен и ях этой книги.
В этот набор данны х были включены начальны е (в момент по­
ступ лен и я) и конечные (перед смертью или выпиской) измерения
р яд а переменны х у 113 пациентов в критическом состоянии.
К одировочны й б лан к для этих переменных приводится
на рис. 1 .4 .1 . Заметим, что первые четыре столбца зарезервиро­
ваны д л я идентиф икатора — номера истории болезни пациента,
а в последний столбец заносится 1 для начальны х и 2 — для ко­
нечных изм ерений. Д етали кодирования переменных приводятся
в таб л. 1 .4 .1 , а д ан н ы е — в табл. 1.4.2, Эти данные будем назы-
вать н а б о р о м д а н н ы х А .
О п и с а н и е п е р е м е н н ы х п р и м е р а 1.4.1 ( н а » о р д а н н ы х A) Таблица 1.4.

Стол- _ Обозначение Ед.


бец Переменная в табл. 1.4.2 изыер Шкала Комментарии

1— 4 № истории бо­ P a tie n t ID Нет Наим. Пациенты нумеруют­


л е зн и ся последовательно
5— 8 В о зр аст Age Год Отн. Полное число лет
9—12 Рост H eig h t см Отн.
13—15 П ол Sex Н ет Наим. 1— м уж ., 2 — жен.

16 И сход S urvival » Наим. 1 — выж ил, 3 — умер


17— 20 Тип ш ока Shock T ype Наим. 2 — отсутствие шока
3 — гиповолемиче-
ский шок
4 — кардиогенный
шок
5 — бактериальный
шок
6 — неврогенный
шок
7 — другие виды шо­
ка
11родолжение табл. 1.4.1
Стол - Обозначение Е д.
бец. Переменная в т а б л . 1.4.2. из м ер. Ш кала К ом м ентарии

21—24 Систолическое БР мм Отн. Записывается бли­


давление р т . ст. жайшее целое

25—28 Среднее артери- М АР мм Отн. Записывается б л и ­


альное давле- р т . ст. жайшее целое
ние

29—32 Сердечный ритм НИ у д ./м и н Отн. Д искретная перемен­


ная

33—36 Диастолическое DP мм Отн. Записывается бли­


давление р т . ст. жайшее целое

37—40 Ср. центральное M VP см Отн. Д есятичная точка


венозное давл. во д. ст. между столб. 39, 40

41—44 Площадь поверх­ ВБА Отн. Д есятичная точка


ности тела между столбцами
42, 43

45—48 Сердечный ин* С1 [ л /( м и н х Отн. Д есятичная точка


деке X м2) ] между столбцами
46, 47

49—52 Время появления АТ с Отн. Д есятичная точка


между столб. 51, 52

53—55 Ср. время цир­ МСТ с Отн. Д есятичная точка


куляции между столб. 55, 56
57—60 Диурез иО м л /ч Отн. Записывается бли­
жайшее целое

61—64 Индекс объема РУ1 м л /к г Отн. Десятичная точка


плазмы между столб. 63, 64

65—638 Эритроцитарный ЯС1 м л /к г Отн. Д есятичная точка


индекс между столб. 67, 68

69—72 Гемоглобин НйЬ г/Ю О м л Отн. Д есятичная точка


между столб. 71, 72

73—76 Гематокрит н а % Отн. Десятичная точка


между столб. 75, 76

77—79 Пробел
80 Вид карты 1 — I n it Н ет П оряд. 1 — начальная, 2
2 — F in a l конечная
Таблица 1.4.2
Данные из примера 1.4.1 (набор данных А)

Survival]

=Fina1
■+- 'S
P a tie n t

S ho ck
H eight

luit
M VP

MC T
<

М АР
Typu

Hgb
PV I
<U X M H

Hct
RCI
Û.
c: CO О. te СЛ О Д
ID

cZ
•< <
s> со 3Z О CD О < 3
Т— со

5l7 68 1 6 5 1 2 11* S 8 95 73 17 1*1 66 115 225 110 562 206 113 3 * 0 1


517 68'1 6 5 1 2 131 98 81 76 *8 1*1 2* 1 89 183 180 6 6 7 292 100 335 2

537 37 171 1 г 1*9 115 76 97 36 182 355 82 156 *0 507 ?34 127 390 1
537 37 171 1 г ** Ю6 10* 86 30 182 519 63 138 50 507 2 3 4 107 325 2

5*6 50 175 1 г 1*6 l o i 76 7* 80 169 *05 56 125 0 64* 239 13* *10 1
5*6 50 175 1 г 125 85 77 61 *6 171 383 72 150 *0 6 4 4 2 3 9 101 330 2

563 53 157 2 г 107 83 18 8 70 198 17* 95 6* 380 0 294 278 155 4 6 0 1


563 53 1 5 7 2 2 127 92 97 73 105 1 79 305 92 178 625 *59 175 131 310 2

562 75 1 7 7 1 г 1*1 65 IOO 8? *1 17 5 190 126 2 9 7 *2 *71 294 137 4 2 0 1


562 75 1 7 7 1 г 173 115 75 92 115 1 75 222 1*5 2 5 1 37 *71 2 9 4 127 360 2

629 66 1 7 8 13 г 11* 59 102 ** 138 1 8 9 3*8 90 168 0 *95 206 93 280 1


629 66 178 13 г 72 46 IOO 35 128 1 9 0 22 в 69 1*7 0 * 4 0 206 91 250 2

63* 52 185 13 г 112 67 73 49 150 200 380 82 151 0 525 152 92 280 1
63* 52 185 3 г 89 ** 57 30 12* 202 25 3 90 170 к 525 1*5 89 2 6 0 2
583 68 1 6 9 21 г 95 65 97 53 131 17* 1*0 1*9 4* 6 0 *58 2 6 0 12* 4 0 0 1
583 68 169 21 г 12* 76 87 56 8 2 173 137 1*6 4 1 1 381 5 3 2 199 132 355 2

58b 73 155 21 2 15* 97 78 67 55 167 36 5 10* 167 0 *30 130 390 281 1
585 73 155 21 г 160 Ю8 85 7* 69 1 6 7 36 5 89 16* 150 *30 2 8 I 116 350 2

59 * 53 168 21 г 138 Ю1 11 0 70 31 151 33 0 51 1 1 3 205 632 191 103 300 1


59* 53 1 6 8 21 2 155 110 10 3 78 87 151 *1 1 *8 100 152 6 6 3 156 95 290 2

63Q 6ч 152 21 2 1*6 Ю9 и * 88 50 152 23 3 13* 2 3 * 0 *25 1 6 * 110 330 1


630 6* 152 21 2 129 Ю 5 10 6 91 3* 152 191 172 2 9 2 226 ** 3 1*0 Î0 9 375 г

6*2 65 1 7 8 1 г 12* 80 110 6* 77 18* 291 60 173 0 *75 230 100 3 1 0 1


6*2 65 178 I г 127 87 10 7 60 88 1 8 * *71 76 150 65 651 197 1 0 3 280 2

639 7; 165 1 2 105 7* 97 53 95 17* 36 9 96 190 0 620 158 78 250


09 1
639 7k 165 1 2 118 78 15 5* 1 2 3 17* 26 8
111 1 8 8 30 594 1 69 100 ц ?

651 31 170 1 г 131 82 1? 9 70 5 7 176 183 48 173 0 223 370 123 *60 1
651 3i 170 1 г 16* 10* 112 82 9* 1 7 6 3»* 70 131 *3 3 9 6 178 118 *10 2

6*9 29 1 7 0 1 2 146 loo 54 7* 6 8 181 135 81 152 0 386 210 133 *10 1
6*9 29 170 1 2 120 93 101 79 * 181 260 79 1 6 2 30 393 1*3 13* 360 2

6*8 56 155 21 2 91 72 SI 55 136 129 41 0 20 122 *05 701 162 79 2*0 1


6*8 56 155 21 2 106 61 87 *0 55 130 2 9 6 65 15* *» 67«* 189 112 2 6 5 2

66 7 22 1 6 5 21 2 ИЗ 8 * 101 65 40 16 * 27 7 51 193 510 393 195 122 3 6 5 1


667 22 165 21 2 117 é £ 117 67 38 161 3 1 2 1* 71 75 * 6 7 159 l i s 300 2

665 2<* 165 21 2 И* 8* » 7 67 27 1*8 26 0 80 1 6 2 377 *86 2 5 9 133 * 2 0 1


665 24 165 21 2 123 81 1* 9 65 5 1*9 4 ^ 6 *1 1 0 5 200 5 8 7 202 102 3 2 0 2

66* *6 163 21 2 123 72 IL 1 56 32 162 3J2 ** 116 12 *33 1* 8 101 315 1


66* *6 163 21 г 16* 101 IL* 76 *8 162 *2* 39 112 97 <»89 1?0 113 3*0 2
Продолжение табл. 1.4.2

2=Final
1=Init
685 *0 1 8 3 11 2 108 73 28 59 95 195 2 3 * 147 2 7 8 0 7 1 5 247 100 3 4 0
635 •*♦0 183 И 2 109 75 77 60 93 195 2 8 0 147 2 6 7 0 ’ 15 2*7 100 34 0

68* 77 168 11 ? 7 *♦ 53 99 42 97 183 300 95 194 15 6 6 8 178 105 2 7 0


684 77 168 11 2 107 61 97 44 79 1 84 3 2 7 97 178 58 617 176 125 3 7 0

679 50 1 7 8 11 2 166 105 140 78 26 1 95 421 22 98 318 4 8 2 151 83 2 5 0


679 50 1 7 8 И 2 99 96 122 92 38 195 378 29 Н О 3 5 0 4 9 3 151 92 271

715 76 152 23 2 116 88 12 2 70 83 144 188 144 3 4 2 23 4 9 8 171 96 2 9 0


715 76 152 23 2 109 78 84 58 6* 144 168 158 3 3 7 1 529 237 109 3 1 5

687 67 161 11 2 ю г 61 74 41 75 1 6 7 1 5 5 111 2 0 9 60 3 9 7 2 1 2 136 3 8 0


687 67 161 И 2 i<*6 83 77 58 20 167 226 137 2 1 0 95 3 9 3 212 129 3 3 0

689 37 169 11 2 97 63 96 45 56 178 6 1 7 51 11* 2 0 0 6 4 5 116 66 2 0 0


689 37 1 6 9 11 2 83 56 92 42 34 1 78 5 9 * 69 122 2 0 0 6 5 2 161 66 2 0 0

698 55 168 И 137 84 25 60 77 16 5 551 5С 9 8 450 6 2 1 336 133 4 0 0


698 55 168 И г 117 60 125 48 82 165 5 4 2 51 102 42 8 4 5 336 133 4 2 0

700 60 154 21 2 1*8 73 96 44 186 1 6 7 3* 168 327 160 5 9 0 175 98 3 0 0


700 60 154 21 2 145 75 102 3 9 151 1 67 185 134 2 6 0 850 5 90 175 102 2 9 0

70 5 H 161 21 2 132 96 86 76 87 1 4 2 2 5 4 119 2 3 7 0 6 5 6 ч67 143 4 5 0


705 ♦4 161 21 2 14 1 ю з 85 81 94 1 4 2 2 4 7 76 2 2 5 0 6 5 6 467 143 4 5 0

7 13 54 1 7 0 И 2 150 104 66 77 31 1 7 8 4 2 6 91 165 0 4 63 252 116 350


713 54 1 7 0 11 2 162 и г 65 82 19 178 3 2 8 126 2 3 2 0 4 6 3 252 116 350

716 65 1 7 0 И 2 14 1 75 55 44 152 1 59 2 9 * 191 3 4 4 3 867 2 15 77 2 5 0


7l6 65 170 11 2 130 75 81 45 79 1 5 9 7 02 115 2 3 7 52 7 8 1 2 05 91 2 2 5

721 54 1 7 8 11 2 120 89 95 72 4 1 7 2 166 133 2 2 8 3 7 5 5 9 3 158 83 265


721 54 178 и 2 146 112 97 88 18 172 2 7 0 122 2 1 6 40 0 5 5 9 261 118 345

722 57 164 21 2 1 7 1 117 92 80 3 0 2 186 443 32 81 0 49* 169 93 2 8 0


722 57 164 21 2 1 6 5 114 96 77 3 1 9 186 389 34 101 0 494 169 92 2 9 0

732 22 179 И 2 153 и о 126 88 90 1 8 5 7 58 47 93 190 7 44 162 103 з ю


732 гг 179 И г 13 8 Ю5 119 84 81 1 8 5 794 25 96 176 6 0 1 199 99 3 7 0

742 52 182 И 2 159 И 9 106 99 28 2 0 4 405 77 137 30 3 9 8 22 8 136 4 1 0


7*2 52 182 И 2 163 117 221 100 95 2 0 4 175 68 3 8 5 20 4 6 8 228 124 3 8 5

543 52 152 23 3 82 52 106 38 189 155 589 28 97 0 6 6 3 124 71 3 0 0


543 52 152 23 э 77 35 101 26 124 164 3 34 50 132 1 7 4 5 146 63 2 0 0

541 59 1 6 9 23 3 99 58 140 45 82 158 4 7 2 60 124 0 4 7 9 194 85 2 8 0


541 59 1 6 9 23 3 1 -4 7 97 115 72 11 5 158 386 60 117 23 5 0 0 2 7 5 79 2 6 0

560 70 1 7 3 13 3 80 49 82 38 67 1 8 5 2 4 9 130 2 3 2 0 460 182 112 3 3 5


560 70 173 13 3 63 40 49 32 147 1 8 5 178 170 32 5 1 550 179 122 230

573 7 9 152 23 3 68 49 175 40 143 158 12ч 59 2 9 6 0 333 154 110 3 3 0


573 79 152 23 3 65 55 98 49 142 165 108 191 39 0 3 353 164 135 4 1 0

2 А.Лфифи, С. Эйзен
Продолжение табл. 1.4.2
-м 'а
с -с X > - I

МУ Р
с

ВЭА
МАР

мст

НдЬ
РУ1
нн

ЯС1
АТ
ОР

оп
0) > о

Нс(
НИ
•й о

ЭР
сэт О = сГ
п *- с ’ш <-0 5 ? 11 Л
“• (Л

593 61 149 13 3 75 47 1 3 5 35 26 137 5 5 9 53 ю о 0 7 5 5 215 97 290 1


593 61 1*9 13 3 ■72 25 70 21 1 142 135 157 3*1 37 6 9 6 1*6 111 2 7 5 г

588 56 168 13 3 105 52 78 37 1 1* 166 4 1 8 63 122 0 4 7 9 108 7* 235 1


588 56 168 13 3 42 2* 59 17 93 166 2 0 3 94 196 0 * 7 9 108 71 2 * 5 2

596 89 171 13 3 26 15 1 0 3 1Р 18* 170 3 1 3 157 2 5 6 0 7 5 6 179 75 2 30 1


596 89 171 13 3 60 38 96 27 180 177 15 8 2 1 0 401 0 6 7 3 123 113 3 4 0 2

58* 69 168 11 3 96 72 1 0 7 61 58 18* 1 4 3 НО 237 0 2 1 0 176 152 4 8 0 1


58* 69 168 и 3 168 И * 131 84 92 189 3 6 5 58 118 109 3 9 9 198 1*4 4 0 0 2

650 56 155 23 3 106 79 98 63 61 131 2 2 5 128 2 5 3 0 8 3 5 235 76 2 3 5 1


650 56 155 23 3 65 31 106 21 6* 131 3 0 2 46 133 0 7 3 0 235 69 250 2

625 53 165 21 3 122 86 81 72 6* 178 1 3 9 208 *41 0 324 179 135 41 5 1


625 53 165 21 . 3 127 89 86 7* 106 181 10 2 26 2 7 1 88 4*4 167 1*1 3 7 5 2

613 61 163 21 3 74 45 1 16 36 35 19 2 1 7 2 5 3 129 0 3 * 9 151 100 3 0 0 1


613 61 163 21 3 168 103 81 7 2 129 192 3 4 0 42 101 2 3*9 203 102 2 5 0 2

692 26 177 13 3 150 116 91 96 60 18* 2 8 6 59 139 41 3 7 7 231 106 270 1


692 26 177 13 3 93 59 81 45 149 18* 3 5 2 30 11* 0 5 * 5 158 90 260 2

672 «0 166 11 3 63 49 1 1 0 43 57 18 0 92 261 498 57 321 236 160 4 7 0 1


672 *0 166 11 3 140 98 1 2 8 76 46 179 з з о 123 212 4* 5 6 7 159 137 2 6 5 2

719 66 151 23 3 67 5* 96 46 9* 13 3 83 85 2 0 5 1 300 119 99 300 1


719 66 151 23 3 132 89 81 65 46 13 3 131 80 191 10 4 6 5 105 98 170 г
693 18 16 6 И 3 136 Ю7 10 0 97 20 1 7 7 1 0 7 96 19? 3 8 3 2 0 7 2 34 112 3 00 1
693 18 16 6 И 3 133 89 1 2 8 65 25 1 7 7 6 6 8 32 85 42 5 9 3 168 1 0 * 310 2
695 *7 165 21 3 85 65 99 56 26 16 6 171 75 191 53 403 133 111 3 2 5 1
695 *7 165 21 3 131 95 93 76 59 1 6 6 2 3 8 21 176 300 460 133 83 2 5 5 2

734 50 17 3 И 3 129 86 1 5 4 72 75 1 8 6 3 6 6 78 133 5 483 210 123 365 1


73* 5о 173 И 3 146 97 1 4 4 7 8 111 1 8 6 3 9 9 57 117 270 483 210 123 365 2
*** 75 1* 0 23 * 62 51 97 4 3 130 1 3 0 60 150 590 5 335 208 1*7 *30 1
*44 75 1* 0 23 * 70 *8 78 3 7 110 1 3 0 1 2 0 180 510 10 * 1 5 20 8 1 0 9 3 2 0 2

340 70 160 23 * 62 38 53 2 9 100 1 8 7 90 1 90 390 0 39 4 2 * 1 131 * 0 0 1


340 70 160 23 * 129 7* 72 5 3 190 1 8 7 120 1 3 0 300 15 3 9 4 2*1 112 3 6 5 2
529 6о 165 23 4 145 99 Н О 75 220 1 9 0 156 184 393 10 3 3 5 20 0 1 2 5 * 2 5 1
529 бо 165 23 4 182 юз 106 72 210 1 9 0 2 17 1 59 370 15 3 3 5 200 125 *50 2
*26
*26
*7 176
176
11 4 80 6* 8* 55 10 1 8 0 н о 1 2 0 280 80 3 7 3 272 1 * 6 * 90 1
*7 И 4 87 68 77. 52 *0 1 8 0 * 1 0 1 0 0 170 75 5 0 8 217 99 3 2 0 2
*12 56 173 И 4 83 66 Н О 60 10 1 8 2 1 2 6 2 2 1 *07 Н О 362 2*0 166 500 1
*12 5б 173 И * Ю2 75 10 8 63 90 1 8 2 2 8 1 1 0 0 2 0 6 50 5 6 4 266 15* 330 2
518 71 16* 21 4 102 7* 11 2 65 19 1 6 9 13 3 153 313 80 321 Й 1 130 *03 1
518 71 16* 21 4 121 79 8 4 56 35 1 6 9 2 5 6 85 18* 90 3 9 8 1*1 9* 2 9 0 2
npodoAXenue ma6A. 1.4.2
j

2=Final
a v Q J
P atient

> a_

MVP
> 0

MCT

1=Imt
_> O.

BSA
<

H gb
<=L

PVI
Q) Q_

AT
Height

RCI

Hct
on
HR
SP
ZT>
ID

cn
< cn 3 O O

5 75 69 150 23 4 82 5 9 126 *8 80 155 141 12* ■290 0 333 169 120 370
5 75 69 150 23 4 63 5 2 1 35 * 7 29 151 1 55 128 252 11 333 169 103 350

;568 60 155 21 I* 151 9 2 119 74 21 1 3 3 1 72 76 2 0 8 *28


0 16* 105 325
568 60 155 21 4 152 8 8 113 6* 16 1 3 3 361 1 16 208 125 4 7 * 164 71 210

655 90 147 23 I* 1 3 7 9** 101 72 61 1 4 * 13 3 181 3 2 4 0 272 210 137 * 1 5


6 55 90 1*7 23 4 92 5 9 80 *5 33 1 4 * 131 1*3 3 0 0 20 3 9 6 210 96 3 1 0

592 ¿2 168 11 * 98 7 1 104 59 112 183 218 70 2 5 3 5 3 1 2 7 8 180 5 * 0


0
592 62 168 11 4 11 3 7-8 78 59 1*2 185 311 121 2 2 9 25 8 0 5 1*1 90 2 6 0

5 S3 63 177 11 4 1 15 9 7 78 85 181 1 8 0 115 1*8 361 0 3 9 5 2 5 4 152 * 7 0


59* 63 177 11 4 103 T2 62 56 118 180 25^ 93 191 2 3 5 6 9 9 2 1 9 1 *8 2 9 0

6 60 *7 155 23 4 10 3 8 1 78 66 1 8 0 16* 1*1 n o 374 0 262 178 122 * 3 0


6 60 47 155 23 4 62 <♦•3 88 3 3 121 165 290 36 1 *6 0 *0 1 162 1 0 6 3 1 0

6 38 38 163 21 4 1*4 82 105 63 1 7 5 1 8 3 1 69 120 2 5 8 0 * 4 0 2 29 1 37 *20


6 38 38 163 21 k 119 75 118 56 80 1 5 8 326 67 168 17 * 5 0 22 9 1 1 9 3 6 0

6 ¿6 70 16^ 13 4 85 51 76 36 1 11 1 8 0 356 79 161 0 56 9 212 119 3 6 0


6 i6 70 16* 13 4 7* <♦5 67 32 1 2* 1 8 0 2*9 92 1 8 0 0 7 2 9 212 1 1 9 3 6 0

70 58 1*5 23 4 9* 5 0 152 36 86 1 0 9 *44 77 1 39 1 780 269 119 3 20


7C 7 58 1*5 23 4 *8 2 6 59 19 95 1 0 9 205 181 328 1 8 7 0 26 9 59 1 8 5

6 59 57 177 11 4 158 1 2 * 104 108 58 1 8 6 1*1 190 403 0 3 2 5 23 8 1 7 0 5 1 0


6 59 57 177 11 4 116 8 6 119 70 70 1 8 * 303 107 192 20 * 6 5 161 1 5 5 * 4 5

6S6 60 170 1 4 131 87 9* 67 4* 1 7 5 1 *2 202 386 28 5 5 3 2 5 9 1 1 9 3 6 0


6 96 60 170 11 * 16 9 9 1 97 69 166 1 6 * 16* 232 452 22 5 5 3 2 59 1 2 6 3 1 0

7 30 50 168 13 4 52 33 85 25 60 1 7 3 216 158 358 1 7 12 219 97 310


7 30 50 168 13 4 38 26 74 20 52 1 7 3 308 1 2* •246 1 7 15 219 8* 2*0

7 58 58 175 13 4 10 2 8 2 10 3 69 1 * 6 18 1 169 170 312 4 4 4 5 2 5 8 156 * 7 0


7 58 58 175 13 4 59 «♦ 8 *18 <♦1 1 37 18 1 95 1*7 386 1 4 92 2*7 116 3 1 0

7*3 *2 169 1 4 67 5 1 217 *5 1 1 3 19 1 1 6 2 179 3* 7 3 378 256 1*6 4 * 0


7*3 *2 169 1 4 91 60 99 *5 *0 19 1 2 7 1 76 15* 110 *20 2 1 9 123 3 7 0

5 l5 61 173 1 5 128 •9 1 107 71 1 1 5 16 3 230 7* 193 1*0 7 * 7 186 79 2*0


5i5 6 1 173 1 5 13* 91 97 67 52 1 6 3 288 82 171 73 7 0 3 186 98 300

528 69 161 1 5 91 7 1 135 61 1*1 1 6 9 25* 120 2 5 8 5 4 8 9 271 1 3 0 3 9 0


528 69 161 1 5 141 9 t 69 70 79 1 6 9 29* 90 2 0 7 5 0 0 6 8 8 187 96 2 8 0

526 78 160 1 5 90 60 113 46 86 1 6 3 3 30 100 19* 21 6 5 3 168 91 2 7 0


526 78 160 1 5 1*7 91 95 63 22 1 6 3 282 107 186 88 8 2 9 168 1 00300

5*9 69 168 1 5 118 83 73 62 8* 1 7 9 258 97 166 0 *13 1*9 1 00 '300


5*9 69 168 1 5 164 1 0 9 90 7<* 17 1 7 9 428 52 10* 100 6 0 2 177 1 1 3 3 * 0

555 *3 160 1 5 101 81 145 70 2 1* 8 3*6 82 167 0 6 3 7 2 89 11* 3 7 0


555 *3 160 1 5 1 09 85 217 70 18 1 * 8 475 51 128 37 7*2 289 12* 3 0 0

2 *
Продолжение табл. 1.4.2

!=Рта1
*1пК
у

МУР

МСТ
о X»

МАР

ВБА

РУ1
ИР*

АТ

ТО !
ОР
&
вех

Не!
>

ОЛ
СЗ-Э стэ

ЭР
О*

С!
«=с о «о- X
л: с-О

658 Э 7 160 23 5 100 59 120 49 67 179 3 4 9 55 133 0 389 117 105 3 3 0 1


658 3 7 160 23 5 44 25 120 17 64 179 2 9 6 46 124 0 573 171 87 310 2

7 0г 6 1 168 13 5 116 6* 105 48 128 164 3 5 4 141 3 0 0 3 2 0 5 6 1 185 96 290 1


702 6 1 168 13 5 90 42 53 31 130 164 2 4 0 144 3 3 8 20 561 1«5 8 9 31 0 2

657 * 8 154 21 5 86 63 86» 51 76 154 2 0 7 61 143 0 4 90 107 73 210 1


657 4 8 154 21 5 126 84 80 60 46 154 3 5 2 47 ЮЗ 77 5 1 8 108 9 2 280 2

72 5 1 7 150 23 5 72 60 169 51 166 1 4 2 3 6 2 45 116 7 547 186 1 0 3 310 1


725 1 7 150 23 5 77 41 87 2 е» 122 1 <*2 401 40 110 1 473 160 8 9 270 2

699 5 5 18 7 11 5 80 62 135 50 1<>1 2 2 5 4 6 9 38 137 1 687 133 6 7 20 0 1


699 5Ь 187 11 5 162 Ц 7 94 88 140 225 *♦
28 82 169 42 5 6 0 137 1 05 2 9 5 ,2

729 ь г 155 23 5 56 30 95 22 100 167 2 5 9 97 171 1 384 124 83 265 1


7г9 62 155 23 5 67 36 101 29 152 172 2 2 5 84 173 1 337 156 79 220 2
733 5 0 163 23 5 88 52 109 42 144 14 5 1 8 3 78 197 1 504 189 110 3 3 0 1
733 5 0 163 23 5 62 23 57 16 116 146 1 5 5 110 232 1 640 183 72 2 1 5 2

?го 82 177 11 5 98 62 126 43 44 1 8 8 4 9 7 48 1Й 15 7 1 2 2 4 4 91 2 7 0 1


720 8 2 177 11 5 164 11 2 91 78. 34 188273 57 171 17 5 8 7 182 93 295 2
741 6 1 155 23 5 ЮЗ 7 5 13* 62 142 161 1 9 6 1 6 0 з о з 2 5 4 2 2 0 9 116 3 5 0 1
741 6 1 155 23 5 57 32 71 22 12 2 1 6 3 1 77 59 2 2 6 3 419 1 Ю 96 29 0 2
723 5& 161 11 5 8? 61 8? 4 8' 1 5 2 153 7 6 3 145 2 7 5 11066 28о 8 0 245 1
723 5« 161 И 5 Ю6 67 5* 5 0 155 153 £ 7 3 168 3 4 6 41066 280 102 260 2
731 78 1бо 11 5 96 65 130 50 23 171 5 3 5 74 133 1 585 242 105 315 1
731 78 160 И 5 134 95 95 69 99 173 3 4 7 102 186 1 5 5 6 185 104 3 4 0 2

530 53 173 13 6 106 83 79 69 167 208 2 0 0 8 5 174 50 3 5 5 221 122 3 80 1


530 53 173 13 6 123 8 8 129 69 83 2 0 8 5 4 2 56 128 75 461 221 8 8 2 70 2
5*5 42 157 23 6 90 66 83 56 91 149 1 2 0 4 2 116 0 3 6 2 187 143 4 3 0 1
545 *2 157 23 6 52 33 92 24 162 И 9 228 13 ■гоб 5 4 4 3 133 62 1 9 0 2
522 Эо 163 21 6 97 71 93 5 5 151 158 2 8 6 60 144 10 5 57 151 99 3 0 0 1
522 Эо 163 21 6 124 82 95 57 7 1 5 8 4 11 39 95 55 565 134 100 3 0 0 2
540 Зо 160 21 6 126 Ю 5 101 90 1 1 5 151 121 54 191 0 3 0 8 1 72 139 4 2 0 1
540 Зо 160 21 6 125 88 92 67 97 151 1 6 9 41 107 1 1 5 3 8 5 161 116 1 5 0 ?
554 28 169 21 6 88 69 59 57 90 166 ’. 8 7 9 7 2 1 1 1 о о 45 9 2 0 1 112 3 4 0 1
554 28 169 21 6 1 32 88 111 65 3 163 Ю 1 91 5 2 5 4 3 6 165
40 116 2 8 5 2
620 45 170 23 6 71 56 176 50 31 166 11 0 78 2 3 2 0 348 290 157 470 1
620 45 170 23 6 53 34 84 26 98 167 17 6 101 2 2 9 0 348 290 136 220 с
662 37 160 23 6 45 37 89 32 64 154 1 3 7 90 0 4 3 6 137 93 2 8 0
18 ^ 1
662 37 160 23 6 78 42 105 28 34 162 300 43 96 5 345 289 2
112 3 4 0
676 24 169 13 6 91 75 83 66 1 1 5 164 227 102 2 0 2 110 5 5 2 3 5 5 141 420 1
6.76 24 169 13 6 42 22 56 17 46 1б4 150 70 197 0 58 6 166 98 290 2
Продолжение табл. 1.4.2
сз
С * 1

MV P
о

BSA
1-Н

МАР

м ст

H gb
X

PVI

PH
Cü i— 0_

RCI
АТ

on
CL

HR
•Si Q аз .ЕР О О
^ ы <С ‘5 ю гз СО
г X — C\J

631 55 178 И 6 107 81 90 62 15 177 291 67 151 0 5 5 9 201 121 380 1


631 55 178 И 6 85 64 88 49 60 177 264 49 13 9 21 5 3 0 201 131 350 2

691 68 160 13 6 158 юз 104 76 69 169 2 3 7 132 2 3 3 0 319 187 1 0 4 310 1


6 91 68 160 13 6 94 60 84 44 91 1 7 2 2 30 100 184 2 415 149 1 0 4 310 2

6 46 34 168 11 6 1 10 79 1 2 2 62 112 172 29 0 65 1 3 2 0 45 0 169 111 335 1


6* 6 34 168 11 6 106 78 1 0 9 62 16 172 3 6 2 60 131 42 4 8 0 196 1 10 340 2

6 53 28 161 21 6 48 32 1 3 4 2 6 129 147 134 94 2 1 2 160 4 4 2 2 3 3 133 4 1 0 1


6 53 28 161 21 6 133 86 1 3 3 66 69 1 4 5 631 46 97 38 5 4 5 170 85 2 7 0 2

7 10 21 170 23 6 125 104 130 9 3 114 17 6 17 104 3 6 8 61 3 5 7 205 1 5 8 480 1


7 10 21 170 23 6 79 52 60 41 94 17 6 2 0 8 41 133 1 550 187 101 270 2

6 97 59 15 * 21 6 83 59 85 44 108 1 5 0 314 109 18'* 12 5 5 2 160 86 2 4 0 1


697 59 15 4 21 6 88 63 70 45 78 1 5 7 3 0 5 69 132 161 5 4 6 174 83 2 5 0 2

7 об 63 161 21 6 78 53 97 41 4 165 198 141 2 3 4 370 344 120 106 3 2 0 1


7о6 63 161 21 6 111 80 71 60 106 1 6 5 2 6 4 126 2 1 4 23 5 8 3 168 93 280 2

7*4 16 1 7 0 21 6 10 4 73 1 2 6 53 4 5 167 421 44 119 277 479 205 104 310 1


7*4 16 17 0 21 6 12* 92 10 8 74 46 1 6 7 4 34 44 98 126
566 218 10 6 320 2

535 62 150 21 7 88 50 87 35 80 1 6 6 90 86 181 22 4 3 7 8 58 67 2 0 5 1


535 62 150 21 7 105 63 95 4*» 116 1 66 195 104 2 3 9 43 43 7 8 5 8 105 2 9 5 2

53 9 66 17 0 11 7 149 94 и Г 73 89 1 94 3 5 3 89 166 3 3 3 1 8 192 143 4 3 0 1


53 9 6б 17 0 11 7 169 ИЗ 153 86 69 194. 381 78 .142 20 4 2 0 3 0 0 98 3 0 0 2

6о<? 71* 1 4 2 23 7 15 85 118 65 46 1 4 3 2 4 8 81 157 0 420 226 119 360 I


6о2 7* 142 23 7 107 69 113 52 63 1 6 5 221 75 140 12 4 7 3 269 86 310 2

617 5 0 161 2 3 7 132 89 140 75 131 1 76 121 85 3 69 0 4 0 4 433 110 330 1


617 5 о 161 23 7 69 49 112 42 124 176 127 130 314 12 4 7 5 4 3 3 121 225 2

70* 68 1 65 13 7 90 68 112 57 124 168 9 « 20 9 4 8 0 10 4 1 7 196 136 390 1


70* 68 1 65 1з 7 45 32 101 26 105 168 107 139 3 4 2 16 478 159 87 410

712 7 5 1 65 гз 7 .68 44 102 35 1“ 147 193 100 2 5 8 1 5 3 1 2 9 2 111 350 1


712 75 165 23 7 126 89 8е? 76 81 1 66 66 227 5 4 6 1 401 159 10 * 310 2

7*0 71 160 23 7 59 45 112. 40 *4 17 0 83 195 4 6 3 1 351 1 5 3 155 475 1


7*0 71 1 60 23 7 43 33 72 27 5 0 1 70 185 101 2 1 9 1 637 152 124 260 2

718 *2 1 68 21 7 153 Ю4 127 88 55 224 204 72 168 3 0 * 0 7 108 90 270 1


718 42 166 21 7 1 26 83 77 67 98 2 2 4 193 129 2 5 2 48 4 1 0 168 111 295 2

527 4 0 163 13 7 112 61 136 48 2 5 7 1 7 0 12 0 107 34 5 1 709 162 13 9 4 20 1


527 4 0 163 13 7 89 44 148 32 144 170 3 50 29 106 1 7 09 162 91 28 5 2

72 * 52 163 13 7 55 37 58 29 42 1 68 3 3 2 94 168 1 5 7 6 261 104 3 10 1


724 52 163 13 7 60 28 25 22 172 169 1 2 0 2 0 8 426 1 702 2 35 67 200 2
38 Гл. 1. Введение в анализ данных

Пример 1 .4.2. В качестве другого примера рассмотрим под­


множество набора данных; из эпидемиологического исследования
болезни сердца у служ ащ их округа Л ос-А нджелес. Д етал и коди­
рования переменных приводятся в табл. 1.4.3, а данные —
в табл. 1.4.4. Эти данные мы будем назы вать н а б о р о м д а н н ы х В .

Т абли ца 1.4.3
Описание переменных примера 1.4.2 (набор данных В)

Стол­ Обозначение ЕД.


бец Перемени: ая в табл. 1.4.4 измер. Шкала Комментарии

2—5 № истории бо­ Case Нет Наим. Пациенты нумеруют­


лезни ся последовательно
7— 8 Возраст в 1950 г. Age Год Отн. Полное число лет в
1950 г.
11Доктор, прово­ 50DR Нет Наим. Код от 1 до 4
дивший обсле­
дование в 1950 г.
12— 14 Систолическое SY ST мм Отн. Записывается бли­
давление крови рт. ст. жайшее целое
в 1950 г.
15— 17 Диастолическое DIA.ST мм Отн. Записывается бли­
давление крови рт. ст. жайшее целое
в 1950 г.
19—20 Рост в 1950 г. Height дюйм Отн. Записывается бли­
жайшее целое
21— 23 Вес в 1950 г. Weight фунт Отн. Записывается бли­
жайшее целое
24— 26 Холестерин в сы­ SER-CH мг% Отн. Записывается бли­
воротке жайшее целое
в 1950 г.
29 Социальное по­ SE Нет Поряд. 1 — высокий, ...,
ложение 5 — низкнй
32 Клиническое со CS Her Наим. 0 — другие болезни
стояние сердца (БС),
1 — коронарная БС
2 — коронарная и
гипертониче­
ская БС
3 — гипертониче­
ская БС
4 — гипертониче­
ская и ревмати­
ческая БС
5 — ревматическая
БС
6 — возможна БС
7 — гипертония без
БС
8 — нормально
1.4. Подготовка данны х для пакетов программ 39

Продолжение т абл. 1.4.3

О бозначение Ед. Комментарии


'"бец Переменная в т аб л . 1.4.4 измер. Шкала

41 Доктор, прово­ 62 Нет Наим. Код от 1 до 5 (неза­


дивший обсле­ висимо от столбца
дование И)
в 1962 г.
42— 44 Систолическое мм Отн. Записывается бли­
давление крови рт. ст. жайшее целое
в 1962 г.
45— 47 Диастолическое 01 АБТ мм Отн. Записывается бли­
давление кро­ рт. ст. жайшее целое
ви в 1962 г.

48— 50 Холестерин в сы­ БЕИ-СН мг% Отн. Записывается бли­


воротке жайшее целое
в 1962 г.
51— 53 Вес в 1962 г. \Veight фунт Отн. Записывается бли­
жайшее целое
73—-74 Стадия ишеми­ 01А С Нет Наим. 0 — неизвестно
ческой БС 1—3 — инфаркт
миокарда
4—7 — стенокардия
8—9 — другое
76—77 Год смерти (до С>ТН Нет Интерв. 0 — жив, в против­
1968 г.) ном случае —
год смерти

После завершения распределения столбцов и кодирования


данные готовы для нанесения на перфокарты. Следующей после
перфорации проблемой является передача данных с перфокарт
в память ЭВМ. Это достигается с помощью о п ер а т о р а ф о р м а т а ,
указывающего процессору: а) какие столбцы пропускать, Ь) ка­
кие столбцы считывать как одну переменную, с) где находится
десятичная точка, если она используется, и (1) число карт для
каждого индивидуума.
Так как большинство ПСП написаны на Фортране, мы обсудим
только операторы формата на Фортране. Общей формой такого
оператора (формата является
С т олбец 7
Р0ЯМ АТ (Л, В, С,...),
где Л, В , С , . . . могут быть одной из следующих инструкций:
1. п Х есть инструкция пропустить (не читать) п столбцов.
Например, 6 Х означает пропуск 6 столбцов, X —• одного столбца
и т. д.
2 . / есть инструкция о переходе к следующей карте, // есть
инструкция о пропуске одной карты и переходе к следующей
за ней карте и т. д.
Таблица 1.4.4
Д анны е из примера 1.4.2 (набор данных В)

ь(/>
~ I X
Ь— 01 0
со < со 1 ста
>- (Г
ш > СЕ
С5
О (Л со ы 5
со (Л

1 42 1 НО 65 64 147 291 2 8 4 120 78 271 1^6 2 68


2 53 1 1 30 7? 69 167 278 1 6 2 122 68 250 165 9 67
3 53 2 120 90 70 222 342 4 8 1 132 90 304 223 г 64
4 48 4 120 80 72 229 239 4 8 2 118 68 209 227 3 66
5 53 3 118 74 66 1 34 2^3 3 8 5 118 56 261 138 2 66
6 58 2 122 72 69 135 210 3 8 4 130 72 245 136 2 64
7 48 4 130 90 67 165 219 3 8 4 138 86 275 166 2 63
8 60 1 124 80 74 235 203 3 8 1 160 90 271 226 3 65
9 59 4 160 100 72 206 269 5 8 3 150 100 291 198 3 67
10 *0 3 120 80 69 148 185 3 8 3 НО 64 241 152 2 66
И 56 3 115 80 64 147 260 3 8 4 140 80 326 152 2 68
12 58 3 140 90 63 121 312 5 8 1 120 75 234 114 2 63
13 64 2 135 85 64 1 89 185 1 8 4 140 78 153 168 3 66
14 57 2 но 78 70 173 282 3 8 2 144 74 236 171 2 66
15 32 1 112 70 69 171 25* 2 8 и 142 96 249 179 3 64 .
16 59 1 140 90 65 150 303 2 8 1 205 85 302 153 г 65
17 *48 1 130 80 64 147 271 4 8 3 165 85 251 163 3 6*
18 *47 2 115 - 84 67 211 304 1 8 1 155 80 278 149 9 68
19 47 2 130 80 67 147 334 1 8 3 138 85 303 147 а 0
20 28 1 120 86 70 189 328 3 8 2 128 88 300 19* 6 0
21 37 3 95 55 69 190 226 3 8 3 155 105 311 191 2 0
22 54 1 141 100 65 171 363 3 7 2 180 100 276 15* 2 65
23 38 1 130 90 67 170 399 2 8 2 132 86 353 167 2 0
24 52 2 125 90 65 141 199 2 8 2 152 100 23* 135 6 0
25 46 1 НС 70 67 159 271 3 8 3 152 88 299 16* 6 65
26 51 4 120 80 70 139 261 3 8 1 130 95 285 173 6 0
27 *9 1 120 80 68 194 263 3 8 1 178 76 230 196 9 0
28 46 4 110 70 66 160 242 3 8 3 130 90 25* 175 6 0
29 26 1 110 80 70 206 260 3 8 3 130 76 325 231 2 0
30 35 2 120 80 72 191 321 3 8 1 130 80 33* 169 6 0
31 <♦5 2 108 80 70 155 258 5 8 4 138 88 259 182 2 0
32 57 1 130 80 69 184 167 3 8 3 155 90 237 173 2 0
33 24 3 104 75 70 157 185 5 8 2 120 80 236 166 7 0
34 64 1 144 95 66 191 24* 1 8 2 198 110 227 1 87 7 0
35 34 3 142 102 71 176 314 1 7 1 145 100 233 176 9 0
36 30 3 110 80 71 198 23* 2 8 1 100 65 227 187 2 0
37 52 4 145 90 66 183 289 3 7 3 150 88 299 143 6 0
38 56 2 125 75 65 122 329 5 8 1 140 80 253 130 г 66
39 44 1 125 90 65 156 *39 1 8 1 130 80 3*2 152 2 0
40 45 3 130 90 73 143 243 * 8 4 158 78 2*9 146 6 0
41 29 2 140 95 64 148 419 5 7 1 130 85 25* 139 5 0
42 42 2 1 08 80 67 145 285 2 8 1 115 70 249 14б 6 0
43 46 3 134 90 73 198 271 3 8 1 125 80 219 205 * 0
44 45 4 150 1-04 71 187 278 1 7 1 210 110 368 189 2 0
45 51 3 120 90 66 163 226 3 8 1 130 80 271 167 1 0
46 44 2 120 90 72 211 1 88 3 8 2• 138 88 240 196 2 68
47 32 2 108 78 66 151 235 4 8 2 120 70 226 • 155 6 0
48 34 2 130 90 61 120 317 2 5 2 122 68 248 и з 6 0
49 30 2 120 84 68 170 258 3 8 1 165 110 359 181 4 0
50 40 1 112 80 69 167 334 3 8 г 100 70 306 15* 6 0
Продолжение табл. 1.4.4

х X
о о
со со
>- се >-
со ш со
со

51 3« 3 124 88 66 195 345 3 8 1 130 85 309 183 4 •о

52 43 3 118 72 71 149 224 3 8 2 120 70 209 147 2 0


53 39 2 164 110 66 245 220 4 7 1 145 95 258 194 2 0
5* 45 2 110 80 69 170 347 3 8 3 150 90 296 186 2 0
55 41 2 115 80 68 145 339 5 8 1 160 8С 254 149 1 0
56 57 1 130 90 68 188 353 3 8 1 160 80 230 172 7 0
57 53 3 НО 80 67 150 235 3 8 4 120 76 221 170 9 0
58 55 2 125 90 65 163 235 2 8 2 170 94 255 139 6 0

59 57 2 210 110 67 165 220 1 4 2 150 94 178 174 6 0

60 38 3 115 90 70 187 385 3 8 2 142 108 334 202 9 0


61 45 4 110 80 67 209 240 3 8 2 156 1 08 251 205 1 0
62 33 1 130 90 68 200 1 88 3 8 4 125 70 210 191 7 0

6Э 61 2 160 100 68 160 241 2 7 3 170 110 235 163 6 0


64' 36 3 100 75 72 164 24 3 8 4 125 72 271 175 2 0
ь ъ 37 3 130 88 67 178 295 4 8 3 170 90 367 194 1 0
66 51 3 125 85 73 198 283 4 8 4 175 85 309 211 9 0
67 46 1 110 80 69 178 277 3 8 4 150 88 311 186 2 0
68 51 3 138 100 72 20 8 296 3 7 1 135 95 286 199 8 0

69 ьо 3 130 8* 69 122 243 2 8 4 166 102 291 113 0 65


70 57 2 110 80 71 224 158 1 8 3 135 80 20? 224 0 68
71 63 4 130 80 67 143 243 3 8 2 166 90 273 121 0 64
72 63 3 115 65 69 196 278 2 8 1 150 65 248 192 0 66
73 68 3 120 80 63 109 215 1 8 2 136 76 251 108 0 68
74 57 3 145 85 66 140 308 1 8 3 150 80 2*7 134 0 63
75 64 1 150 90 70 147 226 2 8 4 140 85 192 145 0 63
76 63 2 115 75 67 180 303 3 8 2 122 80 289 126 0 65
77 62 1 120 80 68 174 535 2 8 5 146 76 268 156 0 66
78 55 1 140 82 69 145 199 3 8 2 176 106 218 155 0 65
79 50 3 150 90 71 170 326 1 7 1 195 98 204 178 0 64
Й0 39 1 I I 1* 72 65 156 18.7 5 8 3 168 110 199 170 0 66
81 50 3 150 115 71 220 283 3 7 1 164 120 275 239 0 67
82 42 3 105 78 67 166 195 3 8 2 112 80 218 168 0 67
83 53 4 100 80 71 199 209 2 8 1 НО 65 220 185 0 63
84 56 1 150 90 72 233 284 1 8 5 134 7<* 170 225 0 68
85 62 4 166 90 66 130 258 3 7 3 150 70 185 126 0 64
86 61 3 138 80 63 158 285 3 8 1 120 70 225 113 0 64
87 57 2 110 6 8 71 166 300 3 8 1 105 60 262 143 0 68
88 43 1 120 85 70 134 220 3 8 4 140 85 354 141 0 63
89 65 1 170 1 0 5 67 183 214 5 3 4 190 100 148 161 0 65
90 49 2 120 90 69 139 273 3 8 3 160 104 308 163 0 64
91 47 1 110 70 70 1 30 203 8 1 125 75 198 127 0 66
92 59 1 110 8 О 70 167 220 3 8 1 125 75 275 152 0 67
93 53 4 120 90 62 166 253 3 8 4 134 78 316 168 0 67
94 43 1 120 8 О 72 171 198 3 8 3 152 86 190 178 0 65
95 52 3 140 8 6 67 128 300 1 8 1 185 95 260 144 0 64
96 Ь5 4 125 85 67 164 228 5 8 1 130 70 240 152 0 64
97 50 4 110 70 67 162 239 3 8 3 70 70 233 155 0 68
98 33 4 106 30 67 151 191 2 8 4 128 70 207 142 0 66
99 49 4 120 80 63 142 283 3 8 5 116 88 311 160 0 67
100 62 2 100 65 69 141 224 3 8 2 170 78 242 125 0 65
Продолжение табл. 1.4.4

1со
— -С X — 0I
1сл +->
ф ф СП
О 1(Л- -с О . сг 1сл
— _с
1л сто ш со о 1 0"5 о
ш (У) С_) С

ЭЕ Я
о < ою >
‘5 сс Ч1 >- У-*
О со о и: 1 со СО со 3 1 о

101 45 4 130 90 70 200 220 3 8 2 130 90 203 168 0 67


102 53 3 125 88 67 167 226 3 8 3 160 100 212 165 0 67
103 30 2 160 85 71 155 187 3 8 1 130 95 184 156 0 63
104 25 1 110 80 74 190 235 3 8 2 116 90 280 210 0 63
105 26 3 118* 80 65 120 328 2 8 3 132 9(5 354 137 0 63
106 69 1 - 160 90 67 185 314 4 8 3 170 85 191 159 0 66
107 60 2 НО 80 68 170 356 16 5 192 74 250 150 0 0
108 45 3 130 100 72 168 252 5 3 1 150 100 23* 176 0 0
109 55 1 110 80 75 198 358 3 8 3 110 80 2.6* 177 0 0
110 63 3 190 100 66 187 207 5 3 2 1 *8 70 210 188 0 0
111 52 1 170 100 65 16* 218 5 7 1 1 10 70 261 130 0 ■ 0
112 53 1 200 1*0 67 197 210 3 3 1 215 100 139 164 0 64
113 55 3 118 82 69 124 265 3 8 5 132 90 284 124 0 66
114 48 3 120 85 68 161 267 2 8 1 110 75 258 162 0 0
115 50 3 105 70 65 161 325 4 8 3 125 75 186 114 0 0
116 44 1 130 80 69 202 246 38 1 130 60 176 165 с 64
117 49 4 120 80 69 189 295 3 8 1 140 75 305 203 0 0
118 61 1 150 90 69 142 247 3 6 2 150 90 218 174 0 67
119 42 4 120 85 67 192 25о 5 8 1 162 98 268 207 0 0
120 47 1 НО 80 71 228 250 5 8 г 128 88 249 207 0 0
121 40 2 100 70 68 169 260 2 6 1 112 70 269 151 0 0
122 33 3 125 88 67 149 220 3 8 1 135 80 225 166 0 0
123 29 3 130. 90 70 173 280 3 8 1 145 90 308 180 0 0
124 43 3 120 80 71 16* 260 3 8 1 125 85 271 176 0 0
125 51 4 130 90 69 193 290 2 8 3 120 80 25* 178 0 0
126 57 3 160 90 63 144 280 Ч 7 3 170 80 321 152 0 0
127 30 3 115 86 70 172 210 г 8 1 108 80 201 187 0 0
128 44 2 120 90 67 178 260 г 8 3 130 96 2*2 173 0 0
129 44 2 120 90 72 196 240 3 8 * 150 8* 240 193 0 0
130 38 2 106 80 67 181 210 5 8 3 НО 80 208 179 0 0
131 35 1 90 68 189 320 3 8 4 138 88 338 201 0 0
132 34 3 126 85 64 165 зю г 8 1 130 90 296 167 0 0
133 30 1 10* 70 69 161 300 3 8 1 135 85 290 178 0 0
134 51 3 140 92 69 1 70 ЗЮ 1 8 3 172 100 282 163 0 0
135 51 4 120 80 70 200 260 2 8 2 и * 80 283 169 0 0
136 57 3 108 76 66 1 61 200 2 8 3 1С6 75 150 161 0 0
137 46 2 115 90 69 1 89 300 3 8 2 НО 60 169 150 0 0
138 50 2 132 88 69 220 220 3 8 3 182 100 20* 246 0 0
139 25 4 120 84 72 1 80 220 3 8 3 130 75 222 179 0 0
140 55 2 120 92 65 1 54 310 г 8 2 126 72 265 138 0 0
1*1 47 2 130 75 67 1 *5 260 3 8 4 138 76 289 163 0 0
142 49 1 1 30 80 64 1 62 230 5 8 1 195 105 220 19* 0 0
143 47 3 1 30 95 6* 1 63 28о 4 8 1 130 70 190 152 0. 0
144 34 3 105 65 65 1 37 220 5 8 2 118 82 306 152 0 0
145 47 2 1 20 80 68 152 220 3 8 1 145 76 270 160 0 0
146 46 1 1 20 80 68 152 270 2 8 3 150 100 326 166 0 0
147 45 2 1 2082 71 171 24о 1 8 * НО 84 238 169 0 0
148 37 1 1 50
105 69 г05 220 3 7 3 180 11 0 21 * 187 0 0
149 36 3 120 90 67 188 220 5 8 4 125 82 189 182 0 0
150 42 1 1 10 70 71 162 190 3 8 'з 155 90 17* 187 0 0
т абл. 1.4.4 НЮ
о о о о о о о о о о о о о о о о о о о о о о о о о о о о о о о о ООООООООООООО 0-0000

9 VIQ
оооооооооооооооооооооооооооосооо о о о о о о о о о о о о о о о о о о

LT/000000^CTi^-‘ O f Y' 00 O ,v' f T) O r0 ^ О «J ч/ ''i u' i ' i ' л «— r^fuoorv On(MT'nNrf (VJWnoCN(\l
}Ч6!ЭМ оО СГ> (Г\ Ю (Г> ГП -Д -Г со -í- X)1
Л O N CUOOIO 4- 00 --- - ~ f\i mA
Í с о ш ю о м п о о о о оJ ru
ОО nj О
СМ—
rui'
Продолжение

(O^C'mmj--om(rff'<of,im >oío\üí«)í(j'a'oooir>oof,)ooom'í)fn in'O-í-ChOÍUin'OfVJir)^-* -t (Г>en ao O*-*


H 3 -d 3 S orvjrvicvjrvjajrvjrvjrom
o o (\j í í o n ai hrvjívjovjívjcvicvjrvjívjrv
ю ai in *-.<\i.-*aooojin-r гототг^оо'ооюоогч rvicrvrvjmo—•--•r^Ln^DfVlinOjr^CTNr^'Oin
jív jrv jrv iro ru ru rv jru ^ajro ru m o j cvj^rufvjpororocvjfvjrvjívicvjojcvj^cvj^cvj

ís v ia

130
148
120
I Щ o - t O O O O O O LO O O 0 1 Л » 0 Сl 00 О О О Ю O O 00 o a i t
IS A S ■ninfuf^-r^sooj—
ioo(Vjojoo-4-cr.rufvj^*f,r)»-'ajoo-í- oo^in—
•( «ru •
da гэ mj ^ H(\jn n hí и mmrooj n

1
2
3
и ( м ^ ro a i n r u - ' . H - í n f v ) ^ ^ oj ^ ai

SO oOOOliOoOcOOOoOOOoOoOoOtOOOnonaONoOoOOOCGCOOOOOOOUOOOOOOO оооосооооооооооопоооомоооосооосооо

o
6
8
3S (\1 и П П 1ЛС1 ^ ^ П Л П '» 'Л 'т1 ' , т 'т1 ПП ímcimr'inwi’iLnnj ^■^■naicvjrnrnmroaj(vjc\j'-rr'<v)")ojro

3
5
*
оОоСГ|С
o ol ( oM not VoJ o- ' "o- < ol / lof y oí ' oVÜor\j o- I oO o•-<o-fl О о оТ''Л
оГо01оЛГП
о о^-0
о ОО О«-« О(Vi OJo cr>
o o o o o o o o o o o o o o
>ruО0Оm0 Оm0 f\Jlf

13o
210
гбо
H 0 -d 3 S
(viai^cuojaiairofuru^rvjfvimrvjcvj a.'f’o^orurvjajrvjrvjrvjm mmrvj rvi — •(Л
rvj OJlOsOOCVl OÍVJlD Ю00 o w
(\.'r\j(vjPi(\jm(\jH aj — m

-i n ín o f f í m o - í О с im iO fO -

138
150
157
}Ч6!ЭМ • Ш o - t o> -r m oo in vo ~r oo oci o * -i -» r - —o <
< (VI (VI (

^ч6|эн

70
66
66
ísv ia

84
8o
7o
J.5A5

13o
100
lio
da os roruro^mrvjromro - icnronoj-a-nm-í-ro^Hn-í-rvjainrvjnro-í- rvjojrvjívjojromcu -í-ro.

1
3
3
эбу

46
36
2o
198
199
200
0SDJ
44 Гл. 1. Введение в анализ данных

3. 1до есть инструкция считывать целочисленную переменную ,


п редставлен н ую в до столбцах. Н априм ер, 16 озн ачает считывание
целочисленной переменной из 6 столбцов. Целочисленные пере­
м енны е назы ваю тся так ж е переменными с ф и к с и р о в а н н о й т о ч к о й ,
о н и не м огут содерж ать дробной части.
4 . п 1до есть инструкция считывать п целочисленных перемен­
н ы х по до столбцов каж д ая. Пусть, например, мы имеемг следующие
д ан ны е:
С т олбец 12 3 4 5 6
82 1364
Т о гд а
a) 16 означает считывание числа 821364;
b ) 312 означает считывание чисел 82, 13, 64;
c) 213 означает считывание чисел 821 и 364;
с!) 212, 211 означает считывание чисел 82, 13, 6 и 4.
5. ¥ т Л есть и нструкция считывать десятичную переменную,
состоящ ую из до столбцов с с! с до столбцами после десятичной
то ч ки . Т огда в предыдущем примере
a) Р 6.3 означает считывание 821.364;
b ) Р 6.5 означает считывание 8.21364;
c) Р 6 .0 озн ачает считывание 821364.
Д еся ти ч н ы е переменные называю тся переменными с п л а в а ­
ю щ е й т о ч к о й . Д есятичны е точки перфорировать не обязательно.
Есл:и д есятичн ая точка перфорируется, то с? в этой инструкции
и гн о р и р у ет с я .
6 . n F w . i l есть инструкц ия прочитать п десятичных переменных
по к и столбцов каж дая с & < ни столбцами после десятичной точки.
Д л я рассм атриваем ого примера
a ) 2Р3.1 означает считывание 82.1 и 36.4;
b ) ЗР 2.0 означает считывание 82., 13. и 64.;
c ) Р 2.1, 2 Р 2 .2 означает считывание 8.2, 0.13 и 0.64.
7 . Едо.с? есть инструкция считывать переменную с плавающей
то ч ко й с й < до знакам и после десягичной точки и порядком в виде
Е ± 2, где г есть одно- или двузначное целое число. Н апример,
102.36 м ож ет быть записано к ак 0.10236 X 10 3 и закодировано
к а к 0 .10236Е + 03, где Е + 03 означает 10я. Форматом в этом
с л у ч а е я в л я е т ся Е11.5, так к а к здесь имеется пять разрядов после
д есятичн ой точки, а всего 11 столбцов, вклю чая старш ий нуль,
д есяти ч н у ю точку и порядок. Этот формат допускает й зн ачащ и х
ц и ф р независимо от величины числа. Чтобы охваты вать и отри ц а­
тел ь н ы е числа, этот формат долж ен иметь вид Е12.5.
8 . Тс есть инструкция начинать считывание в столбце с . Так,
Т 23 означает, что следую щ ая переменная начинается в столбце 23.
9 . иАдо есть инструкция о считывании п групп по до алфавитно-
ц и ф р о вы х символов (без служ ебны х), причем 1 < до с где к —
1.5. Критерии оценки пакетов статистических программ

максим альная д л и н а с л о в а ЭВМ. Е сли, например, мы имеем д ан ­


ные
С т олбец 1 2 3 4 5 6 7 8 9 10
MALEFEMALE

то
a) A4, А 6 озн ачает сч и ты в ан и е M A LE,FEM A LE;
b) 2A3.A4 озн ачает сч и ты в ан и е M A L ,EFE,M A L E.

Пример 1.4.1 (п р о д о л ж ение ). Ф ормат

F 0 R M A T (14, 2 F 4 .0 ,13, И , 14, 4 F 4 .0 ,F 4 .1 ,2 F 4 .2 ,2 F 4 .1 ,F 4 .0 ,4 F 4 .1 ,T 8 0 ,I 1 ,/)

означает считывание т о л ь к о первой карты и пропуск второй карты


для каж дого пациента. Н ап р и м ер , данны е для первого пациента
(из табл. 1.4.2) бу дут сч и тан ы следующим образом: 517, 68., 165.,
I, 1, 2, 114., 88 ., 95., 73., 1.7, 1 .4 1 ,0 .6 6 , 1 1 .5 ,2 2 .5 ,1 1 0 ,5 6 .2 ,2 0 .6 ,
II.3 , 34.0 и 1.Э тот ф о р м ат определяет переменные с ф иксирован­
ной точкой (номер и стори и болезни, пол, исход, тип ш ока и вид
карты ), а остальные я в л я ю т с я переменными с плавающей точкой.
Заметим, что число к о л о н о к , выделенных для некоторых пере­
менных, избыточно. Н а п р и м ер , в озраст и вес размещены в 4 столб­
цах каждый, в то в р е м я к а к нуж но не более 3. Поэтому можно
использовать (..., 1 X ,F 3 .0 ,1 X ,F 3 .0 , ...) вместо (..., 2F 4.0, ...).
Этот формат можно за п и с а т ь к а к (..., 2 ( I X, F3.0), ...), что служ и т
примером применения в л о ж е н н ы х скобок.
Следующий формат сч и ты в ает все эти переменные к ак пере­
менные с плавающей то ч к о й :

F0RM A7 (3F4.0, F3.0.F1.0,5F4.0, F4.1,2F4.2,2F4.1, F4.0,4F4.1, Т80, F 1,0Д

Здесь все числа счи ты ваю тся с десятичной точкой, например,


517., 68., ..., 1. д л я п е р в о г о пациента. Чтобы считать вторую
карту и пропустить п ер в у ю , формат долж ен быть такого вида:
F 0R M A T (/, 1 4 ,..., Т 8 0 , II).

1.5. К р и т е р и и о ц е н к и
п акетов с т а т и с т и ч е с к и х програм м

Б настоящем р азд ел е м ы приводим некоторые соображ ения отно­


сительно ПСП и к р и т е р и и д л я их оценки. Это резюме основано
на докладе К ом итета п о оценке ПСП, представленного еж егодном у
46 Гл. 1. Введение в анализ данных

собранию А мериканской Сгатистической Ассоциации в 1974 г.


(F ra n c is e t a l . , 1974). В аж на каж д ая из описанны х ниж е хар ак те­
р и с т и к , но ни одна и з программ не явл яется оптимальной с точки
з р е н и я всех характери сти к. Б олее того, программа, оптим альная
в од н ой проблеме, может не быть оптимальной в другой. Поэтому
п о л ь зо в ате л ь долж ен оценить каж дую программу с позиций
своих проблем, а затем произвести выбор в соответствии с этими
к р и тер и ям и . Требования к пакетам можно разделить на три
гр у п п ы : п о н я т н о с т ь д л я п о л ь з о в а т е л я , с т а т и с т и ч е с к а я э ф ф е к ­
т ивност ь и удобст во эксплуат ации.

1.5.1. Понятность для пользователя


К лю чевую роль при оценке пакета играет сопровож даю щ ая его
д о к у м ен тац и я. Ясное, короткое и хорош о организованное сп р а­
вочное руководство с алфавитным указателем (и по возмож ности
с у к а за н и я м и для начинаю щ их) долж но точно описывать все
возм ож н ости пакета. Руководство долж но не только описывать
все си н такси ч ески е правила, но и указы вать на наиболее в ероят­
ные ош и б ки потенциального пользователя. Процедуры долж ны
быть о п и сан ы в общепринятых терминах, со ссылками на л и тера­
ту р у , и сп ользуем ы е численные методы, с указанием стандартны х
(по ум олчан ию ) значений парам етров. Кроме того, долж ны быть
приведен ы простые и более сложны е примеры.
Д р у г и м важ ны м фактором яв л яе тся такой язы к уп равл ен и я
зад ан и я м и , в котором процедуры и режимы работы мож но зад ать
в тер м и н ах , описывающих их функции. П оясняю щ ие метки
ну ж н ы для упрощ ения ввода, разм етки вывода и проверки уп ра­
в л яю щ и х операторов.
Дополнительными: ж елательны ми свойствами являю тся:
a. У к а з а н и я о том, к ак поступать с о т с у т с т в у ю щ и м и з н а ­
чениям и.
b. П о л н ы й , компактный и неизбыточный в ы в о д со средствами
п о д авл ен и я части вывода и запроса дополнительного.
c. Г р а ф и ч е с к и й вывод в виде гистограмм, вероятностны х гр а­
фиков, граф иков остатков и г. д.
d. Н а д п и с и на граф иках и возмож носгь использовать разл и ч ­
ные ш к а л ы (это обязательно).
e. А л го р и тм для определения с т о и м о с т и и в р е м е н и вы полне­
ния з а д а н и я .
f. Я з ы к уп р авл ен и я заданиям и со словарным запасом из той
предм ет ной област и, на которую он ориентирован. Н априм ер,
сп р ав о ч н о е руководство по BM DP больш е подходит д л я стати­
стиков, а по SPSS ■ — д л я специалистов по общественным н ау ­
кам .
1.6. Д руги е прим енения ЭВМ 47

1 .5 .2 , С тати сти ческая э ф ф е к т и в н о с т ь

П акет долж ен быть у н и в е р с а л ь н ы м , т. е. допускать д и н а м и ч н ы й


и н е п р е р ы в н ы й , процесс о б р а б о т к и . Д л я этого требуется удобная
система файлов д л я п о д го то в ки д а н н ы х , позволяю щ ая выходу
каж дой процедуры с л у ж и т ь в к а ч е ств е входа последующих про­
цедур. Н априм ер, о с т а т к и из п р ограм м ы регрессионного ан ал и за
долж ны подходить в к а ч е с т в е в х о д н ы х данны х для программы
построения граф и ков о с т а т к о в .
П акет долж ен о сн о в ы в ать ся н а правильны х и подходящ их
ф орм улах, н а у сто й ч и вы х в вы ч и сл и тел ьн ом смысле и правильно
запрограм м ированны х ал го р и тм ах д л я вычислений по этим фор­
м улам , а такж е на к р и т е р и я х к о н т р о л я точности используемых
данны х и процедур. Н а п р и м е р , п р о и зв ед ен и е исходной матрицы
и обратной ей сл у ж и т х о р о ш и м к о н тр о л е м точности обращ ения.

1.5.3. Удобство эксплуатации


Д л я удобства э к с п л у а т а ц и и н а В Ц необходимо иметь л и с т и н г
п р о г р а м м н а и с х о д н о м я з ы к е к а к п ер в и ч н у ю документацию пакета.
П акет долж ен обладать сп особ н остью расш ирения за счет вклю ­
чения других программ в си стем у и д опускать легкий п е р е н о с
с одной ЭВМ на другую . Н акон ец , я зы к , на котором написан па­
кет, оказы вает влияни е н а за л о ж е н н ы е в нем возможности. Д л я
научных целей п о д х о д ящ и м я з ы к о м часто оказы вается Ф ортран.

* 1. 6 . Д р у г и е п р и м е н е н и я Э В М к ак средства
статистического ан ал и за

И меется много д р у ги х с п о с о б о в и с п о л ь зо в а н и я ЭВМ в статисти ­


ческом ан али зе. Одним из сп особов яв л я е тся случайны й выбор
множества объектов из б о л е е ш и р о к о г о множ ества. Эта п роцедура
содерж ит случайны й в ы б о р числа z из равном ерного U (0,1) р а с ­
пределения. П р о гр ам м ы , в ы п о л н я ю щ и е эту операцию , назы ваю тся
г е н е р а т о р а м и п с е в д о с л у ч а й н ы х ч и с е л и обычно содерж атся в б и б л и ­
от еке п р о гр а м м В Ц . П р о б л е м а п о л у ч е н и я псевдослучайны х ч и ­
сел, б ли зких по своим с в о й с тв а м к случайны м , исследовалась
многими учеными (н а п р и м е р , L e w is e t a l . , (1969); C hen (1971);
A tk in so n , P earce (1976)).
Генерация с л у ч а й н ы х чисел необходима для вы полнения
с т а т и с т и ч е с к о г о м о д е л и р о в а н и я . Н а п р и м е р , часто бывает трудно
аналитически вы вести в ы б о р о ч н о е р асп ред елен и е некоторой сл о ж ­
ной статистики. Тогда с т а т и с т и к м ож ет прибегнуть к м оделиро­
48 Гл. 1. Введение в анализ данных

в а н и ю , производя цовторно случайны е выборки из соответству­


ю щ е г о теоретического распределения, а затем вы числяя зн ачен ие
ст а т и с т и к и кр и тери я для каж дой выборки с тем, чтобы получить
и ссл ед у ем о е выборочное распределение. Затем это распределение
и его хар актери сти ки можно рассм атривать вместо х арактери сти к
н еи зв е стн о го выборочного распределения. Эта процедура известна
к а к м е т о д М о н т е - К а р л о (H am m ersley, H andskom b (1964)), со о т­
в етств у ю щ и е примеры приводят Azen, D err (1968) и K atz e t a l .
(1978) !).
Е с л и теоретическое распределение с известной функцией р ас­
п р е д е л е н и я z = F ( х ) имеет обратную функцию х = F 1 (г), к о то ­
рую м о ж н о п редстави ть в явном виде, то из этого распределени я
л е г к о получить случайную выборку объема п . Д л я этого выберем
с н а ч а л а случ ай н ы е числа z l t . . . , z n из распределения £ / ( 0 , 1).
Т о г д а известно, что зн ачен ия х и ..., х п , где х ; = F 1 (г,), п ред ста­
в л я ю т собой случайную вы борку из распределения с Ф Р F ( х ) .
С у щ еству ю т методы и для п олучен и я выборок из распределений,
д л я к о т о р ы х Z7-1 не вы раж ается в явном виде (H astings (1955)).
B o x , /M ueller (1958) приводят методы получения случайны х чисел
из р а с п р е д е л е н и я N (0,1).
Д р у г о й способ получения случайны х вы борок из заданного
р а с п р е д е л е н и я состоит в использовании связи меж ду заданным
и т е м и распределени ям и, д л я которых имеются случайны е ген е­
р а т о р ы . Н ап р и м ер , чтобы получить случайную вы борку объема п
из р а с п р е д е л е н и я %2 (л>), мож но получить п независимы х вы борок
по v с л у ч а й н о выбранны х значений из распределения /V (0,1). Е сли
V

о б о зн а ч и т ь г'-ю вы борку через ип, щ , a xL = 2


a= i
ti\k, i =

= 1, . n , TO x l t ..., x n и будут искомой выборкой.


Ч т о б ы п о луч и ть случайную вы борку объема п из р асп р ед ел е­
н и я t (v), достаточно вы брать величины ых, . .. , и п случайно из
N ( 0 ,1 ) , а х ъ ..., х п — случайно из £2 (v). Тогда t u ..., t n , где

ti = u jv r,-/v,
и б у д е т иском ой выборкой.
Ч т о б ы п о луч и ть случайную выборку объема п из р асп р ед ел е­
н и я F (vb v2), выберем и ъ ..., и п случайно из х2 ( v j , a v i t vn —
с л у ч а й н о и з х 2 (v2). Тогда w x, . . . , wn, где

и б у д е т иском ой выборкой.

-1) В настоящее время происходит быстрое развитие этих методов исследо­


вания, являю щ ихся частными случаями имитационного моделирования. Подроб­
нее см. Б усленко и др. (1962)*, Соболь (1968)*, Кляйнен (1978)*. — П р и м . ред.
1 .6. Другие применения ЭВМ 49

Д ругим важ ны м применением ЭВМ является вычисление про-


центилей тео р ети ч еского распределения. Если плотность f ( х )
и звестна, а ф у н к ц и я распределения F ( х ) не вы раж ается в явном
виде, то для н а х о ж д е н и я процентилей можно использовать п р о ­
грамм у численного и н тегри рован и я, обычно имеющуюся в б и б л и ­
отеке программ. Е с л и f ( х ) нельзя представить в явном виде, то
процентной можно п олучи ть с помощью метода М онте-К арло.
Д л я этого н уж но с л у ч а й н о выбрать много значений х из р ас п р е­
деления с ф у н кц и ей плотности f (х), а затем оценить q -ю процен-
ти л ь с помощью з н а ч е н и я x qy левее которого располож ены q %
выборочных зн ач ен и й .
Н аконец, д р у ги м важ н ы м применением ЭВМ является вы ч и сл е­
ние оценок м а к си м ал ь н о го правдоподобия. Один такой метод
обсуж дается R ao (1 9 6 5 ). Обзор многих численных методов п р и ­
во дят R alston, W ilf (1960).

Пример 1 .6 .1 . П р и в е д е м теперь пример и спользования ЭВМ


д ля моделирования распределени я случайной величины из B erg­
m an, A zen (1974). В этом прим ере требовалось установить, мож но
ли объяснить к о л е б а н и я , наблюдаемые при последовательном
определении ч и сто го б а л а н с а глю козы в изолированной перфу-
зируемой печени с о б а к и , только ошибками измерений. О ц ен и ва­
л ась дисперсия о ш и б о к нелинейной функции
N H G B = / :н у С н у -)- F pvCHA ^pvCpv — F hv^ha-
Здесь N H G B (Net H e p a tic G lucose B alance) — чистый б ал ан с
глю козы , FHv — п о л н ы й венозный кровоток печенщ F Pv — к р о в о ­
ток н а входе в п о р т а л ь н у ю вену, CHV,CHA и CpV — концентрация
глю козы б крови в одном выходящ ем и двух входящ их потоках.
П отоки изм еряю тся в м л/м ин, а концентрации — в м г/м л. Д л я
оценки дисперсии и сп о л ьзо в ал и сь три метода: эксп ери м ен таль­
ный, ан али ти чески й и М онте-К арло.
М оделирование н а ЭВМ проводилось следующим образом.
П редполагалось, ч т о п я ть переменных F pV, CPv, CHv, F H y , C H A
независимы и н о р м а л ь н о распределены с известными средними
и дисперсиями. Д л я каж д ой полученной на ЭВМ реали заци и з н а ­
чений этих пяти п ер ем ен н ы х вы числялся баланс N H G B . Эта п р о ­
ц едура повторялась п р а з ( п = 5, 10, 20, 50, 100, 2000). Д л я к а ж ­
дых п реализаций N H G B вы чи слялась дисперсия и 95 % -ный
доверительный и н т е р в а л д л я дисперсии V (N H G B ). П роцесс гене­
рации п выборок п о в т о р я л с я N раз ( N X п 5000) и оценивалось
среднее и з N д и с п е р с и й s ¡ , . .., s % . К ром е того, вы числялся ож и д а­
емый средний к в а д р а т отклон ен и я (EMS):

E M S = -jj- £ (s? - V (N H G B ))2.


50 Гл. 1. Введение в анализ данных

где V (N H G B ) — найденная аналитически оценка дисперси я.


EM S с л у ж и т мерой согл аси я с оценкой при разны х объем ах в ы ­
борки п . Р езу л ь т а т ы исследования методом М онте-К арло п о к а ­
зал и , что моделированием на ЭВМ получаются состоятельны е
и точны е зн а ч е н и я дисперсии V , несмотря на то, что при о ц ен и в а­
нии и сп о л ьзо в ал о сь н есколько предположений, относящ ихся к н е ­
зав и си м о сти пяти переменных. И в результате было реш ено, что
кол еб ан и я N H G B могут считаться следствием только ошибок
и зм ер е н и й . ★

1 .7 . П р о в е р к а д а н н ы х

О чень в а ж н о , чтобы данны е, полученны е при статистическом


ан ал и зе, б ы л и тщ ательно проверены и отредактированы до н ач ал а
более с л о ж н о г о анализа. Иногда искуш ение немедленно получить
данны е д л я обработки так велико, что исследователь п ренебрегает
важ н ы м п ер в ы м шагом — чисткой данны х. Ош ибки в наборе
дан ны х м о г у т привести к интригую щ им результатам , иногда
и н тер п р ети р у ем ы м , и ногда — нет, но всегда неправильны м. Н и ­
когд а не с л е д у е т забы вать программистскую пословицу: «Мусор
на входе — мусор на выходе».
В этом р азд ел е мы обсудим использование ПСП для проверки
дан ны х с трем я основными задачам и: а) обнаруж ение грубы х
ош ибок, т. е. ош ибок кодирования и/или перфорации; Ь) л о к а л и ­
зац и я в ы б р о с о в , т. е. возможны х, но непредставительны х наблю де­
ний п о п у л я ц и и , из которы х производится выборка; с) о б н а р у ж е ­
ние с в о й с т в распределения каж дой из переменных. Д л я этих
целей П С П весьма полезны. П оэтому здесь мы обсудим п роверку
двух- и тр ех м ерн ы х данны х, а п роверку многомерных данны х
н а в ы б р о сы изложим в гл. 5. Обсудим так ж е граф ические средства
о п р е д е л е н и я свойств распределения.

1.7.1. Программа подсчета частот.


П р о в ер к а дискретны х распределений

В данном р азд ел е мы обсудим обычно используемые программы


из п а к е т о в , т а к назы ваемы е программы п о д с ч е т а ч а с т о т или
т а б у л и р о в а н и я . Д ля любой дискретной переменной X эта п р о ­
грам м а п р о см а тр и в ае т множество из п наблюдений и таб ули рует
частоту [ х п о явл ен и я значения .V в этих наблю дениях. Затем п р о ­
грам м а в ы в о д и т на печать ч а с т о т н у ю т а б л и ц у , состоящ ую из
1.7. Проверка данны х 51

имени перем енной и ее з н а ч е н и й в м есте с их частотами. В п риве­


денной таб л и ц е f x . п р е д с т а в л я е т с о б о й частоту появления x ¡ ,
i' = l, ..., k .
Н екоторы е п р о гр ам м ы д о п у с к аю т Имя переменной
алф ави тн о-ц иф ровы е з н а ч е н и я для X . Чняирнир Чягтптя
Оии таб у л и р у ю т и п е ч а та ю т ч астоты
появления ч и с ел , б у кв и та к и х e n e - ** <ч
циальны х си м волов, к а к * , $, / и т. д. х f
В так и х п р о гр ам м ах з н а ч е н и я п ерем ен - 2 Г2
ной, изм еряем ы е в ш к а л а х н а и м е н о в а ­
ний или п о р яд к о в о й , м о г у т ко д и р о вать- ’
с я к а к б у квам и , т а к и числам и.
У казанны е п р о г р а м м ы с л у ж а т т р е м k
основным ц ел ям . В о -п е р в ы х , о б н а р у ­
жению грубых ош ибок в колоде д а н н ы х . Н априм ер, пусть X —
двоичная п ер ем ен н ая, з н а ч е н и я к о то р о й кодирую тся как 1 или 2 .
Тогда в п риведен н ой н и ж е ч асто тн о й таблице для вы борки из
25 н аб лю д ен и й можно с уверенностью
Имя переменной р ас см а тр и в ать $ к а к ош ибку перфора-
Звачение ^~1астота ции. З а те м следует л окал и зовать н а­
блюдение п и сп рави ть его. Т акие ошиб­
ки н азы ваю тся г р у б ы м и .
2 11 Второй целью рассматриваемы х
л j программ я в л я е т с я л окали зац и я в ы б р о ­
сов. В ы б росы не относятся к грубым
ош ибкам — это скорее с т о л ь си льн о отличаю щ иеся по своей ве­
личине н аблю ден и я, что их можно рассм атривать как выборку
из другой п о п у л я ц и и . Н а п р и м е р , п ред п ол ож и м , что мы изучаем
порядковую перем енную X , зн ачен ия которой кодирую тся числа­
м и от 1 до 5, гд е 1 — н и з к и й и 5 — в ы - т,
сожий. Тогда п о ч аст о тн о й таб л и ц е д л я мя пеРеменнон
выборки объем а п = 2 5 н аб лю д ен и й Значение Частота
мы видим, что все н аб л ю д е н и я , к р о м е j 19
одного, леж ат в ниж ней части ш к а л ы .
Если наблю дение с к о д о в ы м зн ач ен и е м 2 5
х = 5 не я в л я е т с я р е з у л ь т а т о м о ш и б к и з О
в перфорации, то и ссл ед о в ате л ь м о ж е т . q
предпочесть у д а л и т ь е г о из в ы б о р к и ,
ограничивая т е м с а м ы м п о п у л я ц и ю 5| 1
только индивидуум ам и с м алы м з н а ­
чением X . По су щ ест в у э т о о зн ач ает, что он рассм атривает х = 5
к ак р езультат н а б л ю д е н и я , над и н д и ви д уум ом из другой попу­
ляции — с больш и м и з н а ч е н и я м и X . Р азу м еется, это реш ение
зависит от п л а н а э к с п е р и м е н т а и е г о целей.
Т ретья задача рассм атриваем ы х программ состоит в
получении э м п и р и ч е с к о г о р а с п р е д е л е н и я X в виде таблицы ,
52 Гл. 1. Введение в анализ данных

п ер еч и сл яю щ е й все значения х из X и соответствующ ие им отно­


си т е л ь н ы е ч асто ты р х . = f x / n , i — 1 , ..., k.
После того как эмпирическое рас-
И м я переменной пределение получено, естественно сде-
О тн о си тел ь- лать статистические выводы о популя-
Значение! н а я ч а с то та пии, из которой произведена выборка.
й Мы изложим это в разд . 2.1.1.
xl РхХ
x z р х Пример 1 .7 .1 . Это исследование
основывается н а 816 сл уч аях, собран­
ных в 16 центрах (H ill, Adam s (1974)).
Переменные вклю чаю т четырехзначный
номер истории болезни "пациента, воз-
X k P xk раст, пол, расу, текущ ий вес, зап и сан ­
ный со слов пациента обычный вес,
рост, 12 п о к а за те л е й ан ал и за крови, сведения о том, употреблял
л и п а ц и е н т противозачаточны е пилю ли и стимуляторы. К ар та
с п р о б и в к о й «9999» в первых четырех столбцах означает конец
н а б о р а д ан ны х из очередного центра.
Н а рис. 1.7.1 воспроизводится ф аксим иле последовательны х
ч а с т о т н ы х т а б л и ц д л я первых четырех столбцов (номер истории
б о л е з н и п ац и ен та) и последних четырех столбцов (численные д ан ­
ные), п о л у ч ен н ы х с помощью программы BM DP4D. Эта програм м а
п о л е з н а п ри предварительн ой проверке данны х, контроле п р а ­
в и л ь н о с т и к о д и р о ван и я и в особенности для об н аруж ен и я н е ­
ц и ф р о в ы х си м волов в тех столбцах, где разреш аю тся только циф­
р о в ы е сим волы . Ш естнадцать «девяток» в столбце 1 (переменная
ном ер 1) п о к азы в аю т, что 16 к ар т «9999» не были удалены, хотя
это с л е д о в а л о сд ел ать. О братите внимание так ж е н а ошибки п ер­
ф о р а ц и и в сто л б ц ах 78 и 79.
Н а ри с. 1.7.2 приводятся две последовательны е частотные
т а б л и ц ы д л я в о зр аста и пола, полученные с помощью программы
B M D P 2 D . И з эм пирического распределения частот д л я возраста
мы в и д и м , что в о зр а с т пациентов принимает все значения от 1 года
до 79 лет в кл ю ч и тел ьн о . В этом случае можно было бы говорить
о в ы б р о с а х , ес л и бы, наприм ер, исследовалась п оп ул яц и я, состо­
я щ а я то л ь к о и з взрослы х. Тогда данные о числе пациентов молож е
21 г о д а с л ед о в ал о бы рассм атривать к а к грубые ошибки или в ы ­
б р о с ы и п р о в е сти дальнейш ую проверку данны х. И з эмпирического
р а с п р е д е л е н и я частот д л я п ола следует, что = 0.368 и р , =
= 0 .6 3 2 , гд е х х = 1 — м уж чина и х 2 — 2 — ж енщ ина, т. е. вы ­
б о р к а со д ер ж и т почти в два р а за больш е ж енщ ин, чем мужчин.
Н а р и с у н к е п р и в о д ятся так ж е гистограммы (обсуж даю тся ниже)
и н е к о т о р ы е итоговы е выборочные статистики (обсуж даю тся
в р а з д . 2 . 2 ).
* VARIABLE NUMBER 1 ** VARIABLE NUMBER 2 ** VARIABLE NUMBER 3 ** VARIABLE NUMBER 4 **

* SYMBOL FREQUENCY ** SYMBOL FREQUENCY ** SYMBOL FREQUENCY ** SYMBOL FREQUENCY **


* BLANK 232 ** BLANK 24 ** BLANK 4 ** 0 89 **
* 1 235 ** 0 73 ** 0 87 ** .1 80 **
* 2 237 ** 1 95 ** 1 73 ** 2 88 **
* 3 112 ** 2 93 ** 2 78 ** 3 93 **
* 9 16 ** 3 90 ** 3 96 ** 4 85 **
** 4 79 ** 4 73 ** 5 80 **
** 5. 90 ** 5 81 ** 6 83 **
** 6 57 ** 6 81 ** 7 67 **
** 7 62 ** 7 95 ** 8 77 **
it * 8 70 ** 8 69 ** 9 90 **
** 9 99 ** 9 95 ** **

** VARIABLE NUMBER 77 * VARIABLE NUMBER 78 * VARIABLE NUMBER 79 VARIABLE NUMBER 80 *


**
** SYMBOL FREQUENCY * SYMBOL FREQUENCY * SYMBOL FREQUENCY SYMBOL FREQUENCY *
** BLANK 17 * BLANK 795 * BLANK 295 BLANK 832
** 815 1 * J 1
** * 1 36 * 1 536
**
**
**
**
**
**
**
**

Рис. 1.7.1. Факсимиле вывода последовательных (по столбцам) частотных таблиц, полученного по программе ВЛШР40.
VARIABLENUMBER. . 2 MAXIMUM 79.0000000 H
NAME .. MINIMUM 1.0000000 H
NUMBEROF DISTINCTVALUES 79 RANGE 78.0000000 H HHHHH
NUMBEROF VALUESCOUNTED. 816 MEDIAN 44.0000000 HHH HHHHHH EACH"H”
NUMBEROFVALUES NOTCOUNTED 0 MODE 46.OOOO0C0* HHHHHHHHHHHHH REPRESENTS
MEAN 42.2414093 HHHHHHHHHHHHHHHH 5.70
ST.DEV 17.9847565 H HIIHHHHHHHHHKHHHHHH COUNTS
S.E.M. 0.6295926 HHHHHHHHHHHHHHHHHHHHHHH
НННННННННННННННННННННИННН
HHHHHHHHHHHHHHHHHHHKHHHHHHHH
—НАХ
• FIRST OF MORETHANONEM ODE
PERCENTS PERCENTS PERCENTS PERCENTS
VALUE СОUNГ CELL CUM VALUE COUNT CELL cum VALUE COUNT CELL CUM VALUE COUNT CELL CUM
1. 1 0.1 0.1 21. 20 2.5 14.2 41. 14 1.7 45.2 61. 11 1.3 84.-V
2. 1 0.1 0.2 22. 16 2.0 16.2 42. 19 2.3 47.5 62. 11 1.3 85.8
3. 1 0.1 0.4 23. 18 2.2 18.4 43. 14 1.7 49.3 63. 14 1.7 87.5
4. 1 0.1 0.5 24. 12 1.5 19.9 44. 14 1.7 51.0 64. 13 1.6 89.1
5. 4 0.5 1.0 25. 12 1.5 21.3 45. 16 2.0 52.9 65. 7 0.9 90.0
6. 53 0.6 1.6 26. 13 1.6 22.9 46. 23 2.8 55.8 66. 8 1.0 90.9
7. 0.4 2.0 27. 17 2.1 25.0 47. 23 2.8 58.6 67. 8 1.0 91.9
8.' 6 0. 7 2.7 28. 11 1.3 26.3 48. 20 2.5 61.0 68. 9 1.1 93.0
9. 6 0.7 3.4 29. 13 1.6 27.9 49. 14 1.7 62.7 69. 9 1.1 94. L
10. 7 0.9 4.3 30. 14 1.7 29.7 50. 14 1.7 64.5 70. 8 1.0 95.1
11. 6 0.7 5.0 31. 12 1.5 31.1 51. 14 1.7 66.2 71. 7 0.9 96.0
12. 10 1.2 6.3 32. 11 1.3 32.5 52. 15 1.8 68.0 72. 4 0.5 96.4
13. 5 0.6 6.9 33. 9 1.1 33.6 53. 15 1.8 69.9 73. 4 0.5 96.9
14. 7 0.9 7.7 34. 10 1.2 34.8 54. 19 2.3 72.2 74. 7 0.9 97.8
15. 7 0.9 6.6 35. 11 1.3 36.2 55. 14 Д.7 ’ 73.9 75. 4 0.5 98.3
16. 5 0.6 9.2 36. lO l.a 37.4 S6 . 12 1.s 75.4 76. 3 o.<* 98. 7
17. 6 0.7 9.9 37. 16 2.0 39.3 57. 16 2.0 77.3 77. 3 0.4 99.0
18. 4 0.5 10.4 38. 11 1.3 40.7 58. 17 2.1 79.4 78. 3 0.4 99.4
19. 7 0.9 11.3 39. 15 l.B 42.5 59. 14 1.7 81.1 79. 5 0.6 100.0
20. 4 0.5 11.8 40. 8 1.0 43.5 60. 16 2.0 83.1

VARIABLENUMBER , , 3 MAXIMUM' 2.0000000


NAML. . . , ! SEX MINIMUM 1.0000000 H
NUMBEROF DISTINCTVALUES 2 RANGE 1.0000000 H
NUMBEROF VALUESCOUNTED. 816 MEDIAN 2.0000000 H EACH "H'*
NUMBEROF VALUES NOTCOUNTED 0 MODE 2.0000000 H H REPRESENTS
MEAN 1.632352B H H 51.60
ST.DEV. 0.4824603 H H COUNTS
S.E.M. 0.016889S H H
H H
H H
MIN-
PERCENTS PERCENTS
VALUE COUNT CELL сим VALUE COUNT CELL сим
1. 300 36.8 36.8 2. 516 63.2 100.0
Рис. 1.7.2. Вывод последовательной (по переменным) частотной таблицы, полученный по программе ВАГОР20.
1.7. Проверка данных 55

1 .7 .2 . Д ескриптивны е программ ы .
Проверка непрерывных переменных
Рассмотрим теперь н е п р е р ы в н у ю случайную величину X и м н о­
ж ество х ъ х п и з п н аб лю д ен и й . Типичная д ескрип ти вн ая
программа вы б и р ает & н еп ер есекаю щ и х ся интервалов [сх, с2),
[с2, с 3) , . . . , [с*,, сй+1) о д и н ак о в о й длины , покры ваю щ их всю
наблюдаемую о б л а с т ь . Эти и н те р в а л ы назы ваю тся и н т е р в а л а м и
г р у п п и р о в к и , а их ч и с л о за д а е т с я исследователем заран ее с п о ­
мощью у п р ав л яю щ ей кар ты и л и вы числяется программой. Н а ­
пример, в одном из ал го р и т м о в Н определяется из условия
£ = целая ч а с т ь (10 1§ /г),
причем д о п о л н и тел ьн о п р е д п о л а га е т с я , что 5 < £ с 30.
П осле того к а к и н т е р в а л ы гр у п п и р о в к и выбраны, подсчиты ­
ваю тся частоты f i ч и с л а н аб лю д ен и й , попавш их в интервал \ с п
с;+1)> 1 = 1> к . Р е з у л ь т а т ы м о г у т быть выведены на печать
в виде ч а с т о т н о й т а б л и ц ы ти п а приведенной здесь и/или в виде
граф ика. Н а этом г р а ф и к е
по одной из осей о т к л а д ы - Имя переменной
ваю тся интервалы груп ­
пировки, Б0 другой — ча- И н тер в ал группировки Частота
сготы. Т акие г р а ф и к и на- [ с ъ с 2)
зываю тся (ч а с т о т н ы м и ) Гс с 1 !
г и с т о г р а м м а м и , а и х вы- 2’ ^
вод н а печать в ы п о л н я ­
ется разными сп о со б ам и .
Н апри м ер, их можно в ы в о - '
дить с помощью п о сл ед о в а- Iе*’ С к* 1’ '*
тельности звездочек ( а ) и
(Ъ), в виде столбиков и з еди ни ц ( с ) или в виде настоящ их столбиков
((1). В примерах н а с т о я щ е г о р а з д е л а будем использовать именно
эту последнюю ф о р м у п р е д с т а в л е н и я к а к наиболее удобную.

(а) (Ь) (с) (с!)


А -
/. /.
* А 11 / г л
* * Уз Сз * * /з 11 11 / з /з
=*= * * ***/2 11 11 11
* * * ** ** 11 11 11
С} <4 Сг Сз С\ С2 Сз

К а к и в случае ч асто тн о й т а б л и ц ы , д л я дискретной переменной


двумя основными ц е л я м и ч астотн ой табли цы и гистограммы д ля
непрерывной п ерем ен ной я в л я е т с я л о к ал и зац и я г р у б ы х о ш и б о к
и вы бросов.
56 Гл. 1. Введение в анализ данных

П р и м ер 1 .7 .1 ( п р о д о л ж е н и е ). Н а рис. 1.7.2 помимо прочего


п р ед став л ен ы грубые гистограммы д л я каж д ой из двух перем ен­
ных. По этим гистограммам нельзя ск азать, что имеют место
о ч ев и д н ы е грубы е ошибки и/или выбросы. Д алее, на гистограмме
д л я в о з р а с т а отчетливо видны несколько пиков, которые можно
о б ъ я с н и т ь смесью субпопуляций в этой выборке.
Н а р и с . 1.7.3 представлена уточненная гистограмма расп ре­
делен и я х о л естер и н а (мг /100 мл), причем здесь такж е нет очевид-
H1ST0G RAM OF VARIABLE 4 , „00.00000(1-
""¡О “ ”s° ” 5 187 з 201.0 =18.8 234.6 250.3 2б'б.1 281.8 2,7., 313.<329.1 344.9 360.6 376.4 392 2 407.9
147.9 1.63.6 .179.4 195.2 210.9 226.7 242.4 258.2 274.0 289.7 305.5 321. 2 337.0 352.8 368.5 ^ 3 400.0^
200.0 1 * 200.0
196.0 ■ - 196.0
192.0 •_ - 192.0
188.0 XXX - 188.0
184.0 - XXX XXX - 184.0
180.0 • XXX XXX * 180.0
176.0 -- XXX XXX - 176.0
172.0 - XXX X XX— * - 172.0
168.0 - XXX хххххх - 168.0
164.0 * XXX хххххх - 164.0
160.0 - XXX х ххххх * 160.0
156.0 — XXX хххххх - 156.0
152.0 _ XXX хххххх --- - 152.0
148.0 .—. XXX хххххх XXX - 148.0
144.0 _ XXX XXX хххххх XXX - 144.0
140.0 •- XXX XXX хххххх XXX • 140.0
136.0 XXX XXX хххххх XX
X - 136.0
132.0 _ XXX XXX хххххх XXX - 132.0
128.0 _ XXX XXX хххххх XX
X - 128.0
124.0 * XXX ххх­--хххххх XXX ►124.0
120.0 - XXX хххххххххххх XXX • 120.0
116.0 - -А- XXX ХХХХХХХХХXXX XXX XXX - 116.0
112.0 XXX XXX XXXXXХХХХХХХ XXX XXX - 112.0
108.0 - XXX. XXX ХХХХХХХХХXXX-—XXX XXX - 108.0
- 104,0
104.0 - XXX XXX— -XXXХ ХХХХХХХХХХ
ХХХ
Х XXX • 100.0
100.0 -• ХХХ­--хххххххххххххххххххххххх XXX - 96.0
96.0 ХХХXXXXXXХХХХХХХХХХХХХХХХХХXXX . XXX
92.0 - --ХХХХХХХХХХхххххххххххххххххххх--"-XXX - 92.0
ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ XXX-- - 88.0
XXххххххххххххххххххххххххххххххххххххх хххххх 80.0
76.0 - XXXXXXXXXXXXXXXXXXXХХХХХХХХХХХХXXXXXXXX хххххх 76.0
72.0 - ххххххххххххххххххххххххххххххххххххххх хххххх 72.0
68.0 - XXХХХХХХXXXXXXXXXХХХХХХХХХХХХХХХХХХХXXX—хххххх 68.0
64.0 - ххххххххххххххххххххххххХХХХХХXXхххххххххххххххX 64.0
60.0 • XXххххххХХХХХХXXXххххххххххххххххххххххххххххххX • 60.0
56 о
52.0 - ххххххххххххххххххххххххххххххххххххххххххххххххххX -- 52О
48.0
44.0 - XXXXХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХXXXXXххххххххххххххх--XXX 44.0
40.0
36.0
32.0 - XXXXXXXXXXХХХХХХХХХХХХХХХXXXXXXXXXXXXХХХХХХХXXXXXXXXXJCXXXXXX XXX 32.0
28.0
24. 0 ---XXXXXХХХХХХХХХХХХXXXХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХXXХХХХХХХХ -— -— 24.0
20.0 »XXX XXXXХХХХХХХХХХХХХХХХХХХХХХХХХХХXXXXXXХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ XXX— XXX * 20.0
16.0 -XXX-- XXXXXXXXXХХХХХХXXXXXXХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХXXX-- ХХХХХХ XXX 16.0
12.0 -ХХХХХХХXXXXХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХXXХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ XXX 12.0
8.0 -ХХХХХХХХХХХХХХХХХХХХХХХХХХХXXХХХХХХXXХХХХХХXXXXXХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ---------- XXX 8.0
4.0 -ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ 4.0
140.0 155- 8 171.5 187.3 203.0 218.8 234.6 250.3 266.1 281.8 297.6 313.4 329.1 344.9 360.6 376.4 392.2 407.9
147.9 163.6 179.4 195.2 210.9 226.7 242.4 258.2 274.0 269.7 305.S321.2 337.0 352.8 366.5 384.3 400.0
Рис. 1.7.3. Гистограмма распределения холестерина, полученная по программе
BMD05D.

ных г р у б ы х ош ибок или выбросов. П р оверк а п о казал а, что у /х =


= 25 п а ц и е н т о в значения холестерина были больше или равны
с х = 1 4 0 .0 мг/100 мл, но меньше, чем с2 = 147.9 мг/100 мл, т. е.
п р и н а д л е ж а л и интервалу [140.0, 147.9). Аналогичным образом,
1.7. Проверка данных 57

у / 2 = 17 п ациентов зн ачен ия холестерина п ринадлеж али интер­


валу [147.9, 155.8), у f s = 25 — интервалу 1155.8, 163.6) и т. д.
Из рис. 1.7.3 зам етно, что распределение имеет длинны й п р а ­
вый хвост. В последую щ ем разделе мы покаж ем, что при наличии
такой асим метрии с помощью логарифмического п реобразования
иногда можно п о л у ч и т ь более симметричное или даж е нормальное
распределение.

1 .7 .3 . П реобразования к нормальному распределению .


Графические средства

Стандартные кр и тер и и проверки гипотез относительно средних


и дисперсий обы чно предполагаю т, что исследуемые величины
нормально распределены . Если для конкретной выборки мы откло­
няем гипотезу о норм альности, то для получения статистических
выводов можно п оступ ать разными способами. Н априм ер, если
объем нашей в ы б о р ки достаточно велик, можно предпочесть
использовать ста н д ар тн ы е критерии к ак приближ енны е. Д ругой
путь состоит в применении н е п а р а м е т р и ч е с к и х п р о ц е д у р (см.,
например, N o e th e r (1967)) и третий — в подборе зам ены перемен­
ной, приводящ ей к норм ально распределенной величине.
Н айти п рео б р азован и е, порождающее нормальное распределе­
ние, обычно н еп росто. Сами данны е могут подсказать соответ­
ствующую зам ен у . Д л я некоторы х типов переменных использую тся
стандартны е зам ены : наприм ер, для измерений растений и ж ивот­
ных часто подходит логариф м ическая замена переменных. Иногда
вид эксп ери м ен тальн ой гистограммы подсказы вает тип преобразо­
вания. Н апри м ер, р езк о асимметричная гистограмма с большим
правым «хвостом» н аводит на мысль о логнормальном или ^ 'Р а с ­
пределении, т а к что м огут оказаться уместными логарифмирование
или извлечение квад ратн ого корн я. Если эмпирическое распределе­
ние бим одально, то экспериментатор, подозревая, что имеет дело
со смесью двух распределений, может обрабатывать их независимо
(B liss (1967), г л . 7).
Отметим ещ е, что статистиками были разработаны процедуры
д ля случаев, к о г д а стандартное отклонение ф ункционально зависит
от среднего. Н а п р и м е р , если стандартное отклонение пропор­
ционально среднем у, то использую т логарифмическую замену,
а если дисперсия пропорциональна среднему, то извлечение квад­
ратного корня п риводит к приближ енно нормальному распределе­
нию. Один из способов выяснить эти соотношения м еж ду ц. и а
состоит в том, чтобы разделить выборку на подвыборки, вычислить
для каж дой ср ед н ее и стандартное отклонение и начертить их.
(Более полное о б су ж д ен и е см. в книге Brow nlee (1965), с. 144— 146.)
В ходящ ие в ПСП программы обработки гистограмм с выбором
замены переменны х за один проход выдают и гистограммы наблю­
58 Гл. 1. Введение в анализ данных

даем ых вел и чи н , так ж е к а к и гистограммы любых желаемы х ф унк­


ций от наблю даемы х величин. И сследователь изучает каж дую
гистограмму, стрем ясь найти похож ую на нормальное распределе­
ние, а затем п р о веряет согласие с нормальным распределением для
п реобразованной величины, используя критерии, описанные
в разд. 2 . 2 .2 .
Пример 1 .7 .1 (п р о д о л ж е н и е ). Н а рис. 1.7.4 изображ ена гисто­
грам м а р аспределени я логарифма холестерина сы воротки. Сравне-
HISTOGRAM OF VARIABLE 7
M
IN- 2.146127 М АХ= 2.602059
2.12.22.22.22.22.22.22.22.32.32.32. 32.32.32.32.42.42.42.42.42.42.42.52.52.52.52.52.52.52.52.62,,62.62.62.6
200.0 .- • 200,0
- 196.0
196.0
192.0 - - 192.0
188.0 - - 188.0
184.0 - - 184.0
180.0 • -- * 180.0
176.0 - XXX -- - 176.0
172.0 - XXX XXX -- - 172.0
168.0 - XXX XXX XXX - 168.0
164.0 - XXX XXX XXX - 164.0
160.0 • XXX XXX XXX • 160.0
156.0 - XXX XXX XXX - 156.0
152.0 - XXX XXX XXX - 152.0
148.0 - XXX XXX XXX - 148.0
144.0 - XXX XXX XXX -- - 144.0
140.0 • XXX XXX XXX XXX • 140.0
136.0 - XXX XXX XXX XXX - 136.0
132.0 - -- XXX XXX XXX XXX - 132.0
128.0 - XXX XXX--XXX XXX XXX - 128.0
124.0 - XXX ХХХХХХХХХ XXX XXX - 124.0
120.0 • XXX ХХХХХХХХХ XXX XXX-- • 120.0
116.0 - XXX ХХХХХХХХХ--ххх---хххххх - 116.0
112.0 - XXX XXXXXXXXXXXXXXXXXXXXXXXX-- - 112.0
108.0 - XXX XXXXXXXXXXXXXXXXXXXXXXXXXXX - 108.0
104.0 - XXX ххххххххххххххххххххххххххх - 104.0
100.0 • XXX —ххххххххххххххххххххххххххх-- • 100.0
96.0 - XXX ххххххххххххххххххххххххххххххххх - 96.0
92.0 - XXX—ххххххххххххххххххххххххххххххххх - 92.0
88.0 - ххххххххххххххххххххххххххххххххххххххх - 88.0
84.0 - ххххххххххххххххххххххххххххххххххххххх - 84.0
80.0 • --XXXхххххххохххххххххххххххххххххххххххх • 80.0
76.0 - XXX хххххххххххххххххххххххххххххххххххххххххх - 76.0
72.0 - XXX XXXХХХХХХХХХXXХ_ХXXXXXXXXXXXXXXXXXXXXXXXXXX - 72.0
68.0 - XXX --XXXXXXXXXXXXXXXххххххххххххххххххххххххххх—- - 68.0
64.0 - XXX ХХХХХХХХХХХХХХХXXXXXXXXXXXXXXXXXXXXXXXXXXXхххххх - 64.0
60.0 * XXX хххххххххххххххххххххххххххххххххххххххххххххххх-- • 60 0
56.0 XXX ххххххххххххххххххххххххххххххххххххххххххххххххххх - 56.0
52.0 - XXX--Х ХХХХХXXXXXXXXXXXXXXXXXXXXXXXXХХХХХХXXXXXXXXXXХХХХХ - 52.0
48.0 - XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXХХХХХХХХХХХХХХХ-- - .48.0
44.0 XXХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХXXХХХХХХХХХ - 44.0
40.0 * ХХХХХХХХХХХXXХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХXXXXXXXXX • 40.0
36.0 - XXХХХХХХХХХХХХХХХХХХХХХХХХХХХХХXXXXXXXXXXXXXXXXXXXXXXXXXXXXX-- - 36.0
32.0 - ---ххххххххххххххххххххххххххххххххххххххххххххххххххххххххххххххх - 32.0
28.0 - XXLXXXXXXXХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХXXXXXXXXXXXXXXXXXXXXXXXX-- - 28.0
24.0 - -- ХХХХХХХХХхххххххххххххххххххххххххххххххххххххххххххххххххххххххххххх - 24.0
20.0 *-- -—XXХХХХХХХХХXXXXXXXXXXXXXXXXXXXXXXXXXXххххххххххххххххххххххххххххххххххх-- -—• 20.0
16.0 -XXX --ХХХХХХХХХХХХХХХХХХХХХХХХХХХхххххххххххххХХХХХХХXXхххххххХХХХХххххххххххххххххх XXX- 16.0
182.0
.0 -XXX ххххххххXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXХХХХХХХХХХХХХХХХXXххххххXXхххххххххххх-- ---- XXX- 12.0
-XXX --XXХХХХХХХХХХХХXXХХХХХХХХХХХХХХХХХХХХХХХХХХХXXХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ- 8.0
4.U -XXX-—ХХХХХХХXXXXXXXХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХXXXXXXXXXXXXXXXXXXXXXXXXXXXX- 4.0
2..1 2.2 2.2 2. 2 2.3 2.3 2.3 2.3 2.4 2.4 2.4 2. 5 2.5 2.5 2.5 2.6 2.6 2.611
2.2 2.2 2.2 2.2 2.3 2.3 2. 3 2.4 2.4 2.4 2.4 2.5 2.5 2.5 • 2.5 2.6 2.6
Рис. 1.7.4. Гистограмма распределения логарифма холестерина, полученная
по программе В-ЛШОбБ.

ние с рис. 1.7.3 показы вает, что логарифмическая зам ена изменяет
асимметрию д ан н ы х. Поэтому представляется разумным исполь­
зовать именно логариф м холестерина, а не сам холестерин в после-
о о
X X
о о
о о
О О
о о

-I *

2.625 0.4125 0.« 7Г ’ ’о'йк"" "о^ЗтГ" 'а 7 1 и " 'о Г ^ Г


3 3.375 3.754.125 4.5 4.875 5.255.625 6 6.375 0.45 0.525 0.6 0.675 0.75
а
Ь
Рис. 1.7.5. Нормальные пробит-графики для концентрации неорганического фосфора (а) и логарифма этой концентрации
(6), полученные по программе ВЛШР50.
60 Гл. 1. Введение в анализ данных

д у ю щ ем статистическом анализе, если этот анализ использует


ст а ти с ти ч ес к и е методы, предназначенны е для нормального и ли
м н о го м ер н о го нормального распределения.
Д р у г и м графическим средством, полезным при определении
целесообразности замены переменных (а так ж е для вы явления
вы б росов) яв л я е тся п р о б и т - г р а ф и к . П ри его построении по гори ­
зо н т а л ь н о й оси отклады ваю т аргумент эмпирической функции
р а с п р е д е л е н и я Т7 (разд. 2 .2 . 1), а по вертикальной — соответствую ­
щ ие з н а ч е н и я аргумента стандартной нормальной функции р ас п р е­
д е л е н и я ® х). Если изучаем ая величина распределена нормально,
то п ро би т-гр аф и ком д л я выборки из такого распределения будет
п р и м ер н о п р ям ая. В ходящ ие в ПСП программы построения
п р о б и т -гр а ф и к а с возможностью замены переменных за один
п р о х о д м огут выдавать пробит-график д л я исходных данны х и
н е с к о л ь к о г р а ф и к о в — для преобразованны х. П реобразование,
об есп ечи ваю щ ее наибольш ее сходство граф ика с прямой, мож но
и с п о л ь зо в а т ь при последующем анализе.
П р и м ер 1.7.1 (п р о д о л ж е н и е ). Н а рис. 1.7.5 изображ ены про-
б и т -гр аф и к и для концентрации неорганического фосфора
(м г/1 0 0 мл) и логарифма этой концентрации. Видно, что л огари ф ­
м и р о в а н и е р асп р ям л яет кривую и уменьш ает асимметрию.
1.7.4. Проверка по парам переменных. Программы
построения таблиц сопряженяости признаков
и диаграмм рассеяния
П р о в е р к а по отдельным переменным не п озволяет вы явить все
о ш и б к и в данны х. Поэтому ж елательн о установить некоторые соот­
н о ш е н и я м еж д у парами переменных с тем, чтобы обнаруж ить с л у ­
чаи, в которы х эти соотнош ения не вы полняю тся. С этой точки
зр е н и я программы п о с т р о е н и я т а б л и ц с о п р я ж е н н о с т и п р и з н а к о в
(или п р о г р а м м ы п е р е к р е с т н о г о т а б у л и р о в а н и я ) м огут оказаться
п о л езн ы м и д л я дискретных переменных, измеренных в ном иналь­
ной и л и порядковой ш калах, а так ж е д л я непрерывных, но сгр у п ­
п и р о в а н н ы х переменных.
П р о г р а м м ы построения таб л и ц сопряж енности п ри зн аков вы ­
ч и с л я ю т и вы водят двумерную таблицу, называемую д в у х ф а к т о р ­
н о й т а б л и ц е й с о п р я ж е н н о с т и п р и з н а к о в . О на описывает ситуацию ,
когда каж ды й индивидуум (или эксперим ентальная единица)
в п о п у л я ц и и У 7 классиф ицируется двумя различными ф а к т о р а м и
(или к р и т е р и я м и ) А я В . Мы будем считать, чго фактор А имеет
г ^ 2 к л а с с о в (или уровней), а фактор В имеет с ^ 2 классов (или
у р о в н е й ). Р ассм атри вая г классов ф актора А как столбцы, а с
к л а с с о в ф акто ра В к а к строки, получим двухф акторную табли цу
со п р я ж ен н о с т и признаков следующего вида.
1) Т о есть у = С»“* (Р(х)). — Прим. перев.
1.7. Проверка данных 61

Итоги по
А 1 2 3 с строкам

1 /и А 2 / 1 3 • /,с /..
2 /2, /22 / 2 3 - /з . Г2.
3 /з 1 Уз2 /зз • /зс /з.

г л, /и /,3 ' Ас Гг.

Итоги по
столбцом / 1 ).2 /з •- /с п

Она назы вается такж е г Х с - т а б л и ц е й с о п р я ж е н н о с т и (или


просто гХ с-таблиц ей ). Пересечение строки и столбца назы вается
я ч е й к о й . Д л я вы борки объема п из популяции \ У число индиви­
дуумов /¡ у , относящ ихся к г'-му уровню фактора А и /-му
уровню ф актора В , помещается в ячей ку г/, I =■ 1 г,
У = 1, с. Ч и сло ¡ ц назы вается н а б л ю д а е м о й ч а с т о т о й яч ей ки г/.
В ходящ ие в ПСП программы построения гХ с-таблиц просм а­
тривают всю вы борку из п наблюдений и определяют наблю даемые
частоты д л я всех яч еек. Затем они подсчитывают суммы Д-. для
всех строк II / ./ д л я всех столбцов, г = 1, г, / = 1, с.
Величины / г. и / . / называются соответственно и т о г а м и по
Г С
ст рокам и ст олбцам . Заметим, что 5] /¡-. = 2 /.,■ = п, т. е. равно
£=1 1=1
объему выборки. П остроенная таблица затем выдается н а печать.
После получения таблицы можно приступить к поиску грубых
ошибок в данвы х, не найденных при проверке по отдельным перемен­
ным. Кроме того, м ож но проверить гипотезы о связи между ф ак то р а­
ми А и В . О бсуж дение этой возможности мы отложим до разд . 2.5.

Пример 1.7.1 (п р о д о л ж е н и е ). П осле использования соответ­


ствующей программы была построена таблица сопряж енности для
факторов А = пол (1 — мужчины, 2 — женщины) и В = прием
противозачаточных средств (1 — да, 2 — нет). Н иж е приводится
полученная 2 X 2 -таблица.
В = Прием противозачаточных средств
1 = Да 2 = Нет

1 = Мужск. 5 295 300


А = Пол
2 = Женек. 32 484 516

37 779 816
62 Гл. 1. Введение в анализ данных

П ять м уж чин, принимавш их противозачаточные пилюли, очевидно


демонстрирую т пример грубы х ошибок, которы е невозможно
обнаруж ить при ан ал и зе распределений частот переменных «пол» и
«прием противозачаточны х средств» в отдельности.

Полезным средством проверки д л я непрерывных переменных


X и Y, не разбиты х на дискретны е категории, явл яется диаграмма
рассеяни я, т. е. двум ерная диаграмма, изображ аю щ ая пары
значений { х ъ z/j), ( х 2, у г ) , ..., ( х „ , у п ). Помимо пользы для определе­
ния линейной зависимости между X и Y (см. разд. 3.1) диаграмма
рассеяния полезна д л я определения грубых ошибок и выбросов,
не вы лавливаем ы х одномерными гистограммами.

80.500 • • 60.500
79-500 / 1— 79. 5оо
78.500 - 1 1 — 78.500
77.500 - 1 77.500
76.500 • 1 1 « 76.500
75.500 - 1 1 1 1 - 75.500
7^.500 - 1 221131 1 31 21 1 2 - 74.500
73.500 - 1 2 31 1 1 1 - 73.500
72 .500 - 1 1 1 23 2153 5 31413 51 1 1 11 - 72.500
71.500 • 1 12 1113211221213 11 22 1111 1 1 »71.500
70.500 - 1 31 622 3163321 2 2 1 - 70. 500
69.500 - _1 224323153 23372421 2 - 69.500
68.500 - 5 2113 574725412 33131 111 1 - 68.500
67.500 - 1 1 21462816525325 3132 1 1 - 67.500
66.500 • 132336938476 41242411 2 1 1 1 1 1 1 1 • 66.500
65.500 - 1 116429619 773314212 1 1 3 - 65.500
64.500 - 1 356437936455321331 111 1 2 11 1 - 64.500
63.500 - 13 2 524524614 31 2 23 1 1111 _ 63.500
62.500 - 1 16116596М29 1 1 1 11 ^ -\ - 62.500
61.500 • 1 111232 2 1 2111 1 ( i) . 61 500
60-500 - 11 1 31 41411 1 111 11111 Ч_У _ 60. 500
59.500 - 1 111 11 1 1 1 1 - 59 500
— 58-5О0 1 1 _ 5в500
$ 1 1 - 57.500
±. *.Ь 00 • 1 1 1 1 1 * 56.500
55.500 - 55. 500
54.500 • 54.500
53.500 - 53.500
52.500 - 52.550000
51.500 -
50.500 1 1
11 .
_
51
50 500
49.500 - 1 1 _ 49 5оо
48.500
48.500
47.500 - 47. 500
46.500 »
46 500
45.500 -
45.500
44.500 -
44.500
43.500 -
43.500
42.500 -
42.500
41.500 *
41.500
40.500 -
40.500
39.500 -
39.500
38.500 -
38.500
37.500 -
37.500
36.600 •
36.500
35.500 -
35.S00
34.500
33.500
-
-
34.500
33.500

CUPRENT WEIGHT (lb)


Рис. 1.7.6. Диаграмма рассеяния для переменных «рост» и «текущий вес».

Пример 1.7.1 ( п р о д о л ж е н и е ). На рис. 1.7.6 и зображ ена д иа­


грамма рассеяни я д л я переменных «рост» и «текущий вес». Четы ре
наблю дения в ы гл ядят выбросами по сравнению с основной груп­
пой данны х. К аж ется, что в выборку включены трое детей (левый
1.7. Проверка дан ны х ез

нижний угол) и один очень тяж елы й и низкорослы й человек


(посередине сп рава).
Н а рис. 1.7.7 и зо б р а ж е н а диаграм м а рассеяния для переменных
«общий белок» (мг/100 м л ) и «альбумин» (мг/100 мл). П оскольку
содерж ание альбум ина в с е г д а меньше, чем общего белка, то три
крайние точки (посередин е справа) долж ны быть ош ибками.
И действительно, при п роверке оказалось, что это — ошибки
кодировки.
8.880
8.880 - 8.800
8.800 - 8.720
8.720 • 8.640
8.640 -
8 .5 6 0 -
88.480
.560
8.480 - 8.400
8.400 - 8.320
8.320 • 8.240
8.240 - 8.160
8.160 - 8.080
8.080 - 2 22 11 : 8.000
8.000 - 2 1 2 35 24 7.920
7.920 • 2 12 413 4 7.840
7.840 3 5 74 79' 7.760
7 .7 6 0 -
1 4464497' 94 111 7.680
7.680 -
7.600 - 11 117956А66 9 2 1 : 7.600
7.520 • 22638779D 73 4 1 7.520
7.440- 11 11 2 5 СА СВ7 52 2 2 7.440
7.360- 7. 360
7.280- 23 3 0 5 8*8 5 3 11 7.280
7.200 - 132 23277 6 5 8Е 52 2 7.200
7.120 • 12246387535 311 1 7.120
7.040 - ] 1 163587922 7.040
6.960 - 6.960
6.880 - 5 3 4 6 213 6.880
6.800 - 3 32 6.800
6.720 • 112 11 , 6.720
6.640 - 6.640
6.560 - 6.560
6.480 - 6.480
6.400 - 6.400
66..234200 • 6.320
6.240
6.160 - 6.160
6.080 - 6.080
6.000 - 6.000
5.920 * 5.920
5.840 - 5.840
5.760 - 5.760
5.680 - 5.680
5.600 - 5.600
5.520 • 5.520
5.440 - 5 .4 4 0

ALBUMIN ( m g / 100ml)
Рис. 1.7.7. Диаграмма рассеяния для переменных «общий белок» и «альбумин»

1.7 .5 . Обработка о тсу тству ю щ и х значений х)


М ногие программы из П С П п озволяю т исклю чать элементы вы­
борки, удовлетворяю щ ие определенным условиям. Обычно исклю ­
чаются элементы, у к о то р ы х значение данной переменной оказы ­
вается выше (или ниже) у к а за н н о г о предела. Д ругой метод состоит

*) Иногда в отечественной литературе встречается термин «непомеренные».


Нам кажется, что термин «отсутствующие значения» лучше, поскольку значение
переменной может быть неизвестным не только потому, что оно не было изме­
рено, но и потому, что оно утрачено в процессе обработки. — П рим . перев.
64 Гл. 1. Введение в анализ данных

в отбрасы ван ии элементов, у которых зн ач ен и е переменной равно


д ан н о м у . Первый способ позволяет исклю чать выбросы и н еи сп ра­
вимые грубые ошибки, а второй оказы вается удобным средством
д л я о тб расы ван ия отсутствую щ их значений. Обычно отсутствую ­
щ ее зн ач ен и е кодируется либо пробелом, либо строкой из одних
цифр 9 , заполняю щ их все поле переменной.
Е с л и ан ал и зу подвергается единственная переменная, то отсут­
ствую щ ие значения разум нее всего выкиды вать. Если ж е ан ал и зи ­
руется несколько параметров, то можно восп ользоваться и д р у ­
гими м етодам и. Эти методы позволяю т использовать информацию ,
сод ерж ащ ую ся в сл уч аях, когда наблюдение не пропущено, вместо
того чтобы исклю чить весь случай целиком. Мы обсудим некоторые
из них в р азд. 3.2.6.

У праж нения

Упражнения в этой и в следующих главах сгруппированы по номерам разделов.


Во многих задачах используются наборы данных А и В, описанные в разд. 1.4.
Эти наборы данных можно получить у авторов книги. Если читатель захочет,
он может изменить условие задачи, выбрав случайное подмножество из этих
наборов.

Раздел 1 .7 (набор данных А)

1.7.1. Чтобы оценить степень готовности данных, проверьте совпадение


значений переменных 1Б, возраст,вес, пол, исход и тип шока в исходной (карта 1)
и конечной (карта 2) картах.
1.7.2. а) Постройте плотность распределения исходных значений для каж­
дой переменной. Какие непрерывные переменные выглядят симметричными
(для симметричных распределений среднее, медиана и мода совпадают)? Какие
распределения выглядяг асимметричными? У каких переменных бимодальное
распределение?
в) Попытайтесь «исправить» асимметричные переменные, такие, как сред­
нее венозное давление, еердечпый индекс, среднее время циркуляции, применив
логарифмирование или извлечение' квадратного корня. Используйте программы
построения пробит-графика или построения гистограмм, чтобы эмпирически оце­
нить, какое из преобразований лучше.
1 .7 .3 . Используя программы построения таблиц сопряженности признаков,
постройте таблицы для пар переменных: «пол» и «исход», «пол» и «тип шока»,
«тип шока» и «исход». Чему равны оценки вероятностей для комбинаций значе­
ний исхода и типа шока, исхода и пола, типа шока и пола? Не кажутся ли неко­
торые соотношения нео5ычными?
1 .7 .4 . Используя диаграмму рассеяния, сопоставьте сисголическое давление
с диастолическим (как но начальной, так и по конечной карте), а также систо­
лическое давление по начальной карте с систолическим давлением по конечной.
Можете л и вы обнаружить грубые ошибки, учитывая, что диастолическое давле­
ние всегда меньше систолического? Не видите ли вы какого-нибудь соотношения
между систолическим давлением в начале и в конце? А что можно сказать об соот­
ношении между этими двумя значениями давления в подвыборках, сгруппиро­
ванных п о исходу?
1.7.5 (набор данных В). Проверьте, отредактируйте и исследуйте этот набор
данных.
2
Э лем ентарны е статистические

в ы в о д ы

В этой главе мы обсудим использование пакетов программ для


оценки парам етров распределений и проверки гипотез. В разд.
2 .1 — 2 . 4 продолж им обсуж дение использования п р о г р а м м ы п о д ­
с ч е т а ч а с т о т для а н а л и за дискретных наблюдений и д е с к р и п т и в ­
н о й п р о г р а м м ы д л я ан ал и за одной или двух непрерывных пере­
менных, Д и с п е р с и о н н ы й а н а л и з , использующ ий дескриптивны е
программы с расслоением данны х, вводится в разд. 2.4, х 2-а н а л и з
с использованием программ перекрестного табулирования —
в разд. 2.5. Д о п о л н и тел ьн ы е и современные критерии перекрестной
классификации п р и в о д я т с я в разд. 2.6. Н аконец, р о б а с т н ы е
о ц е н к и положения описы ваю тся в разд. 2.7.

2 .1 . П р о г р а м м ы п о д с ч е т а ч а с т о т . А н а л и з д и с к р е т н ы х
перем енны х

В р азд . 1.7.1 п р о гр ам м а подсчета частот была введена к ак средство


проверки д и скр етн ы х переменных и устранения грубых ош ибок
и/или выбросов. В настоящ ем разделе обсудим статистические
выводы, которы е м ож но сделать о парам етрах исследуемого
распределения с помощ ью таблицы частот. Сначала будет р ас­
смотрен случай дихотом и ч ески х наблюдений, а затем — м ного­
значны х.

2.1.1. Анализ д и х о то м и ч еск и х наблюдений


В этом случае п о п у л я ц и я ^ представляется в виде объединения
двух иепересекаю щ ихся классов А и В . П усть р — доля инди ­
видуумов в п о п у л я ц и и , принадлеж ащ их классу А , а д = 1 — р —
доля индивидуум ов, принадлеж ащ их В . Следовательно, статисти­
ческие выводы о б этой популяции сводятся к исследованию пара-
3 А . А фифи, С. Э й з е н

/
66 Гл. 2. Элементарные статистические выводы

м етра р . Н а ш а цель — оценить р и научиться п роверять гипогезы


отн оси тельно р .
По в ы б о р ке объема п программа подсчета частот генерирует
следую щ ую таблицу:
Н азвани е переменной
К ласс Частота
А г
В п — г

Здесь г и ( п — г ) — соответственно частоты п оявлен ия классов


А и В . И з э т о й таблицы мож но получить для р следующую оценку
м акси м ал ьн о го правдоподобия (МП-оценку) р :
р= г /п . ( 2. 1. 1)
Отсюда М П -о ц ен ка д величины ^ имеет вид
ц = 1 — р = (я — г ) ! п . (2 . 1. 2)
Чтобы п р о вер и ть гипотезу Н 0 , состоящую в том, что р равно н еко­
торой ко н стан те р 0 против одно- или двусторонней альтернативной
гипотезы Н г , нужно вычислить / ’-значение с помощью биномиаль­
ного р асп р еделен и я Ьп (1 , р) = (1 — р )п~ ‘ (табл. 1, п рило­
ж ени е II).
В следую щ ей таблице приводятся формулы д л я Р -значения при
разн ы х альтерн ати вны х гипотезах. Если Р -зн ач ен и ем ен ьш е у р о в ­
ня зн ач и м о сти а , то гипотезу Н 0 отвергаем.
Нулевая Альтернативная
гипотеза гипотеза Р-значение

Но \ р ~ р 0 Я ,: р > р0 р = X М '.Р о )
*= Г

Н 1: р < р 0 Р = Т. М '.Р о )
1= 0

Н 1: р Ф р 0 Р = 2 пип ( £ Ь„(¡,Ро), Т.
\.= о

С л у ч ай н у ю величину X , имеющую биномиальное распределе­


ние, удобно зап и сать в виде
|1 , если индивидуум принадлежит А,
(2 . 1 .3)
[О, в противном случае.
Выборочные зн ач ен и я будем обозначать х ъ ..., х п , где х 1 равн о О
или 1, г = 1 , ..., п . Поэтому М П-оценкой п арам етра р яв л я е тся
р = х , где х — выборочное среднее, а 4 = 1 — х . Т акое п ред став­
ление п о зв о л я е т использовать центральную предельную теорему
2.1. Анализ дискретных переменных 67

для аппроксимации вы б орочного распределения х . В силу этой


теоремы при п оо вы б орочное распределение х стремится
к нормальному р асп ределен и ю N ( р , р (1 — р ) / п ) . Согласно
эмпирическому правилу, последнее приближение мож но исполь­
зовать, если п р (1 — р ) >> 9.
И спользуя н о р м ал ь н о е приближ ение, гипотезу Н 0 : р = р 0
можно проверить при помощ и статистики
5- — Р — Ро ( 2 1 4Л
° ~ [Ро (1 — Ро)/«]1/а ’ 1 }
Если верна гипотеза Н 0, т о статистика г0 распределена приблизи­
тельно к а к Л (0, 1) (см. т а б л . 2, приложение II). Сведем теперь
все данные в следующую т а б л и ц у :
Нулевая А лътернативная Р-значение
гипотеза гипотеза
Р > Ро Р Рг(г > г0)
5:
С

н =
с

Н , : Р < Ро Р = Рг(г < ха)


Н 1: Р Ф Ро Р 1Рг(2> | г 0 | )
=

Если Н у . р > Р о , то Р -з н а ч е н и е яв л яе тся площадью под функцией


плотности распределения N (0, 1) сп рава отто ч ки г0 (рис. 2.1.1, а);
если Н у . р < Р о , то Р — п л о щ ад ь слева от точки г0 (рис. 2.1.1, Ь );
если ж е Н у . р ф р 0, то Р — удвоенная площадь сп рава от точки
| г0 1 (рис. 2.1.1, с ) . Мы о тв ер гн ем Я 0, если Р < а .

Рис. 2.1.1. критические ооласти для гипотезы п 0: р = р 0 при ии 1илвоувапгт


нормальной аппроксимации биномиального распределения, а — альтернатива Ну.
р > Ро', Ь — альтернатива Ну-, р < р 0; с — альтернатива Ну. р ф Ро-
3*
68 Гл. 2. Элементарные статистические выводы

Н о р м а л ьн о е распределение можно использовать для п рибли ­


ж ен н о го вычисления 100(1 — а ) % -ного д о в е р и т е л ь н о г о и н т е р ­
в а л а д л я р . Таким образом, получил

р ± Zj_ (а/2) У р ( 1 — р)/П, (2.1.5)

где zi _JL есть ЮО ( l -----| " ) ' я процентиль распределения N (О, 1).

П рим ер 2 .1 .1 . П редп олагалось, что доля больных сколиозом


(и ск р и в л ен и е позвоночника) в популяции W подростков 12—
14 л е т закл ю ч ен а м еж ду 0.02 и 0.10. Так к ак это предположение
о сн овы вается н а предыдущих обследованиях, то ож идается, что
в р е зу л ь т а т е предстоящ его обследования эта доля окаж ется даж е
б о л ь ш е 10 % . Д л я проверки этого предполож ения в 1971— 1974 гг.
так о е обследование производилось в округе Лос-А ндж елес (Brooks
e t a l. (1975)). Пусть р — доля подростков, больных сколиозом.
Н адо проверить гипотезу И 0 : р = 0 . 1 против гипотезы Н г : р >
> 0 . 1 при уровне значимости а = 0.05. С начала был выполнен
п р ед вар и тел ьн ы й гест. После проверки первых 10 детей было
устан о вл ен о , что г = 3 детей больны сколиозом, т. е. р = 0.3 и
q = 0 .7 . Ч тобы определить, является ли отличие р от р = 0.1
значим ы м , было вычислено значение Р с помощью биномиального
р ас п р е д е л е н и я . И спользуя таб л. 1 п рилож ения II, получим
ю
р = Л Ь 10 (£, 0.1) = 0 .0 5 7 4 + 0.0112 + 0 .0 0 1 5 -Ь 0.0001 = 0.0702.
£= 3

Т а к к а к Р > а = 0 . 0 5 , то гипотеза Н 0 не отвергается. Однако,


эти р е зу л ь т а т ы не убедительны из-за малой величины выборки.
В сего было обследовано 3492 ребенка, и сколиоз был найден
у 474, так что р = 0.136. Д л я проверки Н п была использована
н о р м а л ь н а я аппроксим ация (2.1.4), которая дает
, = ( 0 .1 3 6 - 0.100) _ 7 nq
0 /0.100(0.900)/3492

И з т а б л . 2 п рилож ени я II следует, что Р < 0.001. Т ак к а к Р < а ,


то ги п о т е за Н 0 отвергается, и д о л я больных сколиозом долж на быть
зн а ч и т е л ь н о вы ш е. 95 %-ный доверительный интервал для этой
доли р а в е н

0.1 3 6 ± 1.96 У = (0.124, 0.147).

З ам ети м , что здесь нормальное приближ ение является хорошей


ап п р о к си м а ц и ей , так к а к п велико.
2.1. А нализ дискретных переменных 69

2.1.2. Анализ н аб лю д ен и й , принадлежащ их одному из к


классов
Б этом случае п о п у л я ц и я № разбивается на /г непересекающ ихся
классов, так что к а ж д ы й индивидуум из № принадлеж ит одному
и только одному кл ассу . Пусть /?г —
доля индивидуумов из У Р , принадлеж а­ Н азвание переменной
щих классу А 1, г = 1, ..., &, так что р х + К ласс Частота
+■ ... + Рк = 1. С тати сти чески е выводы о
популяции с в о д я т с я к изучению п ар а­ '1
метров Р \ , . . . , р к . h
По выборке о б ъ ем а п программа под­
счета частот г е н е р и р у е т таблицу ч а­
стот, в которой г с — частота класса А г
Здесь г х ... + г к = п . И з этой таблицы Гк
в качестве М П -оц ен ки р 1 д л я р,- получаем
р 1 = П /п , ¿ = 1 ......... k . (2 . 1. 6)
(0)
Д л я проверки ги п о те зы Н 0 : р х = р \ рк = Р к \ где p i0)—
зapaнeej известные величины , такие, что

5 > Г = 1 ,
¿=1
мы используем к р и т е р и й у}. Ожидаемые частоты ег,
при выполнении гипотезы Н 0 равны
е,- = п р \ 0 ), 1 = 1 ..........Л- (2.1.7)
Статистика к р и т е р и я %2 имеет вид
■ei)2 (2 . 1.8)
i=i
и при р асп р ед ел ен а приблизительно по %2 с v = k — 1 степе­
нями свободы. А л ь тер н ати вн ая гипотеза # i состоит в том, что
некоторые из р ав ен ств p i = р \ 0) не верны. P -значением здесь
является площ адь сп рава от точки %о под функцией плотности
распределения %2 (А — 1) (табл. 3, прилож ение II). Мы отвергаем
# 0, если Р < а .
Замечания 2 .1 .1 . 1. Е сли k = 2, то применение критерия %2
дает другой способ п роверки гипотезы Н 0 : р = р 0 против гипотезы
Н г \ р Ф р 0 по ср авн ен и ю с обсуждавшимся в разд. 2.1.1. В самом

деле, легко п о к а з а т ь , что в (2.1.8) есть квадрат г0 из (2.1.4).


2. Точность ап п р о к си м ац и и распределением %2 зависит от
объема выборки. К ритерий становится точным, когда каждое
е1 о о . П р акти ч ески достаточно, чтобьГвсе е,- ^ 5 или д аж е неко­
торые е ^ 2 , а о с т а л ь н ы е — не менее б (Maxwell (1961)).
70 Гл. 2. Элементарные статистические выводы

П рим ер 2.1.1 ( п р о д о л ж е н и е ) . Н а основе многих прошлых обсле­


дований п ред п ол агал ось, что среди детей, больных сколиозом,
в 6 раз б о л ь ш е девочек, чем м альчиков, т. е. р ” 5 = х/7, р ‘0) = 6J 7.
Эта г и п о т е за была проверена с помощью данных, полученных
в процессе скрининга (Brooks e t a l . (1975)). П опуляцией W теперь
будет м н о ж ество дегей, больных сколиозом. В вы борке из 474
детей, б о льн ы х сколиозом, было г х = 188 мальчиков и г г =
= 286 д ев о ч е к , так чго р г — 0.397 и р .2 = 0.603. Если Н 0 : р : = V7,
Pi = 1 7 , т о ожидаемые частоты суть е х = 474 (V7) = 67.7 и е г =
— 474(в/ 7) = 406.3. Поэтому
2 (188 - 6 7 . 7 ) » , (286 406.3)а
Л° 67.7 1 406.3 —

P -зн ач ен и е равно площади" под кривой плотности распределе­


ния %2 (1) сп рава от точки Хо = 249.4 и оно много меньше чем
0 ,001 . П о это м у гипогеза Н 0 об отношении 6 к 1 отвергается. Н а
основании этих данны х отношение больных девочек и мальчиков
со ставл яет 286 : 188 или 1.52 к 1.

2.2. Д е с к р и п т и в н ы е п р о гр ам м ы . А н али з н е п р е р ы в н ы х
перем енны х
В н асто я щ ем разделе обсудим часто используемые программы из
ПСП — т а к называемые «дескриптивные программы». Д л я любой
перем енной X — дискретной или непрерывной — дескриптивная
програм м а просм атривает множество из п наблюдений и вы числяет
табли цу ч а сто т, строит гистограмму и вы числяет такие выборочные
статистики, к ак среднее, медиану, дисперсию и т. д. По этой
и н ф о р м ац и и исследователь мож ет сделать некоторы е выводы
о п о п у л я ц и и . Н апример, он может проверить гипотезу о среднем
и д и с п е р с и и популяции, оценить ее процентили, проверить, не
я в л я е т ся л и распределение популяции нормальным и т. д. Т ак к а к
теори я э т о г о раздела относится, к ак правило, к случаю, когда X
н еп р ер ы вн о , то сделаем основной упор н а анализ непрерывных
н аблю ден и й.

2 .2 .1 . П рограм м ы вычисления гистограммы


К ак и в р а з д . 1.7.2, будем обозначать г-н интервал группировки
ч ер ез [с,-, с 1 + 1 ) , а число наблюдений в этом интервале обозначим
через Д, г = 1, ..., &. Напомним, что дескриптивная программа
служ и т, в ч астн ости , д л я л окали зац и и грубых ошибок и выбросов,
к ак это п о к азы в аю т следующие примеры. «з
Пример 2 . 2 .1 . Обычной техникой для измерения количества
(в л и тр ах ) к р о в и , перекачиваемой в минуту сердцем человека или
2.2. Анализ непрерывных переменных П

ж ивотного (п рои звод и тельность сердца 1)), является ¿метод разведе­


ния индикатора. При этом; методе известное количество красителя
или ради оакти вного и зо то п а вводится в локтевую ' вену и затем
определяется к о н ц е н т р а ц и я и нди катора в последовательны х вы­
борках артер и ал ьн ой к р о в и . В ремя до появления индикатора
в вы борках ар тер и ал ьн ой крови назы вается в р е м е н е м п о я в л е н и я .
Современные методы в ы ч и сл ен и я производительности сердца
можно найти во м ногих к у р с а х клинической физиологии (напри­
мер, W eil, S h u b i n (1967)).
Н ачальны е измерения времени появления X (в секундах) еде-
лани у п = 53 пациентов в критическом состоянии. Д ескриптивная
программа б ы л а и с п о л ь зо в а н а д л я построения соответствующей
гистограммы (рис. 2.2.1). Этот граф ик показы вает, что у = 5

30 -

25 - 24

20 -

15 _ у/ / , 14
У А V/.-'
V. >
10 /У / 8
777
5
5 ----- /У / / / А,
■ .'//V 1 1
п . г—п____________ 1___ I_______ I---;---1---:--- — х
“ О 5 10 15 20 2 5 30 35 4 0 45 50 55 60 65 70 75 80
В р е м я появления ( с )
Р и с.2.2.1. Гистограмма времени появления для 53 критически больных пациентов.

пациентов врем я появлен и я больш е или равно с у = 0 с, но меньше,


ч е м с 2 = 5 с, т. е. леж ит в и н тервал е [0,5). Аналогичным образом,
д л я / 2 = 24 пациентов и зм е р е н н а я величина леж ит в интервале
[5, 10), /3 = 14 — в [10, 15) и т. д. Заметим, что одно наблюдение
леж и т в и н те р ва л е [75, 8 0 ). Т а к к а к остальные наблю дения зак л ю ­
чены между 0 и 25, м о ж н о дум ать, что это грубая ош ибка. Д ействи­
тельно, п р о вер ка д ан н ы х п о к аза л а, что наблюдение х = 7 . 8 было
ошибочно пробито н а п е р ф о к а р т е к ак х = 78.

Зам ечан ия 2 .2 .1 . 1. П о этой гистограмме можно построить


гистограммы д ву х д р у г и х ти пов. В первой — г и с т о г р а м м е о т н о с и ­
т е л ь н ы х ч а с т о т ( н о р м и р о в а н н а я г и с т о г р а м м а ) — каж дое зам е­
няется на о т н о с и т е л ь н у ю ч а с т о т у р 1 — /,-/«, I = 1, ..., к , так что
5 3 Р , = 1. В д р у г о й — г и с т о г р а м м е ч а с т о т в п р о ц е н т а х ( п р о -
I
ц е н т н а я г и с т о г р а м м а ) — к аж д о е р 1 умнож ается на 100. П реим у­
ществом использования этих д ву х относительных ш кал явл яется
то, что они п озволяю т ср а в н и в а ть гистограммы, построенные на
1) В медицинской литературе принят термин «минутный объем». — П рим .
перев.
72 Гл. 2. Элементарные статистические выводы

о д н и х и тех ж е и нтервалах группировки, но для различны х выбо­


р ок и з той ж е популяции.
2. Д ругой гр аф и к — п о л и г о н ч а с т о т — можно получить из
л ю б о й гистограмм ы, соединяя средние точки верхних оснований
п р ям о у го л ь н и к о в гистограммы прямыми. .
3. Оценкой выборочной м о д ы с помощью гистограммы может
сл у ж и ть середин а интервала группировки с наибольш ей частотой.
Т ак если [сс , с,-+1) имеет наибольшую частоту /7, то выборочная
мода п р иб ли зительн о р ав н а (сг + с,-+1)/ 2 .

П рим ер 2 .2 .2 . Д р у го й клинической характери сти кой сердеч­


ной ф у н к ц и и с л у ж и т с е р д е ч н ы й и н д е к с X [л/(м ин-м 2) ], который

35.71 0.3571
о
31.25 I 0.3125
26.79 « 0.2679
1
22.32 ч 0.2232
1 17.86 § 0.1786
ч
13.39 | 0.1339
а
8.93 | 0.0893
4.46 <1 0.0446
О 0
2 3 4 5 6 7
Сердечный инЬекс, л/(минмг)
Рис. 2.2.2. Гистограммы сердечного индекса для 112 критически больных па­
циентов .
о п р ед ел яе тся к а к производительность сердца (л/мин), поделенная
н а п л о щ ад ь поверхности тела (м2).
С ердечны й индекс X Н а рис. 2.2.2 изображены три вида ги­
стограмм X д л я п = 112 пациентов в к р и ­
Интервал Чаете тическом состоянии. Таблица частот, по ко­
[0, 1) 10 торой построена гистограмма, приводится
слева. По-видимому, здесь нет грубых ош и­
и , 2) 40 бок,так к а к все д ан ны е л е к а т в обычном ди-
[2, 3) 25 апазонеизм еряем ой величины. Полигон ча­
[3, 4) 20 стот так ж е изображ ен на рис. 2.2.2. Вы­
борочной модой является х — 1.5.
[4, 5) 10
[5, 6) 5 Третье применение гистограммы —
построение э м п и р и ч е с к о ю р а с п р е д е л е н и я
[6, 7) 0 к а к оценки распределения популяции.
[7, 8) 2 Это мож но сделать прямо по гистограмме
2.2. А нализ непрерывных переменных 73

или п о н е н о р м и р о в а н н о й э м п и р и ч е с к о й ф у н к ц и и р а с п р е д е л е н и я ( Ф Р ) .
В разд. 2.2.2 м ы обсудим критерии согласия, основанные на
гистограмме или на эмпирической ФР. В настоящем разделе
опишем п остроен и е этой Ф Р, а такж е оценку процентилей истин­
ного р асп р ед елен и я.
Пусть
*
^1 = 0 , ^ 2 = /ъ ? 3 = /1 + /2..........^+1 = Е /«• ¿=1
Тогда — число индивидуумов, со значениями X менее —
называется н а к о п л е н н о й ч а с т о т о й в с,-, г — 1, ..., к . Н е н о р м и р о ­
ванной эм пирической Ф Р *) называется ломаная, соединяющ ая
точки (сь Т^), (с2) Р 2), (сА+1, РА+1) (рис. 2.2.3). Л ом аная,

Рис. 2.2.3. Ненормированная эмпирическая функция распределения величины


сердечного индекса д л я 112 критически больных пациентов.

проходящ ая ч ер ез точки (с ъ /У п ), (с2, /У«)> (с*+1, / ^ / л ) ,


назы вает ся норм ированной эм пирической Ф Р , ‘а если каж дое /У я
выражено в процентах — п р о ц е н т н о й н о р м и р о в а н н о й э м п и р и ­
В аж н о, что с помощью последней Ф Р можно получить
ческой Ф Р .
выборочные п р о ц е н т и л и и выборочные п р о ц е н т и л ь н ы е р а н г и .
Эти величины оп р ед ел яю тся следующим образом: <7-я процен-
тиль — это ч и сло х ч , менее которого принимают значения ^ %
выборки. О б р атн ая по смыслу величина — процентильный ранг

х) Иногда вместо ФР говорят «кумулятивной ФР», — Прим. перев.


74 Гл. 2. Элементарные статистические выводы

числа х — р а в н а проценту <7 части выборки, зн ачен ия в которой


меньше, чем х . Особый интерес имеет 50-я процентиль, назы ваемая
м е д и а н о й т , левее которой л еж и г половина наблюдений. И сп о л ь­
зую тся т а к ж е процентили 25 и 75, называемые соответственно 1-я
и 3-я к в а р т и л ь , и процентили 10, 20, ..., 90, назы ваемы е соответ­
ственно 1-я, 2-я, ..., 9-я д е ц и л ь . П ример 2.2.3 иллю стрирует, к а к
эти вел и ч и н ы можно найти по процентной нормированной эм пири­
ческой ФР.

Пример 2 .2 .2 (п р о д о л ж е н и е ). С помощью гистограммы на


рис. 2.2.2 л е г к о построить ненормированную эмпирическую Ф Р.
С оответствую щ ая лом аная проходит на рис. 2.2.3 через точки
(О, 0), (1, 10), (2, 50), (3, 75), (4, 95), (5, 105), (6 , 110), (7, 110),
(8 , 112). Н а этом ри сун ке приводятся такж е ш калы для нормиро­
ванны х н ако п л ен н ы х частот — относительная и процентная. Н а­
пример, у Г 2 = 10 пациентов (8.93 %) сердечный индекс менее 1,
у Р 3 = 50 пац иентов (44.64 %) — менее 2 и т . д.

Пример 2 .2 .3 . Д л я иллю страции вычисления процентилей и


проценти льны х рангов воспользуемся рис. 2.2.4, на котором

1 00

90 -
^ 80 -

1 70
о
§ 60 -
£ 50
40 /
Процентильный 30 ]
ране 2 “ 20 /
10 /)
• 0 ¿г 1 1 1 1
С 1 2 3 4 5 6 7
т 70-я процентиль
Рис. 2.2.4. Процентная нормированная эмпирическая функция распределения
для гипотетической выборки.

нанесена п р о ц ен тн ая гистограмма накопленны х частот некоторой


ги потетической выборки. Н апример, чтобы получить процен-
тиль х 70, н у ж н о из точки 70 вертикальной оси провести гори ­
зон тальную п р ям у ю до пересечения с гистограммой, а затем из
точки пересечен ия провести вертикальную прямую до пересечения
с го р и зо н тал ьн о й осью. А.бсцисса точки пересечения х70 = 4.4 и
будет п рибли ж ен ны м значением 70-й процентили. Чтобы получить
2.2. Анализ непрерывных переменных 75

процентильный р а н г ц д л я х = 2, нужно выполнить обратную


операцию, к а к э т о сделано на рис. 2.2.4. Тогда ордината ^ = 25
точки пересечения и будет процентильным рангом х = 2. Из
рисунка следует т а к ж е , что медиана т , т. е. 50-я процентиль, или
5-я дециль, р а в н а 3.3.

Четвертое п ри м ен ен и е гистограммы или таблицы частот —


оценка м ом ент ов популяции.Обычно дескриптивны е программы
вычисляю т вы борочны е статистики непосредственно по массивам
исходных д ан н ы х , в кл ю чая как меры центральной тенденции
распределения, т а к и меры его рассеяния. Н апример, дескриптив­
ные программы о б ы ч н о вычисляю т и выводят на печать хшах и
х Ш а — соответственно м аксим альны е и м и н и м а л ь н ы е значения
выборки, и ее р а з м а х , равный х т ах — х т 1п. Выводятся такж е
вы борочное ср ед н ее х , вы борочная дисперсия и вы борочное с т а н ­
дарт ное от клонение з, определяемые формулами

’ (2 -2 •1)

5 = + К * 2-

В некоторых п р ограм м ах по исходным данным вычисляется и


вы борочная м е д и а н а т , р авн ая ( п + 1)/ 2 -му по величине (начиная
с наименьшего) наблю ден и ю , если п нечетно, или среднему из п / 2
и ( п / 2 ) + 1 наблю дений, если п четно.
Если вы числение некоторы х из этих величин не предусмотрено
в программе о б р аб о тки гистограмм, то их можно оценить с по­
мощью таблицы частот, гистограммы или эмпирической ФР. Мы
у ж е видели, как оценить моду с помощью гистограммы, а медиану
и другие п роценти ли — с помощью эмпирической ФР. П р и б л и ­
ж е н н о е з н а ч е н и е в ы б о р о ч н о г о с р е д н е г о вы числяется по гистограмме
или таблице ч асто т по формуле

( 2 . 2 . 2)

где с ; = (с/ -Ь с£+1)/2 есть середина г-го интервала, / = 1, ..., к ,


а п р и б л и ж е н н о е з н а ч е н и е в ы б о р о ч н о й д и с п е р с и и — по формуле

(2.2.3)
76 Гл. 2. Элементарные статистические выводы

Вообще приближ енны м значением ¡-го н а ч а л ь н о г о м о м е н т а служ ит


1 к
т 1 = -7 Г % Ы ^ /, (2.2.4)
п ¿=1
а ¡-го ц е н т р а л ь н о г о м о м е н т а —
1 *
= — Ц А (с,- - х / .
Щ (2 .2 .5)
” <=1
В следую щ ем замечании обсуждаю тся некоторые дополнитель­
ные в ел и чи н ы , полученные из дескриптивны х программ.

З а м е ч а н и я 2, 2 . 2 . 1. В ели чи на х/х н азы вается к о э ф ф и ц и е н т о м


вариации и служ ит для измерения стандартного отклонения
в д о л я х средн его значеяия.
2 . П р ео б р азо ван и е г = ( х — х ) Ь преобразует случайную вел и ­
чину X в безразм ерную с т а н д а р т и з о в а н н у ю с л у ч а й н у ю в е л и ч и н у
Z . Г и стограм м ы нескольких стандартизованных случайны х вел и ­
чин мож но ср авн и вать, если у них у всех одинаковые интервалы
гр у п п и р о вки . Построение гистограммы Z может потребовать двух
циклов обработки массивов данных: в о время первого вычисляю тся
х и в, а во вр ем я второго X преобразуется ъ Z к строится гисто­
грамма 1 .
3. П р ео б р азо ван и е переменных п озвол яет получить и другие
полезные статистики, которые можно вычислить к ак выборочные
средние от п реобразован ны х наблюдаемых значений. В следующей
таблице п р и в о д ятся эти преобразования и н азвания соответствую ­
щих вы борочны х средних.

П реобразо­
вание Выборочное среднее

1/х Среднее гармоническое


■ log X log среднего геометрического
х1 i -й начальный момент
(х—х )1 i -й центральный момент
1 х —х I Среднее абсолютное отклонение

4. Д в у м я другим и мерами д л я описания распределений сл у ж а т


коэф ф ициент асим м ет рии

01 = и 3/(о 2)3/2
и коэф ф ициент эксцесса

Р-2= Р4/(о2)2,
где ¡лi есть ¿ - й центральный момент в популяции. Если плотность
р асп р ед ел ен и я симметрична, то = 0. Если плотность имеет
2.2. А нализ непрерывных переменных 77

длинный «правый хвост», то > 0, а если длинный «левый хвост»,


то Рх < 0. Д л я норм ального распределения |32 равно 3. Если
ж е распределени е сконцентрировано вокруг среднего больше,
чем норм альное, то р 2 < 3, а если меньше — то Р2 > 3.
5. П роби т-граф и к, описанный в разд. 1.7.3, мож ет быть полу­
чен из эм пирической Ф Р. К ак там указы валось, аргум ент эмпири­
ческой Ф Р н ан оси тся на горизонтальную ось, а нормальной — на
вертикальную . З н ач ен и я аргумента нормального распределения
получаю тся путем вы числения Ф “1 (/У п) = г,-, / = 1, ..., & + 1,
где Ф -1 — о б р атн ая ф ункция для стандартной нормальной ФР,
так что Ф (г;) = / у « — накопленны е доли частот в точках с ь
= 1, ..., к + 1 (см. пример на рис. 1.7.5).

2 . 2 . 2 . Согласие

К ак у казы вал о сь в предыдущем разделе, гистограмму или эм пири­


ческую Ф Р м ож но использовать для оценки распределения случай ­
ной величины X . В этом разделе мы изучим две статистики, кото­
рые мож но и сп о л ьзо вать для проверки гипотезы о том, что наблю ­
дения распределены в соответствии с некоторой теоретической ФР
^ 0 (х). Т ак как при стандартной проверке гипотез относительно р
и а 2 предполагается, что X имеет нормальное распределение, то мы
рассмотрим именно этот случай.
1. К р и т е р и й с о г л а с и я %2. Д опустим, что мы имеем случайную
вы борку объема п и вы брали ^ интервалов группировки [сь с2),
[с2, с 3) , ..., [ск , с к+ 1) , где с г = — оо и с к+1 = + о о . П усть Д-—
наблю даемая ч асто та в интервале [е£, с£+1), а
Т7; = п Рг (с£ < х < си 1 ) = п (/•’о (с/+1) — ^ (с,)] (2.2.6)

— ож идаем ая ч асто та в этом интервале, г = 1, ..., й. Тогда если


верна гипотеза Н 0 \ Р ( х ) = ( х ) , то статистику

Х о = 2 ( ^ - / , № (2.2.7)
£=1

при большом п м ож но аппроксимировать с помощью распределе­


ния х 2 с
V = &— 1 — т (2 .2 . 8 )

степенями свободы. Здесь величина т равна числу независимых


параметров гипотетического распределения, которые оцениваю тся
по выборке. Р -зн ач ен и ем -явл яется площадь области под функцией
плотности р асп р еделен и я %а (V) справа от точки (табл. 3, прило­
ж ение II). Е сл и Р < а , то мы отвергаем Я 0 и принимаем гипотезу
Ну. (х ) ф /'о ( х ) .
78 Гл. 2. Элементарные статистические выводы

Е сли Ф Р гипотетического распределения яв л яется N (/х, ст2), то


F t = n [ Ф _ ф (E L z if) ] , (2.2.9)

где Ф (х) — стан д артн ая нормальная ФР. Т ак к а к р и а обычно


неизвестны, м ы получаем их оценки х и s по рассматриваемой
вы борке и подставляем их в (2.2.9). Следовательно, в (2.2.8)
m = 2 и v - k — 3. Точность приближ ения возрастает с ростом
F i . С ледовательно, интервалы группировки надо выбирать так,
чтобы F i были «не очень малы», т. е. чтобы при любом i = 1........k
вы полнялось Эхмпирическое условие F t ^ 5. Опыт показы вает, что
ап п рокси м аци я может оставаться удовлетворительной д аж е при
F t 5 г 2 д л я некоторы х ( и ^ 5 — д л я остальны х г.
2. К р и т е р и й К о л м о г о р о в а . — С м и р н о в а ( К — С). Пусть имеется п
наблю дений х ъ ..., х п . У порядочим их по возрастанию , обозначим
г-е по вел и чи н е значение выборки через х ( о , г = 1, ..., п , и по­
строим следую щ ую эмпирическую Ф Р F (х ):

0, — °о < х < л : (1),

F { x )= i/n , x { i)^ x < x { t+ 1 ), i = 1, . . . , л - 1, (2 .2 . 10)

1, X (n ) ^ oo.
Заметим, ч т о эта Ф Р имеет скачок величины 1¡ п в каждой
точке с абсциссой x h в то время к а к введенная в разд. 2.2.1 Ф Р
имеет скач ки р азл и чн ой величины на каждом интервале груп пи ­
ровки. С татистикой кри тери я явл яется

D = max \F (x ) — F 0 (л) |. (2.2.11)


X

Гипотеза Н 0 : F ( х ) = F 0 ( х ) отвергается, если P -значение, соответ­


ствую щее D , меньш е а . P -значения для п с 100 и приближ енны е
формулы д л я вы числения Р при п > 100 содерж атся в табл. 4
п рилож ения I I .

Зам еч ан и я 2 .2 .3 . 1. Н екоторы е пакеты программ вычисляю т


статистику D критерия К —С и соотвегствующее Р -зн ачен ие,
например, подпрограм м а K 0 L M 0 пакета IB M SSP. В этой под­
программе D вы чи сляется по формуле
D = max \ f { x U)) — F 0 (л( О )

несколько отличной от формулы (2.2.11), а Р -зн ачен ия вы числя­


ются по у к а зан н о й приближ енной формуле в табл. 4 прилож ения II.
2. Чтобы вы брать один из двух критериев, необходимо зн ать
мощность каж д о го из них. Т ак к а к распределение при ал ьтерн а­
тивной ги п о тезе обычно неизвестно, то определить мощ ность точно
2.2. А нализ непрерывных переменных 79

невозможно (M assey (1 9 5 1 ), К ас e t a l . (1955)). Сравнение мощности


двух критериев п о к а за л о , ч то д л я н екоторы х альтернатив критерий
К— С имеет б о льш у ю м о щ н о сть, чем %2. В частности, критерий
К—С явл яется б о л е е м ощ н ы м , чем х 2> ПРИ п роверке на норм аль­
ность, когда (.1 и ста о ц е н и в а ю тс я п осредством х и s2.
3. В случае к о г д а пар ам етры о ц ен и в аю тся по выборке, Я -зна-
чения д л я к р и т е р и я К —С не точны (L illiefo rs (1967)).
4. Н екоторы е п р о г р а м м ы , н ап р и м ер B M D P2D , вы водят на
печать коэф ф ициенты аси м м етр и и и эксц есса, определенные
в замечании 2 . 2 . 2 .4 в м е с т е с их стандартны м и отклонениями
se (bj) и se ( b 2 ). В п о сл ед н ем случае э т и статистики можно и сп о л ь ­
зовать для п р о в е р к и д в у х нулевы х ги п о те з, а именно # 0: Pi = О
и Я 0 : р 2 — 3 = 0. А си м п то ти ч е ск и к а ж д а я из статистик z 0 =
= b j s e ( b , ) и z 0 = ( b 2 — 3)/se (b .2) расп ределен а no N ( 0, 1).
P -значения м о ж н о п о л у ч и т ь из т а б л . 2 прилож ени я II. Эти два
критерия можно и с п о л ь з о в а т ь совм естн о д л я проверки гипотезы
о нормальности.
Пример 2.2.2 { п р о д о л ж е н и е ) . Д л я п роверки нулевой гипотезы
о том, что дан ны е о се р д е ч н о м и н д ек се в прим ере 2 .2.2 выбраны из
совокупности с н о р м а л ь н ы м р асп р ед ел ен и ем , были использованы
оба вы ш еуп ом ян уты х к р и т е р и я с о г л а с и я (%2 и К —С) при а — 0.05.
Т аи как ц и о 2 н е и з в е с т н ы , мы за м е н и м их выборочными оценками
х = 2.45 и sa = 1.74. П у с т ь X — сер д еч н ы й индекс. Тогда н уле­
вую гипотезу м о ж н о з а п и с а т ь в в и д е Н 0 : X ~ N (2.45, 1.74),
а альтернативу — в виде Л г : X ^ N (2.45, 1.74). Д л я кри тери я %2
используем и н т е р в а л ы г р у п п и р о в к и из таб л . 2.2.1. Зам етим , что
Т абл и ц а 2 .2 .1
Таблица наблюдаемых и ожидаемых частот
сердечного индекса для 112 критически больных
пациентов

Ца/ЗлюЪ. ОтиЪ.
Интервал частота частота
группировки Г F, F,

[ — оо, 0.5) 1 7.85 5.98


[0.5, 1.0) 9 7.38 0.36
[1.0, 1.5) 23 1 1 .2 0 12.43
[1.5, 2.0) 17 14.67 0.37
[2.0, 2.5) 13 16.58 0.77
[2.5, 3.0) 12 16.46 1 .2 1

[3.0, 3.5) Ш 14.00 1.14


[3.5, 4.0) 9 10.42 0.19
[4.0, 4.5) 9 6.61 0 .8 6
[4.5, 5.0) 3 3.81 0.17
[5.0, оо) _ 6 3.02 2.94
80 Гл. 2. Элементарные статистические выводы

ш и р и н а в с е х интервалов группировки, кроме первого и послед­


н е г о , равна 0 .5 . Границы первого я последнего интервалов были
вы бр аны т а к , что ожидаемая частота в каждом из них не менее
р екош ендовэнн ого значения 2.0. Вычисляя
2 _ ( 7 . 8 5 - 1)2 (7.38 - 9)г . , (3.02 — 6)2
У-° 7.85 7.38 1 1 3.02

п о л уч и м %о = 26.4 с v = 11 — 3 = 8 степенями свободы. Т ак как


Р < 0.001, м ы должны отвергнуть If0.
Д .л я вы числения статистики D критерия К — С по исходным
дан н ы м бы ла использована программа из ПСП. О казалось, что
D = 0.161. Т а к к а к 95-я процентиль асимптотического распреде­
л е н и я D р а в н а 1.36 /у 112 = 0.129 < 0 . 1 6 1 (табл. 4, приложение
II), то Р < 0.05. Поэтому мы также отвергаем Н 0.

2 . 2 . 3 . Проверка гипотез и доверительные интервалы


для р и ff2
В э т о м р а зд е л е мы обсудим стандартные критерии для проверки
ги п о те з о среднем р и дисперсии о 2 в популяции. К а к уж е у к а з ы ­
в а л о с ь в р а з д . 2 . 2 . 2 , эти критерии основаны на предположении
о н о р м а л ь н о ст и соответствующ их распределений. Поэтому для
о б о и х кр итериев мы предположим, что xL, ..., х„ является с л у ­
ч а й н о й вы боркой из популяции с функцией распределения
N ( р , ff2). Д л я проверки гипотезы о том, что среднее р равняется
н е к о т о р о й кон стан те р„, т . е. Н0: ¡л. = р0, мы воспользуемся
г-к р и тер и ем , если о 2 известно (или а 2 неизвестно, но п велико), и
i -к ри тер и ем , если а 2 неизвестно (г-критерий обсуждается в разд. 1.5,
п р и л ож ен и е I). Статистикой ¿-критерия служ ит

*„ = у 'п , (2 .2 . 12 )

им ею щ ая при выполнении гипотезы Л 0 ¿-распределение Стьюдента


с v = п — 1 степенями свободы (табл. 5, приложение II). Р-значе-
ния з ави ся т о т альтернативной гипотезы и выписаны в приводимой
н и ж е табли це (см. такж е изображение критических областей на
гр а ф и к а х р и с . 2.2.5)

Н улевая Альтернативная Р-значение


гипотеза гипотезе

/У0: ц = Но, о* неизвестно Иг- М > Vо P = P r ( , ( v ) > t о) .


Иг- V < Ро Р = Pr( t ( v) < Г0)
H r. V Ф Vo P = 2 P r ( t ( v ) > |f0|)

Н ап р и м ер , е с л и альтернативная гипотеза является односторонней


и и м е е т вид Н х\ р > р0, то Р-значение равно площади под ф ун к ­
2.2. А нализ непрерывных переменных 81

цией плотности ¿ (V) справа от ¿„. Гипотеза Н0 отвергается, если


Я < а.
¿-критерий и сп о л ьзуется , когда р 0 является известным или
предполагаемым средним для данной популяции и мы хотим
проверить, отлично ли среднее р. рассматриваемой популяции от
И-о, т . е. ¡.I > р0 или р < р,0 или и Ф р 0 (¿-критерий используется
такж е в парны х выборках или методике измерений «до и после
воздействия», опи сан ны х в разд. 2.3.1).

Рис. 2.2.5. Критические области для гипотезы Н0: р = р0 для неизвестной дис­
персии и3, а — альтернатива Ну. р, > |х0; Ь — альтернатива Ну. [г < р0; с — аль­
тернатива Ну. ц Ф р0.
И нтервальной оценкой для р служ ит 100 (1 — а) %-ный
доверительный интервал
(х — ¿х_(а/2)(« — 1 )-^ = , X + ¿!_(а/2) (« — 1) | , (2.2.13)

где ¿1 _ а (п — 1 ) есть 100 (1 — (а/ 2 ))-я процентиль ¿-распределения

Стьюдента с V = п — 1 степенями свободы (табл. 5, приложение


II). Этот интервал можно использовать для проверки гипотезы
р. = р 0 против гипотезы Ну. р Ф р„. Мы отвергаем Н 0 с уровнем
значимости а, е с л и р 0 леж ит вне доверительного интервала.
Известно, ч то ¿-критерий является робастным, т. е. он н ечувст­
вителен к умеренным отклонениям от предположения о норм аль­
82 Гл. 2. Элеменгарные статистические выводы

ности, если вы борка случайна. Напротив, критерий %2 для п р о­


верки гипотезы о том, что дисперсия сг2 равна заданной величине
Сто (Н0: а 2 = 05 ), очень чувствителен к отклонениям от предполо­
жения о нормальности. Соответствую щ ая статистика
* 2 -= ф - 1>*2:/0§ (2-2.14)
имеет при гипотезе Я 0 распределение %2 с V = п — ■1 степенями
свободы (табл. 3, приложение II).
Р-значение зависит от альтернативной гипотезы и приводится
в следующей таблице (см. такж е изображения критических облас­
тей н а г р а ф и к а х рис. 2 .2 .6).

Н улевая Альт ернат ивная р -з и а ч е н и е


гипот еза гипот еза

Н 0: а2 = сг0 2 Я , : а 2 > а 02 Р = P r ( x 2(v) > Х о 2)


Н, о2 < о„2 Р = P r ( x2<.v)<Xo2)
H ¡: о2 t o¿ Р = 2 m i n [ / V ( * 2 ( v ) с Ха)< / V ( / 2 ( v ) > * о 2 ) ]

Н апример, д л я альтернативы Н х. а 2 Ф а 2 Р-значение равно удвоен­


ной величине площади наименьшей из д вух областей, расположен-

Рис. 2.2.6. Критические области для гипотезы Н0: а2 = а§ показаны на графи­


ках плотности распределения ’( } ( п — 1). а — альтернатива Нх. сг2 >ст§; 6 —
альтернатива Н±. о2 < 0g; с — альтернатива Н х. а 2 Ф о§.
2.2. Анализ непрерывных переменных 83

ных справа и слева от точки %2 п о д функцией плотности %2 ( V ) .


Гипотеза Н0 о твер гается , если Р < а .
Этот критерий и сп о л ь з уе т ся , есл и дисперсия а2
0 данной поп уля­
ции известна, а для р ассм атр и ваем о й популяции мы хотим п ро­
верить гипотезу о том, со в п а д а е т л и ее дисперсия ст2 с ст2. Т ак как
этот критерий так ч увств и тел ен к предполож ению о нормальности,
мы рекомендуем у п о т р е б л я т ь его с осторож ностью . Д р уги е крите
рии для х 2 и ссылки с м . в работе № т е п у 1 (1969).
100 (1 — а) %-ным доверит ельны м интервалом для а 2 является
(я— 1)з2 ^ д2 ^ (я —0 ^ (2.2.15)
X?— « х / 2 > < « - >) ' х 1 /2 ( « - ! )

Пример 2.2.2 ( продолж ение ). В этом примере случайной вели­


чиной X является сердечны й и н декс [л/(мин-м2) ]. Известно, что
в популяции здоровых и н д и ви д уум ов среднее значение ¡х0 сердеч­
ного индекса равно 3.5 1л/(мин ■ м2) 1. Т а к как у многих критически
больных пациентов к р о в о о б р ащ е н и е замедлено, то интересно
проверить, действительно ли ср едн ее значение |л* сердечного
индекса для п о п ул я ц и и критически больных меньше чем 3.5.
Поэтому проверим ги п о т е з у Н и: \лх = 3.5 против односторонней
альтернативы Н х: р., < < ;3.5 с уро вн ем а = 0.05. Статистиками
выборки хъ ..., х п2 б у д у т х = 2 .4 5 и в* = 1.32, а значением t —
, (2.45 — 3.50) V 112
8.42.
1.32

Так как Р < 0 .0 0 1 , то Н 0 отвер гается .


95%-ным доверительны м интервалом для среднего значения
\1 Х сердечною ин декса является
2.45 -+- '- 96Д 32). — (2.20, 2.70).
V 112 ' ’
Следовательно, с вер о я тн о стью 0.95 этот интервал содержит
истинное среднее зн а ч ен и е сер д еч н о го индекса критически
больных пациентов.
Асимметрия гистограм м ы на р и с . 2.2.2 позволяет предполо­
ж ить, что выборка прои зведена и з популяции с логнормальным
распределением. П о э т о м у было произведено преобразование у =
= \^ х , а ги стограм м а преобразован ны х данных показана на
рис. 2.2.7. Ба гр а ф и к е показаны так ж е ожидаемые частоты для
интервалов гр уп п и р овки , вы численны е с помощью среднего у =
= 0.335 и стан дар тн ого отклонен ия Эу = 0.261 преобразованных
данных. Данные н е п л о х о опи сы ваю тся нормальным распределе­
нием, плотность к о т о р о го и зобр аж ен а пунктирной кривой. Д е й ­
ствительно, стати сти к а %2, вы численная по 7 интервалам группи­
84 Гл. 2. Элементарные статистические выводы

ровки, имеет незначащее значение %о = 2.30 с = 7 — 3= 4


степеням и свободы. Найдя подходящее преобразование, мы можем
п р о вер и ть гипотезу о среднем и дисперсии популяции и построить
доверительны й интервал для этих параметров.

а
Б
о

о
5

1д с ер д е ч н о го и н Ь е к с а

Рис. 2.2.7. Гистограмма величины десятичного логарифма сердечного индекса


для 112 критически больных пациентов. Ожидаемые частоты указаны в скобках.

М о ж н о показать, что ц.^ и ¡г* связаны соотношением \х,у


— — 1-15а \. Так как хорошея оценкой Оу является
0 .0 6 В , то за гипотезу Н0 о величине естественно пр инять Н„:
Ру ~ 3.5 — 1.15-0.068 = 0.466. Так как выборочными ста ти ­
стиками: являются у = 0.335 и зу = 0.261, то £ принимает значение
(0.335 — 0.466) КТТ2
и 0.261
= — 5.31.

С л е д о в а те л ь н о , Н9 снова отвергается с Р < 0 .0 0 1 .


Д л я проверки гипотезы о дисперсии целесообразно исполь­
зовать преобразован ную переменную У , поскольку распределение
У б л и ж е к нормальному, чем распределение X . Предыдущие
эксп ер и м ен ты со здоровыми пациентами показали, что ау = 0.3.
П р о в е р и м гипотезу о том, что пациенты в рассматриваемой выборке
п р и н а д л е ж ат популяции с той ж е дисперсией, т. е. Н 0: а \ = 0.09.
П о с к о л ь к у здесь нет логических оснований для односторонней
а л ь те р н а ти вы , примем, что Нх\ а \ Ф 0.09. Значением х 2 будет
2 111 (0.261)2
Хо = 1----------------
0.09 = 84.0

= 1 1 1 степенями свободы. Так как Р я« 0.20, мы принимаем # „


2.3. Анализ двух непрерывных случайных величин 85

Заметим, что о2у = 0.09 лежит в 95 %-ном доверительном


интервале

что также означает принятие Нп при уровне значимости а = 0.05.

2 .3 . Д еск р и п ти в н ы е програм м ы с расслоен ием д ан н ы х.


А нализ д в у х н е п р е р ы в н ы х сл у ч ай н ы х величин

В настоящем р азд ел е обсудим использование дескриптивных


программ анализа данны х о д вух непрерывных случайных величи­
н ах. Рассмотрим с н а ч а л а случай, когда две различные случайные
величины и Х 2 определены на одной и той ж е популяции 47,
так что можно исследовать ковариацию и корреляцию между
величинами и Х 2. Случайная выборка из популяции состоит
из п пар наблюдений, причем каждая пара наблюдений получена
путем измерений н а одном и том же индивидууме выборки. Затем
обсудим, каким образом дескриптивная программа печатает
гистограмму и вы борочны е статистики для каждого Х 1 и как
вычисляются и печ атаю тся оценки ковариации и корреляции
в рассматриваемой популяции. Д алее, если Х х и Х 2 можно ср авн и ­
вать, т. е. если они измеряют одинаковые или однотипные х а р а к т е ­
ристики, можем ср а в н и т ь средние значения величин Х г и Х 2,
используя парный /-крит ерий.
После этого обсуди м случай, когда одна и та ж е случайная
величина X определена на двух различных популяциях УУ1 и 472.
Эти популяции м ож н о рассматривать как подпопуляции или
слои (страты ) из более широкой популяции 47. В этом случае
производятся две независимые случайные выборки — по одной из
каждой популяции. Опишем, как можно использовать дескриптив­
ную программу с расслоением данных для построения гистограмм
как Х ь так и Х а , а так ж е обсудим использование выборочных
статистик для проверки гипотезы о равенстве средних для А-! и Х 2,
Д л я этого нам потребую тся двухвыборочный критерий и 1-крите­
рий Уэлча.

2 .3.1. Одна популяция. Две случайные величины


В этой ситуации у нас есть две случайные величины Х х и Х 2,
определенные на одной и той ж е популяции 47. П усть ,и£ и о] —
среднее и дисперсия величины X,-, а Оц = а и — ковариация
между Х 1 и X /', / = 1 , 2 (разд. 1.6, приложение I). Заметим, что
86 Гл. 2. Элеменгарные статистические выводы

оц = о}, I = 1,2. Коэффициент корреляции р£/- между Х £- и X,-


по определению равен

Р«7 = ^ 7 . ¿ ,/ = 1 , 2 . (2.3.1)

Заметим, что рц = р 22 = 1 и что — 1 с р12 = р2х < 1. В разд. 3.1


будет показано, что коэффициент корреляции р 12 есть мера линей­
ной связи м еж ду Х х и Х 2 — чем ближе | р121 к 1, тем больше степень
линейной связи, а чем ближе р 12 к 0 , тем меньше степень линейной
связи.
Из популяции № производим случайную выборку объема п
и наблюдаем Х х и Х 2 у каждого индивидуума в выборке. Резуль-
Индивидуум Данные таты наблюдений ооозначим Хц, ...,
и х 21, ..., х2 ., так что х1к есть й-е на-
1 хи , хп блюдение случайной величины Хь
2 х12, х22 1 = 1 ,2 , к = 1, ...., п. Результаты н а
блюдений запишем в виде таблицы.
' Обрабатывая эти данные при помощи
дескриитивной программы из П СП, по-
п х х лучим гистограмму для наблюдений
' 1л» ' 2п ..........и ГИСТОГр а м м ;у дЛЯ х 21<
х 22, ..., х2п. К ром е того, мы получим МП-оценки параметров
распределения. Т ак, для / , / = 1 , 2 МП-оценками параметров
Цч, ст|, ст,-/ и р(/ служ ат соответственно

— И
п к.=\

*? = — I.
к= 1

^1/ _ | {Хц! Х[.) (Х-к ■*/.)»


“ 1 к= 1

(2 -3-2)

(Точка вм есто второго индекса у хе. означает, что по этому индексу


произведено осреднение.)
В ы борочны е дисперсии, коэффициенты ковариации и корреля­
ции обычно представляю тся в матричной форме и печатаются в виде
5ц = 5| 512
ковариационная матрица
>21 ^22 — 5г.
1 Гц
корреляционная матрица
% 1
2.3. Анализ двух непрерывных случайных величин 87

Т а к как обе матрицы симметричны, иногда печатаются только их


диагональные и наддиагональны е элементы.
Анализу ковариационны х матриц посвящены разд. 5.6 и 5 .7,
а корреляционных — р а з д . 3 .1. Напомним теперь читателю, что
каждую гистограмму м ож н о использовать для а) локализации
грубых ошибок; Ь) локализац ии выбросов; с) построения эмпири­
ческих распределений; с!) вычисления выборочных статистик;
е) эмпирического преобразования данных к нормальному р асп р е­
делению и проверки гипотез относительно [х,- и сг?, г = 1 ,2 , как
это было описано выше. Д алее, если Х г и Х 2 сравнимы, т. е. имеют
одинаковые разм ерности, то можно проверить гипотезу относи­
тельно ¡1 ! -— ¡1 2. П р еж д е чем сделать это, рассмотрим следующий
пример.

Пример 2 .3 .1 . В э то м примере популяция № состоит из


критически больных п аци ентов с циркуляторным шоком. Бы ла
проведена выборка объем а п 108 пациентов и у каждого из них
измерялось Хг — вен озн ое pH и Х 2 — артериальное pH . Д е с к р и п ­
тивная программа стр о и т гистограммы для Х х и для Х 2, вычисляет
выборочные статистики х х = 7.373 и х 2 = 7.4 13, = 0.1253 и
= 0.1184, я12 = 0.11 01. Ковариационная и корреляционная
матрицы соответственно имеют вид
о
0
О)
01
CO

~0.1253 0 .1 1 0 1 ' ■1.0000


и
0 .110 1 0 .118 4 . 0.9039 1 .0000 _

В соответствии с теор и ей , здесь s12 = s21, r 12 = r21, sn = s2, s22 =


= s\. М ожно проверить такж е, что r12 = s 12/s1s2. Большое значение
ri2 = 0.9039 сви д етел ьствует о наличии сильной линейной зависи­
мости между Х г и Х 2 , что и следовало ожидать. Дальнейш ие
пояснения к этому пр и м ер у приводятся в гл. 3.
Б медицине и звестн о, что для здоровых людей среднее венозное
/?Н меньше, чем ар тер и ал ьн ое. Поэтому целесообразно проверить
эту гипотезу для п оп ул яц и и больных пациентов.

Вообще, если Х г и Х %— сравнимые измерения для одного и


того ж е индивидуума, то гипотеза Н 0: — р 2 = б, где 6 — -
постоянная, может б ы ть проверена с помощью парного t-критерия,
называемого такж е t -крит ерием для связанных выборок. Статисти­
кой критерия служ ит
to = (2.3.3)

где

d = -*J. — Х-2-, == SJ —(—s | — 2S\S-2r \2 — S1 ~T S2 —


88 Гл. 2. Элеменгарные статистические выводы

При вы полнении гипотезы Н 0 статистика /0 имеет /-распределение


С тью дента с V = п — 1 степенями свободы. Р-значения зависят от
альтернати вной гипотезы и приводятся в следующей таблице:

Н ул ева я Альтер нативная Р-значение


ги п от еза гипотеза

Н а /¿1 ~ М2 = <5 Иг' 0 1 - Иг > 9 Р = Р г (1(у) > 1 0 )


Я ,: /х1 - цг < 5 Р = Р г О ( у ) < 1 0) '
Д .: 01 - 02 Ф 9 Р = 2 Р г ( ф ) > |/0|)

Е с л и в дескриптивной программе пакета не предусмотрен


вывод н а печать ковариационной или корреляционной матриц, то
¿-стати стика может быть вычислена посредством преобразования
О = Х х — Х 2. Тогда выборочными статистиками для наблюдений
= ХЫ — * 2¿У I — 1. я, и б у д у т искомые й и в|. В этом смысле
парный /-критерий совпадает с /-критерием для выборки, состоя ­
щей из разностей с1и г = 1, ..., п.

Пример 2 .3 .1 (продолжение). Проверим гипотезу: = среднее


вен озн ое p H меньше, чем = среднее артериальное pH , т. е.
Я 0: — ¡д.2 = 0 н Я х: ¡.ц — М-г <! О- Из (2.3.3) следует, что

/ = ( 7 .3 7 3 — 7 .4 1 3 ) Т /"Г 0 8 __________ ____ 9 у ,


^ 0 .1 2 5 3 + 0.1184 — 2(0.1101) _

с V = 108 — 1 = 107 степенями свободы, Так как Р-значение


менее 0.005, мы отвергаем Н п, что и следовало ожидать на осн ова­
нии м едицинских фактов. Разбор этого примера будет продолжен
в разд. 3 .1.

Зам ечание 2 .3 .1 . Пары наблюдаемых значений могут возникать


тремя способам и. Во-первых, можно делать два измерения у к а ж ­
дого индивидуум а: например, Х х — длина правой руки, Х 2 —
длина л е в о й руки. Во-вторых, можно измерять у каж дого инди­
в и д у у м а одну и ту ж е.характеристи ку до и после лечения: нап ри­
мер, производительность сердца до и после приема лекарств.
В -т р е ть и х , можно измерять одну и т у ж е случайную величину
в п а р н о й выборке, т . е. у пар индивидуумов, выбранных из-за их
с х о д с т в а по отношению к цели измерений. Этим достигается
возм ож н ость контроля над внешними, факторами и увеличение
чувстви тельн ости эксперимента. (Лечение между членами пары
долж но распределяться случайно.)
2.3. Анализ двух непрерывных случайных величин 89

2 .3 .2 . Две популяции. Одна случайная величина

Рассмотрим случай, когда данные относятся к одной непрерывной


случайной величине А , определенной на популяциях № 1 и №г.
Эти две популяции можно рассматривать как подпопуляции или
слои из более ш ирокой популяции №. В этом случае популяция №
расслаивается на и №2 с помощью случайной величины У ,
определенной на № . Н апример, пусть случайная величина X =
= 1(3 определена н а вы борке из всех студентов колледжей США.
Величина У = пол р асслаи вает № на две подпопуляции: №л =
= студенты -муж чины и №2 = студенты-женщины. При этом А ,
определенное на вы раж ает 1(3 для студентов-мужчин, а А ,
определенное на 1^ 2, — 1(3 для студентов-женщин.
П усть ¡.I,- и &] с у т ь среднее и дисперсия А на № ¿, ¿ = 1 , 2 .
(Заметим, что в этом сл уч ае ковариация и корреляция не имеют
смы сла.) Из поп ул яц и и №1 производится случайная выборка
объема лг и у ка ж д о го индивидуума выборки наблюдается вели­
чина А . Результаты наблюдений для выборок и з №х и №2 обозна­
чим соответственно х ц , Х\2, •••, Хи1 и * 21, * 22, х2П2- Д л я построе­
ния гистограммы и подсчета статистик по каждой выборке можно
дважды прогнать д еск р и п ти вн ую программу — по одному разу
для каждой вы борки. Д р уги м путем для получения этой информа­
ции является использование дескриптивных программ с расслое­
нием данных — т а к и х , как ВМ БРТТ). Они строят гистограммы для
А по каждой из вы борок на одной и той же странице. Н а п р и м е р ,
выдача может им еть вид
Группа 1 Группа 2

^з * * /з

^•2 ***** /2 * * * */ 2

* * * /1 **/■'

Д ля получения э т и х гистограмм входные данные могут быть


представлены в виде
х0
'-г!
42 г22
В ы борка Выборка 2

а значевия пг и я2 задаю тся на управляющ их картах. Другой


способ состоит в т о м , что пользователь определяет переменную
90 Гл. 2. Элементарные статистические выводы

V — так назы ваем ую переменную группировки, — с помощью


которой выборочные значения классифицируются по подпопуля-
циям. В это м случае результаты наблюдений можно представить в
виде пар (х ^ ,у { ) , которые вводятся в любом порядке. Например, как
представлено здесь. В соответствии с признаком У программа раз
х деляет наблюдения по двум выборкам. Д л я каж-
22> У2 дой выборки сгроится гистограмма и вычисляют-
* 1з> У\ ся оценки параметров ¡л,- и <т? по формулам:

Л’17’ У1 ¿/. = — 2 *//. 5? = ;г^-т 2 {х„ -


«г /=1 — 1
; ; 1=1,2. (2.3.4)
Рассмотрим теперь следующий пример.

Пример 2 .3.2. Во м ногих клинических ситуациях бывает по­


лезно изм ерить концентрацию молочной кислоты (так называемый
лакт ат , мМ ) в артериальной крови. Исследования показали, что
логарифм этой величины имеет приблизительно нормальное
распределени е. В рассматриваемом примере измерялась величина
X — десятичны й логарифм лактата в популяции Н7 критически
больны х пациентов, перенесших состояние циркуляторного тока.
Эта п о п ул я ц и я расслоена на две подпопуляции: — умерших
и У72 — вы ж ивш их пациентов. П усть V

| 1 , если пациент умер,


1 2 , если пациент выжил.

Из №1 и I# 72 были произведены выборки соответственно объемов


я х = 41 и Ла = 70 пациентов. Наблюдениями в выборке служили
ф инальны е значения К непосредственно перед смертью или перед
переводом из реанимационной палаты. Программа построила
гистограм м ы для обеих выборок (рис. 2.3.1); значения выборочных
статистик приводятся в подписи под рисунком.
В этом; примере интересно проверить гипотезу о том, что
ф инальное значение среднего величины X, равной десятичному
ло гар и ф м у лактата для умерших пациентов, больше, чем для
в ы ж и в ш и х . Вообще, е с л и х п , ..., х\,и и % , ..., х2Пг суть случайные
вы борки и з популяций соответственно с распределениями N (]хг,
сх1) и N ([а2, ст|), причем о\ = сг\ = а 2, то нулевую гипотезу Н 0:
На — На = б, где б — константа, можно проверить с помощью
двухвыборочного 1-критерия. Статистикой критерия является

г0 = ( ( х , . - х 2. ) - 6 ) / ( 8р ] / - ! - + - 1 ) , (2.3 5)
2.3. Анализ двух непрерывных случайных величин 91

где

("1 ~ ') д 1 + (я2 ~ ' ) S2


sp = (2.3.6)
«1 —|- п2 — 2

— объединенная выборочная дисперсия, представляющая собой


несмещенную оценку о бщ ей дисперсии а 2. Если гипотеза Я 0

зо
26
25
Ж
1 20
О 17 Ж
е '5 11
о g т .Щ
^ 10
5
Ж ИРш 5
о
1
... ш Щ
- 0.6 - о .з о О.З 0.6 09 1.2 1.5
ь
Рис. 2.3.1. Гистограммы величины десятичного логарифма лактата для 111 кри-
тйчески больных пациентов, сгруппированных по исходу, а — умершие: У = 1,
хи = 0 . 6 8 5 , = 0.326, «1 = 41; b — выжившие: 7 = 2, х2. = 0.399, s2 = 0.383,
п2 = 70.

верна, то /0 имеет ¿-р асп р ед елен и е Стьюдента с v = п± + — 2


степенями свободы. Р -зн ач ен и е з а в и с и т от альтернативной гипо­
тезы и приводится ниж е.

Н улевая /1льтериа /пивная Р-значение


гипотеза гипотез/7

Но'. Hi - Аг = <5 Н , ■ Mi — Ml > .<5 P = P r ( t ( y) > to)


//. : u i - Мг < S P = P r(t(v )< to)
Hi '■ Ml - Ml Ф s P = 2P r{t(v)> |/0|)
92 Гл. 2. Элементарные статистические вы веды

В о в с е х сл у ч а я х мы отвергаем Н 0, если Р • < « . Здесь 100 (1 —


— а ) % -ны м доверительным интервалом для разности Uj — |х2
меж ду средними является

( х ь — Х 2 ) ± ^1—(а/2) (п 1 + п 2 — 2 ) s p ~ j/ — ~ h — > (2.3.7)

где t а (пх -)- п2 — 2) есть 100 ^1 — ~ )-я: процентиль ¿-распреде­

ления Стьюдента с % + и2 — 2 степенями свободы.

П ример 2 .3 .2 (продолжение). Проверим теперь гипотезу о том,


что ф и н ал ьн ое среднее для десятичного логарифма лактата
у у м ер ш и х пациентов больше, чем финальное среднее ¡я2 для
вы ж и вш и х пациентов. Здесь Н 0: }ах — |а2 = 0 и Н х\ [хх — ¡а2 > 0,
а за у р о в е н ь значимости примем а = 0.05. Выборочными стати­
с ти к а м и б у д у т п\ = 41, г ь = 0.695, Si = 0.325, п2 = 70, х 2. =
= 0 .3 9 9 и s 2 = 0.383. Объединенная выборочная дисперсия есть
„2 (41 - 1) (0 .3 2 6 )2 + (70 - 1) (0 .3 8 3 )2 л , 00
Р— 41 + 7 0 - 2 V.IÖZ,

а зн ач ен и е ¿-статистики равно
t _ 0 .6 9 5 — 0.399 — 4 14

с v = 109 степенями свободы. Т ак как Р <1 0.001, то Я „ отвер ­


га е т ся в полном соответствии с представлениями медиков (W eil,-
A fifi (19 70 )).
95 %-ным доверительным интервалом для [хх — ц2 служ ит
(0.695 — 0 .3 9 9 ) ± 2.00 0 . 1 3 2 + ^ -) = (0.153, 0.439).
С л ед о ва тел ь н о , с вероятностью 0.95 этот интервал содержит
и сти н н ое значение разности средних

З ам ети м , что двухвыборочный ¿-критерий предполагает ра­


в е н с т в о дисперсий в популяциях, т. е. о\ = а\ = а2. Это предполо­
ж ен и е можно проверить с помощью крит ерия отношения диспер­
сий. Н ап р и м е р , если хц, ..., х\П1 и Хц, ..., х 2п, суть случайные
в ы б о р к и из популяций с распределениями N (jxx, а^) и N (¡х2, ст2), то
н у л е в у ю гипотезу Н 0: сг^ = можно проверить с помощью с т а ­
ти сти к и
F0 = s?/& (2.3.8)

r fle s f — дисперсия г-й выборки, г = 1, 2. Если гипотеза Н0 верна,


то F q и м еет /’-распределение с vx = пх — 1 и v 2 = п2 — 1 степенями
2.3. Анализ двух непрерывных случайных величин 93

свободы (табл. 6 , прилож ение II). Т ак как нижние процентили для


/-распределения в у к а зан н о й таблице не приводятся, то если это
необходимо, выборки должны быть перенумерованы так, чтобы
выполнялось соотнош ение в? ^ В этом случае /о ^ 1 и Р-значе-
ния зависят лишь от правого хвоста /-распределения. В след ую ­
щей таблице Р-значения приводятся для двух альтернатив: Н х\
а\ > о \ и # 1: а\ ф .

Нулевая Альтернативная
гипотеза гипотеза Р-эначение

Н0 : <х,2 = сг/ Н, : o t2 > о 2г Р = ‘Pr(F(v1, v2) > F0)


Я , : а ,2 Ф <т22 Р = 2Pr(F(vt , v2) > F0)

Следует заметить, что этот критерий тоже очень чувствителен


к отклонениям от предполож ения о нормальности. Поэтому его
нельзя использовать, если есть сомнения относительно нормаль­
ности распределения.

Пример 2.3.2 (продолж ение ). Проверим теперь гипотезу о р а ­


венстве дисперсий в э то м примере. Т ак как s2 > s2u то поменяем
номера популяций, т а к что теперь Wx — популяция выживши^,
a W2 — умерш их пациентов. Проверим гипотезу Н 0: о? = а 2
против о\ Ф о-, с уровнем значимости а = 0.05. Т а к как
выборочные статистики равны пх = 70, sx = 0.383, п2 = 41 и
s2 = 0.326, то F0 = (0.383)2/(0.326)2 = 1.38. Поскольку F0.n (69,
40) 1.6, то P -значение больш е, чем 2 (0.05) = 0.10, и гипотеза
# 0 принимается.
Если гипотеза о р а в е н ст в е дисперсий себя не оправдала, то
более подходящим, чем двухвыборочный /-критерий, оказывается
критерий У элча (W elch (1937)). В нем для проверки гипотезы Н0:
Hi — |д,2 = б против альтерн ати вы Н г: — \i2 Ф 8, — ¡я2 < б
или — (х2 > б и сп о л ьзуется статистика

<« = ( * ! . - * а. - б ) | у Ц --^ . (2.3.9)

Если гипотеза Н и в ер н а, то для больш их выборок ¿0 имеет прибли­


зительно ¿-распределение Стью дента, а приближением для числа
степеней свободы сл у ж и т
2 „ 2 2 1 / „4 „4 \
_ 1 L_ _ !
"1 «2
2 /1 /I I »«1
! («! — 1) «2 ("2 - ')
Так как V не обязательно целое, то Р-значение можно получить
с помощью линейной интерполяции в табл. 5, приложение II. Этот
94 Гл. 2. Элементарные статистические выводы

критерий имеет преимущество перед двухвыборочным ¿-кри­


терием, если дисперсии популяций заметно различаются, по­
скольку он дает более близкий к истинному уровень значи­
мости а .

Замечание 2 .3 .2 . Были рассмотрены три ¿-критерия для ср ав­


нения д в у х средних при следующих общих предположениях:
а) соответствую щ ие распределения нормальны и Ь) внутри поп уля­
ции индивидуумы выбираются случайно. Различия в предположе­
ниях относятся к а) равенству дисперсий а\ и о\ и Ь) независи­
мости д в у х выборок. Если объемы выборок пх н пг равны, то
выбрать соответствующий ¿-критерий помогает следующая таб­
лица:

Н е з а в и с и м о с т ь в ы б о р о к
Р а в е н ­
с т в о
д и с п е р ­
с и й Н е т
Да

Да Двухвыборочный Парный /-критерий


/-критерий
Нет /-критерий Уэлча Парный ^-критерий

Н екоторы е программы в ПСП (например, SPSS T -T E S T )


вы числяю т и печатают критерий отношения дисперсий (2.3.8),
двухвы борочны й ¿-критерий (2.3.5) и ¿-критерий Уэлча (2.3 9).
Поэтому пользователь может сначала проверить значимость
/-к р и т е р и я , что позволит сделать правильный выбор между двумя
¿-критериями.

Пример 2 .3 .3 . В этом примере исследовались две группы детей


с полиневритом G uillain -B arre (Eberle et al. (1975)). Это заболева­
ние вы зы вает м ускульную слабость, которая оценивалась по поряд­
ковой ш к ал е. Первая группа состоит из 36 полностью выздоровев­
ших д етей , а вторая — из 11 детей с остаточной мускульной сл а ­
бостью через 3 года после начала заболевания. Проводились
наблю дения за следующими величинами: Х х — число суток с на­
чала заболевания до максимальной слабости, Х 2 — число суток
с н ач ал а заболевания до начала улучш ения, Х 3 — число суток от
м аксим альной слабости до начала улучш ения. По полученным
данным предстояло ответить на вопрос: сущ ествую т ли значимые
р азл и ч и я между средними по двум группам для какого-нибудь
из трех показателей?
2.4. Анализ р > 2 непрерывных случайных величин 95

Вывод программы S P S S приводи тся в следующей таблице.

Критерий
отношения Двухвыборочный t -критерий Среднее± sd
дисперсий ' t -критерий Уэлча
Случайная
величина F Р t Р t р Группа I Группа Ж

4.55 0.02 - 0.03 0.98 -0.04 0.97 10.4 + 9.9 10.5 + 4.6
1.3« 0.53 - 1.63 0.11 - 1.52 0.15 18.6 + 15.2 27.4 + 17.4
*3 2.15 0.09 - 2.13 0.04 - 1.74 0.10 8.2 ± 10.6. 16.9 ± 15.6

*) Я-значение вычислено в предположении двусторонней альтернативы.


**) sd — аббревиатура о т standard deviation (стандартное отклонение). —
Прим., ред.

Из таблицы с л е д у е т , что ги п о те за о равенстве дисперсий


отвергается только для Х х. П оэтом у для Х г следует применять
¿-критерий Уэлча, а для Х г и Хн — двухвыборочный ¿-критерий.

2 .4 . Д е с к р и п т и в н ы е п р о г р а м м ы с р а с с л о е н и е м д а н н ы х .
А н али з р > 2 н е п р е р ы в н ы х сл у ч ай н ы х величин

Обобщим теперь идеи п р ед ы д ущ его раздела на случай р ^ 2


н еп р ф ы вн ьо случ ай н ы х величин . К а к и в предыдущем разделе,
рассмотрим сначала сл уч ай н ы е вел и чи н ы Х ъ Х г. ..., Х„, опреде­
ленные на одной и той ж е п о п ул яц и и №. Здесь можно исследо­
вать р (р 1)/2 р азл и ч н ы х коэффициентов ковариации или
корреляции между Х 1 и Х }-, г, у = 1, 2, ..., р. Случайная выборка
из этой популяции с о с т о и т из п н аб о р о в по р наблюдений в к а ж ­
дом, причем все р н аблю дений о д н о го набора проведены за одним
и тем ж е индивидуумом вы бор ки .
Затем изучим с и т у а ц и ю , к о гд а одна случайная величина X
определена яа р п о п у л я ц и я х №.г, ..., №р. К ак и ранее, эти
популяции ложно р а с с м а т р и в а т ь , как подпопуляции (или слои)
из более широкой п о п ул я ц и и \</. Здесь р независимых случайны х
выборок производятся и з р распределений. Будет показано, как
проверка гипотезы о р а в е н ст в е средних у величин Х г, ..., Х р
приводит к Р-от нош ению одноф акторн ого дисперсионного ана­
лиза. Д алее обсудим в о п р о с о то м , к а к можно производить ср авн е­
ния между средними с пом ощ ью методов множественного сравне­
ния. Рассмотрим с н а ч а л а один частный случай.
96 Гл. 2. Элементарные статистические выводы

2 .4 .1 . Одна популяция, р случайных величин

П усть у н ас имеются данные о р случайных величинах Х ь Х 2, ...


..., Х р , определенных на популяции W . Д алее, р,- и ст| — среднее
и д и сп ер си я величины X t , а аи = с п — ковариация между X t
и X j, i , j = 1, 2, ..., р. (Заметим, что а и = crf, i = 1, 2, ..., р.)
Т огда коэффициент корреляции ри между Х { и Х } определяется
как

' Р<7 = ^ 7 > i, / = 1 , 2 . . . , р. (2.4.1)

Здесь р п = р 23 = • • • = ррр = 1 и — 1 с piV = рп < 1 при i Ф /.


В р а з д . 3.1 будет показано, что р^- — мера линейной связи между
X t и X .j, а в разд. 3 . 3 — что р1/ играет важ ную роль в выборе
н аи л у ч ш его предиктора в многомерном регрессионном анализе.
И т а к , п у сть из популяции W произведена случайная выборка
о б ъ е м а п, а xl7-, x2j, ..., xpj — результаты наблюдений /-го инди­
в и д у у м а . И спользуя дескриптивную программу из ПСП для ана­
л иза след ую щ и х входных данных:

Индивидуум Данные
1 xllt x2i, . . . , х1а
2 Xi2 , %22’ ■• • >Хр2

Ч %1п1 %2п> • • • > %рп

п о л уч и м гистограммы для выборки х Х1, х12, ..., х1г., для выборки


х 21, х22, ..., х2п и т. д. — • всего р гистограмм. Д алее, для пар а­
м е тр о в |1 £, а ], ст(7 и р ¿ , / = 1 , 2 , ..., р, получим соответственно
сл е д у ю щ и е оценки:
2.4. Анализ р > 2 непрерывных случайных величин 97

Дисперсии, ковари аци и и коэффициенты корреляции могут


быть выведены на п еч ать и в виде матриц:

Корреляционная
Ковариационная м ат р и ц а матрица
1 r l2 ■■■ Г >Р
Si i = -'ч2 S12 ''' ■
‘i ip
S21 S 2 2 ~ S2 2 '" s 2p
r 2l 1 Г 2р
J
* * * 2 i
Spl sp2 ''‘ spp = SP /p i ГР 2

В разд. 5.6 и 5 .7 рассмотрим вопрос о разложении ковариа­


ционной и корреляционной матриц на компоненты, а в разд. 3.1 —
0 проверке гипотез о корреляциях. Если Х г и X j сравнимы при
1 Ф /, то можно п р о вер я ть гипотезы о разности средних ¡лг — ц;,
используя парный ¿-критерий из разд. 2.3.

Пример 2 .4 .1 . В п р о ц ессе исследований проводились одновре­


менные измерения р = 5 артериальных давлений (мм рт. ст.)
у п — 141 пациента с использованием двух различных методик.
В первой методике для измерения Х г — систолического, Х 2 —
диастолического и Х 3 — среднего артериального давлений ис-
польоовался внут риарт ериальны й катетер. Хотя эта методика
более точная, она и более слож ная. Поэтому наряду с первой
применялась и в т о р а я — обычная методика для измерения Х 4 —
систолического и Х ъ — диастолического давлений с помощью ком­
прессионной м ан ж ет ы *). Полученные данные обрабатывались
дескриптивной програм мой из ПСП. Результаты приводятся
в следующей таб л и ц е, а такж е в виде ковариационной и корреля­
ционной матриц. О чевидн о, что между пятью измерениями су-
щ ествует высокая к о р р ел я ц и я .

С лучайная в е л и ч и н а- Выборочное Выборочное


Метод давление! среднее стандартное
отклонение

Внутриартериальный Х г — систолическое *!■ = 112.2 5! = 28.6


Х2 — диастолическое х 2. — 59.4 52 = 17.1
Х 3 — среднее х3. = 76.8 = 21.0

Компрессионная ман­ ЛГ4 — систолическое х 4. = 107.0 в4 = 28.9


жета Х в — диастолическое х ъ. = 66.8 хБ= 19.3

х) Эта методика часто называется методикой Н. Н. Короткова. — Прим.


перев.
4 А. Афифи, С. Эйзен
98 Гл. 2. Элементарные статистические выводы

Ковариационная м ат рица
X, X2 *4 *5
*1 817.9 410.3 556.8 719.9 415.6

*2 292.4 347.2 384.5 273.3

*3 441.0 512.8 345.3


Л* 835.2 466.9
372.5
.

Корреляционная матрица
X, Хг Х3 Х4 х,
1.000 0.839 0.927 0.871 0.753
х2 1.000 0.967 0.778 0.828
X, 1.000 0.845 0.852
х> 1.000 0.8} 7
1.000

Из сравнен ия выборочных средних следует, что метод компрес­


сионной м анж еты дает по сравнению с более точным внутриарте-
риальным методом заниженную оценку систолического давления
и завы ш енную оценку диастолического. Для проверки значи­
мости э т о г о различия используем парный ¿-критерий из разд. 2 .3 .1.
Проверим гипотезу Н0: ¡л4 — ^ = 0 против Н л: < 0
с уровн ем значимости а = 0.05. Статистикой критерия будет
и =* (107.0 — 112.2)// НГ/^/ 835.2 + 817.9 — 2 (719 .9 ) = — 4.23,
т. е. р азн и ц а значима с Р < 0 .0 0 1 . Проверим теперь гипотезу
Я„: = 0 против альтернативы Нх- и- — |12^>0 с уровнем
значим ости а — 0.05. Статистика критерия равна ¿0 = (66 . 8 —
— 59.4) 1 / 'и Т / ( / 372.5 4- 292.4 — 2 ( 273.3) = 8.08, т. е. раз­
ница чрезвы чайно значима. Следовательно, измерения по ме­
тоду ком прессионной манжеты нельзя рассматривать как точные
по ср авн ен и ю с внутриартериальньми. Этот пример далее будет
разобран в разд. 3.2.

2 .4 .2 . р популяций. Одна случайная величина


Будем р ассм атр и вать данные о случайной величине X , опреде­
ленной на р популяциях №2, ..., \У^. Как и раньше, эти по­
пуляции м ож н о представлять как р подпопуляций или р слоев
из более ш и рокой популяции №. Введем величину К, которая
р а сс л а и в а е т популяцию № на №ъ № 72........ №р. П усть и а\ —
среднее и дисперсия X в подпопуляции №1, I = 1, ..., р. Из под-
2.4. Анализ р :з=. 2 непрерывных случайных величин 99

популяции пр ои звод и тся сл уч ай н ая выборка объема


затеи у каждого и н д и ви д уум а из вы борки измеряется величина X ,
а результаты измерений обозначаю тся х п , ..., г = 1 р.
Для получения по э ти м вы боркам р гистограмм с помощью дес­
криптивной программы с расслоением данных результаты измере­
ний должны быть упор ядоч ен ы : сн а ч а л а все измерения для первой
выборки, затем — для в т о р о й и т. д. Объемы выборок указы ваю т­
ся на управляющ ей к а р т е . С другой стороны , для разделения на под-
популяции можно оп р ед ели ть груп п о в у ю переменную К, с помощью
которой программа к л а сси ф и ц и р у е т наблюдения по выборкам.
Для каждой вы б о р к и стр о и тся гистограмма и вычисляются
следующие оценки п ар ам етр ов ¡хг- и а}:

*|- = 4 - £ и / . ^ “ ¡г -Ц Х К * / - и ) \ ¿= 1 (2-4.3)
щ ;-= 1 — 1 /=1
Пример 2 .4 .2 . В эксп ер и м ен те х) с крысами изучалось сравни ­
тельное влияние 21 л е к а р с т в а на количество X соляной кислоты
(НС1), выделяемой в ж е л у д к е кры сы . К аж дое лекарство давали
определенной сл уч а й н о й вы бор ке крыс, а двадцать вторая вы ­
борка служ ила для к о н т р о л я . С ледовательн о, здесь число п оп у­
ляций р = 22, причем №г — поп ул яц и я всех крыс, получивш их
1-е лекарство, / = 1 , 2 , ..., 2 1 , а №22 — контрольная выборка.
Результаты наблю дений обозначим через хи , / = 1, ..., щ , I =
= 1, ..., 22. П олагая У = ¿, е сл и х и принадлежит ¿-й выборке,
можно с помощью д е ск р и п т и в н о й программы построить ги сто­
граммы для каждой вы бо р ки и вы числить выборочные статистики.
В следующей таблице приводятся значения выборочных средних х 1.
в горядке их во зр астан и я и соответствую щ ие значения объемов пг.

Номер Од’г ем Зьюорочное Номер Объем Выборочное


выоорки выборки среднее выборки выоорки среднее

7 22 73.73 8 14 333.29
15 25 146.32 11 27 341.30
6 13 147.92 5 32 374.06
14 18 165.61 4 8 412.13
3 8 191.13 1 (контр.) 71 417.32
13 17 213.47 21 16 459.81
18 17 224.41 10 19 460.37
9 14 263.86 22 19 477.53
19 14 303.14 17 18 484.61
12 15 313.20 20 18 507.56
2 6 329.83 16 19 566.37

х) Частное сообщение доктора Розенберга (Alberto Rosenberg, UCLA, Los


Angeles, California).
4*
100 Гл. 2. Элементарные статистические выводы

В э то м примере интересно проверить гипотезу о том, что ср ед ­


нее вы дел ен и е НС1 одинаково для всех 22 популяций. П олагая,
что хп , ..., х 1п1 есть случайная выборка из N (¡ль 0 ?); х2ь ..., х 2„2 —
из N ([л2, ст1); ...; хри ..., кр п — из ЛГ(цр, ст£) и что а\ = а\ = . ..
• • • = стр = а2, проверим гипотезу Н 0 : ц 1 = |х2 = • • • =
против альтернативы Н х : не все ¡л, равны. Д л я проверки и сп ол ь­
зуем /^-отношение, статистика которого имеет вид
] /г р п1
= I Ti Пс (х с. х ..)2/(р — 1 ) / 2 1 ] (*// — ¿¡ УЦп — р)
Lt=i . / Ц«=1 /=1
(2.4.4)
р п1
где п = ^ щ — общий объем выборки, х 1. = ~ ^ х и — вы-
¿=1 ‘ /=1
р п1
б о р о ч н о е среднее для ¿-й подпопуляции и х .. =
(=1 /=1
общее среднее.
Е сл и Н0 верна, то Р0 имеет ^-распределение с v в = р — 1
и = я — р степенями свободы. Р-значение равно площади
сп р ава о т Р 0 под функцией плотности распределения Т7 (ув ,
(табл. 6 , приложение II). Гипотезу Н 0 следует отвергнуть, если Р
меньше н ап ер ед заданного уровня значимости а .
/■'-отношение применяется в однофакторном дисперсионном
анализе ( дисперсионный анализ будет подробно обсуждаться в гл. 4).
К о м п о н ен ты числителя и знаменателя /•'-отношения обычно пред­
ставляют* в виде таблицы дисперсионного анализа типа табл. 2 .4 .1.
Таблица 2.4.1
Таблица однофакторного писпепгионного анализа*

И сто ч н и к Степени Средний ^


д и сп ерси и Сумма квадратов свободы квадрат Р-отношение

Между подпо- р сс »«г


п у л яц и ям и 5 5 в = 2 п.1 (■*,-. — *..)2 мв = р — 1 М8В= — - ^
(или г р у п - ( = 1 ' ,в
пами) п
В нутри п о д п о - А
пуляди й \* 1! — * /.) — п — Р М5\у = ——
(или г р у п п ) /=1
Полная р п1
2 2 (ХЧ ~ ^ = Л— I
1=1 /=1
* В — Between (между), W — W ithin (внутри), Т — Total (полная).—
Прим. п е р е в .
2.4. Анализ р ~з> 2 непрерывных случайных величин 101

В первом сто л б ц е таблицы перечисляются три источника дис­


персии — меж ду груп п ам и , внутри груп п и полная, во втором —
суммы квадрат ов для этих трех источников. Заметим, что как
ББв и 8 5 ш, т а к и степени свободы vв (между) и vw (внутри) я в ­
ляются компонентами (2.4.4). Каждый средний квадрат вычис­
ляется путем деления суммы квадратов на число степеней сво­
боды, причем средний квадрат для полной дисперсии в таблице
обычно не приводится. Наконец, ^-отношение совпадает с (2.4.4)
Кроме /•’-отнош ения, двумя другими важными характеристиками
являются — оценка общей дисперсии а2, а также исполь­
зуемое при вычислении доверительного интервала.
Так, 1 0 0 ( 1 — а) %-ным доверительным интервалом для
будет
МБШ
/ — —— > 1 ..........Р . (2.4.5)

а 100 (1 — а) %-ным доверительным интервалом для — ¡а,- —

(х с . — */.) ± ( 1—(а/2) (^\у) "[/"МБ-«? ^,

I, /=
где 12 (\ы ) есть 1 ° ° I 1 — (а/ 2)]-я процентиль ¿-распределения
Стьюдента с v w степенями свободы.

Пример 2 .4 .2 (продолжение ). В этом эксперименте проверим


гилотезу о то м , что среднее выделение НС1 одинаково во всех
22 п оп ул яц и ях. Производя вычисления, указанные в табл. 2 .4 .1 ,
получим
Степени Средний Р-от-
Источник дисперсии Сумма квадратов свободы квадрат ношение

Между группами 7 536 412 21 358 877 6.49


Внутри групп 22 561 794 408 55 299

Полная 30 098 206 429

Чтобы проверить Я 0: цг = |я2 = ••• = ц22, нуж но сравнить


/■'о = 6.49 с процентилями распределения Р (21, 408). Т ак как
Р < 0.001, т о # „ отвергается. Следовательно, проверяемые л ек ар ­
ства значимо различаются по своему влиянию на секрецию НС1
в ж елудке кр ы сы .
Оценкой дисперсии а 2 служ ит = 55 299, а 95 %-ным
доверительным интервалом для среднего контрольной группы —
102 Гл. 2 . Элементарные статистические выводы

интервал 417.32 ± /0.975 (40 8) ] / = 417.32 ± 1.96 (27.9) =


= (362.6, 472.0).
95% -ным д овер ительныминтервалом: для разности между средним
(J-! контрольной группы и средним ¡л7 седьмой популяции является
(417.32 - 73.73) ± t0.975 (408) | / 55 299 ( ^ - + - L - ) = 343.59 ±
± 1.96 (57.38) = (231.13, 456.05).
Заметим, что рассматриваемый ^-критерий предполагает, что
дисперсии всех р популяций равны. Гипотезу Я 0: of
можно п р овер и ть с помощью критерия Бартлетта равенства р
дисперсий, но т а к как этот критерий очень чувствителен к пред­
положению о нормальности, мы не будем его здесь рассматривать,
отсылая чи тателя к книге Brow nlee (1965).
Заметим та к ж е , что M SW можно представить в виде

Ms _ (ni — *) si (п2 — *) s2 + " • + (пР — 0 sp (2.4.7)


W \ - f п2 + • • ■+ Пр — р

Следовательно, (2.4.7) — объединенная оценка дисперсии, а ф ор­


мула (2.3.6) я вл я ется ее частным случаем при р — 2.
Если гипотеза # 0 не отвергается, то все р средних имеют общее
значение (х, т. е. = р 2 = • • • = ¡хр = р. Наилучшей оценкой
генерального среднего ц будет ц = х .,. С другой стороны, если И 0
отвергается, то мы делаем вывод, что некоторые [лг не совпадают.
Так как /-"-критерий не дает информации о том, какие именно
из средних не равны , исследователь долж ен провести дополни­
тельные исследования. Например, нужно проверить гипотезу Н0:
Иг — И) 5 = 0 или гипотезу относительно линейной комбинации
средних типа Н 0 : 2ц х + Зр2 — — 0. Д л я одного критерия
Я 0: Иг •— И/ = 0 следует вычислить 100 (1 -— а) %-ный довери­
тельный интервал как в (2.1.6) и отвергнуть И 0 с уровнем зн ачи­
мости а , если интервал не содержит 0.
Рассмотрим теперь вопрос о критерии для линейной комбина­
ции средних. Обозначим линейную комбинацию через +
+ с2|л2 + • • ■+ Ср]1 р, где с; — постоянные. Тогда для проверки
р р
гипотезы # 0: 2 СгНг = 0 против альтернативы Н х\ XI с№г Ф 0
¿=1 г=1
с уровнем значимости а образуем следующий 100 (1 — а) %-ный
р
доверительный интервал для 2 сгцг-:
¡=1

CiXi. ± —(ое/2) (v w ) 1/ MSW щ ' (2 .4 .8 )


£=1 * i= l
2.4. Анализ р :> 2 непрерывных случайных величин

К огда этот интервал содерж ит 0, мы принимаем гипотезу Н0,


в противном случ ае о твер га ем Н 0 с уровнем значимости а.
Если исследователь хочет проверить несколько таких гипотез,
то общий уровень значим ости (т. е. уровень значимости сово к уп ­
ности всех критериев) обычно будет сильно отличаться от а .
Поэтому нельзя у тв е р ж д а ть , что все критерии совместно дают
уровень значимости ос. Чтобы обойти эту трудность, можно ис­
пользовать процедурI/ множественного сравнения для всех кри­
териев, которая п о зво л я ет сохранить а в качестве общего уровня
значимости.
Рассмотрим т е п е р ь три процедуры множественного сравнения.
В первой из н и х — метод Шеффё (8 сЬе{{ё (19 5 3 ))— для про-
р р
верки гипотезы Я 0: 2] = 0 против альтернативы Нг\ £ сгиг Ф
¿=1 ' ¡=1
Ф 0 образуем доверительны й интервал

I ] с{Х1. ± 5 , (2.4.9)
(=1
гд е
р

п - р ) ^ - ^ - , (2.4.10)
1=1
а « (р, п. — р) е с т ь 100 (1 — а)-я процентиль распределения
Т7 (р, п — р). Е сли э т о т интервал не содержит 0, то Н 0 отвергается
с уровнем а. Этот п р о ц есс повторяется для каждой интересующей
нас линейной ком бинации, причем общим для всех критериев
уровнем значимости остается а.
Н а практике обы чно проводятся сравнения контрастов в сред-
р
них. Контрастом н азы вается линейная комбинация средних
¿=1
Р
коэффициенты котор ой удовлетворяю т условию Д] = 0. К аж -
г=1
дый контраст пропорционален разности между взвешенными
тт ¡Ят —¡— М.о ,а 3 “ Ь ^ 4 ~Ь ^ 5
средними от ср ед н и х . Например, ц.х — ¡х2, — -ф----- 1
--------3-------
и т. д.
Метод Шеффё д л я контрастов имеет следующий вид. Д ля
р
проверки гипотезы Н 0: 2] == 0 против альтернативы Н±:
¿=1
р
X/ =/= 0 нужно образовать доверительный интервал
1=1

2 ± 5, (2.4.11)
¿=\
104 Гл. 2. Элементарные статистические выводы

где
р
S 2 = (p - 1 ) M S V fh -a (/0 — 1 , n — p) 1 ц (2-4.12)
1=1
а Fi-а (р — 1 » л — р) есть 1 0 0 (1 — а)-я процентиль распреде­
ления F ( р -— 1, п — р). Если этот интервал не содержит 0, то Н а
отвер гается с уровнем значимости а . Э тот процесс повторяется
для к а ж д о го представляющего интерес контраста, причем общий
для в сех критериев уровень значимости остается равным а .
В т о р а я процедура множественного сравнения — метод Тьюки
(Scheffe (1959), Tukey (1949b)), который применим только для
кон трастов и только в случае равных объемов выборок, т. е. при
р
пх — п2 = ■■• = пр — т. Д л я проверки гипотезы Н 0: 2 =
1=1
р

= 0 п ротив альтернативы Н г \ 2 Ф 0 нужно образовать


£=1
доверительны й интервал
р
I -Kxi.ztT, (2.4.13)
1=1
где ____

? = 4 <71- £ I Ь |, (2.4.14)
а q ^ a е с т ь (100 (1 — а)-я процентиль распределения стьюденти-
зованного размаха с р и v = п — р степенями свободы (приложе­
ние II, т а б л . 7 ) х). Если этот интервал не содержит 0, то Н 0 от­
вергается с уровнем значимости а . Этот процесс повторяется для
каж дого представляющего интерес контраста, причем общим
для все с критериев уровнем значимости остается а.
Т р е т ь е й процедурой является множественный, t -метод. П усть
k — ч и с л о заранее выбранных контрастов. Тогда для проверки
р р
гипотезы Л 0: 2 ^¡,ui = 0 против альтернативы Н х. 2 Ф 0
£=1 i=i
следует п остр ои ть приближенный доверительный интервал
р
< 4 _ / V
/ , k i X i . z b t \ —(a/2k) (vw) "I/
MSw 2 j ^ T ’ (2-4Л5)
_________ i'=l £=1
*) Ст ью дент изовант й размах с р и v степенями свободы определяется сле­
дующим образом. Пусть Ylf Y2, ..., Y p — независимые случайные величины
с распределением N (ц^, а |), a W — их размах, т. е. W = max Y £ — min Yt ,
i i
Если s | с v степенями свободы есть независимая несмещенная оценка а2у , то рас­
пределение W lsy и будет распределением стьюдентизованного размаха с р и v
степенями свободы.
2.4. А нализ 2 непрерывных случайных величин 105

где/ а есть 100 [ 1 — (а/ 2 й)]-я процентиль /-распределения


1 ~~2k
Стьюдента с vw степенями свободы. Если этот интервал не со­
держит 0 , мы д олж н ы отвергнуть Н 0.
Замечания 2 . 4 . 1 . 1. Т ак как в методах Шеффё, Тью ки и мно­
жественном /-методе за основу взяты различные распределения
(соответственно F , q и /), то в них, вообще говоря, рассматриваются
разные доверительны е интервалы. Метод Шеффё допускает раз­
личные объемы выборок и любые линейные комбинации средних,
в то время как метод Тью ки применяется лишь при равных объе­
мах выборок и лишь для контрастов. Множественный /-метод
применяется т о л ь к о к множеству контрастов, выбранных до
начала исследования данных, в то время как в д вух други х м ето­
дах множество контрастов может быть любым.
2. При получении доверительного интервала для контраста
пользователь д о л ж ен выбрать метод, который дает самый корот­
кий доверительный интервал. В среднем для простых контрастов,
содержащих не более трех средних, метод Тьюки дает более корот­
кие доверительны е интервалы, чем метод Шеффё. С другой сто­
роны, для кон трастов из четырех или более средних метод Шеффё
дает в среднем более короткие доверительные интервалы
(O’ N eill, W e th e rill (1971)).
3. Если ч и сл о заранее выбранных контрастов «мало», то
множественный /-метод может дать наиболее короткий доверитель­
ный интервал, но контрасты обычно выбираются не до, а после
анализа данны х.
4. Заметим, что если р — 2, то F -отношение в таблице диспер­
сионного анализа равно квадрату /-статистики для д вух выборок,
т. «. F (1, vw) = /2 (vw).
5. F -критерий дисперсионного анализа значим с уровнем а
р
тогда и только тогда, когда гипотеза # 0: S = 0 отвергается
;=1
для некоторого контраста в соответствии с процедурой Шеффё.
При этом задача отыскания и интерпретации значимого кон ­
траста может оказаться нелегкой. Следовательно, возможна
ситуация, когда F -критерий окаж ется значимым с уровнем а ,
а значимые при этом уровне контрасты найти не удается. Чтобы
опознать эти кон трасты , нуж но использовать множественные кри ­
терии сравнения при большем а , чем для F -критерия. Т ак, если
для F -критерия было использовано а = 0.05, то при множествен­
ной сравнении для контраста целесообразно взять 90 %-ный
доверительный интервал.
6 . Н екоторы е результаты множественного анализа могут вы­
глядеть противоречивыми. Например, при р = 3 можно прийти
к заключению, что ¡¿1 незначимо отличается от fi2, Иг незначимо
отличается от }я3, а и* значимо отличается от Из- Если «незначимо
106 Гл. 2. Элементарные статистические выводы

отличается» интерпретировать как «равно», а «значимо отли­


чается» интерпретировать как «не равно», то эти заключения дей­
ствительно противоречат д р уг д р у гу . Но такая интерпретация
некорректна, так как наши заключения могут с ненулевой в е­
роятностью бы ть ложными. Корректной; интерпретацией этого
примера будет такая: на основе имеющихся данных можно с д о­
статочной уверенностью утверж дать, что как {ях и ц 2, так и ¡я2
и Из различаются незначимо, а Hi и Из — значимо.

Пример 2 .4 .2 (продолжение). Чтобы определить значимые р а з ­


личия между средними, был использовая метод множественного
/22 \
сравнения Шеффе для сравнения всех ( 2 ) = ^ 1 паР с РеДних
с уровнем значимости а = 0.05. Т ак , для i Ф / гипотеза # 0:
И/ — И/ = 0 проверялась против альтернативы Н х: Иг — Hj Ф 0
с помощью (2 .4 .11) — (2.4.12), поскольку это гипотезы о контра­
стах. Н априм ер, для проверки Я 0: — ц 5 = 0 вычисление
95 % -ного доверительного интервала дает: (73.73 — 374.06) ±
± [21 (55 299) F 0.95( 2 1 ,4 0 8 ) ( ^ - + - ¿ г ) } " 2 = -3 0 0 .3 3 + 377.52 =
= — 677.8, 7 7 .2 ). Так как этот интервал включает 0, мы при­
нимаем Я 0. З д есь F0.M (21,408) <=* 1.6.
В качестве другого примера рассмотрим проверку гипоте­
зы Н 0: ц.7 — ¡X, = 0 . Здесь 95 %-ным доверительным интерва­
лом будет
1/2
(73.73 — 4 17.32) ± [21 (55 299) (1.6) +

- (— 676.2, — 11.0).

Т а к как последний не содержит 0, мы отвергаем Я 0.


Чтобы подвести итог по всем результатам, воспользуемся с л е­
дующей методикой. Перечислим все опыты в порядке возрастания
их выборочных средних. Затем сравним наименьшее выборочное
среднее с каж ды м последующим с помощью процедуры Шеффё.
Подчеркнем в с е опыты, средние которых незначимо отличаются
от опыта с наименьшим средним.
Теперь повторим эту процедуру для опыта со вторым по в е­
личине выборочным средним, т. е. сравним это выборочное сред­
нее со всеми последующими выборочными средними и подчеркнем
все опыты со средними, незначимо отличающимися от рассм атри­
ваемого. Затем повторим это для третьего выборочного среднего
и т. д. Р е зул ьта ты такой процедуры для нашего примера при­
водятся в табл. 2.4.2.
2.4. Анализ р :> 2 непрерывных случайных величин 107

Т а б л и ц а 2 .4 .2

Множественное сравнение 2 2 выборочных средних секреции HCI

Номер 7 15 6 14 3 1 3 18 9 19 12 2 3 11 5 4 1 21 10 22 17 20 16
опыта -------------------------------------------------------:------- ----

Пример 2.4.3. Д л я семи групп беременных женщин сравни­


вались средние у р о в н и осм отического давления (концентрации)
(моль/дл). Каж дая г р у п п а женщин отл и ч ал а сь состоянием здоровья
(нормальное, диабет, ги п ер то н и я и т . д.) Т а к как при однофактор­
ном дисперсионном а н а л и з е ^ -критерий оказался высоко значи­
мым (Р < 0 .0 0 1 ), то с р е д и групп б ы л о проведено множественное
сравнение с пом ощ ью процедуры Ш еффё при общем уровне д о ­
верия 95 %.
Н а табл. 2 .4.3 восп р ои звод и тся вывод процедуры O N E -W A Y
(пакет SPSS), п роизводящ ей м нож ественны е сравнения по методу
Шеффё.
Таблица 2.4.3
Вывод процедуры ONE-W AY из пакета SPSS — множественное сравнение
по методу Шеффе *

Подмножество 1
Группа: GRPOl GRP02 GRP06 GRP04 GRP05 GRP07
Среднее: 242.2*797 251.6667 26 0.0000 262.1025 267.5999 273.5000
Подмножествп 2
Группа: GRP06 GRP04 GRP05 GRP07 GRP03
Среднее- 260.0 000 262.1025 2 67.5999 273.5000 274.6294

*) Однородное подмнож ество — подмножество групп, разность средних для лю­


бой пары которых не превосходит величины наи м ен ьш его значимого размаха для под­
множества данного объема.

Выборочные ср е д н и е упорядочены в порядке возрастания,


а однородные г р у п п ы объединены в подмножества. Анализ двух
подмножеств р ассм атр и ваем ы х д ан н ы х показывает, что гипотезы
Pt = М-2 = Рб = (-4 = Hs = Мч и ¡л6 = р 4 = Ра = р 7 = Рз приемлемы
при 95 %-ном д о вер и тельн ом у р о в н е . В нутри каждого подмно­
ж ества ни одна из п а р средних не р азл и ч ается значимо, но средние
из разных подм нож еств м огут р азли ч аться значимо. Из таблицы
вытекает, что при о б щ е м доверительном уровне, равном 95 % ,
значимыми я в л я ю т с я разности с р е д н и х рх — р 3 и р 2 — Из-
108 Гл. 2. Элементарные статистические выводы

2 .5 . П р о г р а м м ы п е р е к р е с т н о г о т а б у л и р о в а н и я .
А н а л и з таблиц соп ряж ен н ости п р и зн ако в
В разд. 1.7.4 программы перекрестного табулирования рассма­
т р и в а л и с ь к а к средство одновременной проверки д в у х перемен­
ных. О б су ж д е н и е статистической проверки гипотез было отложено
до этого разд ела. Напомним, что каждый элемент выборки одно­
врем енно классифицировался с помощью д вух факторов (или
признаков)'. А (г классов или уровней) и В ( с классов). Это позво­
лило п о л у ч и т ь гХ с-таблицу сопряженности признаков для вы ­
борки о б ъ е м а п из популяции где обозначает число индиви­
дуум ов с г'-м уровнем признака А и /-м уровнем признака В, —
общее ч и с л о индивидуумов в строке а /./ — в столбце /, г =
1 , ..., / 1 , . .., с.
П осл е построения этой таблицы можно проверить гипотезы
о ф а к т о р а х Л и б . В се эти гипотезы можно сформулировать
в те р м и н а х независимости факторов А и В. В эгом контексте
н езави си м о сть означает, что доля общего числа индивидуумов
в с т р о к е , принадлежащая произвольному, но фиксированному
стол бц у, о д н а и та же для всех строк, и что доля общего числа
и н д и ви д уум о в в столбце, принадлежащая произвольной, но фик­
с и р о в а н н о й строке, одна и та ж е для всех столбцов.
В н е к о т о р ы х ситуациях уровни одного фактора (например, А)
я в л я ю тся непересекающимися подпопуляциями И71( № г, ..., 47г
п о п у л я ц и и Ш. В этом случае гипотезу независимости можно
ф о р м ул и р о в ать и как гипотезу об однородности фактора В по
отн ош ен и ю к уровням фактора А . Рассмотрим теперь несколько
п ри м еров, иллюстрирующих указанные различия.

2 .5 .1 . Г и п о те з ы об однородности

К а к у ж е указы валось, в этом случае уровни А расслаиваю т по­


пуляцию № на г непересекающихся подпопуляций ..., №г.
Любой и н ди ви дуум из №г- попадает в один и только один из к л а с­
сов ф а к т о р а В . П усть р 1}— доля индивидуумов из подпопуляции
п оп авш и х в /-й класс фактора В . Тогда гипотезу Н0 об однород­
ности м о ж н о записать в виде Н 0\ р х) — р ц ~ • ■• = р г7- для всех
/ = 1, ..., с. Э то означает, что доля индивидуумов в любом классе /
одна и т а ж е для всех подпопуляций. Альтернативная гипотеза Н х
состоит в том, что некоторые из этих долей не равны.
З ам ети м , что уровни А , расслаивающие 47 на подпопуляции,
и зм е р я ю тся в ш кале наименований, а уровни В м огут измеряться
к ак в ш к а л е наименований, так и в порядковой ш кале. Кроме
того, н епреры вны е случайные величины, измеряемые в интер­
вальной и л и относительной ш калах, могут быть преобразованы
в п о р я д к о в у ю ш калу. Приведем теперь соответствующие примеры.
2.5. Анализ таблиц сопряженности признаков 109

П р и м ер 2 .5 .1 (л = с = 2). П усть № — популяция взрослых,


разделенная по п р и зн а к у пола А , а признак В — наличие или
отсутствие рака. В этом случае В измеряется по шкале наименова­
ний, а 2 X 2 -таблица сопряж енности признаков имеет вид
В — Рак
1 = Есть 2 = Нет

1 = Муж.
А = Пол
2 = Жен.

Здесь р п — доля мужчин, а р 2Х — доля женщин, больных


раком, т. е. Я„: р 1х = р 21- Заметим, что последнее влечет за собой
равенство р 12 = р 22- Э т у гипотезу об однородности можно пере­
формулировать в тер м и н ах независимости как Н 0: наличие рака
не зависит от пола.

Пример 2 .5.2 (г = 2, с = 3). П усть популяция Ш критически


больных пациентов разд елен а по полу, а признак В разделяет
больных на 3 к л а с с а в соответствии с их клиническим состоя ­
нием после определенного лечения. Тогда 2 х3 -таб л и ц а с о п р я ­
женности признаков имеет следующий вид:
В = Клиническое состояние
после лечения
1 = Ухуд- ’ 2 = Без 3 = Улуч­
шение измене- шение
ний

1 = Муж.
А = Пол
2 = Жен.

Гипотеза об однородности формулируется как Н0: р 1Х = р 2\,


Р\ъ — Ргъ Ргз= Ргз. а гипотеза о независимости как клини­
ческое состояние п о сл е лечения не зависит от пола.

Пример 2 .5 .3 (г = 5, с = 3). П усть популяция № критически


больных пациентов с циркуляторным шоком расслоена на 5 под-
популяций в соответстви и с типом шока, а признак В разделяет
больных на 3 к л а сса в соответствии с их клиническим состоянием
110 Гл. 2. Элементарные статистические выводы

после определенного лечения. Тогда 5 хЗ -таб л и ц а сопряженности


п р и зн аков имеет' вид
В = Клиническое состояние после лечения
1 = Ухудшение 2 = Без изме- 3 = Улучшение
нений

А = Тип шока 3

Здесь гипотезой об однородности будет Н0\ р п = • • • = р51,


р!% = • • • = /052, Р \ я — • • 1 = Рьъ а гипотезой о независимости —
Н 0: клиническое состояние после лечения не зависит от типа
шока. Зам етим , что в этом примере популяция расслоена более,
чем на д в е подпопуляции.

П ример 2 .5 .4 (г = 2, с = 3). П усть популяция № критически


больных пациентов расслоена по признаку пола, а случайная
величина X — возраст индивидуума в этой популяции. П усть
признак В , соответсгвующий возрастной группе, равен 1 для
X <Г 30, 2 — для 30 X < 45 к 3 — для X > 45. Таким о б р а ­
зом, вел ичин а X переводится в порядковую ш калу, так что 2 x 3 -
таблица сопряж енности признаков принимает вид

В = Возрастная группа
1 2 3

1 = Муж.
А = Пол
2 = Жен.

Здесь
гипотезой об однородности будет Ы0: р п = р 21, р 12 =
= Р -22> Р\з = Ргз, а гипотезой о независимости — возрастная
группа и пол для данной популяции независимы.
2.5. Анализ та б л и ц сопряженности признаков 111

2 .5 .2 . Гипотезы о н езави сим ости


В этом случае и ссл е д у е тся одна популяция №, причем каждый
ее индивидуум кл асси ф и ц и руется в соответствии с двумя факто­
рами: А и В. Здесь н улевая ги п о те з а формулируется только
в терминах независим ости А и В , а альтернативная гипотеза
состоит в той, что А и В зависимы .
В рассматриваемом: случ ае к а к Л , так и В могут измеряться
в ш кале н аш ен о в ан н й или порядковой шкале. В самом общем
случае имеются 2 непреры вны е случайные величины X и У,
причем каждая из н и х п р ео бр азуется в порядковую ш калу. П ри­
ведем теперь со ответствую щ и е примеры.

Пример 2.5.5 (г — 2, с = 3). П усть индивидуумы из некото­


рой популяции \У к л а сси ф и ц и р ую тся по наличию или отсутствию
цианоза (фактор А ) и по их реакции па конкретное лечение (фак­
тор В). 2 х3-табли ца соп р яж ен н о сти признаков имеет вид
В = Реакция
1 = Улуч- 2 = Без изме- 3 = Ухуд­
шение нений шение

1 = Есть
А = Цианоз
2= Нет

Проверяется гипотеза Я 0: р еакц и я не зависит от цианоза.

Пример 2.5.6 (г — 3, с = 4). В этом примере популяцию №


составляют пациенты с некоторы м заболеванием, прошедшие
новое лечение. Д ля каж дого пациента случайная величина
означает его возраст в годах (ф актор А ), а случайная величина
У — число дней с т е м п е р а т у р о й (фактор В). Диапазоны изме­
нения этих величин д е л я т с я соответственно на 3 и 4 класса, так
что З х4-табл и ц а с о п р я ж е н н о с т и признаков принимает вид
В = Число дней с температурой
1—4 5—6 7—8 9—12

до 30

А = Возраст в годах 30—45

более 45
112 Гл. 2. Элементарные статисгические выводы

П р о в ер я ется гипотеза Н 0: число дней с темперагурой не зависит


от в о з р а с т а пациента.

В п р и м ер е 2.5.6 каж дая из д вух непрерывных случайны х


величин X и ¥ разбивается н а классы, причем программа пере­
к р е с т н о г о табулирования автоматически определяет классы для
каж дой из этих величин. Это делается аналогично тому, как
с пом ощ ью гистограммной программы определяются классы в одно­
мерном сл у ч а е .
Т а б л и ц у сопряженности признаков для двух случайных в е ­
личин К и ¥ можно использовать для оценки совместного р а с­
пределен ия эти х двух величин. Поэтому частотная таблица кл ас­
си ф и кац и и по двум признакам обобщает понятие гистограммы.
Д а л е е , кр и тер и й независимости признаков А я В является и
к р и те р и е м независимости случайных величин X и ¥ . Если они
о б л а д а ю т двумерным нормальным распределением, то более ж е­
л ател ьн о вычислить выборочный коэффициент корреляции между
А ' и К и у ж с е г о помощью проверить независимость (см. разд. 3.1).

2 .5 .3 . К р и тер и й у2 для таблицы сопряженности признаков

Д л я п р о в е р к и как гипотезы об однородности, так и гипотезы о не­


зави си м ости мы используем одну и ту же процедуру, состоящ ую
в вы чи слен ии ожидаемой частоты Рц в ячейке (/ по формуле

Затем вы числяется значение Хо статистики х 2;

(2.5.2)

Е сли в е р н а гипотеза Н 0, то значение Хо имеет приблизительно


Х2-р асп р едел ен и е с V = ( г — 1) (с — 1) степенями свободы, а Р -
значение равно площади под кривой плотности к 2 (V) справа от
точки Хо (табл. 3, приложение II). Мы отвергаем гипотезу Н0,
если Р м ен ьш е заранее выбранного уровня значимости а.

П р и м ер 2 .5 .7 . П усть популяция Р' критически больных п а ­


циентов р азд ел я ется на две подпопуляции в соответствии с тем,
находятся; ли они в состоянии шока. Выборка из 112 критически
больны х пациентов классифицировалась в соответствии с исходом
и н ал и ч и ем или отсутствием шока. Данные приводятся в сл е д у ­
ющей т а б л и ц е , где величины вне скобок — наблюдаемые частоты
а в с к о б к а х — ожидаемые частоты Р^.
2.5. Анализ таблиц сопряженности признаков 113

Исход
Суммы
Шок Выжили Умерли по строкам

Есть 40 (49.5) 37 (27.5) 77


Нет 32 (22.5) 3 (12.5) 35

Суммы по столбцам 72 40 112


Хо = 16.34, V = 1

Например, 40 п аци ентов были в шоке и выжили, а 37 паци ен ­


тов были в ш оке и не вы ж и ли. Гипотезы можно сформулировать
как # 0: исход не зави си т от наличия шока, или как Н0: доля
выживших пациентов с ш оком равна доле выживших без ш ока.
Значение статистики %2 р авн о Хо = 16-34 с V = (2 — 1) (2 — 1) =
= 1 степенями свободы. П о с к о л ь к у Р-значение меньше 0.001, мы
отвергаем гипотезу Я 0, зак л ю ч ая , что вероятность смерти пациен­
тов с шоком значим о п р евосход и т вероятность смерти при его
отсутствии.
Если исследователь х о ч е т сравнить выживаемость при различ­
ных типах ш ока, он д олж ен разделить выборку из пациентов
в шоке по пяти типам ш о к а, что дает следующую 5 X 2 -таблицу:
Исход
Сумм:
Г н п шока Выжили Умерли по стро

Гиповолемический 7 (7.79) 8 (7.21) 15


Кардиогенный 11 (11.43) 11 (10.57) 22
Неврогенный 10 (8.31) 6 (7.69) 16
Септический 9 (8.31) 7 (7.69) 16
Эндокринный 3 (4.16) 5 (3.84) 8

Суммы по столбцам 40 37 77

хЬ == 1.71, V= 4

Здесь проверяется ги п отеза Н 0: доля выживших для всех типов


шока одинакова. З н ач ен и е статистики х 2 равно хо = 1-71 с V =
= (5 — 1) ( 2 — 1) = 4 степенями свободы. Оно незначимо и не
дает доказательств зависим ости выживаемости от типа шока.

Замечания 2 .5 .1 . 1. К а к и в дисперсионном анализе, в случае,


когда в соответствии с критерием х 2 отвергается нулевая гип о­
теза о независимости, н е т никаких указаний на то, какая из
альтернатив вер н а. О д н а к о дальнейший анализ наблюдаемых и
114 Гл. 2. Элементарные статистические выводы

теор ети ч ески х частот может помочь обнаруж ить некоторые из


э т и х альтернатив.
C o ch ra n (1954) и M axwell (1961) обсуждают некоторые под­
ходящ ие для этой цели методы.
2 . Е сл и исследователь применит несколько критериев %2
к одном у и том у же множеству данных, то их совместный уровен ь
■значимости, к а к правило, не будет совпадать с номинальным
значением а . П оэтом у можно применить более слож ную методику
разбиения общ его на компоненты (Maxwell (1961, гл. 3)).
3 . К а к у ж е обсуждалось в разд. 2 .1, критерий х 2 является
приближ енны м и дает хорошие результаты, если ожидаемые
частоты Fц достаточно велики. Д л я 2 X 2-таблицы с малыми Ftj
полож ение улуч ш ается, если применить поправку Йетса на не­
преры вност ь , т . е. добавить 1/2 к отрицательным разностям
3 fij — Ftj и вычесть 1/2 из положительных разностей.

2 .6 . Д р у г и е к р и т е р и и незави си м ости д ля таблиц


со п р яж ен н о сти п ри зн аков
В програм м е B M D P 1F пакета BM D P и процедуре C R O S S-T A B S
п ак ета S P S S на печать выводятся не только обычная- статистика
критери я х 2 Для таблиц сопряженности признаков, но и другие
стати сти ки . Глубокий статистический анализ включает не только
п р о вер к у гипотезы о независимости, но и сравнение самих кри­
териев для более полного понимания результатов. Более того,
из д альн ейш его будет ясно, что интерпретация критериев зависит
от т и п а обрабатываемых данных. Например, критерий ранговой
корреляции Кендалла применяется для данных в порядковой,
интервальной и относительной шкалах, но не в номинальной,
а кр и т ер и и ГуЭмени и Крус кила применяются для номинальных
или порядковы х категорий, если они не являются результатом
измерений непрерывных случайных величин.
В настоящем разделе описываются многие из этих критериев—
сн а ч а л а для 2 X 2-таблиц, а затем для гХ с-таблиц. Д л я рассма­
триваем ого критерия независимости будем приводить или его
вы борочное распределение, или его асимптотическую стандарт­
ную ошибку (A S E ). Во втором случае проверка гипотезы о ра­
вен стве нулю среднего некоторого критерия завершается исполь­
зованием статистики
Статистика критерия /о с 1 \
2 — . ^ .b .l)

Т а к как г имеет асимптотически нормальное распределение N (0, 1),


то д л я получ ения приближенных P -значений можно использовать
таб л и ц у 2 из приложения II,
2.6. Другие критерии независимости 115

2 . 6 . 1 . 2 х 2-габлица сопряж енности, признаков

Как и в разд. 2.5, будем проводить классификацию по двум при­


знакам (или факторам) А и В, каждый с двумя уровнями (клас­
сами ) (öi, а2) и (Ьи Ь2). П у с т ь f u — наблюдаемая частота в ячейке ij,
fi. — сумма частот в с т р о к е г, Д/ — в столбце / , а п — общий
об-ъем выборки (г, / = 1, 2). Проверяется гипотеза И 0 об отсутствии
зависимости между А и ß . Обсудим сначала процедуру получе­
ния точных Р-значений, а затем — альтернативы к обычному
критерию х2-

I. Точный критерий Фишера. Этот критерий дает точные


Р-значения, в то время как критерий х 2 Дает приближенные Р-
значения. Предположим, что суммы по строкам / ь ./ г ., а также по
столбцам /. 1 , / . 2 фиксированы, т а к что знание только одного
элемента таблицы, например / п , влечет за собой знание и всех
остальных. Для вычисления вероятности получения /и наблю­
дений в пер бой ячейке (или всей таблицы при фиксированных
суммах по строкам и столбцам) используем гипергеометрическое
распределение. Тогда

Pr(/n, flz, U, / У = /п!/122! fjfjn\ ■ (2'6'2)


Д л я проверки гипотезы Н0 н у ж н о вычислить вероятность
Рг (/и, [ i 2 > f 2i, / 22 ) Для таблицы наблюдений и всех возможных
таблиц, либо только с большими, л ибо только с меньшими значе­
ниями /Х1. Тогда Р -зн ачен и е явл яется суммой соответствующих
вероятностей Рг (/п , /12, / 2 1 , / 2 2 ), ч то иллюстрируется следующим
примером.
Пример 2 .6 .1 . Д л я исследования связи дыхательной функции
и привычки к к у рен и ю в популяции сотрудников учреждения
аномальные результаты легочных п р о б были сопоставлены с ре­
жимом курения (Azen e t al. (1977а)). В одной из таких легочных
проб РЕУ Хизмеряется объем в ли трах выдохнутого воздуха через
1 с после начала форсированного выдоха. Результаты для слу­
чайной выборки из 42 с л у ж а щ и х приводятся в следующей таблице.
В = FEVi
Ненор- Нормально Всего
мально

Курящие 4 16 20
А = Привычка
к курению
Некурящие 1 21 22

Всего 5 37 42
116 Гл. 2. Элементарные статистические выводи

Д л я проверки гипотезы о независимости между величиной


Р Е У Х и привычкой к курению был использован точный критерий
Ф и ш е р а . Вероятность получить таблицу наблюдений состав­
ляет Р г (4, 16, 1, 21) = 0.1253. Ниже приводится единственная
возм ож н ая таблица с большим значением /1Ь чем предыдущая.
Д л я н е е Рг (5, 15, 0, 22) = 0.0182, так что Р = 0.1253 + 0.01"82 =
= 0 .1 4 3 5 и Н0 не отвергается.
В = 3 ГЕУ1
Ненор- Нор- Всего
мадьно мально

Курящие 5 15 20
А = Привычка
к курению
Некурящие О 22 22

Всего 5 37 42

Зам ечани я 2 .6 .1 . 1. В большинстве программ из ПСП точный


к р и тер и й Фишера приводится лишь для выборок малого объема.
Н ап рим ер, в программе B M D P 1F критерий вычисляется, лишь
если м акси м альн ая ожидаемая частота не превосходит 20. Д ля
п рограм м ы C R O S S -T A B S из S P S S критерий вычисляется, если
объем вы б о р к и не превосходит 2 1 .
2. В ы ш е было определено Р-значение для одностороннего кри­
терия. Некоторые программы (например, BM D P1F) вычисляют
и п еч атаю т P -значение и для двусторонних критериев.

II. х 2 и поправка на непрерывность. Для 2х2 -табл и ц ы обыч­


ная ста ти сти к а Xs может быть записана в виде, эквивалентном
(2.5.2):
„.2 _ (/11/22 — / 21/ 12)2 п /п г'
— U I .M . ■ (2 ' 6 ' 3)
Это значение можно улучш ить, внося поправку в числитель
на аппроксим ацию дискретного полиномиального распределения
непрерывным распределением %2. Вводя поправку Йетса на не­
прерывност ь, получим статистику

2 ["I / 11/22 — / 21/121— y п


Хо = ■ (2.6.4)
/.1/.г/г/г-
к ото р ая при больших п распределена приблизительно как %2
с 1 степ ен ью свободы. Cochran (1954) рекомендует вносить поправку
на непреры вность при п с 40, а если все ожидаемые частоты
более 5 , то при п < 20.
2.6. Другие критерии независимости 117

Использование (2.6.4) критиковали C rizzle (1967) и др. за то,


что оно приводит к худш ему, чем при использовании (2.6.3),
P -значению. В серии статей в Journal of A m erican S ta tistica l
A ssociation в 1974 г . эта критика была переосмыслена. Наиболее
важ ное предложение при этом сделал M antel (1974). Он напомнил
исследователям, что статистика критерия х 2 является двусторон­
ней, и внес следую щ ее предложение. Д ля одностороннего критерия
пользователь долж ен брать половину P -значения, полученного
с помощью (2.6.4). Д л я двустороннего критерия yv2 пользователь
должен: а) вычислить P -значение обычного двустороннего скор­
ректированного критерия х 2 Для заданной таблицы; Ь) вычислить
P -значение для д вусторон него скорректированного %2 по таблице
с максимально измененным значением /и , дающим большее зна­
чение 7 2; с) взять ср едн ее из двух полученных P -значений. Как
показал Мантель, использование этих правил дает превосходное
совпадение P -значения, полученного с помощью (2.6.4), и точного
критерия Фишера.

Пример 2 .6 .1 (продолж ение ). Для данных этого примера обыч­


ный критерий yj д а е т Хо = 42 [4 (21) — 16 (1)]2/[5 (37) (20) (22)] =
2.39, Р = 0.12; а скорректированный — соответственно Хо =
= 42 [|4 (21) — 16 (2) | — 21 ]2/[5 (37) (20) (22)] = 1.13, Р = 0.28.
Использование п р ави л а Мантеля дает Р = 0.28/2 = 0.14, что
с точностью до д в у х десятичных знаков совпадает с точным Р-зна­
чением по Ф иш еру, полученным выше (Р = 0.1435).
Д ля двустороннего критерия изменим в таблице значение /и
с 4 на 0. Так как д л я измененной таблицы Хо = 3.22, Р = 0.06,
то, осредняя Р для д в у х таблиц, получим (0.28 + 0.06)/2 = 0.17,
что совпадает с точ ным двусторонним P -значением, вычисленным
с помощью критерия Ф иш ера (B M D P 1F дает Р = 0.1745).

III. Меры связанности, основанные на статистике х 2- Хотя


критерий х 2 и- обн аруж и вает значимость связанности между при­
знаками А и В, но он не дает информации о степени этой свя­
занности.
Мерой связанности, позволяющей сравнивать таблицы для
различных значений п, служ и т коэффициент Ф , представляющий
собой статистику
ф = 1 /(^ 7 ), (2.6.5)

где значение х 2 не скорректировано, т. е. вычисляется по фор­


муле (2.6.3).
Коэффициент Ф учиты вает тот факт, что значения х 2 прямо
пропорциональны п. Е го можно рассматривать как меру
корреляции между А и В, близкую к 0 при слабой связанности
118 Гл. 2. Элементарные статистические выводы

и близкую к 1 при сильной. Ф используется в анализе табличных


элемент ов1) (N ovick, Jackson (1974)) и в дихотомическом факт ор­
ном анали зе (Harman (1967)). Уровень значимости критерия
Е (Ф) = 0 то т же, что и для критерия независимости %2.
Д в е д р уги е меры связанности являются санкциями разности D
между наблюдаемой и ожидаемой частотами, гд е .0 = /ц —
Их статистиками являются коэффициенты связанности Ю ла Q
и Y , равны е соответственно 2)
Г)_ (/11/22 / 12/ 21) _ _ _ _ _ _ _ _ _ _ СО с £;„•!
V (/u/ 22+ / 12/ 21) (/11/22+/=12/21) ’
F = (2 .6 .6 b )
(У^/ 11/22+ / 12/ 21)
Заметим, ч то Q = 2У7(1 + Y ) 2. Эти статистики равны 1) 0, если
А и В независимы; 2) 1 , если А и В полностью связаны 3); 3) — 1,
если А и В полностью отрицательно связаны 4). Соответствующие
асимптотические стандартные ошибки (ÁSE — A sym p totic S ta n ­
dard E rrors) имеют вид
A S E ,Q ) = nL ( , ^ ) ( 7L + 7L + _ L + 1 1L )\ 1/2

(2.6.7)
A S E ( n = + ( l - n { ¿ + X + _L + 7L )

Как указы вал ось во введении к этому разделу, критерии зна­


чимости д аю тся формулой (2.6.1), а Р-значение вычисляется по
табл. 2, прилож ение II.
Очень полезную меру связанности дает отношение перекрест­
ных произведений (называемое еще отношением шансов)

0 ~ /п/гг^/н/гь (2.6 .8 )
для котор ого

А5Е(о) = ° +Х + Т^Г + тЬ ]172' ' (2-6-9)

В аж ность этого критерия состоит в том, чго он служ ит мерой


относительного риска входного признака А и выходного при­
знака В. Отнош ение шансов происходит из логистической модели ,

*) В оригинале «item analysis». — Прим. перев.


2) Коэффициент У называют также коэффициентом коллигации. — Прим.
перев.
3) То е с т ь /12 / 2 1 = 0. — П р и м . перев.
4) То е с т ь /и /22 = 0 (полная отрицательная связанность). — П рим . перев.
2.6. Другие критерии независимости 119

широко применяемой в эп и д ем и ол оги ч ески х исследованиях (под­


робное обсуждение см. Р1е155 (19 73)). Интерпретацию отношения
шансов дает
Пример 2 .6 .1 (продолж ение ). В следую щ ей таблице приводятся
значения описанных вы ш е ста ти сти к . для 2 х 2 -таблицы частот
этого примера.

Значени е Р-значение
Статистика d= A4F. 2 (двусто -
роннее)

Точная Фишера (односторон­ — — ' 0.14


няя)
Точная сришера (двусторон­ — — 0.17
няя)
X2 (двусторонняя) 2.39 --- 0.12
Скорректированная х2 (двусто­ 1 . 13 --- 0.28
ронняя)
Ф 0.238 --- —
Коэффициент Юла <5 (двусто­ 0.680+0.313 2.17 0.03
ронний)
Коэффициент Юла У (двусто­ 0.392±0.247 1.59 0.11
ронний)
Отношение шансов о (односто­ 5.250+6.123 0.86 0.39
роннее)

Заметим, что все д вусто р о н н и е кр итерии, за исключением крите­


рия Ю ла Q, незначимы. З н а ч ен и е г получено из (2.6.1).
Отношению шансов м о ж н о пр и п и сать следующий смысл. Если
исходный фактор А им еет уровни (аъ а .г), а результирующий
фактор В — уровни ( Ьъ Ь 2), то отнош ение шансов о можно интер­
претировать следующим о б р а зо м : «Ш ансы на то, что индивидуум
выйдет на уровень Ьи е сл и и звестн о, что он начинал с уровня аъ
в о раз больше, чем если бы он начинал с а 2.» Например, из таб­
лицы следует, что у к у р я щ е го м уж чин ы в 5.25 раз больше шансов
иметь ненормальный F E V j , чем у н екур я щ его .
Б табл. 2.6.1 пр и водятся отнош ения шансов для шести пока­
зателей легочной ф ун кц и и , р ассм атриваем ы х Azen et al. (1977а).
Таблица основана на в с е й вы б о р к е из 644 индивидуумов, что
предпочтительнее подвы борки объем а 42. Отношения шансов
вычислены отдельно д л я м уж чин и женщин. Д ля мужчин
ненормальные ДД^2 и F E V j более в с е го связаны с курением (наи­
большие шансы); для ж ен щ и н с к у р ен и ем больше всего связа­
но Á N t .
Если отношения ш а н со в для м уж ч и н и женщин различаются
незначимо, то их можно п е р е с ч и т а т ь , чтобы получить общее отно­
шение для мужчин и ж енщ и н . М етод объединения отношения шан­
сов называется п р оц едур ой М а н т ел я — Хэнзеля и обсуждается
в работах Fleiss (1973) и M an tel, H aen szel (1959).
120 Гл. 2 . Элементарные статистические выводы

Таблица 2.6.1
Относительный риск ненормальной функции у курящих
по сравнению с некурящими

Показатель Отношение шансов


легочной функции
Мужчины Женщины Объединенное

AN2 (% Ы2/л) 5.3 3.1 3.4


FEVi (л) *) 4.7' 0.9 —

FVC (л) 1.0 0.9 0.9


V шах (л/с) 2.2 2. 1 2 .2
К о (л/с) 2.2 2.6 2.5
^25 (Л/С) 2.2 1.7 1.8

* Измерения для мужчин и женщин объединять нельзя.

2 .6 .2 . г х с - таблица сопряженности признаков


Р ассм отр и м теперь общин случай гХс-таблицы сопряженности
п р и зн ако в. К ак и в разд. 2 .5 , пусть fn — наблюдаемая частота
в я ч е й к е i j , f t . — сумма в строке », /X — сумма в столбце / (»' =
= 1, ..., г ; / = 1, ..., с), а п — общий объем, выборки. Для
п р о вер к и гипотезы # 0 об отсутствии связи обычно применяется
ф орм ула (2 .5 .2 ).
Д в е меры, основанные на %2. используются как показатели сте­
пени связанности меж ду признаками. Одной из них является
введенны й Пирсоном (Pearson (1901)) коэффициент сопряжен­
н о с т и признаков
c = № - f x 2))1/2- (2 .6 . 10 )
Эта ста ти сти к а обладает рядом удобных свойств, так как 1) 0 <
С С -с 1; 2) С = 0 означает отсутствие связанности между А
и В] 3) С — 1 — наличие сильной связанности. Нежелательным
я в л я е т ся тот факт, что верхний предел С зависит от размера таб­
лиц. Л о ж н о показать (K en dall, Stuart (1967), с . 747), что верхней
гр ан и ц ей С служит
Сшах = [min (г — 1 , с — 1 )/( 1 - f min (г — 1 , с — 1 ))]1/2. ( 2.6 . 1 1 )

У р о в е н ь значимости для критерия Е (С) = О тот же, что и для


к р и тер и я независимости £2.
Д р у г а я мера степени связанности была введена Крамером
(C ram er (1946), с. 480). М ера Крамера выражается формулой
У = [Х2/(п(<7 - 1 ))]1/2, ( 2 .6 . 12 )
где q = m in (г, с) вводится для компенсации факта прямой за ­
висим ости х 2 °т п • Значения V изменяются от 0 (связанность
2.6. Другие критерии независимости 121

между А и В о тсу тств ует) до 1 (полная связанность между А


л В). Крамер показал, что процентили выборочного распределе­
ния V можно получ ить простой заменой переменных в распре­
делении эс2. Если г — с = 2 , то V совпадает с Ф из (2.6.5). Асимпто­
тическая стандартная о ш и б к а V имеет вид
A S E (V ) = [n(q - l)]-»/2. (2.6.13)

Пример 2.6.2. В у с л о в и я х примера 2.6.1 была составлена таб­


лица сопряженности п ри знаков А — F E V i (нормальное или не­
нормальное) и В — привы чка к курению (некурящ ие, курящие,
бросившие курить) для мужчин.
В = Привычка к курению
Некуря­ Куря­ Бросив­
щие щие шие
курить

Ненормально 2 16 4 22

Нормально
64 83 46 193

66 99 50 215

По данным из этой таб л и ц ы были вычислены соответствующие


статистики. Так, х 2 = 7 .7 8 7 , С = [7.787/(215 + 7 .7 8 7 ) F 2 = 0.187,
Стах = [1/(1 + 1)1 1/2 = 0.707, V = [7.787/215 (2 — 1)]>/2 =
= 0.190. Для проверки гипотез Н0: Е (С) = 0 или Н0: Е (У) = 0
можно использовать распределение %2 с двумя степенями свободы.
7 а к как Р = 0.02 < 0 .0 5 , то Н 0 отвергается в обоих случаях.
Как видно из данных, имеется значимая связанность между не­
нормальным значением F E V i и курением, так как относительная
частота равна 16/99 = 0 .16 для курящ их, 4/50 = 0.08 для бро­
сивших курить, 2/66 = 0.03 для некурящих.

2.6.3. Упорядоченные таблицы сопряженности признаков


Некоторые программы из ПСП (например, B M D P 1F и SPSS
C R O S S T A B U L A T IO N ) вы ч и сл я ю т меры связанности для упоря­
доченных таблиц сопряж ен ности признаков, в которых уровни А
упорядочены от 1 до л, а уровни В — от 1 до с. Эти меры отно­
сятся к корреляционному анализу (см. гл. 3) и используются,
так ж е как иепараметрические меры корреляции (K endall (1962)
и K en d all, Stuart (1967)) . О днако в этом разделе мы рассматриваем
их к а к средство для п р овер ки связанности между признаками А
и В в частном случае упорядоченной r X c -таблицы сопряженности
признаков. Из них п ер ва я — мера хь Кендалла — применяется
122 Гл. 2. Элементарные статистические выводы

в с л у ч а е г = с. Д ля ее вычисления нужно найти величину Р,


равную сумме произведений каждой частоты на сумму всех ча­
стот, располож енных в таблице ниже ее и правее, а также С},
равн ую сумме произведений каждой частоты на сумму всех ча­
стот, располож енных в таблице ниже ее и левее:

P=Z> I fu ( £ S M ,
í=1 /=1 \k>i />/ / (2.6.14)
г с
Q = £ 2 Л/ ( £ £ f k i ) .
i'=l /=1 \k>i l<j )
П о л а га я S = P — Q, вычислим

, = s | { [ 4 - n ( n - l ) - T x] [ 4 - „ ( n - l ) - T 2] j 1 / 2 , (2.6.15)

где T 1 = 4 - 2 f¡’ ~ Т г = ~T 2 ^ — 1)- АсимпТ0‘


t=i /=i
ти ч еск а я стандартная ошибка равна

A S E ( r b) = [(4л + 10)/(9(«а - « ) ) 1 1/2. (2.6.16)

Если г Ф с, можно использовать меру те Стьюарта


те = 2m S/(n2 (т — 1)), (2.6.17)

где S , как и прежде, равно Р — Q, a m = m in (г, с). Далее,

A S E (тс) = -пз [ Дя £ £ f u ( A ti - ß ,/)2 — 4«S2J 1/2, (2.6.18)

где

Л/ = £ £ /«+ £ £ /«> B¡j = £ £ / « + £ £ fm- (2.6.19)


k> i l> ¡ k < l l< ¡ k>i K J k < il> j

Т р етьей мерой связанности является коэффициент ранговой


корреляц ии Спирмана r s, определяемый как
12 £ £ h¡ IГ £ / * . + ( / * . / 2 ) - (n/2)] [ S + - («.«)]
. &<i L/</
1

fl
i
ГЛ3 — Я - £ (/? — f/-)] j £ (/•/-/■/)]
ir (2 .6 .20 )
При этом
A S E (/•*) = ((1 - r¡)/(n - 2))1/2. (2.6.21)

В се т р и меры изменяются в диапазоне от — 1 до -1.


2.6. Другие критерии независимости 123

Пример 2 .6 .3 . При изуч ен и и вл и ян и я курения в примере 2.6.1


интересно исследовать с т е п е н ь связанн ости между F E V i и ДУУ2.
Области изменения по к а ж д о м у из этих признаков были разде­
лены на 4 категории: 1 — низкая, 2 — ниже средней, 3 ■ —■выше
средней, 4 — вы сокая. К а ж д ы й индивидуум выборки был отне­
сен к упорядоченной п а р е категорий в соответствии с его значе­
ниями F E V i и A N 2, ч т о дало следую щ ую таблицу:

в= a n 2
1 2 3 4

1 55 8 6 2 71

.4= FEV, 2 8 33 10 2 53

3 5 10 39 6 60

4 3 2 7 22 34

71 53 62 32
ОС
К»

Так как х 2 = 218.8 с 9 степ ен я м и свободы , то Р < 0.001 и гипо­


т е зу об отсутствии свя зан н о сти сл ед ует отвергнуть. Применяя
к приведенным данным т р и опи санны е выше меры связанности
для упорядоченной таб л и ц ы сопряж енности признаков, получим
следующие результаты:

Мера Зна чение ± ASE 2 Р-значение

ть " 0.641 + 0.046 13.9 <0.001


0.626 + 0.046 13.6 <0.001
Г, 0.692 ± 0.049 141 <0.001

Приведем для и л лю стр ац и и д етал и вычисления ть.


Р = 55 (33 + 10 + 2 + 10 + 39 + 6 + 2 + 7 + 22) + 8 (10 +
+ 2 + 39 + 6 + 7 Ч - 22) + 6 (2 + 6 + 22) + 8 (10 +
+ 39 + 6 + 2 + 7 + 22) + 33 (3 9 + 6 + 7 + 22) + 10 (6 +
+ 22) + 5 (2 + 7 + 22) + 10 (7 + 22) + 39 (22) = 12 786,
Q = 8 (8 + 5 + 3) + 6 (8 + 33 + 5 + 1 0 + 3 + 2) +
+ 2 (8 + 33 + 10 + 5 4 - 10 + 39 + 3 + 2 + 7) + 33 (5 + 3) +
+ 10 (5 + 10 + 3 + 2) - + 2 (5 + 10 + 39 + 3 + 2 +
+7) + 10 (3) + 3 9 (3 + 2) + 6 (3 + 2 + 7) = 1621.
124 Гл. 2. Элементарные статистические выводы

П о это м у S = 12 786 — 1621 = 11 165,

Тг = - i - [71 ( 7 0 ) + 53 ( 5 2 ) + 60 (59) + 34 (33)] = 6194,

тг = - L [71 (70) + 53 (52) + 62 (61) + 32 (31)] = 6250,

[(23 653 —^6194) (23 653 — 6250)]1/2


A S E (ть) = [(4 (218) + 10)/(9 ((218)2 - 218))]1/2 = 0.046.
Х отя т 0 Стью арта и не является подходящей мерой для рассма­
тр и ваем ой квадратной таблицы, все же вычислим т с и A S E (тс):

= 0-626, A S E (т с) = 0.046.

2 .6 .4 . Меры связанности Гудмена—Крускала


В се р и и из четырех статей Гудм ена— К р уск ал а (Goodman, K ruskal
(1954, 1959, 1963, 1972)) приводятся другие меры связанности
для r X c -таблиц сопряженности признаков. Основная идея их
р а б о т ы состоит в том, что мера связанности должна исходить из
к о н т е к с та без обязательной ориентации на традиционный %2.
Т а к и е меры не универсальны и рассчитаны на применения в кон­
кретны х усл ови ях.
В таб л . 2 .6 .2 перечислены меры, рассматриваемые в этом раз­
деле. Во всех случаях предполагается, что каждый признак (А
Таблица 2 .6 .2
Меры Гудмена—Крускала

Упорядо- Сямме-
ченность грия Мера

Нет Нет /.-асимметричная


^.’-асимметричная
т-а симметричная
Нет Есть Я-симметричная
Есть Нет D Сомера
Есть Есть Гамма

или В ) является дискретным. Это предположение исключает,


н ап ри м ер , возможность рассмотрения возраста в качестве при­
з н а к а , но позволяет рассматривать в качестве признака пол,
метод лечения, выживаемость, экономическое положение и т. д.
В т е х сл уч аях, когда один или оба признака по сущ еству непре­
р ы в н ы , сл ед ует использовать меры связанности, основанные на
коэф ф ициенте корреляции (см. гл. 3).
2.6. Другие критерии независимости 125

Принципом построения мер в табл. 2.6.2 является способ фор­


мирования кл ассов или уровней, поскольку мера связанности
зависит от него. П оэтом у нельзя говорить о связанности между А
и В без детального определения класса.
Рассматриваемые в этом разделе меры связанности зависят
от наличия симмет рии между факторами А и В, а такж е упо­
рядоченности м еж д у классами одного признака. Например, та ­
кой признак, как п о л , не имеет порядка, а социально-экономиче­
ское положение им еет. Симметрия зависит от того, можно ли
один нризнак предсказать с помощью другого. Если любой из
признаков может о ц ен и ваться первым либо они м огут оцениваться
одновременно, то признаки симметричны. Если же классифика­
ция А должна предш ествовать В (или наоборот), то признаки
асимметричны. Н апример, в планируемом или длительном обсле­
довании наблюдение А предшествует наблюдению В , в то время
как при ретроспективном обследовании наблюдение В предше­
ствует наблюдению А . В обоих случаях таблицы сопряженности-
признаков являю тся асимметричными.
Рассмотрим теперь меры, приведенные в табл. 2.6.2. Вначале
примем, что для л ю бой из мер ее распределение в популяции
известно, а затем получим его выборочные оценки. Соответству­
ющие формулы для A S E приводятся в упомянутых статьях Г уд ­
мена и Крускала. П редполож им , что признак А содержит г клас­
сов, а В содержит с классов и обозначим ячейки через (аъ b¡), (аъ
й2), (аг, Ъс).
Пусть p ¡ j — д о л я популяции в ячейке (аг, bj), р,-. — сумма
элементов строки i, р./ — сумма элементов столбца /, г = 1 , ..., г;
] = 1, с.
I. Нет упорядоченности, нет симметрии. Рассмотрим сна­
чала случай, когда i) факторы А и В не получаются в резуль­
тате дискретизаций непрерывных величин; и) ни А, ни В не упо­
рядочены; iii) классиф икация А предшествует классификации В
хронологически, причинно или в каком-либо ином смысле. Пред­
положим, что индивидуум выбирается случайно, а его В -класс
предсказывается 1 ) без информации о его Л -классе (случайное
предсказание) или 2 ) при известном Л-классе (условное предска­
зание). Мерой процентного улучшения нашей способности пред­
сказать В на основе информации об А является

Хв = . (2 .6 . 22 )

Эта "К-асимметричная мера дает долю ошибок, которые можно


исключить за счет знания Л-классификации. Предполагается,
что ш ах ^=_"гаах р./.
/
126 Гл. 2. Элементарные статистические выводы

М ера Ав обладает следующими свойствами: i) Хв не определено


тогда и только тогда, когда распределение сосредоточено в одном
столбце; ц) = О тогда и только тогда, когда значение А не
помогает предсказать значение В; iii) Яв = 1 тогда и только
тогда, к о гд а значение А полностью определяет значение В;
iv) из независимости следует, что Хв = 0 , но обратное не верно;
v) А,в не зависит от перестановок строк и столбцов.
М П-оценкой меры кв при ш ах /., Ф п служ ит
/

L b = ( £ max ft/ — max /./j j (n — max f.,-j. (2.6.23)

Зам ечания 2 .6 .2 . 1. Е сли А предсказывается с помощью В,


то аналогичной мерой и ее МП-оценкой служ ат соответственно:

Х А = [ £ max pi/ — max p,-. j ц 1 — max p,-.j

L a = ( £ max fa — max f t .j j^n — max /¿.j.

2. В качестве альтернативы для кв введем меру А|з, исполь­


зуем ую д л я сравнений между различными популяциями. Эта
ХЬ-асимметричная мера основывается на предположении, что
случайно выбранный индивидуум с равной вероятностью Mr
принадлеж ит одному из классов Л . Заменяя в этом случае pi7-
на рц/ ( г р 1 .) и подставляя в (2 .6. 22 ), получаем
1 r j т
— £ m a x ( Р ц / Pi ) --- - m a x J (plf/pt .)
Л* t= l / I i'=l
Ад= -----------------—----------------------- ,
1 _ max £ (PiflPi.)
Г 1 1=1
Г Г
£ ( f i / l f t .) - max £ (fi / / f l .)
L*b — — -------------- , --------- •
r — max £ ( f t/ / f t . )
J 1=1

А нал оги ч н ы е выражения для случая, когда класс А предсказы­


вается при известном классе В, обозначаются через Яд и L \ .
3. Д р у г о й альтернативой для ÏB служ ит мера, которая сравни­
вает 1) случайное пропорциональное предсказание класса В
с 2) условны м пропорциональным предсказанием класса В при
известном кл ассе А . Мерой, дающей относительное уменьшение
2.6. Другие критерии независимости

в доле неправильных предсказаний при переходе от первого сл у­


чая к о второму, с л у ж и т т -асимметричное

г * = ( 2 у ( р Ь М - Е А ) 1 ( ‘- у р Ъ у

Ее МП-оценкой с л у ж и т

т в- (» 2 2 ш > - а А ) /(”=- а А)-

Аналогичные вы раж ения для сл уч ая , когда класс А предсказы­


вается при известном классе В, обозначаются через тА и Т А.

Пример 2.6.4. П р и уж е рассм атривавш ем ся изучении влияния


курения представляет и н терес предсказание В (наличие или
отсутствие симптомов брон хи та) на основе А — привычки к к у ­
рению. В следую щ ей табли ц е приводятся соответствующие
данные.

В — Бронхит
Есть Нет

Некурящий 5 20 25

А = Привычка к куре- Бросивший


10 40 50
нию курить

Курящ ий 15 10 25

30 70 100

Д ля оценки к
’ в зам ети м , что максимальными элементами строк
являются соответственно 20, 4 0 и 15, а максимальная сумма эле­
ментов одного сто л б ц а равна гпах /./ = /.2 = 70, так что 1 В =
= (20 -Ь 40 + 15 — 70)/(100 — 70) = 0.167.
Для оценки заметим, ч т о доли максимальных элементов
строки равны соответственно 20/25, 40/50 и 15/25, а сумма долей
элементов м аксим ального (второго) столбца равна 20/25 + 40/50+
+ 10/25 = 100/50 = 2 по ср авн ен и ю с 5/25 + 10/50 + 15/25 = 1
для первого столбца. П оэтом у
128 Гл. 2. Элементарные статистические выводы

Д ля оценки %в используем

100 ( 25 1г5400 -+ 100 з д 160° + 225 25 Ю° ) ~ (90° + 4900)


Т'в ~ 10 000 — (9 0 0 + 4 9 0 0 )
600
= 0.143.
4200

К р и тер и и для проверки гипотез, основанные на этих мерах,


б у д ут приведены ниже.
II. Упорядоченности нет, симметрия есть. Если^Л и В свя­
заны симметрично, то модель, обосновывающая меру %в , изменя­
е т ся так, ч т о для любого случайно выбранного индивидуума мы
п р ед сказы ваем с вероягностью 1/2 либо его А -кл асс, либо его
^ -к л а сс . К а к и раньше, мы сравним предсказания в случаях,
к о гд а 1) дополнительная: информация отсутствует и и) при пред­
сказан и и к л а с с а одного признака имеется дополнительная ин­
ф ормация о классе другого признака. Соответствующая мера
свя зан н о сти , называемая к-симметричной, выражается в виде

Pim £ Pfflj Р'гп I


Л= - ¡=1 /=1 _______ (2.6.24)
1 ------ 2 ~ ( P m + Pm-)

З д е сь p im = max рг;, pmj = max р и , pm . = max p ,., p.m =


/ i i
= m ax p.j. Э т а статистика характеризует уменьшение вероятности
ош ибки при переходе or случая i) к случаю и).
М ера К обладает следующими свойствами: 1) Я не определено,
если все распределение сосредоточено в одной ячейке; 2 ) незави­
сим ость вл еч ет за собой Я = 0 , но обратное не обязательно верно;
3 ) Я = 1 т о гд а и только тогда, когда популяция сосредоточена
в ячейках, н и каки е две из которых ие находятся в одной и той же
стр о к е или столбце; 4) L инвариантно относительно перестановок
стр о к или столбцов; 5) ЯА < Я < %в .
Оценкой максимального пр авдоподобия для X при 2п Ф
Ф m ax f.j -+- max служит
/ iГ С

2 max fif
+ Д] max f i f — max /.y. — max /¿.
L = b i _ i ------- i = l 1 --------- ‘ ----------‘------ . (2.6.25)
2n — max f • — max f {- ' '
i i
Пример 2 .6 .4 (продолжение). В предыдущем примере

Д ] т а х fu = 75, , £ т а х f tj = 55, max f.j = 70, max f £. = 50, так


что L = (75 + 55 — 70 — 50)/(200 — 70 — 50) = 0.125.
2.6. Другие критерии независимости 129

В следующей таб л и ц е со д ер ж атся значения всех этих мер и


их A S E , полученные с пом ощ ью программы B M D P 1F .

Мера Значение ASE г

¿в 0.167 0.151 1.11


¿л 0.100 0.094 1.06
'■1* 0.200 0.177 1.13
¿л* 0.152 0.139 1.09
ч 0.143 0.076 1.88
0.067 0.038 1.76
я 0.125 0.106 1.18

Л егко видеть, что в с е р езу л ь та ты незначимы при а = 0.05.


Поэтому по ним н ел ьзя п р ед сказать ни наличие бронхита при
привычке к курению, ни п р и вы ч ку к курению по наличию брон­
хита.
III. Есть упорядоченност ь, н е т симметрии. Рассмотрим теперь
случай, когда i ) А и В не п о л уч аю тся в результате дискретизации
непрерывных величин; И) у р о в н и факторов А и В упорядочены,
iii) классификация А п р едш ествует классификации В. П редпо­
ложим, что два и н д и ви д уум а вы бран ы были случайно и попали,
например, в ячейки ( а г , Ьг) и (а.2, Ь2). П усть
П3 = Р г ( а 1 < а 2 и ^2 или ai > а 2 и
Пс3= Р г { а 1 < а 2 и Ь|_> Ь2 или а1 ^> а2 и Ь1 <С.Ь2\, (2.6.26)

n t = P r { a 1 = o :2 или Ьх = Ь2\
— соответственно вероятн ости т о г о , что два индивидуума имеют
тот ж е самый п о р я д о к , различны й порядок или их классы для А
или В совпадают. С ом ер (Som ers (1962)) предложил меру свя зан ­
ности D:
Ад = ( П 5 — IId) Д 1 - £ р ? . ) . (2.6.27)

Б предположении ах =Ф а 2 эта м е р а представляет собой разность


между i) условной в е р о я т н о с т ь ю слабого соответствия, т. е.
(ах — а2) (Ьх — Ь2) ^ О и ii) у сл о в н о й вероятностью слабого не­
соответствия, т. е. (ах — а2) (Ь1 — Ь2) < 0. (Знаменатель в
Лв есть вероятность то го , что два независимо выбранных инди­
видуум а ке леж ат в одной и той ж е строке.)
М ера Д в обладает сл е д у ю щ и м и свойствами: i) Дв не определена
тогда и только тогда, к о гд а п о п ул я ц и я сконцентрирована в одной
строке; ii) из независим ости с л е д у е т , что Ав = 0, но обратное
не обязательно в е р н о .
5 А. Афифв( G Эйзен
130 Гл. 2. Элементарные статистические выводы

М П -оцен кой меры Ав служ ит

de = {Ps — Pd) I «2 - ' L f l y (2.6.28)

где P s = 2Р, P á = 2Q, а Р и Q определены формулой (2.6.14).


В ел и ч и н а П 4 и ее МП-оцеика P t = « 2 — P s — P d использую­
тся при вычислении A S E .

З ам еч ан и е 2.6.3. Если уровень фактора А предсказывается


по у р о в н ю В, то аналогичной мерой и ее МП-оценкой служ ат
соответственно

А л = (Пз - П а ) Д 1 - Е Р 7 ) , ¿ л = ( Л - Л 0 /[« 2 - £ /?/)•

IV . Е ст ь упорядоченность , ес/пь симметрия. Если факторы Л и


В с в я за н ы симметрично, то мера связанности -у (гашш) имеет
ВИД

Y = (IIs - I J d)/(l - П4). (2.6.29)

В е л и ч и н а у является мерой того, насколько более вероятен оди­


наковый, чем различный порядок у двух случайно выбранных из
п оп ул яц и и индивидуумов.
М ер а 7 обладает следующими свойствами: i) у не определено,
если п о п ул я ц и я сосредоточена в одной строке или в одном столбце
таблицы сопряженности; i i) у = 1 , если популяция сосредото­
чена на подмножестве, «идущем слева сверху вправо вниз»1 );
iii) 7 = — 1 , если популяция сосредоточена на подмножестве, «иду­
щем с п р а в а свер ху влево вниз» 2); iv) независимость влечет за
собой, ч т о у = 0 , по обратное не обязательно верно.
М П -оцен кой для у служит

G = ( P S — P d)/(Ps - f ^d), (2.6.30)

где P s и Pd те же, что и в формуле (2.6.28).

П ри м ер 2 .6 .5 . Предположим, что при изучении влияния


п ривы чки к курению в примере 2 .6.1 желательно предсказать
один из четы р ех классов фактора В = AN,¿ (недостаточный, сред­
ний, в ы ш е среднего, отличный) на основе одного нз трех классов

х) То есть fi¡fix¡1 Ф 0 =>■ (!х — i) (/i — /') > 0. — Прим. перев.


2) То есть h j f i i í i Ф 0 =*- (íj — i) Oí — /)< < ). — Прим. перев.
2 .5 . Д ругие критерии независимости 131

фактора А = Е Е У ! (недостаточный, средний, выше среднего).


Соответствующие данные приводятся в следующей таблице:

b = an2
1 2 3 4

1 8 5 3 3 19

А = FEVj 2 0 8 1 0 9

3 0 4 14 4 22

8 17 18 7 50
Д ля вычисления dB и G сначала вычислим
Д = 2Р = 2[8(31) + 5(19) + 3(4) + 8(18) + 1(4)] = 1006,
Pá = 2Q = 2[3(27) + 3(12) + 1 ( 4 ) ] = 242

л S f l = 926. Поэтому dB = (1006 - 242)/(2500 - 926) = 0.485,


С = (1006 — 242)/( 1006 + 242) = 0.612.
Н иже приводится вывод на печать программы B M D P 1F,
содержащий значения мер связанности и их A S E .

Мера Значение ASE г

¿в 0.485 0.130 3.73


0.431 0.115 3.74
У 0.612 0.151 4.05

Бее меры являются значимыми, причем Р •< 0.001. Поэтому


класс фактора В можно предсказывать, зная класс фактора А ,
и обратно.
Пример 2.6.6. В исследовании, направленном на выявление
ранних симптомов выздоровления детей, больных полиневритом
в ш П а т-В агге (ЕЬег1е е1 ей. (1975)), 47 детей наблюдались до пол-
еого выздоровления (хорошее или нормальное напряжение во
Бсех группах мышц) или три года при неполном выздоровлении
(недостаточное напряж ение по. крайней мере в одной группе
мышц). На основе четырех первоначальных мышечных измерений,
б каждом из которы х использовалось 6 уровней — нулевой, очень
слабый, слабый, недостаточный, хороший и нормальный, была
сделана попытка статистического предсказания выздоровления.
Так как признак А (сила мускулов) и В (выздоровление) упорядо­
чены и асимметричны, то использовалась мера С Сомера. В сле-
5*
132 Гл. 2. Элементарные статистические выводы

дующей таблице содержатся результаты исследования. Согласно


этим данным, три из четырех первоначальных измерений значимо
предсказывают исход заболевания.

Полное Неполное
выздоров­ выздоров­ Б Сомера
ление, % ление, %

Сильная слабость в
дистальной части верхних ко­ 61.1 90.9 0.25 *
нечностей
дистальной части нижних ко­ 66.7 100.0 0.31 **
нечностей
Отсутствие глубокого сухожиль­
ного рефлекса в
верхних конечностях 41.2 72.7 —0.23
нижних конечностях 64.7 90.9 —0.24 *

* Р < 0.05.
•* Р < 0.01.

2 .7 . Р о б а с т н ы е оценки

В разд. 1.7 мы обсуждали использование программ из ПСП для


обнаруж ения выбросов. Н о мы ничего не говорили о том, что д е­
лать с выбросами после того, как они обнаружены. Многие ис­
следователи исключают из рассмотрения случаи с выбросами, по­
тому что они по определению не относятся к изучаемой популяции.
Д р уги е исследователи после удаления выпадающих наблюдений
исследуют их отдельно, потому что во многих случ аях выбросы
представляют больший интерес, чем вся остальная вы борка.
Нетрудно представить себе ситуацию, когда аномальные наблю­
дения оказываются самыми интересными находками.
Н екоторые исследователи оставляю т выпадающие наблюдения
в наборах данных, особенно когда для каждого объекта определя­
ются несколько показателей. П у ст ь , например, для данного с л у ­
чая измерялось три показателя Х х, Х 2 и Х 3, и значение пока­
зателя Х г оказалось крайним, а показателей Х 2 и Х 3 — нет.
Удалив этот случай из выборки, мы потеряем потенциально в а ж ­
ную информацию о переменных Х 2 и Х 3. Вместо того чтобы у д а ­
лять выпадающие наблюдения, можно использовать процедуры
оценки параметров распределения, нечувствительные к струк­
туре данных. Такие процедуры оценивания называются робаст­
ными.
2.7. Робастные оценки 133

М ногие робастные о ц е н к и бы ли предложены и исследованы


в П ринстонском обзоре 1972 г. и излож ены Andrews et al. (1972 ).
В настоящем разделе м ы рассм отрим три робастные процедуры:
винзоризованные о ц е н к и , усеченные оценки и кусочно-линейные
М-оценки Хам пеля. Э т и процедуры , вычисляемые и печатаемые
программами B M D P 7D и B M D P 2 D выбраны потому, что они
наиболее робастные по сравнению с остальными (Andrews et al.
(1972)).

2 .7 .1 . Винзоризованны е оценки

Винзоризованные о ц е н к и прим еняю тся при оценивании среднего


и дисперсии р асп ределени й, п р и построении доверительных
интервалов, а т а к ж е п р и проверке гипотез относительно генераль­
ного среднего в с и т у а ц и я х , когда м ож н о предполагать присутствие
выбросов (D ixon, T u key (1968)). В это й процедуре крайние зн аче­
ния в упорядоченном р я д у наблю дений не отбрасываются, а изме­
няются. Обозначим ч е р е з у г < у 2 ... < у п упорядоченный ряд
для выборки х ъ х2, . .. , х п, состоящ ей из п наблюдений. Тогда
g -винзоризованные н аблю дения получ аю тся заменой g первых на­
блюдений на y g+1 , a g последних — на y n_g (при 1 < g < и/2 ).
Таким образом, по определению
zi == г 2 = ‘ ‘ ' == zg — Уг+1 )
z g+i = y g+i, 2 c i < f l - 2 g — 1, (2.7.1)
z n ;= z n -1 := " ' ' == ^тг-g+l == Уп-g-
При этом оценками ср ед н его р и д и сп ер си и ст2 исходного расп ре­
деления сл уж ат
У
z = —1 L
пi=x zh

s| = _ Ц - £ : ( Z i - Z f . (2.7.2)
п 1 i= i
Приближенный 100 (1 — а) %--ный g -винзоризованный довери­
тельный интервал для среднего

¿i-c« / 2) (h — 1) [ y z r r ] , (2.7.3)
уп
где Л = п — 2 g. Д л я п р о в ер к и гип отезы Н 0 : р = р 0 соответству­
ющий g^вuнзopuзoвaнны-й одност оронний 1-критерий использует
статистику
^ = (Н — 1 ) У п ( г — р)/(п— 1)хг, (2.7.4)
а приближенное Р -значение п о л уч ае тся из распределения Стью-
дента с Н — 1 = п — 2 g — 1 степеням и свободы.
134 Гл. 2. Элементарные статистические выводы

П ример 2 . 7 . 1 . Рассмотрим следующие девять упорядоченных


наблю дений 0.017, 0.018, 0.023, 0.031, 0.031, 0.033, 0.036, 0.070
и 0 .0 79 . Обычные оценки для среднего, стандартного отклонения
и 9 5 % -ного доверительного интервала для среднего равны: г =
= 0 .0 3 75, = 0.0222 и
0.0222
0.0375 ¡ t ¿0. 975(8) = (0.0204, 0.0546).
V9
Е сли g = ' 1, то ряд принимает вид 0.018, 0.018, 0.023, 0.031,
0.031, 0.033, 0.036, 0.070, 0.070, a h = п — 2g = 7. С оответству­
ющие один-винзоризованные оценки среднего и стандартного
отк л о н ен и я равны 2 = 0.0367 и s2 = 0.0199, а 95 %-ный довери­
т е л ь н ы й интервал есть
0.0199
0.0367 ± t0.975 (6 ) = (0.0151, 0.0583).
V9
В сл ед ую щ ей таблице приводятся ^-винзоризованные оценки
ср ед н его , 95 % -ныедоверительные интервалы для среднего и длины
этих и н т е р в а л о в при ц = 0, 1, 2. Наименьший интервал п о л у ­
чается при g = 2.

9 Среднее '95%-ный доверительный Д лина


интервал инт ервала
0 0.0375 (0.0204, 0.0546) 0.0342
1 0.0367 (0.0151, 0.0583) 0.0432
2 0.0302 (0.0195, 0.0409) 0.0214

З ам ечание 2 . 7 . 1 . Программа ВЛ Ю Р7В вычисляет винзори-


зован н ы е интервалы до порядка ¿ = 5 и помечает двумя з в е з ­
д о ч к а м и ( * * ) оценку среднего с наименьшей длиной доверитель­
ного и н те р в ал а , т. е. наиболее точную оценку среднего. О ценка,
отвечаю щ ая следующему по длине интервалу, огмечается одной
звездочкой ( * ) . П ользователь может выбирать между получением
точной оценки и изменением слишком большого числа наблюдений.

2 .7 .2 . Усеченные оценки
У сеч ен н ы е оценки среднего получаются отбрасыванием ^ крайних
наблю дений с обоих концов упорядоченной выборки у х с у 2
. . . С у п . Таки м образом, а -усеченная оценка среднего ^ равна

т (« ) = — 2 (2.7.5)

где а вы бирается так, чтобы § = п а, если па, — целое, или ц е­


лой ч а с т и от п а ; а /г = п — 2§, как и ранее. Например, если а =
2 .7 . Робастные оценки 135

= тот представляет собой среднее от 50 % наблюдений,


располож енны х в середине упорядоченного ряда.
Д л я достаточно больших значений п и при некоторых огр ан и ­
чениях величина т (а) распределена приблизительно нормально.
Стандартное отклонение для т (а) можно вычислить по формуле

5т<а) = К 'Э Э (а)/Л (Л — 1), (2.7.6)

где БЭ (а) обозначает винзоризованную сумму квадратов


(ё + 1) {Уё+1 — т И Г 2 + [Уе+2 — т И ) 2 -1------

••• + \Уп- е- 1 - т (а )]2 + (ё + 1) 1У„-е — т ( а ) ] 2.

Поэтому приближенный 100 (1 — а) %-ный а-усеченный интервал


для среднего ¡-I равен
т (“ ) ± ¿1— (а/2) (Л — 1 ) (а). (2.7.7)

Д л я проверки гипотезы Н 0 : ¡л, = (х0 соответствующий а-усечен­


ный односторонний 1-критерий использует статистику

( = т (а) ~ ^ , (2.7.8)
<а)

а Р-значение приближенно определяется из распределения Стью-


дента с (к — 1 ) степенями свободы.

Пример 2 .7 .1 (продолжение). Д ля данных этого примера а -усе-


ченные оценки среднего, стандартного отклонения, и 95 %-ные
доверительные интервалы для среднего при а = 0 (£ = 0), а —
— 0.12 = 1), а = 0.23 (§■= 2) собраны в следующей таблице.
Заметьте, что кратчайший доверительный интервал получается
при £ = 2 .

95Х-ный доверительный Длина


а т(я) 5т(1) интервал интервала

0 0.0375 0.0222 (0.0204, 0.0546) 0.0342


1 0.0346 0.0075 (0.0163, 0.0530) 0.0367
2 0.0308 0.0026 (0.0241, 0.0375) 0.0134

★ 2 .7 .3 . Кусочно-линейная М -оценка Хампеля

Эта процедура использует понятие М-оценки, введенное НиЬзг


(1964). Б ней вместо обычной квадратичной функции отклонения,
используемой в методе наименьших квадратов (см. гл. 3), берется
136 Гл. 2. Элементарные статистические выводы

некоторая непостоянная функция р, а в качестве оценки среднего


П
¡.I принимается значение, минимизирующее сумму Р (x i — I1)-
¡=1
В более общей формулировке М -оценка определяется как решение
П
уравнения вида 2 = где s — единнца измерения
¿=1
шкалы, а р можно считать производной от функции ¥ . Хампель
(Andrews et al. (1972)) предложил функцию

IУ | при 0 < | ¿/1 < 1.7,


1.7 при 1 . 7 < | у | ■< 3.4,
^ (У) = sgn (у) X (8.5 — | у \) 1.7 0 . . , „ _ (2.7.9)
------- ----------- при 3.4 < |у | < 8.5,

О при у > 8 . 5 .

Смысл такой ф ун к ц и и ^ в том, что она приписывает наблюдениям


эмпирически подобранные веса так, чтобы при некоторых предпо­
ложениях минимизировать влияние крайних наблюдений (A n ­
drews et al. (1972)). Кусочно-линейная М -оценка Хампеля для
параметра положения определяется как решение Т уравнения
п - К : — 'Г
TJ/ 1 Т = 0. (2.7.10)
Г=1

Это решение находится при помощи итеративной процедуры,


в которой начальное значение Т 0для решения Т принимается р а в ­
ным медиане, а фиксированной оценкой множителя s служ ит меди­
ана абсолютных отклонений от Т 0. Следующий пример поясняет
ход вычисления М-оценки Т. ★

Пример 2 .7 .2 . П усть задана упорядоченная выборка из пяти


наблюдений: 1, 3, 5, 8 , 30, так что выборочная медиана равна
Т0 = 5. Абсолютные отклонения от медианы равны 4, 2, 0, 3
и 25, так что s = 3, как медиана для этой выборки. В следующей
таблице приводятся детали вычисления величины S , задаваемой
равенством (2.7.10) для функции
xj У == (x¡ - T0)/s 4 tv ) определенной в (2.7.9). Элемент, со­
ответствующий х5 = 30, равен
1 - 1.33 -1.33 ¥ (8.33) = (8.5 — 8.33) • 1.7/5.1 =
з -0.67 -0.67 = 0.057. Начальное значение ве­
5 0.00 0.00 личины S равно S 0 — — 1.33 —
8 1.00 1.00
— 0.67 + 0. + 1.00 -Ь 0.06 =
30 У 8.33 0,06
= — 0.94.
2.7. Робастные оценки 137

Последовательно вы би р ая различные зна- (J)<j, ~ ”


чения Т и с о х р а н я я s = 3, получим ’ _
таблицу, изображ енную сп р ава. По- 0 50 _ 094
строив график зависим ости сум м ы 5 от i 45 _ 0.67
Г, найдем оценку Т = 4.2, при ко- 2 35 1 16
торой S = 0. Р азл и ч н ы е оценки ср ед н его ,
полученные при пом ощ и описанны х в этом разделе процедур,
сведены в следующую таб­
л и ц у.
Процедура оценивания Оценка
Замечания 2 .7 .2 . 1. Оцен­
ки, описанные в этом разделе,
X 9.4 принадлеж ат к числу неадап­
Один-винзоризованная 5.4 тивных робастных оценок.
оценка среднего
Один-усеченная оценка сред­ 5.3 Адаптивными называются про­
него цедуры , определяемые по полу­
.И-оценка Хампеля 4.2 ченной выборке. Например,
усеченное среднее т (а) будет
адаптивным, если а подбирается
из условия минимизации стандартного отклонения т (а) для
имеющейся выборки. О бзор н екоторы х таки х процедур приведен
в книге Hogg (19 74 ).
2. В неясных с и т у а ц и я х реком ендуется вычислить все оценки,
описанные в этом р а зд ел е, и п роверить и х совместимость. Если
выяснятся значительные р асхож дени я между оценками, то сл е­
дует тщательно п р оан ал и зи р о вать данные в поисках возможных
ошибок в планировании эксперим ента, выборочной процедуре,
методе измерения и д р уги х асп ек тах исследования.

Пример 2 .7 .3 . П ри ведем пример реального применения у се ­


ченных оценок, в з я т ы й из опубликован ной литературы. В иссле­
довании скорости р азвития обстр укц и и дыхательных путей
(Fletcher e t al. (19 76 )) для каж до го обследуемого вычислялась
средняя годовая с к о р о с т ь ум еньш ения форсированно выдыхаемого
объема F E Y (наклон F E V ). С н ач ал а из выборки удалялись все
измерения величины F E V , отличаю щ иеся от среднего для данного
пациента значения F E V более, чем на + 4 5 0 мл. По оставшимся
данным был оценен н а к л о н F E V . В результате такого односторон­
него усечеиия сущ еств ен н о ум ен ьш ились ошибки в оценке н а к ­
лона F E V .

У праж нения
Раздел 2.1
2.1.1. а) В примере 2 .1 .1 положим п = 10 и г = 4. Вычислите Я-зна-
чение при гипотезе Я0: /> = 0.1 против односторонней альтернативы Н^.
р >0.1.
138 Гл. 2. Элементарные статистические выводы

b) Предположим, что п = 3492 и г = 200. Вычислите Р-значение для гипо­


тезы Н0: / 7 = 0 .1 прогив альтернативы Д г : р =£= 0.1.
c) Предположим, что п = 474 и число мальчиков со сколиозом гг равно 188.
Проверьте нулевую гипотезу Н0\ р1== р 2 =
2.1.2 (набор данных А). Проверьте гипотезу, что в популяции 50 % мужчин.
Найдите 95% -ны й доверительный интервал для доли мужчин.
2.1.3 (набор данных А). Вычислите 90 %-ный доверительный интервал для
смертности (доли умерших) среди критически больных пациентов.
2.1.4 (набор данных А). Проверьте гипотезу о том, что распределение попу­
ляции по типам шока равномерно.
2.1.5 (набор данных В). Проверьте гипотезу о том, что индивидуумы в по­
пуляции р авномерно распределены по пяти уровням социально-экономического
положения.
Раздел 2 .2
2.2.1 (набор данных А). Д ля популяции выживших пациентов постройте
эмпирическую функцию распределения величины начального и конечного МАР,
и для обеих переменных вычислите медиану, ироцентили Рг5 и Р 75, и межквар-
тильное средн ее (Р2Ъ-f Р :ь)/ 2.
2.2.2 (набор данных А). Решите упр. 2.2.1 для подпопуляции умерших
больных.
2.2.3. Вычислите согласие по критерию х2 и статистику К—С для данных
из табл. 2 .2 .1 , для чего:
a) вычислите х и s2, используя формулы (2.2.2) и (2.2.3);
b) вычислите ожидаемые частоты Fit используя значения х — 2.45 и s2 =
— 1.74 и таблицу стандартного нормального распределения;
c) нарисуйте экспериментальную ФР для данных, приведенных в табл. 2.2.1;
d) вычислите статистику %2 для этой таблицы;
e) оцените статистику D критерия К—С, используя замечание 2.2.3.1.
2.2.4 (набор данных А). Используя начальные данные для всех пациентов,
проверьте гипотезы о том, что величины HR, DP, АТ и МСТ распределены а) нор­
мально, Ь) логнормально.
2.2.5 (набор данных А). Среднее значение гематокрита (Hct) для нормаль­
ного взрослого человека равно 40. Можно ли по начальным данным для всех
пациентов сказать, что у них нормальный гематокрит? То же по конечным дан­
ным для гтодпопуляцнп выживших?
2.2.6 (набор данных В). Постройте эмпирические ФР для систолического
давления в 1950 и 1962 гг. Используйте эти графики, чтобы оценить медиану,
25-ю процентиль Р25, 75-ю процентиль Р 76 и межквартильное среднее (Ргъ +
Р 76)/2 д л я каждой переменной. Отметьте различия между 1962 и 1950 гг.
Средняя величина систолического давления для молодого здорового человека
равна 120. Определите процентильный ранг 120 в 1950 и 1962 гг.
2.2.7 (набор данных В). Для величины систолического давления в 1950 г.
вычислите оценки коэффициентов асимметрии и эксцесса ßi и ß2, а также их
стандартные ошибки. Указывают ли эти оценки на близость к нормальному
распределению?

Раздел 2.3
2.3.1. Проверьте гипотезу Н0: \\у = 0.466 против альтернативы Нг : <
< 0.466, если
a) t = —1.2, п = 10;
b) t = - 2 .3 , п = 10;
c) t = -f 1.2, п = 10.
Считайте, как и в примере 2.2.2, что sy — 0.261.
Упражнения 139

2.3.2. а) (набор данных А). Используя двухвыборочный ¿-критерий и /-кри­


терий Уэлча, проверьте нулевую гипотезу о том, что в начальном обследовании
средняя частота сердечных сокращений у мужчин и женщин одинакова. Про­
верьте также гипотезу о равенстве средних для времени циркуляции и для
диуреза. Равны ли дисперсии этих величин для мужчин и для женщин?
Каким из ¿-критериев лучш е пользоваться в этом случае? Поясните полученные
результаты.
Ь) Используя парный /-критерий, проверьте значимость различия между
величиной систолического давления в начальном и конечном обследованиях.
2.3.3. Проделайте вручную указанные вычисления для следующего под­
множества из набора данных В.

X = Вес У = Холе­
Диагно ч Случай в 1962 г. стерин
в 1962 г.

И нф аркт ! 147 209


м и о к ар д а 2 194 258
3 186 296
4 149 254
5 186 311
6 231 325

С тенокарди я 1 172 230


2 139 255
3 174 178
4 164 299
5 173 285
6 135 234

Используя двухвыборочный /-критерий, оцените значимость различия


между средним значением’ холестерина сыворотки и средним весом для двух
различных диагностических групп. Найдите P -значение и прокомментируйте
результаты.
2.3.4 (набор данных А). Для подпопуляции выживших пациентов проверьте,
значимы ли в среднем изменения величин MAP, DP и CI от начального состоя­
ния до конечного.
2 .3 .5 (набор данных А). Для подпопуляции умерших пациентов проверьте,
значимо ли в среднем изменение величин АТ и МСТ от начального до конечного
обследования.
2 .3 .6 (набор данных А). Проверьте совпадение дисперсий величины началь­
ного систолического давления у выживших и умерших пациентов.
2 .3 .7 (набор данных В ) . Пусть Х г — вес в 1950 г., Х 2 — вес в 1962 г., а Х 3 =
= Х 2 — Хх. Для каждой из трех величин проверьте гипотезу о том, что она
нормально распределена. [ Указание: разумно выбрать десять интервалов так,
чтобы ожидаемая ненормированная частота каждого составляла 10 % от общего
объема выборки. ]
2.3.8 (набор данных В). Выполните упр. 2.3.7 для систолического давления.
2.3.9 (набор данных В ) . Выполните упр. 2.3.7 для диастолического давления.
2.3.10 (набор данных В). Повторите упр. 2.3.7 для холестерина сыворотки.
2.3.11 (набор данных В). Какие из переменных — вес, систолическое дав­
ление, диастолическое давление и холестерин сыворотки крови — значимо изме­
нились с 1950 по 1962 г . Постройте 95 %-ный доверительный интервал для
средней величины изменения. Какими предположениями вы пользовались?
140 Гл. 2. Элементарные статистические выводы

Раздел 2.4
2.4.1 (набор данных А). Используя программу описания расслоенных дан­
ных, постройте гистограммы начального и конечного распределения величин
МАР, МСТ, U O и Hgb для подгрупп с различными исходами. У каких пере­
менных разница между двумя группами значима?
2.4.2 (набор данных А). Постройте гистограммы возраста для подгрупп
с различным типом шока. Существует ли значимая разница между различными
типами шока в зависимости от возраста? Используя метод множественных срав­
нений Шеффё, выделите пары подгрупп, средний возраст в которых значимо
различен (на уровне а = 0.05).
2.4.3 (набор данных В). Для каждой непрерывной переменной постройте
гистограммы д л я подгрупп с различным исходом. Для каких переменных раз­
личия средних значений между подпопуляциями умерших и выживших пациен­
тов значимы?
2.4.4 (набор данных В). Решите упр. 2.4.3, разбивая популяцию по со­
циально-экономическому положению. Найдите множество доверительных интер­
валов для величины систолического давления в 1950 г. для контрастов а) Ц!—
и b) -g- (|хх -f—ц2 + (¿з) — ■g* ((-l4 H—М-в)> используя три различных метода. Про­
комментируйте полученные результаты.
2.4.5 (набор данных В). Решите упр. 2.4.3, разбив пациентов на группы
по лечащим врачам, проводившим обследование в 1950 г. Существуют ли значи­
мые различия между исследователями?

Раздел 2.5
2.5.1 (набор данных В). Проверьте независимость исходам социально-эко­
номического положения.
2.5.2 (набор данных В). Проверьте независимость социально-экономиче­
ского положения и клинического состояния (1950).
2.5.3 (набор данных В). Проверьте независимость исхода и клинического
состояния в 1950 г.
2.5.4 (набор данных В). Используя оценки 20-й, 40-й, 60-й и 80-й процен-
тилей, разделите диапазон изменения систолического давления (1950) на пять
интервалов. Затем, применяя критерий х2> проверьте независимость этой вели­
чины от а) исхода и Ь) социально-экономического положения.
2.5.5 (набор данных В). Используя критерий х2> проверьте независимость
величин систолического давления в 1950 и 1962 гг.
2.5.6 (набор данных В). Проверьте независимость веса и холестерина сы­
воротки (1950). (Указание : воспользуйтесь интервалами, аналогичными интер­
валам, построенным в упр. 2.5.4.)
Раздел 2.6
2.6.1 (набор данных В). Для величин, указанных в упр. 2.5.4, вычислите
все меры связанности, описанные в разд. 2.6, и воспользуйтесь ими для проверки
гипотезы о независимости. Объясните результаты.
2.6.2 (набор данных В). Решите задачу 2.5.5, используя вместо критерия х2
другие меры связанности, как это делалось в разд. 2.6.
Раздел 2.7
2.7.1 (набор данных А). Используя начальные значения величин HR, АТ
и МСТ для всех пациентов, вычислите обычное среднее, винзоризованное среднее,
усеченное среднее и М-оценку Хампеля. Какой способ оценки среднего вы пред­
почтете? Почему?
3
Р егресси он н ы й и корреляционный

ан ал и зы

В эгой главе р ассм атр и ваю тся регрессионны й и корреляционный


анали зы — -д ва м етода исследования взаимосвязи между двум я
или ^олее непреры вны м и переменными. В регрессионном анализе
рассматривается с в я з ь между одной переменной, называемой
зависимой переменной , и нескольким и другими, называемыми
независимыми перем енны м и. Эта с в я з ь представляется с помощью
математической м одел и , т. е. ур авн ен и я , которое связывает з а ­
висимую переменную с независимыми с учетом множества соот­
ветствующ их предполож ений. Н езависим ы е переменные связаны
с зависимой п осредством функции регрессии , зависящей такж е от
набора неизвестных парам ет ров. Е с л и функция линейна относи­
тельно параметров ( н о н еобязател ьн о линейна относительно
независимых перем енны х), то го в о р я т о линейной модели рег­
рессии. В противном; случае м одель называется нелинейной.
В каждом из этих с л у ч а е в говорят о регрессии зависимой перемен­
ной по независимым переменным.
Статистическими проблем ам и р егресси онн ого анализа я в л я ­
ются: а) получение н аи л уч ш и х точечны х и интервальных оценок
неизвестных п ар а м етр о в регрессии; Ь) проверка гипотез относи­
тельно этих п ар ам етр ов; с) п р овер ка адекватности предполагае­
мой модели; с1) п р о в е р к а м нож ества соответствую щ их предполо­
жений. Выбор п од ход ящ ей м одели основывается скорее не на
статистических д о в о д а х , а на осн ове уч ета физических факторов.
В эгой главе б у д у т о б су ж д а ть ся некоторы е аналитические ср ед ­
ства, полезные при определении зависим ости между переменными.
Регрессионный а н а л и з и сп о л ьзуется по двум причинам. Во-
первых, потому, что описание зависим ости между переменными
помогает установить наличие возмож ной причинной связи. Во-
вторых, для п о л уч ен и я предикт ора для зависимой переменной,
так как уравнение р егр есси и п озволя ет предсказывать значения
зависимой перем енной по значениям независимых переменных.
Эта возможность о со б ен н о важна в тех сл уч аях, когда прямые из­
мерения зависимой перем енной затр уд н ен ы или дорого стоят.
142 Гл. 3. Регрессионный и корреляционный анализы

В е л и ч и н а л и н ей н о й зави си м о сти м еж ду д вум я п ерем енн ы м и


и з м е р я е т с я посредством простого коэффициента корреляции, в то
в р е м я к а к в е л и ч и н а л и н ей н о й зави си м о сти одной п ерем енн ой о т
н е с к о л ь к и х и з м е р я е т с я множественным коэффициентом корреля­
ции. Д р у г а я м ер а з а в и с и м о с т и —-ч а с т н ы й коэф ф иц иент к о р р е л я ­
ци и — и з м е р я е т л и н ей н у ю зав и си м о сть м еж ду д в у м я п е р е м е н ­
ны м и п о с л е у с т р а н е н и я части л и н е й н о й зави си м о сти , о б у с л о в л е н ­
ной з а в и с и м о с т ь ю эт и х перем ен н ы х с д р у ги м и п ерем ен н ы м и . М е ­
тоды к о р р е л я ц и о н н о г о а н а л и з а п о зв о л я ю т д ел ать ст ати сти ч еск и е
вы во д ы о б э т и х т р е х мерах: л и н ей н о й зав и си м о сти . В д ан н о й г л а в е
б у д е т п о к а з а н о , что методы р егр есси о н н о го и к о р р е л я ц и о н н о г о
а н а л и з о в т е сн о с в я з а н ы м еж д у собой.
Р а з д е л 3.1 п о св я щ ен л и н ей н о й р егр есси и зависи м ой п ерем ен н о й
по о д н о й н езав и си м о й перем енн ой, т, е. простому линейному р е г­
рессионном у анализу и с в я за н н о м у с ним простому корреляциояному
анализу. В р а з д . 3.2 р а с с м ат р и в а е т с я множественный линейный
регрессионны й анализ, а т а к ж е а н а л и з м н ож ественн ы х и ч аст н ы х
к о р р е л я ц и й . В эт о м с л у ч а е им еется несколько н езави си м ы х п е ­
р е м е н н ы х . В р а з д . 3 .3 р а с с м а т р и в а е т с я п р оц ед ура пошаговой
р е г р е с с и и д л я в ы б о р а н а и л у ч ш и х независим ы х п ерем енн ы х д л я
п р о г н о з и р о в а н и я зав и си м о й п ер ем ен н о й . Н ак о н ец , р а зд . 3 .4 ,
п о с в я щ е н н е л и н е й н о м у р егр есси о н н о м у а н а л и зу .
Т е о р и ю , л е ж а щ у ю в о сн о в е р егресси онной м одели , м о ж н о
п о л у ч и т ь из т е о р и и общей, линейной модели. Т ак к а к п о с л е д н я я
в к л ю ч а е т и о с н о в ы д и сп ер си о н н о го а н а л и з а , она б у д е т р а с с м о тр е н а
в гл . 4. О б з о р п р о гр а м м в ы ч и сл ен и я регресси и со д ер ж и тся в р а ­
б оте Y e l l e m a n et al. (1977).

3.1. Простая линейная регрессия и простой


корреляционный анализ

В этом р а з д е л е б у д е т р ассм о тр ен а с и т у а ц и я , когд а д в е п ерем ен н ы е


с в я з а н ы л и н е й н ы м соотнош ением . П у сть У — за в и с и м а я , а X —
н е з а в и с и м а я пер ем ен н ы е.
П р е д п о л о ж и м , ч то и л еется в ы б о р к а п арн ы х н аб л ю д ен и й
(* 1 > ¿/1 ). (-* 2. */г)> •••. (*«. У,г) из н ек о то р о й п о п у л я ц и и №. П ер в ы й
способ с о с т о и т в том , ч то зн а ч е н и я X ф и кси р у ю тся, с к а ж ем X =
= х ъ . . . , X = х п, т а к что д л я X = х 1 мы имеем п о д п о п у л я ц и ю
№\ и з №г , с о д е р ж а щ у ю все и н ди ви ду у м ы , д л я ко то р ы х X =
¿ = 1 , . . . , п. И з №I сл у ч ай н ы м о б р азо м вы б и р ается и н д и ви д у у м ,
у к о т о р о г о и зм е р я е т с я У = у п I — 1, ..., п. П р и т а к о м подходе
только я в л я е т с я случайн ой вел и ч и н о й .
3.1. Линейная регрессия и корреляционный анализ 143

П р и втором м ето д е п о л у ч е н и я в ы б о р к и , мы с л у ч а й н ы м о б р азо м


отби раем п и н ди ви ду у м о в из В/ и у к а ж д о г о из н и х и зм е р я е м к а к
п ерем енн ы е X , т а к и У. З д е с ь с л у ч а й н ы м и я в л я ю т с я обе в е л и ч и ­
ны X и V. П р еи м у щ ество э т о г о м ето д а п о л у ч е н и я в ы б о р к и з а к л ю ­
чается в том, ч то мы м о ж е м с д е л а т ь с т а т и с т и ч е с к и е вы вод ы о т ­
носи тел ьн о к о эф ф и ц и ен та к о р р е л я ц и и м еж д у X и У, в то в р е м я
к а к п р и п ервом м етоде э т о г о с д е л а т ь н е л ь зя .
Н езав и си м о о т способа п о л у ч е н и я в ы б о р к и , и м ею тся д в а
п р е д в а р и т е л ь н ы х ш а г а д л я о п р е д е л е н и я с у щ е с т в о в а н и я и ст еп е н и
л и н ей н о й за в и с и м о с т и м е ж д у X и У. П ер в ы й ш а г з а к л ю ч а е т с я
в граф и ческо м о то б р аж ен и и т о ч е к (хг, у л) ,..., ( х п, у п) н а п л о с к о ст ь
Х У . Т а к о й г р а ф и к н а з ы в а е т с я диаграммой рассеяния. А н а л и з и р у я
д и агр а м м у р а с с е я н и я , мы м о ж е м эм п и р и ч еск и р еш и ть , д о п у с ти м о
ли п р е д п о л о ж е н и е о л и н е й н о й за в и с и м о с т и м е ж д у X я У. В торы м
ш агом я в л я е т с я вы чи сл ен и е в ы б о р о ч н о го к о э ф ф и ц и е н т а к о р р е л я ­
ции

— х) (У1 — у)
г = /I
i= 1 п "11/2
(3 .1 .1 )
2 (*£ — *)2 Ц (г/г — у )2
¿=i !=i
Е сл и аб со л ю тн ая в ел и ч и н а к о э ф ф и ц и е н т а к о р р е л я ц и и в е л и к а (это
б удет о б с у ж д а т ь с я в р азд . 3 . 1 . 4 ) , э т о о б о с н о в а н н о у к а з ы в а е т н а
си л ьн у ю л и н е й н у ю з а в и с и м о с т ь м е ж д у п ер ем ен н ы м и .
В н ек о то р ы х П С П п р о г р а м м ы д л я анализа к о р реляций в ы ч и с л я ­
ют к о р р е л я ц и ю м е ж д у X и У и с т р о я т д и а г р а м м у р а с с е я н и я о д ­
новрем енн о. Э ти п р о г р а м м ы , ес л и о н и д о п у с к а ю т п р е о б р а з о в а н и е
п р и зн ако в, в частности, п о л езн ы д л я в ы я в л ен и я ли н ей н ой за в и ­
сим ости. Т а к , п р и одном п р о г о н е т а к о й п р о гр а м м ы и с с л е д о в а т е л ь
м ож ет п о л у ч и ть к о р р е л я ц и и и д и а г р а м м ы р а с с е я н и я д л я л ю б о й
ком бин ац ии п реоб разован и й X и У, наприм ер (X , lo g У),
(log X , У ), (log X , lo g У), С / Х , lo g У) и т. д. П р е о б р а з о в а н и е ,
д л я ко то р о го п о л у ч а е т с я н а и б о л ь ш е е по а б со л ю тн о й в е л и ч и н е
зн ач ен и е к о эф ф и ц и ен та к о р р е л я ц и и , б у д е т т е м п р е о б р а зо в а н и е м ,
котором у с о о тв етств у ет н а и б о л е е с и л ь н а я л и н е й н а я за в и с и м о с т ь .
Т аки м об р азо м , е с л и , н а п р и м е р , н а и б о л ь ш и м п о абсол ю тн ой в е л и ­
ч ине я в л я е т с я к о э ф ф и ц и е н т к о р р е л я ц и и м е ж д у X и lo g У, т о
соответству ю щ ая д и а г р а м м а р а с с е я н и я п о к а ж е т н а и б о л е е я р к о
вы р аж ен н у ю э м п и р и ч е с к у ю л и н е й н у ю за в и с и м о с т ь . П р и в е д е м
теперь т р и п р и м е р а , к о т о р ы е б у д у т а н а л и з и р о в а т ь с я в это й г л а в е .

П рим ер 3 .1 .1 . К а л и б р у е т с я п р и б о р д л я и зм е р е н и я к о н ц е н т р а ­
ции м олочной к и с л о т ы в к р о в и . И с с л е д о в а т е л ь и с п о л ь з у е т п = 20
о б разц о в (в ы б о р о к ) с и з в е с т н о й к о н ц е н т р а ц и е й и зат ем в ы ч и с л я е т
ко н ц ен тр ац и ю , о п р е д е л е н н у ю и с сл ед у ем ы м п р и б о р о м . П у с т ь X
144 Гл. 3. Регрессионный и корреляционный анализы

о б о з н а ч а е т известн у ю ко н ц ен тр ац и ю м олочной ки сл о ты (мМ),


а ¥ — к о н ц е н т р а ц и ю м олочной ки сл о ты (мМ), оп ред ел ен н у ю
с помощ ью п р и б о р а . П о л у чен н ы е д ан н ы е при веден ы в т а б л и ц е
X Y X Y X Y
1 1.1 5 7.3 15 18.7
1 0.7 5 8.2 15 19.7
1 1.8 5 6.2 15 17.4
1 0.4 10 12.0 15 17.1
3 3.0 10 13.1
3 1.4 10 12.6
3 4.9 10 13.2
3 4.4
з 4.5
З ам ети м , что эги д ан н ы е о т н о с я тс я к п ервом у способ у ф о р м и ­
р о в а н и я в ы б о р к и , т а к что X ф и к с и р о в а н о н а у р о в н е одного и з
п я т и з н а ч е н и й : X = 1, X = 3, X = 5, X = 10 или X = 15.
В ы б о р о ч н ы й коэф ф иц иент к о р р е л я ц и и т = 0.987 у к а зы в а е т н а
о ч е н ь с и л ь н у ю л и н ей н у ю зав и си м о сть м еж д у X и У. Э то т а к ж е
я с н о в и д н о и н а д и а гр а м м е р а с с е я н и я , приведенн ой на р и с. 3 .1 .1 .
г

Р и с . 3.1.1. График зависимости Y о т X , где У — концентрация молочной кис­


л о т ы (мМ), определенная с помощью прибора, X — известная концентрация
м олочной кислоты (мМ).

Пример 3 .1 .2 . П р од олж и м а н а л и з п р и м ер а 2 .3 .1 . В этом с л у ­


ч а е X п р е д с т а в л я е т собой венозн ое p H , а ¥ — а р т е р и а л ь н о е p H ,
и зм е р е н н ы е о д н о вр ем ен н о у 108 п ац и ен то в в к р и ти ч еск о м со сто я-
Рис. 3.1.2. График зави си м о сти У от X , где У — артериальное pH , X веноз­
ное pH , для 108 пациентов в критическом состоянии. Цифры 2 и 3 означаю т соот­
ветственно 2 и 3 со в п ад ен и я в данной т о ч к е .

22
г

о Ч/— 30 45

Рис. 3.1.3. График зав и си м о сти У от X , где У — сердечный индекс [л/(мин-м2)]>


X — среднее Бремя ц и р к у л я ц и и (с), для 107 пациентов в критическом состоянии-
146 Гл. 3. Регрессионный и корреляционный анализы

н и и . З а м е т и м , что эти н аб л ю д ен и я пол уч ен ы со гл асн о втором у


с п о с о б у о б р а з о в а н и я в ы б о р ки , т а к что X и Y сугь с л у ч а й н ы е
в е л и ч и н ы . В ы борочны й коэф ф иц иент к о р р е л я ц и и г = 0 .9 0 4 с н о в а
у к а з ы в а е т н а си л ьн у ю л и н ей н у ю зав и си м о сть м еж ду X и Y .
Д а н н ы е гр а ф и ч е с к и п р ед став л ен ы н а рис. 3 .1 .2 . В т о ч к а х , к у д а
п о п а д а е т н е с к о л ь к о н аб л ю д ен и й , п еч атается ч и сл о с о в п ад ен и й
(это д е л а е т с я прогр ам м ам и в ы в о д а гр аф и к о в во м ногих П С П ).

П р и м е р 3 .1 .3 . П р и о п р е д е л ен и и п рои звод и тел ьн ости сердц а


д о п о л н и т е л ь н о п р о в о д и л о сь обы чны м об разом и зм ер ен и е п о к а з а ­
т е л я , н а з ы в а е м о г о средним временем циркуляции. Этот п о к а за т е л ь
и з м е р я е т ср едн ее вр ем я с м о м ен та и н ъ екц и и к р а с и т е л я до его
п о я в л е н и я в п р о б е а р т ер и а л ь н о й к р о в и . Р и с. 3 .1 .3 п р е д с та в л я е т
со бо й д и а г р а м м у р а с с е я н и я Y в с о п о сгавл ен и и с X, где Y есть
с е р д е ч н ы й и н д е к с в [л/(м ин -ms) ], а X — с р ед н е е вр ем я ц и р к у л я ц и и
в с е к у н д а х , и зм ерен н ы е у 107 б о л ьн ы х в кри ти ч еск о м с о с то я н и и .
Э та д и а г р а м м а р а с с е я н и я у к а зы в а е т н а эк с п о н е н ц и а л ь н у ю з а ­
в и с и м о с т ь м е ж д у X. и Y , но, если и с п о л ь зо в а т ь lo g Y , м о ж н о п о л у ­
ч и т ь л и н е й н у ю зав и си м о сть o r X. Е с л и п р е о б р азо в ан и е м п е р е м е н ­
н ы х у д а е т с я п е р е й ти к л и н ей н о й зав и си м о сти , то мы б удем г о в о ­
р и т ь , ч т о м о д е л ь существенно линейна. Зам ети м , о д н ак о , что к и с ­
х о д н ы м д ан н ы м м ож но при м ен ить и те х н и к у нелинейной регрессии
(см . р а з д . 3 .4 ).

З а м е ч а н и е 3 .1 .1 . П р о гр а м м а к о р р е л я ц и о н н о г о а н а л и з а м о ж е т
б ы ть и с п о л ь з о в а н а п ри о п р ед ел ен и и н а и л у ч ш его п р е д и к то р а д л я Y
и з н а б о р а р перем ен н ы х Х и Х 2, Х р. П е р е м е н н а я Х г, и м ею щ ая
н а и б о л ь ш у ю (по абсолю тной в ел и ч и н е) к о р р ел я ц и ю с Y, им еет
и н а и б о л е е с и л ь н у ю линейную зав и си м о сть с Y . Т а к а я п р о ц е д у р а
я в л я е т с я п е р в ы м ш аго м п р о ц ед у р ы т а к н азы ваем ой пошаговой
р е гр е с с и и , к о т о р а я будет р ассм о тр ен а в р азд . 3 .3 .

Т е п е р ь п ер ей д ем к обсуж дению л и н ей н ой регр есси о н н о й м одел и .


Т е о р и я , и с п о л ьзу ем а я в следую щ и х д в у х р а зд е л а х , о с н о в а н а н а
п р е д п о л о ж е н и и , что зн а ч е н и я X ф и кси рован ы .
О д н а к о эт и ж е р е зу л ь т ат ы , к а к мы у ви д и м в р а зд . 3 .1 .1 , м о ж н о
п р и м е н я т ь и д л я с л у ч а я , когд а X есть с л у ч а й н а я в е л и ч и н а .

3.1.1. Простая линейная регрессионная модель


и оценивание по методу наименьших квадратов

Е с л и п р е д п о л а г а е т с я л и н е й н а я зав и си м о сть м еж ду Y и X, то
т е о р е т и ч е с к а я м одель за д а е т с я у р а в н е н и я м и

Hi — Рэ “Н Р л i = 1, (3.1 .2)
3.1. Линейная регрессия и корреляционный анализ 147

и н а зы в а е т с я моделью простой линейной регрессии У по X . В е ­


ли ч и н ы |30 и я в л я ю т с я неизвестны м и пар ам етрам и , а еъ е2, ...
..., еп с у т ь н е к о р р е л и р о в а н н ы е ош иб ки случай н ой п ер ем ен н о й
со средним 0 и н е и зв е стн о й ди сп ер си ей а 2, т. е.
Е (е¿) = 0 и V (е,-) = а 2, £ = 1, . . ., п. (3 .1 .3 )
Н а рис. 3 .1 .4 эта м о дел ь п р ед ставл ен а граф и чески . Д л я к а ж д о г о з н а ­
чен ия X = XI им еется р асп р ед ел ен и е У (не о б язател ьн о н о р м ал ьн о е)
со средним зн а ч е н и е м |30 + Р л - и д и сперсией а 2, г = 1, ... , п.
у

Рис. 3.1.4. Модечь простой линейной регрессии. А — распределение У д л я X =


= х и среднее Р0 + Р 1 *2> дисперсия ст2; В — прямая г /= ро - |- Р 1 *; С — рас­
пределение У для X = Хх, среднее р0 + ^1х1, дисперсия а2.

Н ай д ем т е п е р ь о ц е н к у н еи зв естн ы х зн ач ен и й и (5Ъ о с н о в а н ­
ную н а им ею щ ейся у н а с в ы б о р ке об ъ ем а п. Н аи л у ч ш и е о ц е н к и Ь0
и д л я р0 и п о л у ч а ю т с я м и н и м и зац и ей соответствен н о по (50
и (5Х суммы квадратов отклонений

5 = £ (У1 ~ Ро - ( № (3-1.4)
¿=1
Эти о ц ен к и н а зы в а ю тс я оценками наименьших квадратов и д аю т с я
ф о рм улам и
Ь0 = У — Ьхх , (3.1.5)
п п
£ (*г — х) У1 2 (*1 ~ *) (У‘ - у)
* = -------------------- . (3.1.6)
2 (XI - х)* 2 (XI - ху
¿= 1 ¿= 1
148 Гл. 3. Регрессионный и корреляционный анализы

Зам ети м , что 5 есть м ера о ш и б ки , в о зн и каю щ ей п р и а п п р о к ­


сим ации вы б о р ки п р я м о й . О цен ки Ь0 и Ь± м и н и м и зи р у ю т о ш и б к у .
К а к сл е д у е т и з р е зу л ь т а т о в р а зд . 4 .1 , эт и о ц ен ки несм ещ ены и
имею т м и н и м ал ьн у ю д исперсию ср еди всех несм ещ ен ны х о ц ен о к
Ро и рх, л и н ей н о за в и с я щ и х от наб л ю д ен и й у ъ у 2, ..., у п.
Оценкой уравнения регрессии (и л и прямой наименьших квадра­
тов) будет
У = Ь0 -\-Ьхх, (3.1.7)
т а к что о ц е н к а з н а ч е н и я У п р и X = х1 есть у 1 = Ь0 + Ьххг.
Р а з н и ц а м еж д у наблю даем ы м и оцен ен ны м зн ач ен и ем У п р и
X = х 1 н а зы в а е т с я отклонением (и л и остатком) с1: = у г •— у и
у

Рис. 3 .1 .5 . Теоретическая регрессионная прямая наименьш их квадратов с ука


занным 1 -м отклонением <11 = г/, — П рямая наименьших квадратов достав­
ляет минимум 5 . П унктирная линия — прямая наименьших квадратов 9 =
= &о + Ьхх, сплошная линия — неизвестная теоретическая прямая и = Рп +
+ 01*-

П р я м а я н аи м ен ьш и х к в а д р а т о в д о с т а в л я е т м ин им ум сум м е к в а д -
П

ратов о т к л о н е н и й 5 = 2 й\. С оотнош ение м еж д у тео р ети ч еско й


1=1
р егр е с си о н н о й п р я м о й , п р я м о й н аи м ен ьш и х к в а д р а т о в и т о ч к а м и
вы б о р ки м о ж н о у в и д еть на р и с. 3 .1 .5 .
Во м н о ги х П С П им ею тся програм м ы простой л и н ей н ой р е г р е с ­
сии, ко то р ы е в ы ч и с л яю т оц ен ки н аи м ен ьш и х к в а д р а т о в Ь0 и Ьх по
вы б о р ке. Н а вы х о д е э т и х п р о гр ам м о ц е н к а Ьг обы чно н а зы в а е т с я
коэффициентом регрессии, а оценка Ь0 — свободным членом уравн е­
ния регрессии.

П ример 3 .1 .1 (продолжение). Д л я этого п р и м ер а о п р е д е л я л а с ь


р егр есси я У по X , где У — к о н ц е н т р а ц и я м олочн ой к и с л о т ы ,
3.1. Линейная регрессия и корреляционный анализ 149

и зм еренн ая при бо р о м , а X — и з в е с т н а я к о н ц ен т р ац и я м ол оч ­
ной ки слоты . П р о г р а м м о й р е г р е с с и о н н о г о а н а л и з а бы ли вы чи слен ы
оценки р0 и п о п = 20 н а б л ю д е н и я м , что д ал о Ь0 = 0 .1 5 9
и Ьх = 1.227. Т а к и м о б р а з о м , п р я м а я н а и м е н ь ш и х к в а д р а т о в есть
у = 0.15 9 1.227а:. Е с л и X = 1, т о у = 1.39, есл и ж е X = 10,
то у = 12.43. Э та п р я м а я г р а ф и ч е с к и п р е д с т а в л е н а н а р и с. 3 .1 .1 .
Д л я п р а к ти ч е с к и х ц е л е й ж е л а т е л ь н о п р е д с к а з а т ь истин ную к о н ­
цен траци ю X по н а б л ю д а е м о й к о н ц е н т р а ц и и У. Д л я это го н у ж н о
обратить о ц ен ку р е г р е с с и о н н о г о у р а в н е н и я , что д ает д л я оц ен ки
X по У у р а в н е н и е £ = (у — 0 .1 5 9 )/1 .2 2 7 .

Замечания 3.1.2. 1 . Э ти о ц ен ки м о гу т бы ть т а к ж е получены


с пом ощ ью программ множественной линейной регрессии, д л я
чего н а у п р а в л я ю щ е й к а р т е ч и с л о п е р е м е н н ы х р з а д а е т с я р ав н ы м 2.
Т аки е п р ограм м ы о б с у ж д а ю т с я в р а з д . 3.2.
2. М ож но и н т е р п р е т и р о в а т ь п р е д с к а з а н н о е зн а ч е н и е у д ву м я
способами. П ри п е р в о м сп особ е и с с л е д о в а т е л ь за и н т е р е с о в а н в о ц е ­
н и вании зн ач ен и я У д л я и н д и в и д у у м а , у к о т о р о го X п р и н и м ает
зн ач ен и е х. В это й с и т у а ц и и у есть н а и л у ч ш а я о ц е н к а единствен­
ного значения У, с о о т в е т с т в у ю щ е го X = х. П р и втором подходе
исследователь д е л а е т в ы в о д ы о с р е д н е м зн а ч е н и и У д л я п од п оп уля-
ции, соответствую щ ей з н а ч е н и ю X = х. Т о гд а т а ж е с ам ая о ц е н ­
ка у будет н аи л у ч ш ей о ц е н к о й среднего значения У п ри X — х.
Р а зл и ч и е м еж ду э т и м и д в у м я с п о с о б а м и и н тер п р ет а ц и и в а ж н о ,
когда стр о ятся д о в е р и т е л ь н ы е и н т е р в а л ы (см. р а зд . 3 .1 .2 ).
3. М ож но « ц е н т р и р о в а т ь » м о д е л ь р е г р е с с и и , за п и с ав

Ус = ?о —Ь + вс, 1=1 ,...,п ,

где
w¡ = х { — х и ро = Ро + Р ^ -

В этом с л у ч а е о ц е н к о й н а и м е н ь ш и х к в а д р а т о в д л я рг о стается
но оценкой н а и м е н ь ш и х к в а д р а т о в д л я р 'б у д е т т е п е р ь Ь'0 = у.
П ракти ч еско е и т е о р е т и ч е с к о е п р е и м у щ е с т в о т а к о г о п р ед ставл ен и я
состоит в том, что о ц е н к и у п Ь1 н е к о р р е л и р о в а н н ы .
4. Е сл и известно, ч т о р0 = 0, т о м о ж н о и с п о л ь з о в а т ь модель
вида г/г = {кг- + е:, I = 1, ... , п. В п р о г р а м м а х м н о ги х ПСП
предусм отрена в о з м о ж н о с т ь принудит ельного проведения линии
регрессии через начало координат.

3.1.2. Доверительные интервалы и проверка гипотез


Ч тобы сд ел ать с т а т и с т и ч е с к и е в ы в о д ы о р„, Рх и у , с н а ч а л а н ео б ­
ходимо оценить д и с п е р с и ю а 2, а з а т е м о п и с ат ь р а с п р е д ел е н и е о ш и б ­
ки с л у ч ай н о й п е р е м е н н о й £г, ¿ = 1, . . . , п. С о гл асн о теори и о б ­
150 Гл. 3. Регрессионны» и корреляционный анализы

щ ей л и н е й н о й м одели, о б ы ч н ая несм ещ ен н ая о ц ен ка д л я а 2 о п ­
р е д е л я е т с я ч ер ез дисперсию оценки
п
2 — Ь0 — ¡№ )2
«2 ¿= 1 /о 1 п\

П о л о ж и т е л ь н ы й к в а д р а тн ы й к о р е н ь из этой величины н а зы в а ю т
ст ан дарт ной ошибкой оценки. Обе эти величины , к а к п р а в и л о ,
п е ч а т а ю т с я в вы ход ны х д ан н ы х . Д и с п е р си ю оц ен ки м ож но т а к ж е
н а й т и и з таблицы дисперсионного анализа, к о т о р ая во м ногих с л у ­
ч а я х в ы в о д и т с я на п е ч а ть (см. г а б л . З .1 .1 .). В ел и ч и н а в2 и д ен ти ч н а
Таблица 3.1.1
Таблица д и сп ер си он н ого анализа для простой линейной регрессии

И с то ч н и к Сумма Степени Средний


дисперсии квадратов свободы квадрат ^-отнош ение

п
Р егр есси я 550 = £
¿=1
( 0 / - ■у)2 \>с = 1 МБо = 3 3 0
0
_М Б 0
МБК

О тклонение п МБ* = =
от регрес - ББ« = 2 (т - £ ;)2 = п—2
сии ¿=1
я '7
п
Полная ББт
2
»=1
( ш — У) 2 vx = п — 1

М БК — средн ем у квадрату .отклонения ( остатка ) от регрессии.


Остаточная сумма квадратов ББд и остаточное число степеней
свободы я в л я ю т с я со о тветствен н о ч и сл и тел ем и зн ам ен ател ем
в ф о р м у л е (3 .1 .8 ). Обусловленная регрессией сумма квадратов ББр
п о л у ч и л а т а к о е н а зв а н и е потом у, что ее мож но за п и с а т ь к а к
ф у н к ц и ю о ц ен ен н ого ко эф ф иц иента р егр есси и Ьи именно
П
Э Б о = Ь \ £ (*, ~ х ) \ (3.1.9)
¿=1
И т а к , чем б о л ьш е коэф ф иц иент р е гр е сси и , тем б о л ь ш е су м м а
к в а д р а т о в , « о б у сл о в л е н н а я регрессией».
П о с л е д н я я к о л о н к а , Т7-отношение, м о ж ет бы ть и с п о л ь з о в а н а
д л я п р о в е р к и ги п о тез, е с л и ош ибки еъ е2, ..., еп п р е д п о л а га ю т с я
н о р м а л ь н о р асп р ед ел ен н ы м и . В этом с л у ч а е м оделью п р о сто й
л и н е й н о й р егр есси и будет
Ус = Ро ~г Р1Х1 ~Ь г = 1 , . . ., п, (3.1.10)
гд е б!, е2, ..., еп — незави си м ы е с л у ч ай н ы е ош ибки, р а с п р е д е л е н ­
ны е по з а к о н у N (0, сг2).
3.1. Линейная регрессия и корреляционный анализ 151

Д л я п р о в е р к и ги п о т е зы о том, что п р о с т а я л и н ей н ая р е г р е с с и я
У по X о т с у т с т в у е т , т. е. гипотезы Н 0 : рх = 0 п ротив а л ь т е р ­
нативы # х : Ф= 0 , мы и сп о льзу ем /-'■отношение из т аб л и ц ы д и с ­
персион ного а н а л и з а
/^о= МБо/МЭк ==МБо/я3. (3.1.11)
Е сл и в ер н а г и п о т е з а Н 0, то им еет /-’-р асп ред ел ен и е с = 1
и vR = п — 2 с т еп е н я м и свободы. Р -зн а ч е н и е есть п л о щ ад ь
области под к р и в о й п лотн ости р а с п р е д ел е н и я Т7 (гс , ук ) с п р а в а
от ^ 0 . М ы о т в е р г а е м Я 0, есл и Р м еньш е, чем у р о в ен ь зн ач и м о сти а .
Е сл и Н0 п р и н и м а е т с я , то н аи лу ч ш ей о ц ен ко й У при лю бом X = х
б у д ет средн ее з н а ч е н и е у.
Е сли о ш и б к и п р е д п о л а га ю т с я н о р м ал ьн ы м и , м ож но п р о в е р и т ь
д ополнительны е ги п о т е зы и построить д о в ер и тел ьн ы е и н те р в а л ы .
Д л я п р о вер к и Н 0 : ¡3, = (З'/” , где р',0’ — ко н стан та, и с п о л ь зу е м
стати сти к у

¿о = - ^ —Щ г > ' (З Л 1 2 )

где
У{Ь1) = - 1Г-^ ---------• (3-1 1 3 )
£ (*, - X)*
1=1
В вы воде п р о г р а м м р егр есси о н н о го а н а л и з а вел и ч и н а [У (Ьл) V'2
ч асто н а зы в а е т с я стандартной ошибкой коэффициента регргссии.
Е с л и гипотеза Л 0 в е р н а , то имеет ¿-распределени е С тью д ен та
с у к = п — 2 с т е п е н я м и свободы . Р -з н а ч е н и е за в и с и т от ви д а а л ь ­
терн ати вн о й г и п о т е зы , что видно из пр и веден н ой н и ж е т а б л и ц ы .

Нулевая Альтернативная Р-значение


гипотеза гипотеза

Но- 01 =р[0) Я ,: А > А 0) Р = -Рг(/( у*) > Со)


Я ,: А < А 0’ Р = Р г (}(?„) < /о)
Я ,: А * А 0) Р = 2 Р г(1 Ы > |/ 0|)

Н еко то р ы е п р о г р а м м ы в ы в о д ят н а п еч ать зн ач ен и е ¿0. С о о т в е т ­


ственно 100 (1 — а ) %-ный доверительный интервал д л я рх есть

Ь1 ± У у ( Ь 1) Ь _ (а/2)( п - 2 ) . (3 .1.14)
Д л я п р о в е р к и ги п о тезы Я 0 : ро = Р‘0), где ро — к о н с т а н т а ,
исп ользуем с т а т и с т и к у
152 Гл. 3. Регрессионный и корреляционный анализы

где
П

1= 1
У%) = п (3.1.16)
п I ] (*1 — *)г

В вы во д е п р о г р а м м регр есси о н н о го а н а л и з а вел и ч и н а [V" (¿>0) 11/2


и н о гд а н а зы в а е т с я стандартной ошибкой свободного члена.
Д л я Н 0 с т а т и с т и к а /„ имеет ¿-распр едел ен и е С тью дента с ^ =
= п — 2 с т еп е н я м и свободы. Р -з н а ч е н и е за в и с и т от а л ь т е р н а т и в ы
т а к и м ж е о б р а з о м , к а к и д л я о п и сан н о го вы ш е те сга. С о о т в е т с т в у ­
ю щ ий 1 0 0 (1 — а,) % -ныл. доверительный интервал для р0 ес ть

(3 .1 .1 7 )

П р и в е д е м т е п е р ь два д о в ер и тел ь н ы х и н т е р в а л а , о сн о в ан н ы х
н а о ц е н к е у (см. зам ечан и е 3 .1 .2 .2 ). Е с л и у = Ь0 4- Ьхх и н т е р ­
п р е т и р у е т с я к а к о ц е н к а единственного зн а ч е н и я У п р и X = х,
то 100 (1 — а ) %-ный доверительный интервал для У о п р ед е л я е т ся
вы раж ением

0 ± я П + 4 - + - - ■■* Т / 2 ^ 1 _ (а / 2 ) ( п — 2 ) . ( 3 . 1 . 1 8 )
2 (*«• — *)2

Е с л и , с д р у г о й стороны , у и н те р п р ет и р у ет с я к а к о ц е н к а сред­
него значения V при задан ном зн ач ен и и X = х, то 100 (1 — а ) % -
ный доверительный интервал есть
Г 1 (х _х)2 "11/2
У ±3 - (х х)------ Ь - 1щт( п - 2 ) . (3.1.19)
£ (*£ — X)2

В ы бор д о в е р и т е л ь н о го и н те р в а л а з а в и с и т от того, к а к и с п о л ь ­
зу е т с я о ц е н к а # и ссл едо вател ем . З ам ети м , что к о гд а х у д а л я е т с я
от х , д о в е р и т е л ь н ы й и н тер в ал у в е л и ч и в а е т с я , т. е . н а ш а о ц ен к а
п
с т а н о в и т с я м ен ее точной. К р о м е того, есл и п и £ (хг — х )2 в е ­
1=1
л и к и , то в ы р а ж е н и е (3.1.18) а п п р о к с и м и р у ет с я «быстрым» д о в е р и ­
т ел ь н ы м и н т е р в а л о м г /± 5 /1 _ (а / 2) (п — 2). П оэтом у в д ей ств и тел ь н о
м ож н о н а з ы в а т ь «стан дартной ош и б ко й о ц е н к и у».

З а м е ч а н и е 3 .1 .3 . Е сли д а ж е п р о гр а м м а регр есси и о т су тс т в у ет


в б и б л и о т е к е програмхм, и с с л е д о в а т е л ь м ож ет вы чи сл и ть все н е ­
обхо ди м ы е д л я р егр есси о н н о го а н а л и за величины , и с п о л ь з у я
3.1. Линейная регрессия и корреляционный анализ 153

д еск р и п ти в н у ю п р о г р а м м у . С п о м о щ ью ти п и ч н о й д еск р и п т и в н о й
програм м ы м ож н о п о л у ч и т ь
/2 П
*• У’ = ~тпгт~У!
1=1
(х ‘ - *)2
’4 „ X
1=1
^ ~ ^)2’

1= 1

Т огда
5.
Ьг = , Ь0 = у — ^дс,
я

Б Б о = (п — 1) Ь^'х, Б Э т =- (я — 1 ) ьу , ББи = 5 5 т — ББ о,

« — м э к — (лг _ 2 ) >

Г'г ^ 5^ Г( ц — 1) -}- ПХ~ 1


У {Ь ,)= \ У(Ь0) = ^ 2— ■
(П— 1) ’ П(П— 1 )
Т ак и м образом , п о л у ч е н ы в се к о м п о н е н т ы , необходим ы е д л я в ы ­
ч и сл ен и я табл и ц ы д и с п е р с и о н н о г о а н а л и з а , п р о в е р к и гип отез
и получения д о в ер и тел ьн ы х и н тер вал о в.
П рим ер 3 .1 .1 (продолж ение ). П р и в е д е н н а я н и ж е т а б л и ц а д и ­
сп ер си о н н о го а н а л и з а п о л у ч е н а с п о м о щ ь ю р егр есси о н н о й п р о ­
грам м ы .

И сточник Сумма Ч исло Средний ^ -отн о-


дисперсии квадра­ степеней квад р ат шение
тов свободы

Регрессия 793.099 1 793.099 681.5


Отклонение от 20.945 18 1.164
регрессии

Полная 814.044 19

О ц е н к а о 2 есть я2 = М Б д = 1.164, а о ц е н к а стан д ар тн о й ош ибки


есть я = 1.079. Т а к к а к Р = 681.5, г и п о т е з а # 0: Рх = О о т в е р г а ­
ется п р и Р < 10_3. Д л я п р о в е р к и г и п о т е з ы # 0: рх = 1.0 против
ги п о т езы Нх: рх ф 1.0 н е о б х о д и м а с т а н д а р т н а я ош иб ка коэф ф и­
ц и ен т а регр есси и [V (&а )]1/2 = 0 .0 4 7 . И т а к ,
1 . 2 2 7 - 1.000
------- Ш т -------- = 4 ‘8 3 '
Эта величина зн а ч и м а при Р < 5 0.001.
154 Гл. 3. Регрессионный и корреляционный анализы

Д л я п р о в е р к и гипотезы , ч то п р я м а я регресси и п р о х о д и т ч ер е з
н а ч а л о к о о р д и н а т, т. е. ги п о тезы Н 0: (50 = 0 п ротив Н х: ро Ф О,
п о с т р о и м 95 % -ны й д о в ер и те л ь н ы й и н те р в ал д л я ро, что д а е т
0 .1 5 9 =ь 2 .1 0 (0.396) = (— 0.573, 0 .991), где [V (Ь,)]1'2 = 0 .3 9 6 , а
4 .9 7 5 ( 1 8 ) = 2 .1 0 . Г а к к а к это т и н те р в а л вкл ю ч ает н у л ь , г и п о т е за
Н0 приним ается.
Д л я 9 5 % -н о го и н те р в а л а д л я ср едн его зн ач ен и я У п р и X = 7 .7
з а м е т и м , что оц ен ка средн его зн а ч е н и я ¥ есть у = 0.159 4-
+ 1 .2 2 7 (7 .7 ) = 9.61. Т а к к а к х = 6 . 7 и £ (я, — х)2 = 526,
п олучаем

И с п о л ь з у я ф о р м у лу (3 .1 .1 9 ), имеем: д о вер и тел ьн ы й и н т е р в а л


9.61 ^ 2 .1 0 (0.246) = (9.09, 10.13). Э тот д овери тел ьн ы й и н те р в ал
в к л ю ч а е т и сти н н о е ср едн ее зн а ч е н и е У п р и X = 7 .7 с д о в е р и т е л ь ­
ны м у р о в н е м 95 %.

3 ,1 .3 . Проверка адекватности линейной модели

В э т о м р а з д е л е мы о б су д и м , к а к и м об р азо м п р о в ер и гь а д е к в а т н о с т ь
м о д е л и п р о сто й линей ной р егр есси и . П од а д ек в атн о стью м о д ел и
п р о с т о й л и н е й н о й р егр есси и п о д р а зу м е в а ет с я , что н и к а к а я д р у г а я
м о д е л ь не д а с т значим ого у л у ч ш е н и я в п р е д с к а за н и и К .П у с т ь , н а ­
п р и м е р , и ссл ед о в ател ь п о ж е л а л п р о в е р и ть , значим о ли у л у ч ш а е т с я
п р е д с к а з а н и е У с пом ощ ью модели полиномиальной регрессии у 1 =
= Ро - Ь р 1* + Р 2Л-2 + . . . 4 - $тХт + ^ ДЛЯ НвКОТОрОГО П З г 2 . Н у Л в -
во й г и п о т е з о й в этом с л у ч а е б удет Я 0: |32 = ... = р т = 0 (см.
р а з д . 3 .2 ) .
Е с л и в с е п зн ач ен и й хъ х2, ..., х п д л я X р азл и ч н ы (т ак что
н е и м е е т с я д в у х зн ач ен и й из У с о динаковы м зн ач ен и ем X ), то
м о ж н о п р о в ести л и ш ь о гр ан и ч ен н у ю п р о в е р к у а д е к в атн о сти л и ­
н е й н о й м одели (к а к есл и бы им елось одно и зм ер ен и е). С д р у г о й
с т о р о н ы , е с л и д ля н ек о то р ы х значений: из X и м еется б о л ее чем
по о д н о м у зн ач ен и ю из У , то можно провери ть г и п о т е зу , что
н и к а к а я а л ь т е р н а т и в н а я м одель н е д ает зн ач и м о го у л у ч ш е н и я
п р е д с к а з а н и я У по ср авн ен и ю с м оделью п р о сто й л и н е й н о й р е ­
г р е с с и и . С т а т и с т и к а к р и т е р и я есть ещ е одно ^ -о тн о ш е н и е, к о т о р о е
п о л у ч а е т с я и з табл и ц ы д и сп ер си о н н о го а н а л и з а сл ед у ю щ и м о б ­
р азо м .
П р е д п о л о ж и м , что им еется к р азл и ч н ы х зн ач ен и й д л я X , н а ­
при м ер хъ хк. Д а л е е , п р е д п о л о ж и м , что д л я к а ж д о г о из
э т и х лгг- и м еется п1 наблю дений у п , //¡2 , ..., г/,„. п ерем ен н ой У,
к
/ = 1 , к. П у с г ь пг > 1 д л я н е к о т о р о г о I, и п у с т ь 2 п 1 = п-
3.1. Линейная регрессия и корреляционный анализ 155

Т о гд а ы одель простой л и н е й н о й регр есси и м ож ет быть за п и с ан а


в следую щ ем виде:
Уч = ßo 4 ßi xt ei/> / = • • •> ni> i = 1, . . ., k, (3 .1.20)
гд е вц — н езави си м ы е с л у ч а й н ы е в ел и ч и н ы , р асп ред ел ен н ы е по
за к о н у N (0, а 2).
С помощ ью п р о г р а м м р егр есси о н н о го а н а л и за м ож но п о л у ч и т ь
о ц е н к и Ь0 и Ьг д л я ß0 и ß x,о б р аб а т ы в ая вы б о р ку к а к п д в у м ер н ы х
наб л ю д ен и й { хх, у Х1), ( л и у 1г), ...,
(хг , y Xni), ....
(xk , y kl), (xk , у кг) , . . .
(
.. . , x k , Укпк)- Вн а ш и х о б о зн а ч е н и я х эти оц ен ки им ею т в и д
к
Ц ni ixi - *) 9t.
ba = y.. — M и bi = -------------------- * (3 .1 .2 1 )
2 rii (Xi — * ) 2
i=i
где
k
4 2 2 и*= 4-2 ^ <зл -22>
/= 1 1= 1 / = 1 п= 1
П р я м а я н аи м ен ьш и х к в а д р а т о в есть у = Ь0 + Ьхх, т а к что =
= Ь0 4 - Ь1х1 есть о ц е н к а ¥ п р и X = х1.
Суммами к в ад р ато в в т а б л и ц е дисп ер си о н н о го а н а л и за я в л я ю т с я

^ = 2г= 1 2/ = 1 {9е - д -)2 и ^ = 21 = 1 2/ = 1 {уи ~ ^ (3-1-23)


с ус = 1 и = п -— 2 степ ен ям и свободы соответственно.
Д л я п р о в е р к и г и п о т е з ы об ад ек в атн о сти линей ной м одели о с т а ­
точн ая сум м а к в а д р а т о в вЭ д и ч исло степеней свободы v R д е л я т с я
м еж ду д ву м я и с т о ч н и к а м и д и сп ер си и относительно регрессии и
внут ри групп. С о о т в е тс т в у ю щ и е сум м ы кв а д р ато в ЭБд и
и степ ени свободы \’А и vw п р ед став л ен ы в таб л . 3 .1 .2 . О тм етим
сходство м еж д у в н у т р и г р у п п о в о й сум м ой к в а д р а то в в этой
т а б л и ц е и в та б л и ц е о д н о ф ак т о р н о го д и сп ер си он н ого а н а л и з а ,
рассм отр ен н о й в р а зд . 2 .4 . С т а ти ст и к а к р и те р и я д л я п р о в ер к и
гипотезы Я 0: « п р о стая л и н е й н а я м одель адекватн а», п р о ти в Н х.
«простая л и н е й н а я м о д е л ь н еад екв атн а» , есть
Р 0 = М Б а/ М Б ^ (3.1.24)
где МБд и МБ\у — с о о т в е т с т в е н н о средн и е кв ад р а ты р а зб р о са
о тн оси тел ьн о р е г р е с с и и и в н у т р и г р у п п . В с л у ч а е и сти н н о сти
Н„ вел и ч и н а /•’о им еет р а с п р е д е л е н и е с ч Л = !г — 2 и vw = я — 6
степ ен ям и свободы . Р - з н а ч е н и е есть п л о щ ад ь об ласти п од к р и в о й
п лотности р а с п р е д е л е н и я (уа , vw ) с п р а в а от ,Р0.
156 Гл. 3. Регрессионный и корреляционный анализы

Таблица З А .2
Расш иренный дисперсионный анализ для простой линейной регрессии

И сто ч н и к Степени Средний


д и сп ер си и Сумма квадратов свободы квадрат И-отношение

к "1
Регресси я (д1 — д . . у г'о = 1 М5{2) =
1=1 / = 1

О тклонение к п1
ЗБд МБд
от р е г р е с ­ ЬЬа = Ц 5] (У г - 9 ¿)2 v A = * — 2 МБ д = — -
сии А VA р ° - МВт,,
¿=1 /=1

к
В нутри
групп ^ ^ ( У 11 — У с )2 — п — ки М
ЛДо\у
С = -------
SSw
!=1 /= 1

к
П олная 55Т = Ц 2 ( У ц - У - У \ т= п — 1
£=1 /=1

Е с л и Н0 п р и н и м аегся, то о стато ч н ая сум м а к в а д р а т о в 5 8 к


и с т е п е н и свободы V]} пер есч и ты ваю тся, т а к что = ББд +
+ и = уА + П о сл е эго го с помощ ью Р -о тн о ш ен и я ,
з а д а н н о г о в ы р а ж е н и е м (3 .1 .1 1 ), м ож ет б ы ть п ровер ен а гип отеза
Я 0: Р1 = 0.

З а м е ч а н и е 3 .1 .4 . Т а б л и ц а д л я р а с ш и р е н н о го д и сп ер си о н н о го
а н а л и з а м ож ет бы ть п о л у ч ен а посредством ком б и н ац и и вы ходны х
д ан н ы х п р о гр а м м ы р егр есси и и д ес к р и п т и в н о й п рограм м ы с р а с ­
с л о е н и е м д а н н ы х следую щ и м о б разом . С пом ощ ью програм м ы
р е г р е с с и и о п р е д е л я е м зн а ч е н и я Б Б о, г 0 , М5[>, 5 8 к , 5 5 т, л»к
и vт (см . таб л . 3 .1 .1 ). П р и м е н я я теп ер ь д еск р и п ти вн у ю п р о гр ам м у
с р а с с л о е н и е м , стр ати ф и ц и р у ем зн а ч е н и я У, согласн о зн а ч е н и я м X ,
и и з т а б л и ц ы о д н о ф ак го р н о го д и сп ер си о н н ого а н а л и з а пол уч и м
в н у т р и г р у п п о в ы е сум м ы к в а д р а то в S S W и ч и сл а степ ен ей с в о ­
боды v w . В зя в соответствую щ ие р а зн о с ти , пол уч и м ББд = Б 5 К —
— и \к = Эти в е л и ч и н ы затем п орож д аю т
т а б л . 3 .1 .2 .

П р и м е р 3 .1 .1 (продолжение). Т а к к а к в этом п р и м ер е повтор


н ы е и з м е р е н и я б ы ли сделаны д л я к а ж д о г о из & = 5 зн а ч е н и й X ,
м о ж н о п р о в е р и т ь а д е к в а тн о с ть простой л и н ей н о й м о д е л и с а = 0.05.
3.1. Линейная регрессия и корреляционный анализ 157

Т аб л и ц а р а с ш и р е н н о г о д и с п е р с и о н н о г о а н а л и з а п р и вед ен а н и ­
ж е . З а м е т и м , что 5 5 к = 2 0 .9 4 5 = и v R = 18 = уа +
+ л\у. Т а к к а к = 1.27 < /^.аь (3, 15), н у л е в а я ги п о теза п р и ­
н и м ае т ся .

Сумма Ч и сл о Средний ^ -о тн о -
Источник дисперсии квадра­ степеней квадрат шение
тов свободы

Регрессия 793.099 1 293.099 1.27


Отклонение от регрессии 4.251 3 1.417
Внутригрупповой р а зб р о с 16.694 15 1.113

П олная 814.044 19

3 .1 .4 . Коэффициент корреляции
В этом р а зд е л е о б с у ж д а е т с я в ы б о р о ч н ы й и п о п у л я ц и о н н ы й к о э ф ф и ­
циенты к о р р е л я ц и и . Э т и в е л и ч и н ы б ы ли введены в г л . 2 к а к
меры л и н ей н о й з а в и с и м о с т и м е ж д у д в у м я перем енн ы м и . К а к
было у к а з а н о р а н е е , с т а т и с т и ч е с к и е в ы в о д ы о тн оси тел ьн о п о п у л я ­
ц и он н ого ко эф ф иц иента к о р р е л я ц и и м о ж н о с д е л а т ь , т о л ь к о если
и Л и У с у т ь с л у ч ай н ы е в е л и ч и н ы . В ч астн о сти , е сл и совм естн ое
р асп р ед ел ен и е X и У есть д в у м е р н о е н о р м а л ь н о е р а с п р е д ел е н и е ,
п оп у л я ц и о н н ы й к о э ф ф и ц и е н т к о р р е л я ц и и и м одель л и н ей н о й р е г ­
рессии со о тн о сятся с э т и м р а с п р е д е л е н и е м весьм а ин тересн ы м о б ­
р азо м . О братим ся т е п е р ь к с о о т в е т с т в у ю щ е й теори и .
П редп олож им , что с л у ч а й н ы е в е л и ч и н ы X и У имею т д в у ­
м ерное н о р м а л ь н о е р а с п р е д е л е н и е . П у с т ь ц А и \х,у б у д у т с р е д ­
ними д л я п о п у л я ц и и , а о ! и — д и с п е р с и я м и X и У. П о ­
п у л я ц и о н н у ю к о в а р и а ц и ю X и У о б о з н а ч и м ч ерез аху. Т о гд а
простой (и л и с м е ш а н н ы й м ом ент) коэффициент корреляции м е­
ж д у X и У есть
Р = о ху1{ах Оу). (3.1.25)
Этот коэф ф иц иент есть м е р а л и н е й н о й за в и с и м о ст и м еж ду X и У.
З н а ч е н и я р за к л ю ч е н ы в п р е д е л а х о т — 1 до + 1 . П о л о ж и тел ь н о е
зн а ч е н и е р у к а з ы в а е т , что У и м еет т е н д е н ц и ю в о зр а с т а т ь совм естно
с А , в то врем я к а к о т р и ц а т е л ь н о е р у к а з ы в а е т н а тен ден ц и ю У
к у б ы ван и ю с р о сто м X . Э к с т р е м а л ь н ы е зн а ч е н и я р = + 1 с о о т ­
ве т ст в у ю т полной л и н е й н о й з а в и с и м о с т и м еж д у X и У, т а к что
п р и д ан н о м X = х з н а ч е н и е У т о ч н о о п р ед ел ен о .
Д л я д ан н о го з н а ч е н и я Х = х и м е е т с я п о д п о п у л я ц и я зн ач ен и й У,
соответствую щ и х X = х . И х р а с п р е д е л е н и е , назы ваем ое услов­
ным распределением У п р и данном X — х, е с ть о д н ом ерн ое н о р м а л ь ­
н о е р а сп р е д ел е н и е со с р е д н и м
(%•* = И-у Н----- (х — И*)- (3.1.26)
^ V*
158 Гл. 3. Регрессионный и корреляционный анализы

к о т о р о е н а зы в а е т с я условным средним значением У при данном


X — х (и л и регрессией У по X ). Д и с п е р с и я этого р а с п р е д ел е н и я ,
н а з ы в а е м а я условной дисперсией У при данном X = х, есть
о2 = Оу (1 — р2)- (3.1.27)
Э то п о с л е д н е е в ы р а ж е н и е п о зв о л я е т д ат ь весьм а в аж н у ю и н т е р п р е ­
т а ц и ю д л я р. Зам ети м , что есть б езу сл о в н а я д и сп е р си я У, т. е.
э т о д и с п е р с и я У, к о гд а зн ач ен и е X неизвестно. С д р у го й сторон ы ,
а 2 е с т ь у с л о в н а я д и сп ер си я У, т. е. это д и сп е р си я У, к о г д а и з ­
в е с т н о , ч то соответствую щ ее зн а ч е н и е X = х. И т а к , и з в ы р а ж е н и я
( 3 .1 .2 7 ) с л е д у е т , ч то со к р а щ е н и е ди сп ерси и У, о б у сл о в л ен н о е з н а ­
н и е м X , есть
о* - о * = р * о » . (3.1.28)

И з э т о г о р ав ен ств а мы по л у ч аем
р2 = (о2у — о*)/ст|, (3 .1.29)
о т к у д а с л е д у е т , что к в а д р а г коэф ф иц иента к о р р ел я ц и и "'р ав ен д о л е
д и с п е р с и и У, объ ясн ен н о й зн а н и е м X .
О п р е д е л и м теп ер ь с л у ч ай н у ю вел и ч и н у е = У — \лу.х, к о т о р а я
и з м е р я е т о ткл о н ен и е У от ее средн его зн а ч е н и я п ри ф и к с и р о в ан н о м
X = х. У с л о в н о е р ас п р е д ел е н и е е при д ан н о м X = х есть н о р ­
м а л ь н о е р а с п р е д е л е н и е со ср едн и м зн ач ен и ем 0 и ди сп ерси ей ст2.
П о это м у мож но зап и сать

У = Цу-х £ = У-у Сг Н----- х ~Ь е = Ро е, (3.1.30)


ах ах
где

Ро = Ни — ^Цх, = (3.1.31)
°Х

и е р а с п р е д е л е н о к а к N (0, а 2). Зам ети м , что это у р а в н е н и е им еет


т у ж е сам у ю ф орм у, ч то и у р а в н е н и е п р о сто й л и н ей н ой р егр есси и
У и Л (3 .1 .1 0 ). Т а к и м о б р азо м , т е о р и я , р а з в и т а я в р а зд . 3 .1 .1 —•
3 . 1 . 3 , п р и м ен и м а к это й модели.
О т м е т и м , что, к а к сл ед у ет из (3.1.29), квадрат коэффициента
к о рреля ц и и равен доле дисперсии У, «объясненной » линейной регрес­
сией ~У по X . К о гд а р = 0, т о а 2 = а^. Это о зн а ч а ет, что н и к а к а я
д о л я д и с п е р с и и У не о б ъ я с н я е т с я р егр есси ей Г по X . К о г д а р =
= ± 1, то о2 = 0. Т а к и м об р азо м , вся д и сп ер си я У о б ъ я с н я е т с я
р е г р е с с и е й У по X , т. е. зави си м о сть м е ж д у У и X в точн ости л и ­
нейная.
Р а с с м о т р и м теп ер ь о ц ен и в ан и е п а р ам етр о в п о п у л я ц и и . П р е д ­
п о л о ж и м , что им еется с л у ч а й н а я в ы б о р к а (г1, г/х), (х2, у 2), ...
..., (х ^ , у п), к о т о р а я п о р о ж д ен а со гл асн о втором у т и п у , опи сан ном у
3.1. Линейная регрессия и корреляционный анализ 159

в н ач ал е этого р а з д е л а , т а к что X и У су ть сл у ч ай н ы е вел и ч и н ы .


О ц ен кам и д л я цх, цу , а \, аху, р бу ду т со о тветствен н о х , у ,
s%, s | , sxy, г. Д а л е е , оц ен кам и ß0, и а 2 б у д у т со о тветствен н о
Ьс, Ьх и S2. Т а к и м о б р азо м , эти величины п о л у ч аю тс я в п р о г р а м ­
м ах р егр есси о н н о го а н а л и за к а к вы борочны е ср ед н и е, д и сп ер си и ,
к о в а р и а ц и и , к о р р е л я ц и и , свободны й ч л е н ,к о эф ф и ц и ен т р егресси и
и д и с п е р с и я о ц е н и в а н и я соответственно.

П рим ер 3 .1 .2 ( продолжение). В этом п р и м ер е X п Y суть


pH вен о зн о й и а р т е р и а л ь н о й к р о ви , и зм ерен н ы е у 108 п ац и ен тов
в к р и ти ч еск о м с о с то я н и и . В ы борочны е о ц ен ки , п ол у ч ен н ы е с п о ­
мощ ью д е с к р и п т и в н о й пр о гр ам м ы , п ри ведены в при м ере 2.3.1
и объеди н ен ы зд е с ь д л я удобства:
х = 7 .3 7 3 , у = 7 .4 1 3 , s | = 0 .1 2 5 3 , s 2 = 0 .1 1 8 4 ,

s xy = 0 .1 1 0 1 , /- = 0.9039.

И с п о л ь зу я за м е ч а н и е 3 .1 .3 , п олучаем из эти х д ан н ы х
61 = 0.8 7 9 , Ь0 - 0 .9 3 2 , S S D = 10.359, S S T = 12.669,

S S R = \2 .3 1 0 , s 2 = 0 .0 2 2 , [ F ( b 1)]1/2 = 0.04051, [V (ö0)]I/2 = 0 .2 9 9 0 .


Т а к и м о б р азо м , м ож н о сф о р м и р о вать т а б л и ц у д и сп ер си о н н о го
а н а л и з а , п р и вед ен н у ю ни ж е:

Источник Сумма Число Средний


дисперсии квадратов степеней квадрат F -отношение
свободы

Регрессия 10.359 1 10.359 470.9


О статок 2.310 106 0.022

П олная 12.669 107

Т а к к а к Р = 4 7 0 .9 , ги п о теза # 0: (Зх = 0 о т в е р га ет с я п ри Р <5


< 10-3,что у к а з ы в а е т н а л и н е й н у ю зав и си м о сть p H а р т е р и а л ь н о й
ж рови от pH в е н о зн о й к р о в и . П р о в е р к а ги п отезы Н 0: = 1
на осн о в е в ы р а ж е н и я (3 .1 .1 2 ) п р и во д и т к стат и с т и к е 10 = (0.879 —
— 1 .0 0 0 )/0 .04051 = — 2 .9 9 . Д л я а л ь те р н а ти в н о й ги п отезы Н1:
(5Х Ф 1 Р -зн а ч е н и е м ен ьш е, чем 0 .001, т а к что Н 0 о т в ер гае т ся .
С оответствен н о 95 % -н ы й д о вер и тел ьн ы й и н тер в ал д л я ¡30
есть 0.93 2 ± 0.2 9 9 (1.98) = (0.340, 1.524). Т а к к а к этот и н тер вал
ке с о д е р ж и т 0, г и п о т е за Н 0: р„ = 0 о т в е р га е т с я при а = 0.05.
Н а к о н е ц , «бы стры й» 95 % -ны й д о в ер и тел ь н ы й и н те р в а л д л я
ср ед н его У п р и х = 7 .3 9 5 есть 7.432 + 0.148 (1.98) = (7.139,
7.7 2 5 ), гд е (0.022)*/® = 0.148.
160 Гл. 3. Регрессионный и корреляционный анализы

В этом р а з д е л е остал о сь ещ е рассм о тр еть стати сти ч еск и е вы воды


отн о си тел ьн о п о п у л я ц и о н н о го коэф ф ициента к о р р е л я ц и и . С оот­
н ош ение

р = - ^ ( 3 .1 .3 2 )
ау

в ы р а ж а е т зави си м о сть меж ду р и В частн ости , р = 0 в том и


т о л ь к о в то м сл у ч ае, к о гд а = 0. П оэтом у м ож н о п р о вер и ть
ги п о тезу Н 0: р = 0 , и с п о л ь з у я а) ^ -о тн о ш ен и е (3.1.11), Ь) I-
к р и те р и й (3 .1 .1 2 ) п р и |3^0) = 0 и л и с) п р е о б р азо в а н и е Ф и ш ер а,
к о то р о е б у д е т сейчас рассм о тр ен о . Зам ети м т а к ж е , что в силу
п р е д п о л о ж е н и я о н о р м а л ь н о с т и зн ач ен и е р = 0 вл еч ет з а собой
н е за в и си м о с ть вел и ч и н X и У .
В ообщ е д л я п р о в е р к и гипотезы # 0: р = р0, где р0 Ф ± 1 ,
м ож н о п р и м ен и ть преобразование Фишера

у = - Г 1п1 ^ 7 = 1Л5131^ Т ^ 7 - (31.33)


З н а ч е н и я V в зав и си м о сти о т г при веден ы в т а б л . 8, п р и л о ж е н и е 11.
В с л у ч а е и сти н н о сти н у л ев о й ги п о тезы р а сп р е д ел е н и е V а п п р о к с и ­
м и р у е тс я н о р м ал ьн ы м со средним значением

^ = 4 |п4 ^ <а134)
и д и сп ер си еи
2 1
(3.1.35)
°» = т ^ т -

С тати сти к о й к р и те р и я я в л я е т с я

г= "~ . (3.1.36)

Е сл и Н 0 в е р н а , а я в е л и к о , то р асп р ед ел ен и е 2 а п п р о к с и м и р у е т с я
п оср ед ство м N (0, 1). Р -зн а ч е н и е зависи т от а л ь т е р н а т и в н о й г и ­
потезы и Н 0 о т в е р га е т с я , есл и Р <1 а.
З д е с ь 1 0 0 (1 — а.) %-ным доверительным интервалом для
я в л я е т с я (ох, v2), где
VI = V — Сто?! _ (а/2) И У2 = V Оа? 1 _ (а/2)- (3.1.37)
П р и м е н я я о б р атн о е п р е о б р а зо в а н и е Ф и ш ера, п о л у ч и м
е2о- 1 (3.1.38)
г =
е2и+ 1

Это п о з в о л я е т , о б р а щ а я т а б л . 8, п р и л о ж е н и е I I , п о л у ч а т ь
д о в ер и те л ьн ы е и н те р в а л ы для р. Д о в е р и т е л ь н ы й и н т е р в а л м ож ет
бы ть т а к ж е и с п о л ьзо в ан д л я п р о в ер к и ги п отезы Н0: р = р 0
3.1. Линейная регрессия и корреляционный анализ 161

п ротив # j : р =/= р0, т. е. # 0 о т в е р г а е т с я п р и у р о в н е а , если и н т е р ­


в а л не с о д е р ж и т р0.
Э кви вален тн ы й с п о с о б п о л у ч е н и я 95 %- или 99 % -н о го
д о вери тел ьн ы х и н т е р в а л о в д л я р с о с т о и т в и сп о л ьзо в ан и и н о м о ­
грам м ы , п р и в е д е н н о й в т а б л . 9 , п р и л о ж е н и е II. Э та н о м о гр ам м а
п о строен а н а о с н о в е т о ч н о г о р а с п р е д е л е н и я г (D a v id (1938)).
П ри и с п о л ь з о в а н и и н о м о г р а м м ы и з т о ч к и , отвечаю щ ей в ы ч и с ­
л ен н ом у зн а ч е н и ю г ( н а г о р и з о н т а л ь н о й о си ), п ровод и тся в е р т и ­
к а л ь н а я лини я до п е р е с е ч е н и я с г р а н и ц а м и , соответствую щ им и
д ан н ом у п. П р о е к ц и и э т и х д в у х т о ч е к п е р е с е ч ен и я на в е р т и к а л ь ­
ную ось даю т г р а н и ц ы д о в е р и т е л ь н о г о и н т е р в а л а .
З а м е ч а н и я 3 . 1 . 5 . 1. .М е ж д у о ц е н к а м и s x, s y, s и г имею т м есто
следую щ и е с о о т н о ш е н и я :
- s |( l 2)
S
п — 2 уу — /
' и Г =
sy .
2. К о эф ф и ц и ен т к о р р е л я ц и и и н в а р и а н т е н по отнош ению к и з ­
м енению п о л о ж е н и я и л и м а с ш т а б а X и /и л и Y . Т а к , к о эф ф и ц и ен т
к о р р е л я ц и и д л я ц е н т р и р о в а н н о й м о д е л и , т а к о й ж е, что и д л я
исходной м о д е л и . П о с к о л ь к у y t е с т ь л и н е й н а я ф у н к ц и я х ь, к о э ф ­
ф и ц и ен т к о р р е л я ц и и м е ж д у н а б л ю д а е м ы м и y t и п р ед ск азан н ы м и
зн а ч е н и я м и ÿ t ( i = 1 , . . . , п) по а б с о л ю т н о й вел и ч и н е р а в е н к о э ф ­
ф и ц и ен ту к о р р е л я ц и и г .
3. С т а т и с т и к а к р и т е р и я i0 (3.1. 12) д л я п р о в ер к и Н 0: р = 0
м ож ет бы ть зап и сан а эквивалентны м об разом к а к t0 =
- {г l/ r T ^ 2 ) l i / l — г 2 .
4. И з р а в е н с т в (3.1. 2 7 ) с л е д у е т , что а = ау (1 — р2)1/2 , т. е.
о ст ав ш а я с я « н е о б ъ я с н е н н о й » ч ер ез X д о л я стан д ар тн о го о т к л о н е ­
н и я Y р а в н а (1 — Р2) 1/2- Т а к к а к а в ы р а ж а е т с я в тех ж е е д и н и ц а х
и зм е р е н и я , что и Y , то э т о , в о з м о ж н о , б о л е е о см ы слен н ая и н т е р ­
п р е т а ц и я р, ч ем п р о ц е н т о б ъ я с н е н н о й д и с п е р с и и . В т а б л и ц е п о ­
к а з а н о с о о т н о ш е н и е м е ж д у к о э ф ф и ц и е н т о м р и д в у м я его в о з м о ж ­
ными и н т е р п р е т а ц и я м и . З а м е т и м , ч т о д а ж е п р и р = 0.95, д о в о л ь н о
б о л ь ш а я доля — 31 % с т а н д а р т н о г о о т к л о н е н и я — о стается не-
об-ьясненной ч е р е з X .
Процент Процент объясненного
объясненной стандартного
р дисперсии отклонения

0.0 0 100
+ 0.2 4 98
+ 0.4 16 92
+ 0.6 36 80
+ 0.8 64 60
+ 0.9 8 1 44
+ 0.95 90 31
±0.99 98 14

6 А. Афифи, С. Эйзен
162 Гл. 3. Регрессионный и корреляционный анализы

П р и м е р 3 .1 .2 ( продолжение). В ы борочны й к о эф ф и ц и ен т к о р ­
р е л я ц и и г м е ж д у p H вен о зн о й [и а р т ер и а л ь н о й к р о в и р а в е н
0 .9 0 3 9 . Г и п о т е з а Н 0: р = 0 (т. е. незави си м ость X и У) о т в е р г а ­
е т с я н а осн о ве ^ -о т н о ш е н и я д и сп ер си о н н ого а н а л и з а , т а к к а к Р =
= 4 7 0 .9 , и л и ¿-кри тери я (зам ечан и е 3 .1 .5 .3 ). З н а ч е н и е t 0 есть
0.9039 К ТоЗ _ 01 7
¿о — — — — ¿1. / .
1 /1 - 0 .8 1 7 0

З а м е т и м , ч т о ( 2 1 .7)2 = 4 7 0 .9 .

Д л я о п р е д е л е н и я 95 % -ного д о в ер и тел ьн о го и н т е р в а л а д л я р
с н а ч а л а н а х о д и м (таб л . 8, п р и л о ж е н и е II)
1 , 1.904 , ,по
Х}~ 2 0.095 — 1-493.

О т к у д а , и с п о л ь з у я в ы р а ж е н и е (3.1.37), п о л уч аем
и х = 1.493 — 1 .9 6 / ] /1 0 5 = 1.302 и

и , = 1.493 + 1 .9 6 / К Ю5 = 1.684.

О б р а щ е н и е табл. 8 д ае т д л я р и н те р в ал (0.85, 0.9 3 ). Э го т и н ­


т е р в а л в к л ю ч а е т исти н н о е зн а ч е н и е р с у р о в н е м д о в е р и я 95 % .
С д р у г о й с т о р о н ы , и с п о л ь зу я табл . 9, п р и л о ж е н и е I I , с г =
= 0 . 9 0 , п о л у ч и м г р а н и ц ы (0 .8 5 , 0 .9 3 ), ч го у к а з ы в а е т н а с о г л а с о ­
в а н н о с т ь о б о и х методов. Л ю б эй из э т и х и н т е р в а л о в м о ж ет б ы ть
и с п о л ь з о в а н д л я п р о в е р к и ги п о тезы Н 0: р = р 0; н а п р и м е р , г и ­
п о т е з а # 0: р = 0.5 д о л ж н а б ы ть о т в е р гн у т а , т а к к а к и н т е р в а л н е
с о д е р ж и т з н а ч е н и я 0 .5 .

3 .1 .5 . А н ал и з остатко в

В п р е д ы д у щ е м рассм отрени и простой л и ней ной р егр е сси и б ы л и


с д е л а н ы т р и п р е д п о л о ж е н и я . О л и к а с а л и с ь ф эрм ы м одел и , р а с ­
п р е д е л е н и я и с л у ч а й н о с ти в е л и ч и н ы о ш и б к и е. О дин из м етодов
п р о в е р к и а д е к в а т н о с т и л и н ей н о й м одели о б с у ж д а л с я в р а зд . 3 .1 .3 .
В се т р и п р е д п о л о ж е н и я м о гу т бы ть проверен ы п р и р ассм о тр ен и и
г р а ф и к о в остатков = уг — # г, I = 1 , ..., п. Т а к и е г р а ф и к и
в к л ю ч :е н ы в с о с т а в вы ход ны х д ан н ы х п р о гр ам м б о л ь ш и н с т в а П С П .
Д л я п р о в е р к и адек ватн о сти модели м ож н о и с п о л ь з о в а т ь г р а ­
фик в зави си м о сти от или г = 1 , ..., п. Е с л и о с т ат к и п о п а ­
д аю т в г о р и з о н т а л ь н у ю п о л о су с ц ен тром н а оси аб сц и сс, м одель
м о ж н о р а с с м а т р и в а т ь к а к ад е к в а тн у ю (рис. 3 .1 .6 , а). Е с л и п о л о са
р а с ш и р я е т с я , к о г д а х и л и у в о з р а с т а е т (рис. 3 .1 .6 , Ь), это у к а з ы в а е т
н а гетероскедастичностъ (т. е . н а о тсу тств и е п о с т о я н с т в а д и сп ер с и и
<та). В ч ас т н о с т и , о м о ж ет б ы т ь ф у н к ц и ей р0 + ¡^лг, что д ел ает
3.1. Линейная регрессия и корреляционный анализ 163

необходим ы м п р е о б р а з о в а н и е п е р е м е н н о й V. Г р аф и к, п о к а зы в а ю ­
щ ий линейны й т р е н д (р и с. 3.1 .6 , с ) , д а е т осн о ван и е д ля введ ен и я
в м одель д о п о л н и т е л ь н о й н е за в и с и м о й перем енной (см. р а зд . 3 .2
£/ Л

У -Х и л и У
Л-..1 .

- X ил и У - X или ?

Рис. 3.1.6. П рим еры граф иков о статк о в, а — адекватная модель; Ь •— гетеро-
скедастичность; с — линейная незави си м ая переменная; й — линейная или ква­
дратичная н езависим ая переменная.

о м н ож ествен н о й р е гр е с с и и ). Г р а ф и к в и д а, п р ед ставл ен н о го н а
р и с. 3 .1 .6 , й, у к а з ы в а е т , что в м о д е л ь д о л ж е н бы ть д о б авл ен л и ­
нейны й или к в а д р а т и ч н ы й ч л е н .
Д л я п р о в е р к и н о р м ал ьн о сти е г, 1 = 1, ..., п, подходи т г и с т о ­
гр ам м а Н о р м а л ь н о с т ь м ож ет б ы т ь т а к ж е п ро вер ен а с пом ощ ью
к р и те р и е в с о г л а с и я .

Время или
положение

* •
В р ем я или
~положение
• •

Рис. 3.1.7. П рим еры отсутствия случай н ости, а — сезонный тренд, Ь — линей­
ный тренд.
6*
164 Гл. 3. Регрессиэнный и корреляционный анализы

Е с л и д а н н ы е у п о ряд очены н ек о то р ы м о б р а з о м (н а п р и м е р , п о ­
с л е д о в а т е л ь н о с т ь т о ч е к па в р ем ен и или по р а с п о л о ж е н и ю ), т о
гр а ф и к о с т а т к о в dt в том ж е сам ом п о р я д к е , в к о то р о м с о б и р а л и с ь
д ан н ы е, п о з в о л я е т п р о в е р и ть с л у ч а й н о с ть . Е и п о те зу о с л у ч а й н о с т и
м ож н о о т в е р г н у т ь , если в ы я в л ен тр ен д , п ри чем т р е н д м о ж е т и м еть
к а к с езо н н ы й , т а к и л и н ей н ы й х а р а к т е р , см. рис. 3 .1 .7 , а и Ь.
Д а л ь н е й ш е е обсуж ден ие и р ассм о тр ен и е этих в о п р о с о в с о ­
д е р ж и т с я у A n sc o m b e (1961), A nsco m b e, T u k ey (1953), B o x , W a t­
so n , (1962), D r a p e r , S m ith (1968).

3.2. Множественная линейная регрессия,


множественная и частная корреляции
Р ас с м о тр и м т е п е р ь проблем у п р е д с к а за н и я одной п ерем ен н о й Y
с пом ощ ью р п ер ем ен н ы х Х л, ..., Х р, р > 1 . Т р а д и ц и о н н о п е р е ­
м ен н ая Y н а з ы в а е т с я зависимой переменной, в то в р е м я к а к п е р е ­
менны е Х 1} ..., Х р н а з ы в а е т с я независимыми переменными. Т а к о е
п р и м ен ен и е с л о в а «независим ы е» не следует см еш и вать с п о н ят и ем
« стати сти ч еск о й независим ости», о п р ед ел ен н ом в р а з д . 1 .1 .6 .
Ф а к ти ч е с к и , в неко то р ы х с л у ч а я х н езави си м ы е п е р е м е н н ы е
Х ъ ..., Х р с у т ь случайн ы е вел и ч и н ы , ко то р ы е, к а к б у д е т в и д н о
из д а л ь н е й ш е г о , н е о б я за т е л ь н о ■являются с т а т и с т и ч е с к и н е з а ­
висим ы м и.
К а к б ы л о о тм еч ен о во введен и и к этой г л а в е , в е л и ч и н у Y
м ож н о а п п р о к с и м и р о в а т ь поср ед ство м ф у н к ц и и р е г р е с с и и / ( ),
со д ер ж ащ ей н е и зв е ст н ы е п ар ам етр ы . У р а в н ен и е м о д ел и , в ы р а ж а ­
ющей з а в и с и м о с т ь м еж д у зав и си м о й и независим ы м и п е р е м е н н ы м и ,
м ож н о з а п и с а т ь в виде
y = f(x i ........... Хр, р1? . . ., pm) - f е, (3 .2 .1 )

где . . . , |Зт — неи звестн ы е п а р а м е т р ы и е — о ш и б к а а п п р о к ­


сим ац и и Y п о ср ед ств о м ф у н к ц и и р егр есси и . В ч а с т н о с т и , есл и
т = р + 1 и / {хъ ..., X?; р0, р1; ..., рр) = Ро + Р л + ... +
-f- Р рХр , м ы и м еем м одель м н о ж ествен н ой л и н ей н ой р е г р е с с и и
У = Ро Pixi “Ь • " “Ь Ррхр е- (3.2.2)

В э т о м ^ у р а в н е н и и н ек о то р ы е н езав и си м ы е п ерем ен н ы е м о г у т б ы ть
ф у н к ц и я м и д р у г и х перем енн ы х и л и д р у г д р у г а . Н а п р и м е р , у =
= Ро + Рх s i n z x -f р2 cos гх + е есть м одель м н о ж ес т в е н н о й л и ­
нейной р е г р е с с и и с х х = s i n z x и х г — cos гх. В ч ас т н о с т и , есл и
x¡ = х с, i = 1 ......... р, п о л у ч ается модель полиномиальной регрессии
У = Ро “Ь Pi* + Рг*2 + ' ‘ ■ ~Ь РрХр + е. (3.2.3)
3.2. Множественная линейная регрессия и корреляции 165

Н а к о н е ц , н у ж н о п о м н и т ь , что с л о в о « л и н ей н ая » п о д р а зу м е в а е т
л и н е й н о с т ь о т н о с и т е л ь н о п а р а м е т р о в , но не по отнош ению к н е ­
зави си м ы м п е р е м е н н ы м . Т а к , у = |30 + s in ( Р л ) + Рг* 2 н е я в ­
л я е т с я л и ней ной ф у н к ц и е й п а р а м е т р о в .
В этом р а зд е л е р а с с м а т р и в а е т с я м о д е л ь м нож ественн ой л и н е й ­
ной р егр есси и , з а д а н н о й в о б щ е м в и д е у р а в н е н и е м (3 .2 .2 ). Х о т я
д л я о п и сан и я м н о г и х р е а л ь н ы х с и т у а ц и й б о л ее п одходящ им и я в л я ­
ю тся н елин ейны е м о д е л и (р а з д . 3 . 4 ) , л и н е й н а я м одель м о ж ет б ы ть
п о л е зн а п о к р а й н е й м е р е к а к п е р в о е п р и б л и ж е н и е к н ел и н ей н о й
м одел и . Р а зд е л 3 .2 .1 п о с в я щ е н о ц е н к е п а р а м ет р о в , в р а зд . 3 .2 .2
п р ед став л ен ы р а з л и ч н ы е к р и т е р и и д л я п р о в е р к и гипотез и д о в е ­
р и т е л ь н ы е и н т е р в а л ы , с о д е р ж а щ и е эт и п арам етры . Р а з д е л ы
3 .2 .3 — 3 .2 .5 с о д е р ж а т м а т е р и а л п о т е о р и и и оц ен иванию д в у х м ер
а с с о ц и а ц и и и ли з а в и с и м о с т и м е ж д у У и незави си м ы м и п е р е м е н ­
ными — т а к н а з ы в а е м ы м и м н о ж е с т в е н н ы м и частны м к о э ф ф и ц и ­
ентам и к о р р е л я ц и и . П о с к о л ь к у м н о г и е в ы р а ж е н и я в эт о й г л а в е
я в л я ю т с я сл и ш ко м г р о м о з д к и м и , чтоб ы и х м ож но бы ло п р е д с т а ­
ви ть в простом в и д е , ч и т а т е л и , м а т е м а т и ч е с к и б олее и с к у ш ен н ы е,
н ай д у т м атри чн ую з а п и с ь эти х в ы р а ж е н и й в р а зд е л а х , п о м е ч е н ­
ны х звездочкой.

3.2.1. Оценивание параметров


П а р а м е т р ы м одели о ц е н и в а ю т с я гхо в ы б о р к е объем а п, п о л у ч ен н о й
из п о п у л яц и и W. Т а к ж е к а к в р а з д . 3 .1 , э т у в ы б о р ку м о ж н о п о ­
л у ч и т ь одним и з д в у х способов. П р и п е р в о м способе ф и к с и р у ю т ­
с я н ек о то р ы е з н а ч е н и я Х„, а за т е м в п о д п о п у л я ц и и ,
о п ред ел ен н о й эти м и о г р а н и ч е н и я м и , наб л ю д аю тся одно и л и
н е с к о л ь к о зн а ч е н и й п е р е м е н н о й Y . З а т е м ф и к си р у ю тся н о вы е
зн а ч е н и я Х р и: н а б л ю д а ю т с я о д н о и ли н е с к о л ь к о з н а ч е ­
ний Y в этой п о д п о п у л я ц и и , и т а к п р о д о л ж а е т с я до тех п о р , п о к а
н е будет п о л у ч е н о п н а б л ю д е н и й . П р и т а к о м способе ф о р м и р о в а ­
н и я вы борки с л у ч а й н о й я в л я е т с я л и ш ь п ерем ен н ая Y . В т о р о й
с п особ п о л у ч ен и я в ы б о р к и з а к л ю ч а е т с я в случай н ом о тб о р е п
инди видуум ов и з п о п у л я ц и и W и од н о вр ем ен н ом н аб л ю д ен и и
у них всех / ? + 1 п е р е м е н н ы х У , Х ъ . . . , Х р, причем в се эт и
перем енн ы е с л у ч а й н ы . Х о т я п р о ц е д у р а о ц ен и ван и я п а р а м е т р о в
о д и н а к о в а д л я в с е х с п о с о б о в ф о р м и р о в а н и я вы б орки , одно из
■основных п р е д п о л о ж е н и й теори и о ц е н и в а н и я методом н а и м е н ь ш и х
к в а д р а т о в (разд. 4.1) с о с т о и т в т о м , ч то в ы б о р к а о б р а з о в а н а п е р ­
вы м способом. С д р у г о й с т о р о н ы , и з л а г а е м а я н и ж е т е о р и я м н о ­
ж ес т в е н н о го и ч а с т н о г о к о э ф ф и ц и е н т о в к о р р е л я ц и и о с н о в ы в а е т ся
м а т о м , что в ы б о р к а о б р а з о в а н а п о в т о р о м у способу из м н о г о м е р ­
н о й н ор м ал ьн о й п о п у л я ц и и .
В этом и с л е д у ю щ и х д в у х р а з д е л а х п р е д п о л а г а ет с я , что хи , ...
, x pi, i = 1, . . . , п, с у т ь ф и к с и р о в а н н ы е зн а ч е н и я н езав и си м ы х
166 Гл. 3. Регрессионный и корреляционный анализы

п е р е м е н н ы х Х и ..., Х р (здесь Х х = хи , ..., Хр = хр1, а у 1 —


н а б л ю д а е м о е зн ач ен и е п ерем енн ой ¥ ). И т а к , вы б орка со стои т и з п
н а б л ю д е н и й (уг\ х1ъ ..., хр1), ..., (у,,, х1п, ..., г рл). Д л я м одел и
м н о ж е с т в е н н о й л и н ей н о й р е гр е с с и и им еем
У1 = Ро ~г • — Ррх р1 + (3 .2 .4 )
где |30, рх, . . . , |Зр — неи звестн ы е п ар ам етр ы , а еи ..., еп — н е ­
зави си м ы е сл у ч ай н ы е ош ибки, р асп ред ел ен н ы е по закон у
N (0, сг2 ). Д л я п о л у ч ен и я М Н К -о ц е н о к Ь0, Ьг, ..., Ьр п а р а м е т р о в ,
п о л ь з о в а т е л ь м ож ет в о с п о л ь зо в а т ь с я к а к о й -л и б о п р о гр ам м о й
л и н е й н о й р е гр е с с и и из П СП . Э ти о ц ен ки , которы е м и н и м и зи р у ю т
сумму квадрат ов отклонений

5 = 2 (Ус - р„ - Р а - -------------(3 .2 .5 )
¡=1
обы чно н азы в аю тся (частными) коэффициентами регрессии и
с о д е р ж а т с я в вы ход ны х д ан н ы х п р о гр ам м ы . И ногда о ц е н к а Ь(>
н а з ы в а е т с я свободным членом, константой и л и смещением по у .
О ц е н к а у р а в н е н и я м н о ж еств ен н о й л и н е й н о й регресси и (и л и п л о ­
с к о с т ь наименьших квадратов) м ож ет бы ть за п и с ан а в в и д е
У = К -+- М х Н-------+ Ьрхр ■ (3 .2 .6 )
(М а т р и ч н ы е в ы р а ж е н и я д л я М Н К -о ц е н о к приведены в з а м е ч а ­
ни и 3 .2 .1 .1 .)
З а м е т и м , что сум м а к в а д р а то в о ткл о н ен и й 5 я в л я е т с я м ерой
о ш и б к и , с в я за н н о й с «подгонкой» вы б о р о чн ы х д ан н ы х п о ср ед ство м
м одели л и н ей н о й р егр есси и ; М Н К -о ц е н к и м и н и м и зи р у ю т э т у
о ш и б к у . Д а л е е , 6г- суть несм ещ енны е о ц ен ки д л я |3; , г = 0, 1, ..., р ,
и вы раж аю тся линейны м и ф ункциям и наб л ю д ен и й у 1} ...
. . . , у п. Н а к о н е ц , из теорем ы Г а у с с а — М ар ко в а (р а зд . 4 .1 ) с л е ­
д у е т , ч т о п р е д с к а за н н о е зн а ч е н и е у им еет м и н и м ал ьн у ю д и с п е р с и ю
д л я д а н н ы х х ъ ..., х„ среди всех л и н ей н ы х но Х ъ ..., Х п п р е ­
дикторов ¥.
В в ы х о д н ы х д ан н ы х п р о гр а м м м но ж ествен н ой л и н е й н о й р е г ­
р е с с и и о б ы ч н о с о д е р ж а тс я ещ е ч еты р е величины . П е р в а я , н а з ы в а ­
е м а я ост ат очной суммой квадратов (или ошибок) 5 Б К, есть з н а ч е ­
н и е Б , к о т о р о е п о л у ч ается при п о д стан о в ке М Н К -о ц ен о к в м ес то
п а р а м е т р о в , т. е.

= I ] (у1 - Ьа — Ьгхь ---------— Ьрс^)2. (3 .2 .7 )


г= 1
Е с л и э т у в ел и ч и н у р а зд ел и ть н а число степеней сво бо д ы =
= п — р — 1 (число степеней свободы остатков или ош ибок),
п о л у ч а е т с я н есм ещ ен н ая о ц ен ка д и сп ер си и о ш и б о к а 2, н а зы в а е м а я
остаточным средним квадратом ошибки М 8 К. И т а к ,
МБд = (3.2.8)
3.2. (Множественная линейная регрессия и корреляции 167

И ногда д л я этой в е л и ч и н ы в д ан н о й г л а в е будет и с п о л ь з о в а т ь с я


-обозначение х2. У к а з а н н ы е тр и вели ч и н ы обы чно в о зн и к а ю т
.в т а б л и ц е д и с п е р с и о н н о г о а н а л и з а а н ал о ги ч н о том у, к а к это
п о к азан о в т а б л . 3 .2 .1 . Ч е т в е р т а я в ел и ч и н а (не п р и с у т с т в у ю щ а я
в таб л и ц е) — к в а д р а т н ы й к о р е н ь из МЭр — н а зы в а е т с я стан­
дарт ной ошибкой оценки. И т а к , в = V М 5 К есть о ц е н к а с т а н д а р т ­
ного о т к л о н е н и я о ш и б к и а.
Р ассм о тр и м п р и в е д е н н у ю т а б л и ц у более подробно. З а м е т и м ,
что к аж д ы й из с р е д н и х к в а д р а т о в р а в е н сумме к в ад р ато в , д ел е н н о й
на соответству ю щ ее ч и с л о степ еней свободы . П о л н а я су м м а к в а д р а -

Таблица 3.2.1.
Таблица дисперсионного а н а л и за для модели множественной линейной
регрессии

Источник _ Степени Средний „


дисперсии Сумма к в а д р а т о в свободы квадрат /^-отнош ение

р - 1

П олная ББт = (г/,- — у ) 2 мТ = п — 1


/= 1

тов и число степ ен ей с в о б о д ы р а в н ы сум м е со о тветствую щ и х к о м п о ­


нен т — « о б у сл о в л е н н о й р егр есси ей » и «остаточной», ^ -о т н о ш е н и е
р а в н о отнош ен ию д в у х с р е д н и х к в а д р а т о в , оно б удет о б с у ж д а т ь с я
в р а зд . 3 .2 .2 . П о л н а я су м м а к в а д р а т о в 8 5 т, д е л е н н а я н а ч и с л о
степ ен ей свободы V-,-, р а в н а о ц е н к е д и сп ер си и У. Н а к о н е ц , о т н о ­
ш ен и е БЭп/БЭ-г = /? 2 ( и н о г д а н а зы в а е м о е коэффициентом детерми­
нации) есть д о л я д и с п е р с и и У, «объ ясн ен н ая» р е гр е сси е й У по
Х х, ..., Х р ( к а к б у д е т п о к а з а н о д ал ь ш е , эта в е л и ч и н а р а в н а
к в а д р а т у м н о ж е с т в е н н о го к о эф ф и ц и ен та к о р р е л я ц и и ). И т а к ,
я в л я е т с я м ерой к а ч е с т в а п о д г о н к и , т. е. чем больш е /?а, тем л у ч ш е
м о д е л ь а п п р о к с и м и р у е т У.

З а м е ч а н и я 3 .2 .1 . ★ ! . П р е д с т а в и м теп ер ь м одел ь и М Н К -
о ц е н к и в м атр и чн ы х о б о з н а ч е н и я х . Э то п р ед ставл ен и е есть с п е ­
ц и а л ь н ы й с л у ч а й м а т е р и а л а , р ас с м атр и в а е м о го в р а з д . 4.1.
168 Гл. 3. Регрессионный и корреляционный анализы

П у с т ь р = (р0, . . . , (Зр) ' — в екто р п а р а м ет р о в р а зм е р а (р +


1) X 1, у = (уь ..., у„)' — вектор из п н аб л ю д ен и й , е =
(«х, . . . , еп)' — вектор из п о ш и б о к и

*11 Лр1
X = *12 Х р1

*1п *” Хрп

есть п X (р + 1) -матрица плана. У р а в н е н и е (3 .2 .4 ) м ож н о т еп ер ь


з а п и с а т ь в ви д е
У = Х 'Р + е,

где е и м е е т м н о го м ер н о е н о р м а л ь н о е р а с п р е д ел е н и е N (0, о21).


В ы р а ж е н и е (3 .2 .5 ) м о ж н о п р ед став и ть в м атри чн ом виде: 5 =
= (у — Х '( 3 ) ' (у — Х-'р), а в е к г о р М Н К -о ц е н о к Ь = (Ь0, Ьх , .... Ьр)'
п о л у ч а е т с я и з р еш ен и я систем ы нормальных уравнений (X X ') р=
= Ху. Р е ш е н и е этой системы им еет в и д 1> = ( X X ') '1 (Ху), а его
к о в а р и а ц и о н н а я м а тр и ц а р а в н а С оу (Ь ) = а 2 (X X ')-1 . Н а к о н е ц ,
н е с м е щ е н н а я оц ен ка д и сп ер си и есть
= 52 = (у — Х'Ь)' (у — Х'Ь)/(л — р — 1). ★
2. С у щ е с т в у е т « ц ен тр и р о ван н ая» ф орм а м одели м нож ествен н ой
л и н е й н о й р егр есси и , к о т о р а я я в л я е т с я обобщ ением ц е н т р и р о в а н ­
ной п р о с т о й л и н ей н о й р егр есси и , р а ссм о тр ен н о й в р а зд . 3 .1 .
Ц е н т р и р о в а н н а я м одель за д ае т с я у р а в н е н и я м и
Ус = Ро - г Р1 (хи — -* 0 4 ----------Ь Рр (хр1 ~ * р) + <?*. г = 1, • • •, п,
где
П
X,- = 2 Х/Ь / = 1, . . ., р и Р6 = Ро + -\----------1- РрХр.
к= 1

М Н К -о ц е н к а м и д л я рь ..., р„
б удут, к а к и ран ьш е, Ъъ ..., Ьр,
в то в р е м я к а к М Н К -о ц е н к о й д л я Р^ будет Ьо = у . П р е и м у щ ес тв о
это й м о д е л и за к л ю ч а е т с я в том, что о ц е н к и Ьх, ..., Ь„ не к о р р е л и -
р о в а н ы с Ьо. М о ж н о п о к а з а т ь , что это у п р о щ а е т н а х о ж д е н и е д о в е ­
р и т е л ь н ы х и н те р в а л о в д л я п р е д с к а за н н о г о зн а ч е н и я у = у +
+ К (хх — х х) + ... + Ьр ( х р — х р ).
3. В м а т р и ч н ы х о б о зн а ч е н и я х ц е н т р и р о в а н н а я м одель в ы
г л я д и т сл ед у ю щ и м о б р а зо м . П у с т ь А есгь р X р-м ат рица сумм
квадрат ов и смещенных произведений отклонений с эл ем ен там и
П
Яц = I ] (■*1к — X¡) {к¡к — х 3), г, / = 1, а § есть (р Х 1)-вектор
к=\
3.2. Множественная линейная регрессия и корреляции 169

с 1 -м элем ентом £ г- = 2 (ук — у) [х1к — л:г), г = 1, ..., р . Т о гд а


к= 1
вектор М Н К -о ц е н о к

Ь = (ръ . . ., Ь р)' = А '^ .


К р о м е т о го ,

Соу (Ь) = а 2А-1 и с о \' (у , Ь£) = О, I = 1........... р. ★


4. Е сл и в о ц е н к у р е г р е с с и о н н о г о у р а в н е н и я в кач ес тв е з н а ч е ­
ний хи ..., х р п о д с т а в л я ю т с я с р е д н и е зн а ч е н и я х ъ ..., х р, то п р е д ­
с к а за н н о е зн а ч е н и е у = у .

П рим ер 3 .2 .1 . Э к с п е р и м е н т а л ь н о и з у ч а л о с ь о к т а н о в о е число
б е н зи н а , с о д е р ж а щ е г о р а зл и ч н ы е к о н ц е н т р а ц и и д в у х д о б а в о к А
и В. П у с т ь У — о к т а н о в о е ч и сл о , — п р о ц ен т первой д о б а в к и и
Х г — процент в т о р о й д о б а в к и . П р е д п о л а г а л о с ь , что эф ф екты
д о б ав о к А п В с к л а д ы в а ю т с я , т а к ч т о д л я о п и с ан и я за в и си м о с ти ¥
от Х г и Хц и с п о л ь з о в а л а с ь м н о ж е с т в е н н а я л и н е й н а я р е г р е с с и я
У = Ро + Р л + $ 2хг + е - К а ж д а я из д в у х н езави си м ы х п е р е м е н ­
ны х п р и н и м ал а одно и з ч ет ы р е х ф и к с и р о в а н н ы х зн ач ен и й , а з н а ч е ­
ние У о п р е д е л ял о с ь д л я каж д о й к о м б и н а ц и и зн ач ен и й Х г = хг
и Х 2 = хг. А н а л и з и р у е м ы е д а н н ы е п р и в е д е н ы в таб л и ц е.

*2 У *1 *2 у
2 96.3 4 2 96.2
3 95.7 3 100.1
4 99.9 4 103.2
5 99.4 5 104.3
2 95.1 5 2 97.8
3 97.8 3 102.2
4 99.3 4 104.7
5 104.9 5 108.8
С пом ощ ью п р о г р а м м ы м н о ж е с т в е н н о й р е г р е с с и и из П С П б ы ли
п о л у ч ен ы оц ен ки Ь0 = 8 4 .5 5 3 , Ъх = 1.833 и Ь2 = 2 .6 8 3 . Т а к и м
о б р азо м , о ц ен к а у р а в н е н и я м н о ж е с т в е н н о й регр есси и есть у =
= 8 4 .5 5 3 + 1 .8 3 3 ^ + - 2 .6 8 3 х 2. Т а б л и ц а д и сп ер си о н н о го а н а л и з а
д л я это го п р и м ер а и м е е т с л е д у ю щ и й вид:

Источник Сумма С х еп ен и Средний


дисперсии к вад р а то в свободы к вадрат ^-отн ош ен ие

Регрессия 211.084 2 105.542 54.487


Отклонение от ре­ 25.182 13 1.937
грессии
П олная 236.266 15
170 Гл. 3. Регрессионный и корреляционный анализы

Т а к и м о б р а з о м , н есм ещ ен н ая о ц е н к а дисперсии ош ибки а 2 есть


М Б К = 1 .937, а с т ан д а р т н а я о ш и б к а оц ен ки 5 = ] /1 .9 3 7 = 1.392.
Н аконец, отнош ен ие = 5 3 с / 5 3 х = 211.084/236.266 = 0 .8 9 3
ес ть д о л я д и сп ер си и , о б ъ я с н е н н а я р егр есси ей У по Х х и Х 2.

3 .2 .2 . Д о в е р и т е л ь н ы е и н тер вал ы и проверка ги п о тез

К р о м е М Н К - о ц е н о к д л я п ар ам етр о в (31? ..., $р, п р о гр ам м ы м н о ­


ж е с т в е н н о й р егр есси и из П С П в ы ч и с л яю т р я д вел и ч и н , к о т о р ы е
и с п о л ь з у ю т с я д л я п о стр о ен и я д о в ер и те л ьн ы х и н тер в ал о в и п р о ­
в е р к и г и п о т е з о тн о си тел ьн о п ар а м е тр о в . Эти величины н а зы в а ю т с я
ст андарт ны м и ошибками коэф ф и ц и ен то в. Д л я к аж д о го рг с т а н ­
д а р т н а я о ш и б к а коэф ф и ц и ен та ее (¿ х) есть оц ен ка с т а н д а р т н о г о
о т к л о н е н и я оценки Ь1 о т рг, ! = 1, . . . , р. Т а к к а к к а ж д а я и з эти х
в е л и ч и н я в л я е т с я ф ункц ией от МБр. к имеет = п — р — 1
с т е п е н е й свободы , г о 100 (1 — а ) %-ный доверительный интервал
для рг есть
Ьс ± в е (6*)^ _ (а/2) (л-я), /=1, . . ., р. (3.2.9)
Н е к о т о р ы е п р о гр ам м ы в ы ч и сл яю т т а к ж е с тан д ар тн у ю о ш и б ку
с в о б о д н о г о ч л е н а 5е ( Ь0). В этом сл у чае в ы р аж ен и е (3 .2 .9 ) м о ж е т
б ы ть и с п о л ь з о в а н о и при / = 0. П о это м у в о п р о су см. т а к ж е
з а м е ч а н и е 3 .2 .2 .2 .
Г и п о т е з ы о тн о си тел ьн о коэф ф иц иентов рх, ..., делятся на три
к а т е г о р и и : м о ж н о п р о в е р я т ь , что все коэф ф ициенты р а в н ы : р х =
= Р2 = = Рр = 0; м ожно п р о в е р я т ь рав ен ство = 0 для
л ю б о го о д н о го &-го коэф ф и ц и ен та, & = 1, ..., р\ или м о ж н о п р о ­
в е р я т ь г и п о т е з у о том , что н ек о то р о е подмножество и з т к о э ф ф и ­
ц и е н т о в р а в н о н у л ю , 1 < _т <Ср-
Г и п о т е з у Я 0: р ] = ... = рр = 0 м ож н о р а с с м а т р и в а т ь к а к
г и п о т е з у о т о м , что «независим ы е перем енн ы е Аг1., ..., Х р не у л у ч ­
ш аю т п р е д с к а з а н и е У о тн о си тел ьн о у = у». Если э т а г и п о т е з а н е
о т в е р г а е т с я , т о , сл ед о в ател ьн о , у п р и н и м а ет ся к а к л у ч ш ее п р е д с к а ­
з ы в а е м о е зн ач ен и е У. А л ь т е р н а т и в н а я ги п о т е за состои т в том , что
не в с е к о э ф ф и ц и е н т ы р а в н ы н у л ю , т. е. что «некоторы е из н е з а в и ­
си м ы х п е р е м е н н ы х у л у ч ш а ю т п р е д с к а за н и е У по сравнени ю *
с у = у » . С тати сти к о й к р и т е р и я я в л я е т с я Р -о тн о ш ен и е, д а н н о е в
п о с л е д н е й к о л о н к е т а б л и ц ы дисп ер си о н н ого а н ал и за (таб л . 3 .2 .1 ) ,
т . е.
Р = М Бо/М Б н. (3 .2.10)
С т а т и с т и к а Б д л я И 0 им еет /•'-расп ред елен и е с = р и =
= п — р — 1 степ ен ям и свободы . С оответствую щ ее Р - з н а ч е н и е
ес ть п л о щ а д ь об ласти F п о д к р и в о й плотности: р а с п р е д е л е н и я
Р ('Ъ» сп р ав а о т то ч к и , со о тветствую щ ей в ы ч и с л е н н о м у
зн ач ен и ю
3.2. Множественная линейная регрессия и корреляции 171

Г и п о теза Я 0 : р/г = 0 для 6 = 1, . . . , р м ож ет р а с с м а т р и в а т ь с я


к а к ги п о т е за о т о м , что « п е р е м е н н а я Х к не у л у ч ш а е т п р е д с к а за н и е
У по с р а в н е н и ю с п р е д с к а з а н и е м , п о л у ч аем ы м с помощ ью р е г р е с ­
си и У по (р — 1) о с т а л ь н ы м перем енны м ». О дной из в о зм о ж н ы х
с т ат и с т и к к р и т е р и я п ри а л ь т е р н а т и в н о й ги п о тезе Ну. (3/г Ф 0 б у д ет
/= ■ = Ь1/[ве(Ьк)]\ (3 .2 .1 1 )

ко то р ая д л я Н() им еет /•'-р а с п р е д е л е н и е с 1 и л>к = п — р — 1


степ ен ям и с в о б о д ы . С о о т в е т с т в у ю щ е е Р -зн а ч е н и е есть п л о щ ад ь
о б л асти под к р и в о й п л о т н о с т и р а с п р е д е л е н и я Р (1, vR), р а с п о л о ­
ж ен н о й правее в ы ч и с л е н н о г о з н а ч е н и я Р .
Н ек о то р ы е п р о г р а м м ы п е ч а т а ю т зн а ч е н и е Р д л я к аж д о го к о э ф ­
ф и ц и ен та Ьк. И н о г д а это з н а ч е н и е Р н а зы в а ю т в ел и ч и н ой Р -вклю­
чения. Д р у г и е п р о гр ам м ы п е ч а та ю т зн ач ен и е э к в и в а л е н т н о й
стати сти ки
I = ¿ ^ /э е (Ьк), (3 .2 .1 2 )

к о т о р а я д л я # 0 и м еет р а с п р е д е л е н и е С тью дента с vR = я — р — 1


степ ен я м и с в о б о д ы . С о о т в е тс т в у ю щ е е .Р -значение есть у д в о ен н а я
п л о щ а д ь о б л а с т и , р а с п о л о ж е н н о й п о д к р и в о й плотности р а с п р е ­
д е л е н и я / (ук ) с п р а в а от т о ч к и 1t\.
С помощ ью ¿ -р а с п р е д е л е н и я м о ж н о п р о в ер и ть ги п о т езу Я 0:
Р а = Р*0). где — з а д а н н а я к о н с т а н т а , отн оси тел ьн о о д н о ­
ст о р о н н е й и д в у с т о р о н н е й а л ь т е р н а т и в . С тати сти к а к р и те р и я
в этом с л у ч ае и м е е т в и д
(3 .2 .1 3 )

а Р -з н а ч е н и е п о л у ч а е т с я с п о м о щ ь ю к р и в о й плотности р а с п р е д е л е ­
н и я I (у к) в з а в и с и м о с т и о т а л ь т е р н а т и в н о й гипотезы .
Т р у д н е е п р о в е р и т ь п р о м е ж у т о ч н у ю ги п о тезу о р ав ен стве н ул ю
н е к о т о р о г о п о д м н о ж е с т в а из т ко эф ф и ц и ен то в. Б е з п отери о б щ н о ­
сти п р е д п о л о ж и м , что п о д м н о ж е с т в о со сто и т из первы х т коэф ф и ­
ц и ен то в ..., Р,1(. Т о г д а п р о в е р к а ги п о тезы Н0: = ... = р т =
= 0 э к в и в а л е н т н а п р о в е р к е ги п о т е зы о том , что «т п ерем енн ы х
Х и ..., Х т не у л у ч ш а ю т п р е д с к а з а н и е У о тн о си тел ьн о п р е д с к а з а ­
н и я , п о л у ч а ем о го с п о м о щ ь ю р е г р е с с и и У по Х т+1, ..., Х ру>. Д л я
п р о в е р к и Н 0 с н а ч а л а в ы ч и с л и м р е г р е с с и ю У по перем ен н ы м
Х ,п+1, . . . , Х р и и з а н а л и з а с о о т в е т с т в у ю щ е й таб л и ц ы д и с п е р с и о н ­
н ого а н а л и з а п о л у ч и м о с т а т о ч н у ю су м м у к в а д р а то в . З а т ем
в ы ч и с л и м р е г р е с с и ю У по в с е м у н а б о р у п ерем енн ы х Х г, ..., Х т, ...
..., Х р. О с т а т о ч н у ю су м м у к в а д р а т о в и с р ед н и й к в а д р а т д л я это го
с л у ч а я о б о з н а ч и м ч ер е з БЭр. и М 5 К со о тветственно. Т о гд а с т а т и ­
с ти к а кри тери я д л я Н 0 им еет вид

К лП я • (3 -2 Л 4 )
172 Гл. 3. Регрессионный и корреляционный анализы

Д л я ги п о т е зы Н 0 она им еег F -р асп р ед ел ен и е с гаг и v R = га — р — 1


с т е п е н я м и с в о б о д ы . Р -зн ач ен и е есть п л о щ ад ь о б ласти , р а с п о л о ж е н ­
н о й п о д к р и в о й п л о тн о сти р а с п р е д ел е н и я F (гаг, vR) с п р а в а от
т о ч к и F, р а в н о й вы чи слен ном у зн ач ен и ю F.

З а м е ч а н и я 3 .2 .2 . В этом зам еч ан и и п р и во д и тся м а т р и ч н а я


ф о р м а з а п и с и д о в е р и т е л ь н ы х и н те р в а л о в д л я средн его зн а ч е н и я Y
и с в о б о д н о го ч л е н а р 0.
★ 1. Д и с п е р с и я ÿ при х ъ ..., хр есть
V (У) = о2 ( ( l / n ) - f d 'A _1d),
г д е эл е м е н т ы м а т р и ц ы А о п р ед ел ен ы в зам ечан ии 3 .2 .1 .3 и
П
d = (% — х г ........... хр — хр)’,
Xi = £ xik/n.
k=\
С о о т в е тс т в е н н о 1 0 0 ( 1 — а ) %-ный доверительный интервал д л я
ист инного среднего значения Y п ри заданных хъ . . . , хр о п р е д е л я ­
ется вы раж ением
У ± [ s 2((l/« ) + d 'A ^ d ) ] 1/ 2^ - ^ ) ^ — Р — 1).
а 100 (1 — а ) % -ный доверительный интервал для единичного
нового значения Y при заданных x lt . . . , х р о п р е д е л я ет ся в ы р а ж е ­
нием
У ± [s2 (1 - f (1/л) -Ь d 'A " 1d)]1/2i 1_ (ct/2)(n - р - 1). ★
★ 2. З а м е т и м , что Ь0 есть п р е д с к а за н н о е зн а ч е н и е Y п р и
хх = ... = Хр — 0. С л ед о вател ьн о , д и сп ер си я Ь0 б удет р а в н а
V [Ь0) = а2 ((1/га) - f х 'А -1х)
и 100 (1 — а ) % -ный доверительный интервал д л я р0 о п р ед е л я ет с я
вы раж ением
bu± [-s2(( 1/га) +х'А"^)]'/2^_ (в/3) (га- р - 1).
Н е к о т о р ы е п р о г р а м м ы печатаю т элем енты м атр и ц ы А -1, что д а е т
в о з м о ж н о с т ь о п р е д е л я т ь ч и сл ен н ы е зн а ч ен и я п р и в ед ен н ы х в ы ш е
вы раж ений. ★
3. Е с л и г и п о т е з а Н 0: р* = 0 п р о в е р я е т с я д л я н е с к о л ь к и х
з н а ч е н и й k п р и о д н о м и том ж е у р о в н е зн а ч и м о с ти ос, то совм естн ы й
у р о в е н ь з н а ч и м о с т и н е о б я за т е л ь н о будет р а в е н ос. Ч то б ы об ой ти
э т у т р у д н о с т ь , м о ж н о и с п о л ь зо в ат ь м но ж ествен н ы й д о в ер и те л ь н ы й
и н т е р в а л д л я в с е х р А, k = 1, . . . , р, т а к о й , что совм естны й д о в е р и ­
т е л ь н ы й у р о в е н ь будет р ав ен 1 — а. Э тот м н ож ествен н ы й д о в е р и ­
т е л ь н ы й и н т е р в а л д л я рА зап и с ы в а е тс я в виде
b A± s e ( b k) [ p F ^ i p , га — р — 1)]1/2-
Г и п отеза Р& = Р£0> о гв е р гае т с я при у р о в н е зн ач и м о сти ау
е с л и р^0) не п о п а д а е т в это т и н те р в а л .
3.2. Множест венная линейная регрессия и корреляции 173

П ример 3 .2 .1 ( продолж ение ). И з т а б л и ц ы д и сп ерси он н ого а н а ­


л и з а д л я это го п р и м е р а бы ло о п р е д е л е н о зн ач е н и е / = 54.487.
П р и с р ав н ен и и этого з н а ч е н и я Р с п р о ц е н т и л я м и р ас п р ед ел е н и я
/ (2, 13) ги п о теза Л 0 : = р2 = 0 о т в е р га е т с я с Р < 0 . 0 0 1 . Т а к
что о ктан о в о е ч и с л о л и н е й н о з а в и с и т о т к о н ц ен тр ац и и по м еньш ей
мере одной из д о б ав о к: А и л и В.
К оэф ф и ц и ен ты р е г р е с с и и , с т а н д а р т н ы е ош ибки коэф ф иц иентов,
/-с т а т и с т и к а (3.2 .1 1 ) и Р - з н а ч е н и е , п о л у ч е н н о е после ср ав н е н и я И
с п р о ц ен ти л ям и р а с п р е д е л е н и я Р (1, 13), объедин ены в п ри води м ой
н и ж е табл и ц е:
О ц е н к и коэф ­ С т ан д ар тн ы е
Переменные ф и ц и е н то в ош ибки к о ­ Р
р егрессии эф ф и ц и ен тов

*1 1 .8 3 3 0 .3 1 1 2 3 4 .6 9 0 .001
*2 2 .6 8 3 0 .3 1 1 2 7 4 .3 3 0.001

И т а к , ги п о теза Я 0: = 0 о т в е р г а е т с я , р ав н о к а к и ги п о т еза Я 0:
р2 = 0. С л е д о в а т е л ь н о , Х г д ает з н а ч и м о е у л у ч ш ен и е п р е д с к а за н и я
У по ср ав н ен и ю с п р е д с к а з а н и е м , п о л у ч а ем ы м с помощ ью р е гр ес си и
У т о л ь к о по Х 2; с о о т в е т с т в е н н о Л^2 з н а ч и м о у л у ч ш ае т п р е д с к а за н и е
У по ср ав н ен и ю с п р е д с к а з а н и е м У с пом ощ ью р егресси и ¥ т о л ь к о
по Х г . С лучай п р о в е р к и г и п о т е з ы о то м , что все коэф ф и ц и ен ты ,
в х о д я щ и е в п о д м н о ж е с т в о и з т = 2 коэф ф и ц и ен тов, р авн ы н ул ю ,
б у д ет рассм о тр ен в п р и м е р е 3 .2 .3 .
Д л я 95 % -н о г о д о в е р и т е л ь н о г о и н т е р в а л а д ля ¡За имеем
1.833 ± 0.3112 ( 2 .1 6 0 ) = (1 .1 6 1 , 2 .5 0 5 ), где ¿„.975 (13) = 2.160. Д о ­
в ер и тел ьн ы й и н т е р в а л д л я (32 п о л у ч а е т с я т а к и м ж е об разом .
Н а к о н е ц , д л я п р о в е р к и г и п о т е з ы Н 0: р2 = 3.0 п роти в Н х:
Р2 < 3.0 при у р о в н е сх = 0 .0 5 и з в ы р а ж е н и я (3.2.13) в ы ч и с л я е т с я
в ел и ч и н а / = (2 .6 8 3 — 3 .0 0 0 ) /0 .3 1 12 = — 1.019. Это зн а ч ен и е
ср а в н и в а е т с я с п р о ц е н т и л я м и ¿ - р а с п р е д е л е н и я С тью дента с \'к =
= 13 степ еням с в о б о д ы . Т а к к а к а л ь т е р н а т и в а о д н о сто р о н н я я ,
имеем Р > 0 .1 0 и г и п о т е з а Н и п р и н и м а е т с я .

З ам ечан и е 3 .2 .3 . Ъ р е г р е с с и о н н о й м одели коэф ф ициент р.


и зм ер я ет степень и зм е н е н и я У в за в и с и м о с т и оу Х и к о гд а зн а ч е н и я
X ], / = 1, ..., р , / Ф / , ф и к с и р о в а н ы . О д н а к о эти коэф ф ициенты
м о гу т бы ть н е с р а в н и м ы по в е л и ч и н е и з -з а р а зл и ч и я в ед и н и ц ах
и зм ер ен и я Х г , . . . , Х р . Э т а т р у д н о с т ь м о ж ет бы ть п реод ол ен а
прим енением ст а н дарт и зован н ы х независимых переменных.
И м енно, введем п е р е м е н н ы е = Х ^й ] д л я / = 1, ..., р, гдев^- =
П
— £ (хн — х 3)21(п — 1). М о д е л ь м н о ж ес т в е н н о й л и ней ной р егрес-
1= 1
сии в терм и нах т е п е р ь б у дет д а в а т ь с я у р авн ен и я м и
У1 = Уо + + • • • + Ургр1 ~Ь е1’ *— 1 п>
174 Гл. 3. Регрессионный и корреляционный анализы

гд е у к, к. = 0, ..., р, — н еи зв естн ы е п а р а м е т р ы и е1 — н е з а в и с и ­
мы е с л у ч а й н ы е ош ибки, р а с п р е д ел е н н ы е по з а к о н у N (О, а 2).
М Н К - о ц е н к и ск д л я -у* и п р о в е р к а ги п о тез сл едую т из р а зв и т о й
вы ш е т е о р и и п о сл е зам ен ы х3 и (3/г н а г3 и -у* соответствен н о. П р е и м у ­
щ еств о с т а н д а р т и з а ц и и со сто и т в томе, что ух, . . . , у р и зм е р я ю т
т е п е р ь с т е п е н ь и зм ен ен и я в одной и той ж е ш к а л е . Это п о зв о л я е т
д е л а т ь в ы в о д ы о в л и я н и и н езав и си м ы х п ер ем ен н ы х ..., 2 р (или,
ч то э к в и в а л е н т н о , Х и ..., Х р). Т а к , б о л ьш о е зн ач ен и е с3 у к а зы в а е т
н а в ы с о к у ю степень в л и я н и я (или Х }), / = 1, р.

3 .2 .3 . М н о ж е с т в е н н ы й к о э ф ф и ц и е н т кор рел яц и и

В это м и следую щ ем р а з д е л а х б у д ет р а с с м ат р и в а т ь с я т е о р е т и ч е ­
с к о е о б о с н о в а н и е м одели м н о ж ествен н о й л и н ей н о й р егресси и . Эта
т е о р и я п р е д п о л а г а е т , что все р + 1 п ер ем ен н ы е У, Х и ..., Х р с у т ь
с л у ч а й н ы е в ел и ч и н ы , им ею щ ие совм естн ое м н огом ерн ое н о р м а л ь ­
н о е р а с п р е д е л е н и е . В этом р а з д е л е б удет п о к азан о , что среднее
з н а ч е н и е у с л о в н о го р а с п р е д е л е н и я У п р и д ан н ы х зн а ч е н и я х
Х г = хг, ..., Х р = хр о п р е д е л я е т с я ф у н к ц и е й м нож ественн ой л и ­
н е й н о й р е г р е с с и и ¡30 + ргхх + ... + $рх р. Э то п р и во д и т к модели
м н о ж е с т в е н н о й л и н ей н о й р е гр е с си и , в к о т о р о й д и сп ер си я ош ибки
<т2 е с т ь ф у н к ц и я ди сп ер си и с п е р е м е н н о й У и вел и ч и н ы , н а з ы в а е ­
мой м н о ж е с т в е н н ы м ко эф ф и ц и ен то м к о р р е л я ц и и . Д л я о зн а к о м л е ­
н и я с к о н ц е п ц и я м и м ногом ерного стати сти ч еско го а н а л и з а ч и ­
т а т е л ь м о ж е т в о с п о л ь зо в а т ь с я р а з д . 1 .1 .6 , п р и л о ж е н и е I.
П у с т ь , м н огом ерн ое н о р м а л ь н о е р а с п р е д ел е н и е У , Х х, . .., Х р
им еет с р е д н и е \ху , ц 15 ..., и дисперсии , о'1 ..., о 2р с о о т в е т ­
ствен но. О б о зн а ч и м ¡совариацию У с 1 ; ч ер ез ау1 и к о в а р и а ц и ю
г,
Х г с Х 3 ч е р е з в ц д л я / = 1, ..., р. О п р ед ел и м д а л е е ко эф ф и ц и ен ты
корреляции
9у*1 — с г ^ 'К а , ') 11 Р*г*;- — о,//((Т.-ст,).

Д л я д а н н ы х зн ач ен и й Х х = хх, ..., Х р = хр су щ ес тв у е т п о д м н о ­
ж ес т в о с о о т в е т с т в у ю щ и х зн ач ен и й У. И х р асп р е д ел е н и е , н а з ы в а е ­
мое условным распределением У при данных Х х = х1г .. . , Х Р = х р,
я в л я е т с я н орм альн ы м со средним зн а ч е н и е м

Iх-у.х1 ... хр — Ч- Рг (ЛГ1 — Цг) + * • • ~ г Рр (х$ — Р р ) , ( 3 . 2 . 1 5)

кото р о е н а з ы в а е т с я условным ожиданием У п ри д а н н ы х Х х =


= х ъ ..., Хр = хР и ли регрессией У по Х х, ..., Х р. В еличины
{$1 , ..., $р н а зы в а ю тс я ( частными ) коэффициентами регрессии
и я в л я ю т с я ф у н к ц и я м и д и сп ер си й и к о в а р и а ц и й . Д и с п е р с и я этого
у с л о в н о г о р а с п р е д ел е н и я д а е т с я вел и ч и н о й
о* = ст|(1 (3.2.16)
3.2. Множественная линейная регрессия и корреляции 175

гд е ру .х1...х — п о л о ж и т е л ь н ы й к в а д р а т н ы й к о р е н ь из р \ Х1. -
н а зы в а е т с я множ ественным коэффициентом корреляции м еж ду
У и Х х, ... , Х р.
Е с л и в в е с ти с л у ч а й н у ю в е л и ч и н у е = У — |¿У.Х1...Х , то
у сл о в н о е р а с п р е д е л е н и е е п р и д а н н ы х Х х = хъ ..., Х р = хр б у д ет
N (0, ст2). И с п о л ь з у я у с л о в н о е р ас п р е д ел е н и е м ож но н а п и с а т ь
У — Ро + Р Л . “Ь ' * ' “Ь %хр “Ь е’ (3 .2 .1 7 )
где
Ро = \*-у — Р1 И1 — ‘ * • — РрМр (3 .2 .1 8 )
и е р а с п р е д е л е н о по N (О , о 2). З а м е т и м , что у р ав н е н и е (3.2.17)
им еет тот ж е в и д , что и м о д е л ь м н о ж ествен н о й линей ной регр есси и
(3.2.2).

З а м е ч а н и е 3 .2 .4 . 1. М н о ж е с т в е н н ы й коэф ф ициент к о р р е л я ц и и
Ру.х х я в л я е т с я м ер о й л и н е й н о й зав и си м о сти м еж ду У и н аб ором
перем енны х {Х г, . .., Х р\ , п р и чем 0 < руХ1...Хр < 1- Н у л е в о е
зн а ч е н и е э т о г о к о э ф ф и ц и е н т а у к а з ы в а е т , что У не за в и с и т (л и ­
нейно) о т н а б о р а п е р е м е н н ы х {Х ъ ..., .Хг }, а зн ач ен и е 1 у к а зы в а е т
н а п о л н у ю л и н е й н у ю з а в и с и м о с т ь , п ри к о торой п ер ем ен н ая У
точн о р а в н а л и н е й н о й к о м б и н а ц и и перем енны х Х ъ ..., Х р.
2. Р а з р е ш а я у р а в н е н и е (3 .2 .1 6 ) отн о си тел ьн о м н ож ествен н ого
к о эф ф и ц и ен та к о р р е л я ц и и , п о л у ч аем
?ухг . . . *р = К - 0 У о*.
И т а к , к в а д р а т м н о ж е с т в е н н о г о ко эф ф и ц и ен та к о р р е л я ц и и равен
доле дисперсии У, «объясненной » регрессионной зависимостью
с Х и ..., Х г .
3. М н о ж е с т в е н н ы й к о э ф ф и ц и е н т к о р р е л я ц и и н еотри ц ател ен по
о п р ед ел ен и ю . Т а к , в с л у ч а е д в у м е р н о го н о р м ал ьн о го р а с п р е д е л е ­
н и я (р = 1) и м еем
Рг/»-*1 = Р хгч/ = I Рх1У|>
где рх,,; — п р о с т о й к о э ф ф и ц и е н т к о р р е л я ц и и м еж д у Х х и У.
4. К о г д а р = 2 , в ы р а ж е н и е (3 .2 .1 5 ) м ож но за п и с а т ь в ви д е
¿ V * ,* , = 1'» г $1 ( * 1 — МО + Р2 ( * 2 — И2)-
Г раф и к это го у р а в н е н и я е с т ь п л о с к о с т ь (н азы ваем ая плоскостью
регрессии У по Х г и X 2) в п р о с т р а н с т в е , определенном к о о р д и н а т ­
ными осям и х и х2 и 11ц.Х1Х2. П р и р > 2 г р аф и к , о п ред ел яем ы й
у р ав н ен и е м (3 .2 .1 5 ) , б у д е т г и п е р п л о ск о с ть ю в (р + 1)-м ерном
п р о стр ан ств е, о п р е д е л е н н о м о с я м и х\, ..., хр и цу.Ж1...х .
5. М н о ж е с тв е н н ы й к о э ф ф и ц и е н т к о р р е л я ц и и есть м а к с и м а л ь ­
ное зн а ч е н и е п р о с т о г о к о э ф ф и ц и е н т а к о р р е л я ц и и м е ж д у У и
л и н ей н о й к о м б и н а ц и е й X х , . .., X ,. Б о л е е то го, \ьу.Х1...х я в л я е т с я
176 Гл. 3. Регрессионный и корреляционный анализы

л и н е й н о й к о м б и н а ц и е й , н а ко то р о й эт о т м акси м у м д о сти гае тся.


З а в и с и м о с т ь м е ж д у м нож ественн ы м коэф ф иц иентом к о р р е л я ц и и
и п а р а м е т р а м и р е гр е с си и ..., будет о б с у ж д а т ь с я в зам ечан и и
3 .2 .6 .4 .
6 . М н о ж е с тв е н н ы й ко эф ф и ц и ен т к о р р е л я ц и и и н в а р и а н т е н о т н о ­
с и т е л ь н о н е в ы р о ж д е н н ы х л и н е й н ы х п р е о б р а зо в а н и й исход н ы х
п е р е м е н н ы х . В ч астн о сти , он и н в а р и а н т е н к и зм ен ен ию м асш таб а
или н а ч а л а о т сч е т а ш к а л ы и зм е р е н и я У , Х х, ..., Х р.
7 . О т н о с и т е л ь н о м н о ж ествен н о го ко эф ф и ц и ен та к о р р е л я ц и и
м о ж н о с д е л а т ь за м е ч а н и е , а н а л о ги ч н о е 3 .1 .5 .4 . Т а к , (1 —
есть д о л я с т а н д а р т н о г о о т к л о н е н и я У , о с т а в ш а я с я «необъясненной »
з а в и с и м о с т ь ю о т Х д / . . . , Хр. Н а п р и м е р , ес л и м нож ественн ы й
к о э ф ф и ц и е н т к о р р е л я ц и и р авен 0 .9 , о стается 44 % н еоб ъ ясн ен н ого
с т а н д а р т н о г о о т к л о н е н и я У.

3 .2 .4 * Ч а с т н ы й к о э ф ф и ц и е н т кор р ел яц и и

В э т о м р а з д е л е р а с с м ат р и в а е т с я ещ е один ко эф ф и ц и ен т к о р р е л я ­
ци и, н а зы в а е м ы й ч астн ы м коэф ф иц иентом к о р р е л я ц и и , которы й
и с п о л ь з у е т с я к а к м е р а л и н ей н о й за в и с и м о с т и м еж д у д в у м я каки м и -
л и б о п ер ем ен н ы м и из У , Х и ..., Х р п о сл е в ы ч и та н и я «эффекта»,
о б у с л о в л е н н о г о в заи м о д ей ств и ем э т и х д в у х п ерем ен н ы х с н е к о то ­
ры м н е п у с т ы м под м н о ж ество м из о с т а в ш и х с я р — 1 п ерем ен н ы х.
В ч а с т н о с т и , т а к и м образом м о ж н о и зм е р я т ь зав и с и м о ст ь м еж ду У
и н е з а в и с и м о й п е р е м е н н о й Х т п о сл е у ч ета л и н ей н о й зав и си м о сти
У о т н е к о т о р о г о п о д м н ож ества к п ер ем ен н ы х , со д ер ж ащ его с я
с р е д и р — 1 н еза в и с и м ы х п ер ем ен н ы х Х и г = 1, ..., р, / Ф т.
Э ту л и н е й н у ю за в и с и м о с т ь У о т п о д м н о ж ес тв а к п ер ем ен н ы х и
н а з ы в а ю т «эф ф ектом» п о д м н о ж еств а, о ко то р о м у п о м и н ал о сь вы ш е.
Т е о р и я ч а с т н о г о коэф ф и ц и ен та к о р р е л я ц и и о сн о в а н а , к а к будет
п о к а з а н о д а л е е , н а и зу ч ен и и д в у х у с л о в н ы х р ас п р ед ел ен и й
П у с т ь I и к — д в е к а к и е -л и б о п ерем ен н ы е из н а б о р а У,
Х 1у . . . , Х р и с — н е к о то р о е н еп у сто е п о д м н о ж ество из о с т ав ш и х с я
р — 1 п е р е м е н н ы х . О п р ед ел и м в е л и ч и н ы = I— и =
= к — \1 Н.С. З д е с ь ц; .с, |аа .с — с о о тв етс тв е н н о у сл о в н ы е о ж и д а е ­
м ы е з н а ч е н и я I и к п р и д ан ном с. З а м е т и м , что — сл у ч ай н ы е
в е л и ч и н ы , т а к к а к они суть ф у н к ц и и с л у ч а й н ы х в ел и ч и н и з с.
Частный коэффициент корреляции между I и к при. фиксированных
значениях переменных из с есть
Р/Л-г = рг,гг ) (3.2.19
гд е р 2,гг — п р о с т о й коэф ф иц иент к о р р е л я ц и и м еж ду 1 Х и г 2.
В э т о м и с л е д у ю щ е м р а з д е л а х б у д у т р а с с м а т р и в а т ь с я д в а частны х
с л у ч а я . В п е р в о м с л у ч а е / = У, Н = Х т, т = 1, р, а с состав­
л я ю т все о с т а в ш и е с я р — 1 н е за в и си м ы е п ерем ен н ы е. С о о тв ет­
с т в у ю щ и й ч а с т н ы й коэф ф ициент к о р р е л я ц и и будет о б о зн ач аться
3.2. М ножественная линейная регрессия и корреляции 177

ч е р е з рухп.-с- В о в т о р о м с л у ч а е т а к ж е / = У, И. = Х т, а с есть
п о д м н о ж еств о , с о с т о я щ е е из п е р в ы х £ н езави си м ы х перем ен н ы х
{А^, Х г, ..., Х к \, г д е 1 < ^ < и с р , а частны й коэф ф и ц и ен т
к о р р е л я ц и и б у дет о б о з н а ч а т ь с я ч е р е з рУхт х1...хк - В ообщ е, есл и
в с с о д е р ж и т с я к п е р е м е н н ы х , о с о о т в е т с т в у ю щ е м частном к о э ф ф и ­
ц и ен те к о р р е л я ц и и г о в о р и т с я , ч т о это коэф ф иц иент й-го порядка.

З а м е ч а н и я 3 . 2 . 5 . 1. Ч астн ы й ко эф ф и ц и ен т к о р р е л я ц и и р /Л.с
е с т ь м е р а л и н е й н о й з а в и с и м о с т и м е ж д у / и /г, когд а вел и ч и н ы
п ерем ен н ы х из с ф и к с и р о в а н ы . З н а ч е н и я этого к о эф ф и ц и ен та
к о р р е л я ц и и з а к л ю ч е н ы м еж д у — 1 и + 1 ; зн а ч е н и е н у л ь у к а з ы в а е т
н а т о , ч то / и Н н е з а в и с и м ы , ко гд а в е л и ч и н ы перем енн ы х в с ф и к с и ­
рованы .
2. И меет место с л е д у ю щ е е т о ж д е с т в о м еж д у м н ож ествен н ы м и
ч астн ы м к о э ф ф и ц и е н т а м и к о р р е л я ц и и д л я н аб о р а п ерем ен н ы х У,
Х 1г ..., Х к_г, Х к, & = 2, ..., р:

где V ( У \ Х х, Л Г * )— у с л о в н а я дисперсия У при за д ан н ы х


зн ач ен и ях . . . , АГ.-, 1 = 1, . . . , р . Т ак как
У(У\Х1 ..... Х к . ! )
-У (У \Х 1 ..... Х к)
9ухк Х1 . . . х к 1 —
у (У \Х1 ....
Хк.!)
то к в а д р а т ч астн о го к о э ф ф и ц и е н т а к о р р е л я ц и и м ож но о п р е д е л и т ь
к а к долю остаточной дисперсии У, «объясненной » добавлением
переменной. Х к к н а б о р у \ Х х........
3. В ерно с о о т н о ш е н и е

гд е с состоит из в сех о с т а в ш и х с я р — 1 п ер ем ен н ы х , а V (Х т | с) —
у с л о в н а я д и сп ер си я Х т при ф и к с и р о в а н н ы х зн а ч е н и я х п е р е м е н ­
н ы х из с. П оэтом у п р о в е р к а г и п о т е з ы = 0 эквивалентна п р о ­
в е р к е гипотезы р¡« -с = 0. что б у д е т и с п о л ь зо в а н о в сл ед у ю щ ем
р а зд ел е .
4. Ч астн ы е к о э ф ф и ц и е н т ы к о р р е л я ц и и м огут бы ть в ы ч и с л ен ы
н а о с н о в е р е к у р р е н т н ы х с о о т н о ш е н и й сл еду ю щ и м о б р азо м . Е с л и
1 , к п с 1 — три р а з л и ч н ы е перем ени ы э из м н о ж е с т в а ( У, Х х, . . . , Х„],
то в се частны е к о э ф ф и ц и е н т ы к о р р е л я ц и и п ервого п о р я д к а д а ю т с я
вы раж ен и ем

р ¿¡1.(1 —
К 1- р?^)
178 Гл. 3. Регрессионный и корреляционный анализы

гд е в се в е л и ч и н ы в п р ав о й ч асти с у т ь п р осты е коэф ф иц иенты к о р ­


р е л я ц и и . Д а л е е п о следовательно п р и м ен я я р е к у р р е н тн у ю ф о р ­
м улу
Р й - с — РМ-сР/иг-с
Р 1И-сс1 -— , . . )
V (1 — Р Ыс) I- ( Рйй-с)

гд е с — л ю б о е подм нож ество о став ш и х ся п ер ем ен н ы х , м ож но'


п о л у ч и т ь ч а с т н ы е коэф ф ициенты к о р р е л я ц и и л ю б ого п о р я д к а .

3 .2 .5 . О ценка и проверка гипотез о множественных


и частны х коэффициентах корреляции
О б р а т и м с я т е п е р ь к в о п р о с у п о л у ч е н и я и и н те р п р ет а ц и и введ ен ­
н ы х в ы ш е к о эф ф и ц и ен то в к о р р е л я ц и и . Т а к к а к соо тв етству ю щ ая
т е о р и я т р е б у е т , чтобы в се р + 1 пер ем ен н ы е б ы ли сл у ч ай н ы м и ,
п р е д п о л о ж и м , что в ы б о р ка (уг , хи , ..., хр1), ..., (уа, % , ..., хрп)
б ы л а п о л у ч е н а сл у чай н ы м вы бором п и н ди ви дуум ов из м н о го м е р ­
н о й н о р м а л ь н о р асп р ед ел ен н о й п о п у л я ц и и с п ар ам етр ам и , о п р е ­
д е л е н н ы м и в р а зд . 3 .2 .3 . Д л я к а ж д о г о и н д и в и д у у м а в с е р + 1
п е р е м е н н ы е и зм е р я л и с ь о дноврем енно. О ц ен к ам и ср ед н и х , д и с п е р ­
с и й и к о в а р и а ц и й д л я этой п о п у л я ц и и б у д у т соответствен н о
в ы б о р о ч н ы е средние, дисперсии и к о в а р и а ц и и , рассм о тр ен н ы е
в гл . 2. Э т и оц ен ки м огут бы ть п о л у ч ен ы с пом ощ ью к а к д е с к р и п ­
т и в н ы х п р о г р а м м , так и п р о гр ам м м н о ж ествен н ой л и н ей н о й р е г р е с ­
си и . О б ы ч н о эти п р ограм м ы вы даю т и м атр и ц у п росты х к о эф ф и ­
ц и е н т о в к о р р е л я ц и и м е ж д у (р 1) перем енн ы м и .
В р а з д . 3 .2 .3 бы ло п о к а за н о , что у сл о в н о е р ас п р ед ел ен и е У
п р и ф и к с и р о в а н н ы х Х х = хх, ..., Х р = хр п ри води т к м одели
м н о ж е с т в е н н о й л и н ей н о й р егр есси и . Т а к и м о б р азо м , д л я п о л у ч е н ­
н о й в ы б о р к и им еем
У1 — Ра*4= Р Л г "4“ • • ' + 1~~: 1> ■ • п’ (3 .2 .2 0 )
г д е е1 — н е з а в и с и м ы е с л у ч а й н ы е вел и ч и н ы , р ас п р ед ел ен н ы е по
з а к о н у N ( 0 , ст2). Т а к к а к эт и у р а в н е н и я и д ентичны у р а в н е н и я м
(3 .2 .4 ), о ц е н к и д л я р0, рх, ..., Рр н а 2 п о л у ч а ю т с я тем ж е способом ,
ч т о и в р а з д . 3 .2 .1 , а к р и т е р и и д л я п р о в ер к и ги п отез и д о в е р и т е л ь ­
н ы е и н т е р в а л ы , п р и веденн ы е в р а зд . 3 .2 .2 , сп р авед л и вы и здесь.
П о э т о м у о с т а е т с я т о л ь к о п о л у ч и ть о ц ен ки м н ож ествен н ого и
ч а с т н о г о к о э ф ф и ц и е н т о в к о р р е л я ц и и . С н а ч ал а р ассм отри м с л е ­
дую щ ий п ри м ер.

П р и м е р 3 .2 .2 . В эт о м п р и м ер е п р о д о л ж ен о и зуч ен и е д ан н ы х ,
п р и в е д е н н ы х в при м ере 2 .4 .1 . У п = 141 б ольн ого было п роведено
п о п я т ь и з м е р е н и й (в мм р т . ст.) а р т ер и а л ь н о го д а в л е н и я с и с п о л ь ­
з о в а н и е м в н у т р и а р т е р и а л ь н о г о к а т е т е р а и м етода ком п ресси он н ой
м а н ж е т ы . В с е п я т ь п ерем енн ы х я в л я ю т с я случай н ы м и . С помощ ью
3.2. Множественная линейная регрессия и корреляции 179

д е с к р и п т и в н о й п р ограм м ы бы ли вы чи слен ы вы борочны е ср ед н и е,


к о в а р и а ц и о н н а я и к о р р е л я ц и о н н а я м атри цы .
Н и ж е п р и в е д е н а та б л и ц а ср едн и х зн ач ен и й и к о р р е л я ц и о н н а я
м атри ца.

„ Выборочное Выборочные
Метод П еременная среднее стандартны е
отклон ен и я

В нутриартериальны й Х г — систолическое давление х г. — 112.2 3! - 28.6


Х 2 — диастолическое давление х 2. = 59.4 17.1
Х 3 —- среднее давление х3. = 76.8 53 = 21.0
Компрессионной ман­ Х4 — систолическое давление х4. = 107.0 х4 = 28.9
жеты Х 5 — диастолическое давление х5. = 66.8 я4 19.3

К о р р е л я ц и о н н а я м атр и ц а

*2 *3 *4 *5
*1 ’ 1.000 0.839 0.971 0.871 0.753

*2 1.000 0.967 0.778 0.828

*3 1.000 0.845 0.852

*4 1.000 0.837

^5 1.000

В п р и м ер е 2 .4 .1 бы ло п о к а за н о , что изм ерен и е д ав л е н и я с п о ­


м ощ ью м ан ж еты я в л я е т с я зн а ч и т е л ь н о м енее точны м, чем в н у т р и -
а р т е р и а л ь н ы й м етод. Т а к к а к в е л и ч и н а систо л и ческого д а в л е н и я ,
и зм е р е н н а я м етодом м анж еты , не м о ж ет бы ть н еп осред ствен н о
с о п о с т а в л е н а с Х х — си сто л и ческ и м д ав л ен и ем , и зм ер ен н ы м
в н у т р и а р т е р и а л ь н ы м методом, и н тер есн о п о л у ч и ть у р а в н е н и е ,
в ы р а ж а ю щ е е ¥ = Х и к а к л и н ей н у ю ф у н кц и ю Х 4 и Х 5 —• с о о т в е т ­
с тв ен н о си сто л и ч еск о го и д и а с то л и ч е с к о го д ав л ен и й , и зм ер ен н ы х
м етодом м ан ж еты . С помощ ью п р о гр ам м ы м нож ественн ой л и н е й н о й
р е г р е с си и б ы ла п о л у ч е н а о ц ен к а у р а в н е н и я регресси и в и д а у =
= 2 1 .9 9 + 0.755^4 + 0.141лг5. З ам ети м , что к о гд а им ею тся з н а ч е ­
н и я п ер ем ен н ы х л:4 = 107.0 и хь = 6 6 .8 , т. е. они со в п ад аю т со
•средними зн а ч е н и я м и , то у = 112.2 — средн ее зн ач е н и е с и с т о л и ­
ч еск о го д а в л е н и я п р и и зм ер ен и и в н у т р и а р т е р и а л ь н ы м м етод ом ,
к а к это и с л е д у е т из за м е ч а н и я 3 .2 .1 .4 . А н а л о ги ч н а я о ц е н к а
у р а в н е н и я р е гр е с си и м ож ет бы ть п о л у ч е н а и д л я ¥ = Х 2 — д и а ­
с т о л и ч еск о го д а в л е н и я , и зм ер ен н о го в н у т р и а р т е р и а л ь н ы м м е ­
тодом .

Пример 3 .2 .3 . В этом пр и м ер е и с п о л ь зу ю т ся те ж е сам ы е д а н ­


ны е, что и в п ред ы дущ ем , но т е п е р ь в ка ч е с тв е зав и си м о й п ер е -
180 Гл. 3. Регрессионный и корреляционный анализы

менной б ер ется си сто л и ческ о е д ав л ен и е, и зм ер ен н о е методом^


м ан ж еты , т. е. V = Х 4, а в ка ч е с тв е н езави си м ы х п ерем ен н ы х
вы ступ аю т Х 4, Х 2 и Х 3 — со о тветствен н о си сто л и ч еск о е, д и а с т о л и ­
ческое и ср ед н ее д а в л е н и я , и зм ер ен н ы е в н у т р и а р г е р и а л ь н ы м
методом. П р и т а к о м в ы б о р е н езав и си м о й и за в и с и м ы х перем енн ы х
м н ож ествен н ы й р егр есси о н н ы й а н а л и з п р и в о д и т к н е к о то р о й
о ц ен к е о ш и б ки и зм е р е н и я м етодом м ан ж еты п ри д ан н о й к о м б и н а ­
ции в ел и ч и н , и зм ер ен н ы х в н у г р и а р т е р и а л ь н ы м методом. Т ак и м
образом , в этом и ссл ед о в ан и и целью с к о р е е я в л я е т с я не о ц е н и в а ­
ние, а п р о в е р к а т о го , н а с к о л ь к о х о р о ш о и зм ер е н и е м етодом
м ан ж еты м о ж ет бы ть «объяснено» ч ер ез и зм ер е н и я в н у т р и а р т е -
р и ал ьн ы м методом . Э то п о зв о л я е т сд е л а т ь н ек о то р ы е в ы в о д ы
о тн оси тел ьн о о ш и б ки , с в я за н н о й с пр и м ен ен и ем м етод а м ан ж еты .
О ц ен ка у р а в н е н и я р е гр е с си и , п о л у ч е н н а я с пом ощ ью програм м ы ,
м н ож ествен н о й л и н е й н о й р е гр е с си и , имеет в и д у = 8 .2 9 +
+ 0.597% — 0 .1 3 6 х 2 + 0 .5 1 9 х 3. С о о тв етств у ю щ ая т а б л и ц а д и с п е р ­
си он ного а н а л и з а п р и в е д е н а ниж е.

Источник Сумма Число Средний


дисперсии квадратов степеней квадрат F -отношение
свободы

Регрессия 89 963.8 3 29 987.9 F= 152.1


О статок 27 007.6 137 197.1

Общая 116 971.4 140

И т а к , н есм ещ ен н ая о ц е н к а д и сп ер си и ош иб ки ст2 есть M SR = s2 =


= 197.1. С т а н д а р т н а я о ш и б к а о ц е н к и s = (/ 197.1 = 14.04 е с т ь
м ер а о ш и б к и , с в я за н н о й с п р и м ен ен и ем м етода м ан ж е т ы . Н а к о н е ц ,
из того что R 2 = SS D/S S T = 89 963/1 1 6 971 = 0 .7 6 9 сл едует, что
76.9 % д и сп ер си и в е л и ч и н ы си сто л и ческ о го д а в л е н и я , и з м е р е н ­
ного м етодом м ан ж еты , м ож ет б ы ть о б ъ ясн ен о р егр е сси о н н о й
зави си м о стью .
И с п о л ь зу е м т е п е р ь т е х н и к у , р а зв и т у ю в р а зд . 3 .2 .2 д л я п р о ­
ве р к и ги п о те з и п о л у ч е н и я д о в ер и те л ь н ы х и н тер в ал о в . И з т а б л и ц ы
д и сп ер си о н н о го а н а л и з а им еем F = 152.1. С р а в н и в а я эго зн а ч е н и е
F с п р о ц е н т и л ям и р а с п р е д е л е н и я F (3, 137), п ол уч аем , что г и п о ­
т е зу Я 0: ß i = ß2 = Рз = 0 м ож но о тб р о си ть с Р < 1СГ3. К а к и
сл ед о в ал о о ж и д а т ь , и м еется с и л ь н а я с в я зь м еж д у в е л и ч и н о й
си сто л и ч еск о го д а в л е н и я , п о л у ч ен н о й методом м а н ж е т ы , и и зм е р е ­
ни ям и д а в л е н и я в н у т р и а р т е р и а л ь н ы м методом.
К оэф ф и ц и ен ты р е г р е с с и и , стан д ар тн ы е ош ибки коэф ф иц иентов,.
F -стати сти к а в и д а (3 .2 .1 1 ) и Р -з н а ч е н и е , п о л уч ен н ое п у тем с р а в н е ­
н и я с п р о ц е н т и л я м и р а с п р е д е л е н и я F (1, 137), п р и вед ен ы во в с п о ­
м огател ьн о й та б л и ц е .
3.2. Множественная линейная регрессия и корреляции 18Ь

К оэф ф и ц и ен т С тан дартн ая


Переменная р егр есси и ош ибка к о ­ р Р
эфф ициента

X I — внутри артериальн ое 0 .5 9 7 0.136 19.27С0.001


систолическое давле­
ние
* 2 - внутри артериальн ое — 0.136 0.334 0.17 ИБ
диастолическое давле­
ние
* 8 - среднее д а в л е н и е 0.519 0.393 1.74 N5

И с п о л ьзу я д а н н ы е и з этой т а б л и ц ы д л я п р о вер к и гипотез?


о к оэф ф и ц и ен тах р е г р е с с и и , п о л у ч а е м , что ги п о теза # 0: р х = О
о т в ер гае т с я , в то в р е м я к а к к а ж д а я и з ги п о тез Я 0: рз = 0 и Н 0:
Рз = О п р и н и м а е тс я. Э то з н а ч и т , что д о б а в л е н и е перем енной X !
зн ач и м о у л у ч ш а е т п р е д с к а з а н и е У по с р а в н е н и ю с регр есси ей У
т о л ь к о по Х2 и Х 3\ д о б а в л е н и е ЛТ2 н е д а е т зн ач и м ого у л у ч ш е н и я
п р е д с к а за н и я У п о с р а в н е н и ю с р е г р е с с и е й У по Х х и Х 3; и д о б а в ­
л ен и е п ерем енн ой Х 3 н е п р и в о д и т к зн а ч и м о м у у л учш ен и ю п р е д с к а ­
за н и я У по с р а в н е н и ю с р е г р е с с и е й У по Х х и Х 2■ Н а основе э т и х
р е зу л ь т а т о в бы ло б ы , о д н а к о , о ш и б о ч н ы м за к л ю ч и ть , что с о в м е с т ­
ное д о б ав л ен и е п е р е м е н н ы х Х г и А 3 не п ри вед ет к зн а ч и м о м у
у л у ч ш ен и ю п р е д с к а з а н и я У по с р а в н е н и ю с р егресси ей У по Х л.
Ч тобы п р о в ер и ть э т о , н у ж н о с т а т и с т и ч е с к и исп ы тать ги п о тезу Я 0:
Рг = Рз = 0- Р е г р е с с и я У по Х г д а е т = 28 240.4. Д л я р е г р е с ­
сии ж е У по всем т р е м п е р е м е н н ы м им еем 8 5 к = 27 007.6 и М БН =
= 197.1. И с п о л ь зу я в ы р а ж е н и е ( 3 .2 .1 4 ) , по л уч аем
„ ( 2 8 2 4 0 .4 — 2 7 007 .6 )/2 _ „ ,
/ ' * я --------------19771

Е сл и теп ер ь с р а в н и т ь э т у в е л и ч и н у Р с п р о ц ен т и л ям и р а с п р е д е л е ­
ни я Б (2, 137), п о л у ч и м , что Р - з н а ч е н и е м ен ьш е, чем 0.05; с л е д о в а ­
т ел ь н о , п ер ем ен н ая и /и л и Х 3 зн а ч и м о у л у ч ш а е т п р е д с к а з а н и е
У, основан н о е т о л ь к о н а и с п о л ь з о в а н и и Х х. Н ак о н е ц , 95 % -н ы й
д овери тел ьн ы й и н т е р в а л д л я |3Х е с ть 0 .5 9 7 ± 0.136 (1.97) =
= (0.32 9 , 0.865), г д е /0.97о ( I 37) = I - 9 7 - А н ал о ги ч н о м ож н о в ы ­
ч и с л и т ь д о в е р и т е л ь н ы е и н т е р в а л ы д л я р2 и рз. А н а л и з п р и м е р а
б удет п р о д о л ж ен в э т о й г л а в е .

П ерейдем т е п е р ь к во п р о су о ц е н и в а н и я м н ож ествен н ого и


ч астн о го к о э ф ф и ц и е н т о в к о р р е л я ц и и . О ц е н к у м н о ж ест в ен н о го
коэф ф иц иента к о р р е л я ц и и б у д е м о б о зн а ч а т ь через гу.Хг,.Хр.
В вы ход ны х д а н н ы х п р о гр а м м и з П С П д л я о б озн ачен и я э т о й
в ел и ч и н ы обы чно и с п о л ь з у ю т с я н а з в а н и я множественный И и л и
множественный коэф ф ициент кор реляции. Э та о ц ен к а м ож ет б ы т ь
182 Гл. 3. Регрессионный и корреляционный анализы

п о л у ч е н а и и з таб л и ц ы д и сп ерси он н ого а н а л и з а (табл. 3 .2 .1 )


с п о м о щ ь ю со о тн о ш ен и я

Г'у х х ... х р — ■+ I S S d /S S t ■ (3.2.21)


Э т а ж е в е л и ч и н а м о ж ет бы ть вы чи сл ен а и к а к п о л о ж и тел ьн ы й
к в а д р а т н ы й к о р е н ь из ко эф ф и ц и ен та детерм и н ац и и R 2, которы й
в с е г д а н е о т р и ц а т е л е н к а к и его а н а л о г д л я п о п у л я ц и и .
Д л я ч е г о м о ж н о и с п о л ь з о в а т ь о ц е н к у м н о ж ествен н о го к о э ф ф и ­
ц и е н т а к о р р е л я ц и и ? В о -п ер в ы х , о н а я в л я е т с я м ерой л и н ей н ой
з а в и с и м о с т и Y от в с е х н езав и си м ы х перем енны х. Ч ем б л и ж е
г у х 1...х р к 1, тем с и л ь н е е зави си м о сть. Д л я п р о в ер к и ги п отезы
о то м , ч т о л и н е й н а я зав и си м о сть о тсу тству ет, т. е. д л я п р о в ер к и
H Q: р y .Xi. v = 0, м ож н о и с п о л ь з о в ат ь F -стати сти к у (3.2.10), т а к
к а к э т а г и п о т е з а эк в и в а л е н т н а ги п о тезе Н0: = (32 = ... = =
= 0. М о ж н о в о с п о л ь з о в а т ь с я и эк в и в а л е н т н о й стати сти к о й

Р - з н а ч е н и е е с т ь п лощ адь области, р а с п о л о ж е н н о й п р а в е е Р по


к р и в о й ф у н к ц и и плотности р ас п р е д ел е н и я Р (р, п — р — 1).
В т о р о е п р и м ен ен и е о ц ен ки м н о ж ествен н ого коэф ф и ц и ен та
к о р р е л я ц и и с л е д у е т из з а м е ч а я и я 3 .2 .4 .2 : к в а д р а т это го коэф ф и ­
ц и е н т а о ц е н и в а е т «долю д и сп ер си и У, о б ъ ясн ен н у ю л и н ей н о й
р е г р е с с и е й У по Х ь ..., Х р».
О с т а н о в и м с я теп ерь н а о ц ен и в ан и и ч астн о го коэф ф и ц и ен та
к о р р е л я ц и и . С н а ч а л а рассм о тр и м о ц ен ку гух с д л я рух с , где
т = 1, . . . , р и с — м но ж ество всех о с тав ш и х с я р — 1 перем ен н ы х.
Э та о ц е н к а д л я к а ж д о й перем енн ой Х т, т — I , р , ин огда
в х о д и т в с о с та в вы х о д н ы х д ан н ы х п р о г р а м м м н ож ествен н ой
л и н е й н о й р е гр е с с и и и з П С П . Е с л и эти о д ен к и о тсу тств у ю т в в ы х о д ­
н ы х д а н н ы х , и х л е гк о п о л у ч и т ь , и с п о л ь з у я лю бую из д в у х с т а ­
т и с т и к к р и т е р и я , ко то р ы е м о гу т с о д е р ж а ть ся в вы ход н ы х д ан н ы х .
Т а к , е с л и в вы ход ны х д ан н ы х п р и с у тс т в у е т ¿-стати сти к а (3 .2.12)
д л я п р о в е р к и гипотезы Я 0: = 0, то

Гухт.с = Н У Р + п — р — 1 , /71= 1, . . ., (3.2.23)

С д р у г о й сто р о н ы , если в вы ходны х д ан н ы х п р и в о д я т с я зн а ч е н и е


/ г-с т а т и с т и к и (3.2 .1 1 ) д л я п р о в ер к и этой ж е гипотезы , то

m = 1, . . , * р . (3.2.24)

З н а к о ц е н к и ч астн о го коэф ф иц иента к о р р е л я ц и и д о л ж е н с о в п а д а т ь


со з н а к о м о ц ен к и соответствую щ его ко эф ф иц иента р е гр е с си и Ьт.
3.2. Множественная линейная регрессия и корреляции 183'

С по м о щ ью п р о гр а м м регр есси о н н о го а н а л и з а м ож но о ц е н и т ь ,
н а п р и м е р , с л е д у ю щ и е частны е к о р р е л я ц и и : а) м еж ду У и Х т п р и
ф и к с и р о в а н н ы х з н а ч е н и я х н екоторого подм нож ества из £ п е р е ­
м ен н ы х , в ы б р а н н ы х из р — 1 о с т ав ш и х с я п ерем енн ы х (£ <;_
< р — 1); Ь) м е ж д у Х г и Х 2 п ри ф и кси р о ван н о м з н а ч е н и и У,
а т а к ж е и л ю б ы е д р у г и е коэф ф ициенты частн ой к о р р е л я ц и и . Д л я
это го н ео б х о д и м о л и ш ь и зм ен ить п о р я д о к перем енны х, п е р е о п р е ­
д ел и ть н е за в и с и м у ю перем енн ую и ном ера зави си м ы х п ер е м ен н ы х .
Р ас с м о тр и м т е п е р ь р а зл и ч н ы е способы п о л у ч ен и я о ц е н к и
п р о и зв о л ь н о г о ч ас т н о го коэф ф иц иента к о р р е л я ц и и . П у с т ь I и
1г — п а р а п е р е м е н н ы х из У, Х ъ ..., Х р, а с — неп устое п о д м н о ­
ж ес т в о и з о с т а в ш и х с я перем енны х. О ц ен к у д л я р ¡ь-с о б о зн ач и м
ч ер е з Гц,.с. Т о г д а н ек о то р ы е методы п о л у ч ен и я к а к о й -л и б о и ли
всех оцен ок т а к о в ы :
1. П р и м е н е н и е пр о гр ам м ы частной к о р р е л я ц и и из к а к о го -л и б о
ПСП.
2. Р у ч н о е и л и п р о гр ам м н о е вы чи сл ен и е соотв етству ю щ его
к о эф ф и ц и ен та с по м о щ ью р е к у р р е н тн о го соотнош ен ия, п р и в е д е н ­
н ого в з а м е ч а н и и 3 .2 .5 .4 . Н а ч а л ь н ы е зн а ч е н и я — просты е к о э ф ф и ­
ц и енты к о р р е л я ц и и , со д ер ж ащ и еся в вы ходны х дан н ы х п р о гр а м м
м н о ж ес т в е н н о й л и н е й н о й р егресси и или д еск р и п ти вн ы х п р о гр ам м .
3. В р а з д . 3 .3 б у д е т р ассм о тр ен а п р о ц ед у р а пош аговой р е г р е с ­
сии , к о т о р а я в ы ч и с л я е т у р а в н е н и я м нож ественн ой л и н ей н о й
р егр е сси и по ш а г а м . Н а к аж д о м ш аге в о зн и к а ет некоторое п о д м н о ­
ж е ст в о с н е за в и с и м ы х перем енн ы х, в х о д ящ и х в у р ав н ен и е р е г р е с ­
сии, и п р и ф и к с и р о в а н н ы х зн а ч е н и я х перем енны х из с в ы ч и с л я ю тс я
коэф ф иц иенты ч астн о й к о р р е л я ц и и м еж д у У и каж д о й н е за в и си м о й
п ерем енн ой, не в х о д я щ е й в у р а в н е н и е регресси и . П о с к о л ь к у
и м еется в о з м о ж н о с т ь п р и н у д и тел ь н о вкл ю ч и ть в у р ав н ен и е р е г р е с ­
сии п е р е д н а ч а л о м о т б о р а п р о и зв о л ьн о е подм нож ество п ер ем ен н ы х
(зам еч а н и е 3 .3 .1 .4 ) , то , и с п о л ь зу я эти пр о гр ам м ы , м ож н о п о л у ч и т ь
все частн ы е ко эф ф и ц и ен ты к о р р е л я ц и и м еж ду У и о став ш и м и ся
перем енны м и п р и ф и к си р о в ан н ы х зн а ч е н и я х перем енны х из с.
Ч а с тн ы е к о эф ф и ц и ен ты к о р р е л я ц и й и сп о льзую тся в сл ед у ю щ и х
ц е л я х . В о -п е р в ы х , коэф ф иц иент тух .с, где с есть подм нож ество-
всех р — 1 н е за в и с и м ы х перем ен н ы х, и ск л ю ч ая Х т, т — 1, ..., р,
есть м е р а л и н е й н о й зави си м о сти У о т Х т после вы ч и тан и я эф ф ек т а,
о б у с л о в л е н н о го зав и си м о стью эт и х перем енн ы х с перем енн ы м и
из с. Ч ем б л и ж е а б с о л ю т н а я в е л и ч и н а это го коэф ф иц иента к 1, тем
с и л ь н е е за в и с и м о с т ь . П р о в е р к а гипотезы о том, что п р и ф и к с и р о ­
в а н н ы х з н а ч е н и я х п ер ем ен н ы х из с о б у сл овл ен н ы й Х т в к л а д
в п р е д с к а з а н и е У н езн ач и м , т. е. р ух .с — 0, э к в и в а л е н т н а
п р о в е р к е ги п о т е зы Н 0: р т = 0. Д л я п р о в е р к и последней м ож н о
п р и м ен и ть л и б о Р -к р и т е р и й (3 .2 .1 1 ), либо /-к р и те р и й (3 .2 .1 2 ).
В о -в то р ы х , к о э ф ф и ц и е н т гух .с > где с — н екоторое п о д м н о ж е с т в о
184 Гл. 3. Регрессионный и корреляционный анализы

к <^р — 1 н е з а в и с и м ы х перем ен н ы х, есть м ера «качества» Х т д л я


п р е д с к а з а н и я ¥ п осле вы чи тан и я эф ф ек га н езави си м ы х п ер е м ен ­
ны х из с. С л е д о в а т е л ь н о , с р а в н и в а я зн а ч е н и я гух ,с д л я всех Х т,
не в х о д я щ и х в с, м о ж н о у п о р я д о ч и ть незави си м ы е перем енны е по
их в а ж н о с т и д л я п р е д с к а за н и я ¥ о тн о си тел ьн о с. К а к б удет п о к а ­
з а н о в р а зд . 3 .3 , т а к и м об р азо м о тб и р аю тся перем ен н ы е в п о ш а го ­
вой п р о ц ед у р е.
В ообщ е д л я п р о в е р к и ги п о тезы Н и: р1Н.с = 0 м о ж н о и с п о л ь ­
зо в а т ь с т а т и с т и к у

t = {rih-c V п — k — 2 ) / ] / 1 — r'jh-c , (3 .2.25)


где ^ — ч и с л о п е р е м е н н ы х в я а б о р е с. Е с л и Я 0 и сти н н а, с т ат и с т и к а
и м е е т /-р а с п р е д е л е н и е С тью дента с п ■ — к — 2 степ ен ям и свободы .
Д л я п р о в е р к и ги п о т е зы Н 0: р¡н.с = Ро> гДе Ро — за д а н н а я п о с т о я н ­
н а я , м ож н о в о с п о л ь зо в а т ь с я п р ео б р азо в ан и ем Ф и ш ер а, зам ен и в
п р о с т о й к о э ф ф и ц и е н т к о р р е л я ц и и в в ы р а ж е н и и (3.1.33) частны м .
Д и с п е р с и я т е п е р ь б удет р а в н а
a l = í / (n — k — 3). Í3 .2.26)
Это зн а ч е н и е п о д с т а в л я е т с я в ф о р м у л у (3.1.36) д л я в ы ч и сл ен и я
с т а т и с т и к и к р и т е р и я г. С оответствую щ ий 1 0 0 ( 1 — а) % -ны й
доверительный интервал д л я р « .с, м ож н о т а к ж е п о л у ч и ть, и с п о л ь ­
з у я л и б о п р е о б р а зо в а н и е Ф и ш ер а, л и б о , зам ен и в п н а п — &,
п о с р е д с тв о м н ом ограм м ы в га б л . 9, п р и л о ж ен и е I I .
Н а к о н е ц , к в а д р а т частного ко эф ф иц иента к о р р е л я ц и и г ш.с
есть д о л я д и с п е р с и и перем енн ой I, о б ъ я с н е н н а я к п о с л е у д а л е н и я
эф ф екта п ер ем ен н ы х из с.

З а м е ч а н и я 3 .2 .6 . 1. И м еет м есто следую щ ее равен ство:

s =

где s2 — о с тато ч н ы й ср е д н и й к в а д р а т M SR из т аб л и ц ы д и с п е р с и о н ­
ного а н а л и з а 3 .2 .1 , a s | — о ц е н к а д и сл ер си и Y.
2. П р о с т о й коэф ф и ц и ен т к о р р е л я ц и и м е ж д у н аб лю д аем ы м и
зн а ч е н и я м и y¡ и п р ед ск азан н ы м и y¡, i — 1, ..., п, э к в и в ал ен т ен
вы бо р о чн о м у м н о ж еств ен н о м у коэф ф ициенту к о р р е л я ц и и гу . , . -х .
3. Т а к к а к м н о ж ествен н ы й ко эф ф и ц и ен т к о р р е л я ц и и и н в а ­
р и а н те н о т н о с и т е л ь н о н ев ы р о ж д ен н ы х п р е о б р а зо в а н и й , его о ц е н к и ,
п о л у ч ен н ы е д л я исх о д н о й « ц ен три рован ной» и « стан дарти зован н ой »
м оделей, р а в н ы .
★ 4. И с п о л ь зу е м т е п е р ь м атр и ч н ы е о б о зн а ч е н и я . П у с т ь Z =
= ( ¥ , Х г, . . . , Х РУ — в е к т о р с л у ч а й н ы х п ерем ен н ы х р а зм е р н о ст и
(Р + 1) X 1. П р е д п о л о ж и м , что эт о т в екто р им еет м н огом ерн ое
н о р м а л ь н о е р а с п р е д е л е н и е с в е к т о р о м ср едн и х зн ач ен и й Е (Z) =
3.2. Множественная линейная регрессия и корреляции 185

= (\1у, ¡Д! ¡лр) ' и м а т р и ц е й к о в а р и а ц и й р азм ер н о сти (р + 1) X


X (р + 1)

к»
а у1


СТ> '2 ' ' « у .
V _
а у 1
« V а \2 • ■ ° 1 р

°У Р СТ2 Р • ■ ^

Ч тобы п о л у ч и ть у р а в н е н и я д л я о п р е д е л ен и я к оэф ф и ц и ен тов


регресси и рх, . . . , Рр и м н о ж е с т в е н н о г о ко эф ф и ц и ен та ру.Х1...хр
к о р р е л я ц и и , за п и ш е м Ъ в в и д е с о с т а в н о г о в е к т о р а Ъ = (У, X ') ',
где X = ( Х и . . . , Х р)' — в е к т о р р а з м е р н о с т и (р X 1) X 1. В ек т о р
ср ед н и х зн ач ен и й и к о в а р и а ц и о н н а я м а т р и ц а ан ал о ги ч н ы м о б р а ­
зом р а з л а г а ю т с я н а ч а с т и , т. е . Е (2) = (¡х^, ц'х) ', где ¡иЛ =
= (И-х. ■••> М ' и
,2 V
"‘у х

П од м атриц ы Л,уХ, И,ху и Ихх и м е ю т р а зм е р н о ст и 1 X р, р X 1 и-


р X р со о тветственно. З а м е т и м , ч т о = Иху. Т ак и м о б р а зо м ,
у сл о в н о е р а с п р е д ел е н и е У п р и з а д а н н о м зн а ч е н и и X = х я в л я е т с я
н о р м ал ьн ы м со с р е д н и м

Ц*.*!... *р = V» - г Р (х - М*). где ъР —

и д и сперсиеи а* о | — '^уХ'^~х)с^жу О тсю д а следует, что

Р'у*х ■ , --- V ^ух^хх^ху / °у,

или, что эк в и в а л е н т н о ,

Р у х 1 ... X

П осл едн ее в ы р а ж е н и е о п р е д е л я е т со о тн о ш ен и е м еж д у коэффи~


ци ен там и р е гр е с си и и м н о ж е с т в е н н ы м ко эф ф иц иентом к о р р ел я ц и и "
П ер ех о д я к ч а с т н о м у к о э ф ф и ц и е н т у к о р р е л я ц и и р цг.с, п е р е ­
н у м еру ем пер ем ен н ы е Х г- т а к , ч т о б ы с = \ Х 1у ..., Х к\. О п ред ел и м
сл у ч ай н ы е в е к т о р ы \ У \ = (/, /г ) ' р а зм е р н о с т и 2 x 1 и \У.2 =
= (А^, ..., Х к)’ р а з м е р н о с т и & X 1. В е к т о р \ ¥ х им еет д в у м е р н о е
н о р м ал ь н о е р а с п р е д е л е н и е с в е к т о р о м с р е д н и х Е (\Уг) = ( ^ , ц.Л) '
и ковариационной м атр и ц ей
о\ СТ/й
С/й о1
186 Гл. 3. Регрессионный и корреляционный анализы

А н а л о г и ч н ы м о б р азо м р а с п р е д ел е н и е есть ^-м ерн ое н о р м а л ь н о е


с в е к т о р о м ср ед н и х зн ач ен и й Е (\У2) = (Иа, ... , \хк)' и м атр и ц ей
лсовариадий

1

0 -12
т
*•*
а
<?1к
е
* • В .

| * 1к <Г2* О к\

О п р е д е л и м теп ерь 2 х к- м а гр и ц у к о в а р и а ц и й м е ж д у \УХ и \У2:

*11 СТ(2 •'* СГд


<Г* 1 ^ 2 •'* О-«

П ри это м 2 ^ ^ = .
У с л о в н о е р ас п р е д ел е н и е \ ¥ х при ф и к си р о в а н н ы х зн а ч е н и я х
э л е м е н т о в \У 2, нап ри м ер, W 2 — \у 2, б у д ет д ву м ер н ы м н о р м а л ь н ы м
■с в е к т о р о м средн их зн а ч е н и й
Е ( \¥ 0 + 2 ^ 2 - ^ [у/г - Е (\¥,)),
'к о т о р ы й н а зы в а е т с я условным математическим ожиданием XVг
п р и з а д а н н о м зн ач ен и и W 2 = \у 2 и к о в а р и а ц и о н н о й м атр и ц ей

2 2 0г,1ш22 Ш
2 к,22 а ,гШ1 —

Т е п е р ь частн ы й коэф ф ициент к о р р е л я ц и и м о ж н о з а п и с а т ь в в и д е


Р1к*с — @1Н*с/(®1-с&Л*с)-
П у с т ь т е п е р ь д л я п о л у ч ен и я о ц ен о к м н о ж ествен н о го и ч аст н о го
к о э ф ф и ц и е н т о в к о р р е л я ц и и им еется в ы б о р к а с л у ч а й н ы х в е к т о р о в
г 1 = (¿/г. * 1 ?, хр1)', I — 1, . . . , п. О ц ен к о й м а к си м ал ь н о го
^п р а в д о п о д о б и я д л я Е (2) б у д ет вектор

* - 4 - 2 - •
1= 1

а н е с м е щ е н н о й оц ен кой д л я 2 , — м атр и ц а

Ц £ (г,- -
П— 1 ; = 1
г)(ц - г) =

5у 5у1 -5)2 >'Р

5>1 5 1~ 5 12 5 1р

Зур ^1р ^2р ' ^р


3.2. Множественная линейная регрессия и корреляции 187

Н е см ещ ен н ы е оц ен ки Ъху и %ух п о л у ч аю тся р а з б и е н и е м


м атр и ц ы в . н а б л о к и , подобно м атр и ц е 2 .. О б озн ачи м с о о т в е т ­
ству ю щ и е о ц е н к и ч ер е з 8Л.Л, Зху и кух. Зам етим , что
8ХХ= 1/(п — 1) А,

где А о п р е д е л ен а в зам еч ан и и 3 .2 .1 .3 . И т а к , Ь = 8**8*,,, а вы бо


р о ч н ы й м н о ж еств ен н ы й коэф ф иц иент к о р р е л я ц и и р авен

гу х 1 ... дгр — ]/ ¡ $у-

Д л я п о л у ч е н и я о ц ен ки частного коэф ф ициента к о р р е л я ц и и


о п р ед ел и м м атр и ц ы 8 а,1Ш1, 8 Ю1Ш2 и 8и,гЮ2 т а к и м ж е о б р азо м ,,
к а к и их а н а л о г и д л я п о п у л я ц и и , за м е н я я со о тветствую щ и е п а р а ­
м етры вы борочны м и д и сп ер си я м и и к о в а р и а ц и я м и . Т о гд а о ц е н к а
ч астн о го ко эф ф и ц и ен та к о р р е л я ц и и имеет вид
Г 1к с = \ S l - c S h с)- *

П ример 3 .2 .3 (продолжение). П о с к о л ь к у в это м при м ере п р е д ­


п о л а г а е т с я , что в ы б о р к а п о л у ч е н а по втором у т и п у , т. е. все п е р е ­
м енны е счи таю тся сл у ч ай н ы м и , ц ел есо о бр азн о о ц ен и ть м н ож ествен -
ны е и частн ы е коэф ф иц иенты к о р р е л я ц и и м е ж д у п ерем енн ой У,.
р а в н о й си сто л и ческ о м у д ав л ен и ю , и зм еренн ом у м етодом м а н ж ет ы ,
и перем ен н ы м и Х х, Х 2 и Х я, равны м и со о тветствен н о с и с т о л и ч е ­
с к о м у , д и а с то л и ч е с к о м у и среднем у д а в л е н и я м , и зм ер ен н ы м
прям ы м в н у т р и а р т е р и а л ь н ы м методом.
Д л я о ц е н к и м н о ж еств ен н о го коэф ф и ц и ен та к о р р е л я ц и и в о с ­
п о л ь зу е м с я т аб л и ц ей д и сп ер си о н н о го а н а л и з а , что д ает г-у.х^х,хз =
= = 89963/116971 = 0.7 6 9 , гу.ХхХ, Хш = //0 7 7 6 9 = 0 .8 7 7 ,.
т. е. тр и в ел и ч и н ы д а в л е н и я Х х, Х 2 и А'з, и зм ер ен н ы е в н у т р и ­
а р т ер и а л ь н ы м м етодом , о б ъ яс н яю т 76.9 % д и сп ер си и У.
Р а н е е п р о в е р к а ги п отезы ру .Х1Х1Ха = 0 б ы ла п ровед ена
с пом ощ ью п р о в е р к и эк в и в а л е н т н о й гипотезы # 0: = Рз =
= 0. (Эта ги п о те за б ы ла о т в е р гн у та , т а к к а к Р = 152.) О д н а к о
р ав н ы м о б р азо м м о ж н о в о с п о л ьзо в а т ьс я и ст ат и ст и к о й (3 .2 .2 2 )
с п = 141 и р = 3, что д ае т
141 — 3 — 1 0 .7 6 9 _ . _0
_ з; ‘ 1 - 0 .7 6 9

П р о гр ам м о й бы ла в ы веден а н а печать и в ел и ч и н а ч астн о го к о э ф ф и ­


ц и ен та к о р р е л я ц и и м еж д у У и Х 2 п ри за д а н н ы х з н а ч е н и я х Х х и
Х 3, им енно, гуХг.Х1Х, = — 0.035 и г!/Хг.Х1Хз = 0.00123. С л е д о в а ­
т ел ь н о , к о гд а зн а ч е н и я Х х и Х 3 ф и кси р о ван ы , Х 2 о б ъ я с н я е т м енее
1 % д и сп ер си и У. П р о в е р к а значим ости в к л а д а п ерем ен н ой Х 2
в п р е д с к а за н и е У р а н е е о с у щ е с т в л я л о с ь с пом ощ ью п р о в е р к и
эк в и в а л е н т н о й ги п о тезы Н 0: = 0- Т а к к а к Т7 = 0 .1 7 , то ги п отеза
188 Гл. 3. Регрессионный и корреляционный анализы

Н 0 п р и н и м а л а с ь . С д р у го й сто р о н ы , м ож н о в о с п о л ь зо в а т ь с я
■статистикой (3.2.25) с I = У, /г = Х г и с = что д ае т
_ — 0.035 ]/~ 141 - 2 — 2 _ _ п .,
~~ V 1 — (— 0 .0 3 5 ) 2

Г и п о т е з а Я 0 с н о в а п р и н и м а е тс я.
И с п о л ь з у я за м еч ан и е 3 .2 .5 .4 , м о ж н о п о л у ч и т ь зн а ч ен и е гуХ2.Х1Хз
и з п р о сты х коэф ф иц иентов к о р р е л я ц и и следую щ и м о б р азо м .
¿ П о л а га я , что I — У, И = Х 2, с = Х х я й = Х 3, им еем
= 0 .8 4 5 - 0 . 8 7 1 (0 .9 2 7 ) ,=
уХз 1 \ Г \ — ( 0 .8 7 1 ) 2 V 1 — ( 0 .9 2 7 ) 2
_ 0 .7 7 8 - 0 . 8 7 1 (0 .8 3 9 ) _ п 177
Г у Хг ' Х1 1^1 _ ( 0 .8 7 1 ) 2 V 1 — ( 0 .8 3 9 ) 2 ‘ '
0 .9 6 7 — 0 .9 2 7 (0 .8 3 9 ) Л по„
Гх.х.х. = — = 0 .9 2 7 ,
V I — ( 0 .9 2 7 ) 2 V 1 — ( 0 .8 3 9 ) 2
т д е обы чны е коэф ф иц иенты к о р р е л я ц и и
гт = 0 .8 7 1 , гух, = 0 .7 7 8 , гуХа = 0 .8 4 5 ,
г*,*, = 0 .8 3 9 , гя л = 0 .9 2 7 , г*2, 3 = 0.967
в зя т ы и з к о р р е л я ц и о н н о й м атр и ц ы п р и м ер а 3 .2 .2 (с У = Х 4) .
И т а к , им еем

V * гу х 3- х 1 V * гх 2х г - х 1
_________0 .1 7 7 — 0 .2 0 4 (0 .9 2 7 ) = __п ^
— V 1 — ( 0 .2 0 4 ) 2 V 1 — ( 0 .9 2 7 )2

.Д о в е р и те л ьн ы е и н тер в ал ы д л я рух,.х1х, можно п о л у ч и ть, в о с п о л ь ­


з о в а в ш и с ь ном ограм м ой из т а б л . 9, п р и л о ж е н и е I I , и за м е н и в п
н а п — £ = 139. Т а к , 95 % ным и н тер в ал о м б у дет и н те р в а л
<— 0 .1 9, 0.14).
Н еобходим о о тм ети ть, что ч ас т н а я к о р р е л я ц и я м еж д у У и Х 3
п р и ф и кси р о в ан н о м Х х н е в е л и к а . А н ал о ги ч н ы й вы вод м ож н о
•сделать и п р и зам ен е Х 3 н а Х 2. С д р у го й стороны , к о гд а зн а ч е н и е
Х х ф и кси р о в ан о , п ер ем ен н ая Х 2 си л ь н о к о р р е л и р у е т с Х 3. Все эти
р е з у л ь т а т ы н а х о д я т с я в с о гл ас и и с к л и н и ч е с к и м и н а б л ю д ен и ям и .

П ример 3 .2 .4 . В это м п р и м ер е п р и в о д и тс я и н тер есн о е п р и л о ­


ж е н и е м н ож ествен н ой р егр есси и д л я о ц ен ки с о сто ян и я зд о р о в ь я
и н д и в и д у у м а. З ав и си м о й п ерем ен н о й У с л у ж и т в о з р а с т (в го д а х ),
и с п о л ьзу ем ы й к а к п о к а з а т е л ь с о с т о я н и я з д о р о в ь я . И н д и в и д у у м ы ,
д л я к о то р ы х п р е д с к а за н н о е зн ач ен и е в о з р а с т а м еньш е х р о н о л о г и ­
ч е с к о го , счи таю тся б олее зд о ро вы м и , чем обы чно, а те, к о то р ы х
п р е д с к а з а н и е сд ел ает с т а р ш е , менее зд о р овы м и . Н езав и си м ы м и
п е р е м е н н ы м и я в л я ю т с я Х г — среднее д и асто л и ч еско е д а в л е н и е
3.2. Множественная линейная регрессия и корреляции 189

'{мм р т . с т .), Х 2 — к о н ц е н т р а ц и я х о л е с т е р и н а сы во р о тк и (мг % ),


А'з*— н ал и ч и е и з м е н е н и й в э л е к т р о к а р д и о г р а м м е (0 — о т с у т ­
с т в у ю т , 1 — и м е ю т с я ), Х 4 — р е з у л ь т а т р ен т ге н о ск о п и и гр у д н о й
к л е т к и (ско л ьк о р е н т г е н о л о г о в и з т р е х (0, 1 ,2 и ли 3) сочл и р е н т г е ­
н о г р а м м у н е н о р м а л ь н о й ), Х 5 — в а р и к о з н о с т ь (0 — н о р м а, 1 —
в а р и к о зн о е р а с ш и р е н и е вен н а о д н о й и л и об еи х н о г а х ), Х 6 —
н а л и ч и е п е р и о д е н т о за (0 — о т с у т с т в у е т , 1 — сл а б о в ы р а ж е н н ы й
г и н г и в и т , 2 — г и н г и в и т , 6 — г и н г и в и т с о б р азо в ан и е м п а з у х ,
8 — в ы р а ж е н н а я д е с т р у к ц и я ) . (О д е т а л я х этого и ссл ед о в ан и я см.
A b ra h a m s e , K isch (1 9 7 5 )). З а м е т и м , что н ал и ч и е н еза в и си м ы х
п ер ем ен н ы х как д и с к р е т н о г о , т а к и н е п р е р ы в н о г о ти п о в, не п р о т и ­
в о р еч и т общим п р е д п о л о ж е н и я м м о д е л и л и н ей н о й регр есси и .
В о в с п о м о г а т е л ь н о й т а б л и ц е с о д е р ж а т с я сред н и е зн а ч е н и я
rfcsd перем енн ы х Х ь . . . , Х в и их к о р р е л я ц и и с У, п о л у ч е н н ы е
н о в ы б о р к е , с о с т о я щ е й и з 5313 и н д и в и д у у м о в

С лучайная
вели ч и н а С реднее ± sd ГУ.,

У 39.2 + 14.1 — .

78.3 + 12.9 0.36


214.8 + 48.0 0.43
0.22 4- 0.42 0.22
Л ', 1.02 + 0.87 0.23
0.17 + 0.37 0.34
^6 11.6 + 16.7 0.34

И с п о л ь з у я табл . 9 , п р и л о ж е н и е II, п о л у ч а е м , что д л я в сех ш ести


незави си м ы х: п е р е м е н н ы х к о э ф ф и ц и е н т ы к о р р е л я ц и и с У зн а ч и м о
о т л и ч н ы от н у л я (Р 0 .0 1 ), х о тя и х ° е л и ч и н а н е в е л и к а . М Н К -
у р а в н е н и е р егр есси и и м е е т в и д
0 .2 1 8 % 0.093;к2 + 4 .0 5 4 * 3 + 2 .6 7 0 х4 +

+ 8 .8 7 9 л :5 + 0 . 1 б и о — 4 .7 2 2 .

М нож ествен н ы й к о э ф ф и ц и е н т к о р р е л я ц и и р а в е н 0 .6 4 , с л е д о в а ­
т е л ь н о , о б ъ я с н е н н а я д о л я д и с п е р с и и п ер ем ен н о й У с о с т а в л я е т
4 1 % . С огласн о з а м е ч а н и ю 3 .2 .4 .6 , и з д р у г о й и н т е р п р ет а ц и и э т о г о
ко эф ф и ц и ен та с л е д у е т , ч то не м е н е е чем (1 — 0.41 ) '/2 = 0 .7 7
с т а н д а р т н о г о о т к л о н е н и я У о с т а л о с ь н е о б ъ я сн е н н ы м .
З н а ч е н и я ¿ -с т а т и с т и к и д л я п р о в е р к и ги п о т е зы Я 0: Рг == 0
с у т ь 18.2, 29.0, 11.2, 1 5 .6 , 2 1 .9 и 1 7 .7 д л я £ = 1, ..., 6. В се эти
ве л и ч и н ы значим ы с Р < ¡ 0 .0 0 1 . П о э т о м у ни о д н а и з п ер ем ен н ы *
н е м о ж е т быть у д а л е н а к а к б е с п о л е з н а я д л я а н а л и з а .
И з п р и веден н о го в ы ш е у р а в н е н и я д л я у с л е д у е т , что ¡) у в е л и ч е ­
н и е д и а с то л и ч е с к о го д а в л е н и я н а 1 м м рт. ст. п р и в о д и т к у в е л и ч е ­
н и ю к а ж у щ е го с я в о з р а с т а н а 0 .2 2 г о д а , п ) у вел и ч ен и ю к о н ц е н т р а ­
190 Гл. 3. Регрессионный к корреляционный аиализы

ции х о л е с т е р и н а сы в о р о то к н а 1 мг % соответствует у вел и ч ен и е


к а ж у щ е г о с я в о зр а с т а н а 0.09 л ет, 111) н а л и ч и е и зм ен ен и й в Э К Г
д а е т у в е л и ч е н и е к а ж у щ е г о с я в о з р а с т а н а 4 го д а, ¡V) у в е л и ч ен и е н а
е д и н и ц у ч и с л а р е н т ге н о л о го в , н ах о д я щ и х и зм ен ен и я в состоян и и
г р у д н о й к л е т к и , у в ел и ч и в ает к а ж у щ и й с я в о з р а с т н а 2 .7 го д а, V)
н а л и ч и е в а р и к о зн о го р а с ш и р е н и я вен д о б а в л я е т к к а ж у щ е м у с я
в о з р а с т у 8.9 л е т , п ) к а ж д ы й б а л л п о к а за т е л я п ер и о д ен то за у в е л и ­
ч и в а е т в о з р а с т на 0 .1 6 л ет.
3 .2 .6 . Дополнение к анализу остатков
В разд . 3 .1 .5 р а с с м а т р и в а л о с ь и с п о л ь зо в ан и е гр аф и к о в остатк о в
¿г — Уг — Уь в за в и си м о сти от я* и л и г/г (I = 1, ..., п) д л я п р о в е р к и
п р е д п о л о ж е н и й м одели п р о сто й л и н ей н о й р е гр е сси и . А н ал о ги ч н ы е
г р а ф и к и м о гу т бы ть п о с т р о е н ы и в с л у ч ае м одели м н ож ествен н ой
л и н е й н о й р е г р е с с и и . О д н ако зд есь м ож н о п о л у ч и ть зн а ч и т е л ь н о ’
б о л ь ш е г р а ф и к о в , п о с к о л ь к у о с т а т к и м ож н о со п о с т а в л я т ь с к а ж д о й
и з р н е з а в и с и м ы х п ер ем ен н ы х . В соответствую щ их п р о гр ам м ах
н е к о т о р ы х П С П им еется в о зм о ж н о с ть вы вод а г р а ф и к а с11 в з а в и с и ­
м о сти о т у г. Т о гд а, ес л и все п р е д п о л о ж ен и я л и н ей н о й м од ел и
р е г р е с с и и вы п о л н ен ы , ко эф ф и ц и ен т к о р р е л я ц и и м еж д у эти м и
д в у м я п е р е м е н н ы м и б у д е т р а в е н ( ру .Х1...хг У/2 и, с л е д о в ат ел ь н о ,
н е л ь з я о ж и д а т ь г р а ф и к в ви д е с л у ч ай н о й го р и зо н т а л ь н о й п олосы .
Г р а ф и к 4 в со п о став л ен и и с х п (г = 1, п, / = 1, ..., р) с о д е р ­
ж и т и н ф о р м а ц и ю о 1) н а л и ч и и ан о м ал ь н ы х н аб л ю д ен и й и л и с л у ч а е в
о т к л о н е н и й п о /-й н е за в и си м о й перем ен н о й , и и ) возм ож н ом о т с у т ­
с т в и и л и н е й н о с т и по Х } , что м о ж е т с л у ж и т ь у к а за н и е м д л я д а л ь ­
н е й ш е г о п р е о б р а зо в а н и я . Г р а ф и к о тн о си тел ьн о у 1 (I = 1, ..., п)
д о с т а в л я е т ин ф о р м ац и ю о в ы п о л н ен и и п р ед п о л о ж е н и й с л у ч а й ­
н о с т и и н е за в и с и м о с т и о ш и б о к е; , а т а к ж е и п р ед п о л о ж е н и я о гомо-
с к е д а с т и ч н о с т и ег. Н е к о т о р ы е програм м ы п о зв о л я ю т п о л у ч и т ь и
граф и к ь н о р м а л ьн о й в ер о я тн о стн о й ш к а л е (см. р а зд . 1.7.3),
к о т о р ы й очень полезен д л я п р о в е р к и п р е д п о л о ж е н и я о н о р м а л ь ­
н о сти . Н а к о н е ц , д л я а н а л и з а о статк о в и н огд а в ы ч и с л я е т с я и
п е ч а т а е т с я статистика Д урб и н а— Ватсона

Е (4 - й ^ у / £ ¿1 (3 .2 .2 7 )
г '= 2 / ¡= 1

к о т о р у ю м о ж н о и с п о л ь з о в а т ь д л я п р о в ер к и гип отез о к о р р е л и р о -
в а н н о с т и е1.
П р и м е р 3 .2 .5 . А в то м ати ч ески й а н а л и за т о р и зо б р а ж е н и й бы л
и с п о л ь з о в а н д л я подсчета к о л и ч е с т в а п о л о ж и т е л ь н ы х к л е т о к
а л ь в е о л я р н ы х стен о к, с о д е р ж а щ и х л а к т а т д е г и д р о ге н а зы (пн евм о-
ц и ты т и п а 2) в л е г к и х гр у п п ы м орски х сви н о к , о б р а б о т а н н ы х
2 р р ш д в у о к и с и азо та (А геп е / а1. (1977с)). Р е з у л ь т а т ы а в т о м а т и ­
ч е с к о й о б р а б о т к и к а ж д о г о из 141 с л а й д а к а р т и н ы , п о л у ч ен н о й под
3.2. Множественная линейная регрессия и корреляции 191

м и к р о с к о п о м , с р а в н и в а л и с ь с р е зу л ь т а т а м и ручной о б р аб о т к и
эти х ж е с л а й д о в . Т а к к а к полученны е ч и с л а бы ли в е л и к и , о н и
о б р а б а т ы в а л и с ь к а к зн ач ен и я неп р ер ы вн ы х п ерем ен н ы х с и с п о л ь ­
зо в а н и е м к о р р е л я ц и о н н о г о и р егр есси о н н о го а н а л и зо в . Х о тя
коэф ф и ц и ен т к о р р е л я ц и и о к а з а л с я вы соки м (г = 0.8, Р < 10 6),
на г р а ф и к е о с т ат к о в (рис. 3.2.1) видно, что на ни ж н ем и в е р х н е м

90 150 210 270 330


А вто м а ти че ски й подсчет кл ето к

Р и с. 3.2.1. График среднего д л я зависимости ручного подсчета клеток от авто-


матического.

к о н ц а х оси р у ч н о й о б р аб о тки н аб л ю д аю тся б о л ь ш и е з н а ч е н и я


о статк о в . И т а к , а в т о м а т и ч е с к и й подсчет к л е т о к м енее точен , к о г д а
им еется м ал о и ли м н о го пн евм оц итов т и п а 2. В е р о я тн о , и с п о л ь з о ­
в ан и е к в а д р а т и ч н о г о ч л е н а м о гло бы у л у ч ш и т ь п р е д с к а з а н и е
в об ласти б о л ь ш о го к о л и ч е с т в а к л е т о к . Д р у г о й в о зм о ж н о й а л ь т е р ­
н ат и в о й п р о в е д е н н о м у а н а л и з у м о гло бы с т а т ь и с п о л ь з о в а н и е
взвешенной регрессии с п р и св о ен и ем м а л ы х весо в эк с т р е м а л ь н ы м
зн ач ен и я м . Н е к о т о р ы е п р ограм м ы (н а п р и м е р , В Л Ш Р 1Ю д о п у ­
скаю т тако е в зв е ш и в а н и е д ан н ы х .

3.2.71 Многомерные наблюдения


с отсутствующими значениями

В р азд . 1.7.5 бы ло введ ен о п о н яти е о т с у тс т в у ю щ и х зн ач е н и й . П р и


и сп о л ьзо в ан и и о д н о м ер н ы х по своей п р и р о д е м етодов а н а л и з а
(н а п р и м е р , ¿-к р и тер и я ) н аи бо л ее р азу м н ы й с п о со б д ей стви я со сто и т
192 Гл. 3. Регрессионный и корреляционный анализы

в у д а л е н и и и з вы б о р ки эл ем ен то в с о тсу тству ю щ и м зн ач ен и е м X
(а н а л и з и р у е м о й п ерем енн ой). О д н а к о с и т у а ц и я м е н я е т с я я р я
и с п о л ь з о в а н и и су щ ествен н о м н о го м ер н ы х м етодов а н а л и з а , т. е.
к о гд а д л я к а ж д о г о эл е м е н т а в ы б о р к и и м еется р наб лю д аем ы х
п ер ем ен н ы х Х х, ..., Х р. Т е п е р ь , есл и э л ем ен т вы б о р ки им еет
о т су тс т в у ю щ е е зн а ч е н и е , с к а ж е м , д л я перем енн ой Х х, удаление-
этого э л е м е н т а в ы б о р к и и з а н а л и з а н е я в л я е т с я необходим ы м ,
п о с к о л ь к у о н о п р и в о д и т к п о те р е и н ф о р м ац и и о п ерем енн ы х
Х г, ... , Х Р, д о с т а в л я е м о й этим эл ем ен то м . Т а к к а к м н ож ествен н ы й
л и н ей н ы й р е гр е с си о н н ы й а н а л и з, р а в н о к а к и д р у ги е м ногом ерны е
п р о ц ед у р ы (гл . 5) о сн о в ан ы н а в е к т о р е ср ед н и х и. и м а т р и ц е
к о в а р и а ц и й 2 , м о ж н о о став и ть это т эл е м е н т в вы б о р ке и и с п о л ь ­
зо в а т ь и м ею щ и еся в нем и зм е р е н и я д л я в ы ч и с л е н и я о ц ен о к в е к т о р а
средн и х х и м атр и ц ы к о в а р и а ц и й Б.
Р а с с м о тр и м т е п е р ь р а зл и ч н ы е м етоды о ц е н и в а н и я ¡и, и 2 (или,,
что э к в и в а л е н т н о , м а тр и ц ы к о р р е л я ц и й К ), к о гд а о тсутствую т н е­
ко то р ы е з н а ч е н и я (обзор л и т е р а т у р ы по этом у в о п р о су см . в А № ,
Е1аэЬо!{ (1966)). П у с т ь щ — ч и сл о эл ем ен то в вы б о р к и , у к о т о р ы х
и звестн о зн а ч е н и е Х ь, Пц — ч и сл о эл ем ен то в, у к о то р ы х и зв естн ы
зн а ч е н и я о б еи х перем ен н ы х Х 1 и Х 3, а пс — число к о м п л ек тн ы х
эл е м е н т о в , в к о то р ы х и зм ерены зн а ч е н и я в с е х п ерем ен н ы х Х ъ
Х р (щ, Пц, пс < п, п — объем в ы б о р к и , I, / = 1, р, I Ф /).
П р и в ед ем т е п е р ь нек о то р ы е м етоды п о л у ч е н и я х и Б (и л и К).

М етод 1. Д л я вы ч и сл ен и я о ц ен о к х и 5 и сп о л ьзу ю т ся т о л ь к о
пс к о м п л е к т н ы х эл ем ен то в . Э тот м етод н а з ы в а е т с я м етодом удале­
ния элементов.
М ет од 2. Д л я п о л у ч ен и я и с п о л ь зу ю т ся пг н аб лю д ений .
В м есто о тсу тств у ю щ и х зн а ч е н и й пер ем ен н ой Х 1 п о д ста в л я е т ся
вел и ч и н а х ;. З а т е м , и с п о л ь зу я у к о м п л ек т о в ан н у ю т а к и м о б разом
в ы б о р к у о б ъ ем а п, п о л у ч аю т х и Б. Э тот м етод н а зы вается м етодом
подстановки среднего.

М етод 3. И с п о л ь зу е т с я щ наб л ю д ен и й д л я п о л у ч ен и я х 1 и $
и Пц н а б л ю д е н и й — д л я вы ч и сл ен и я Эц. Э ти ст ат и ст и к и с л у ж а т
ком п о н ен там и х и 8.

М етод 4. И с п о л ь зу е т с я п г наб л ю д ен и й д л я п о л у ч ен и я х 1 и §
и Пц н аб л ю д ен и й — д л я в ы ч и с л ен и я Гц. З а т е м зн ач ен и е вы чис­
л я е т с я к а к Бц = Гц-з1-Б}, в чем и со сто и т отл и ч и е д а н н о го м етода
от п р ед ы д у щ его . М етоды 3 и 4 н о с я т н а з в а н и е методов попарного
вычеркивания.
М етод 5. И с п о л ь зу е т с я пс к о м п л ек т н ы х эл ем ен тов д л я о ц е н к и
р егр е с си и к а к о й -л и б о п ерем енн ой по всем о стал ьн ы м перем ен н ы м .
3.2. Множественная линейная регрессия и корреляции 193

Н ап р и м ер , п у сть у р а в н е н и е р е г р е с с и и им еет ви д Х х = f ( Х 2, ...


..., Х л). Т еп ер ь, если в /- м с л у ч а е и м еется о тсутствую щ ее зн а ч е н и е
X lt оно зам ен яется о ц е н к о й £ 1;- = / (x2j, ... , xpj). А н ал о ги ч н ы е
у р авн ен и я м о ж н о п о л у ч и т ь и д л я Х 2, .., Х р. З ат ем у к о м п л е к т о ­
ванны е т а к и м о б р а з о м н а б л ю д е н и я и с п о л ь зу ю т ся д л я в ы ч и с л ен и я
х и S.

Метод 6. В о т л и ч и е о т м е т о д а 5 д л я п р е д с к а за н и я з н а ч е н и я ,
н ап р и м ер Х г , и с п о л ь з у е т с я л и б о о д н а п е р е м е н н ая из Х 2, ... , Х р,
н аи бол ее к о р р е л и р о в а н н а я с А ^ , и л и н ек о торое п од м н ож ество
перем енны х из Х г, Х р. М е т о д ы 5 и 6 н о с я т н а зв а н и я м етодов
подстановки регрессии.

О сновной н е д о с т а т о к лю б о го из п ер еч и сл ен н ы х методов с в я за н
с тем , что их с т а т и с т и ч е с к и е с в о й с т в а з а р едк и м исклю чением
н еи звестн ы (A fifi, E la ^ h o f f (1 9 6 6 , 1969а, b)). К р о м е того, п р и м ен е ­
ние т а к и х м етодов ч а с т о п р и в о д и т к см ещ енны м о ц ен кам . У ч и т ы ­
вая все это м о ж н о д а т ь с л е д у ю щ у ю р еко м ен д ац и ю иссл едовател ю :
элементы выборки и / и л и переменные с отсутствующими значе­
ниями должны быть уд а л е н ы т а к , чтобы обеспечить баланс между
оставшимся числом переменны х и оставшимся числом элементов,
т. е. м а к с и м и з и р о в а т ь ч и с л о к о м п л е к т н ы х элем ентов вы б о р к и .
С л едовател ьн о , если э л е м е н т с о д е р ж и т м ного п р о п у с к о в , его н у ж н о
у д ал и ть . С д р у г о й с т о р о н ы , с л е д у е т у д а л и т ь перем ен н ую , если ее
з н а ч е н и е н еи звестн о д л я б о л ь ш и н с т в а эл ем ен тов. П осл е это го
м ож н о обы чны м о б р а з о м и с п о л ь з о в а т ь м етод н аи м ен ьш и х к в а д р а ­
тов и л и проц едуры м н о г о м е р н о г о с тати сти ч еск о го а н а л и з а , о п и ­
санны е в гл . 3 и 5.

З ам еч ан и я 3 .2 .7 . 1 . В б о л ь ш и н с т в е П С П им еется в о зм о ж н о сть
при м ен ить м етод у д а л е н и я э л е м е н т о в .
2. В некоторы х п р о г р а м м а х с у щ е с т в у ет во зм о ж н о сть и с­
п о л ьзо в а н и я метода п о п а р н о г о в ы ч е р к и в а н и я (н ап р и м ер , S P S S
R E G R E S S IO N ). Э т о т м ето д м о ж н о и с п о л ь з о в а т ь , к о гд а им еется
больш ое число э л е м е н т о в с н е б о л ь ш и м ко л и ч ество м отсу тству ю щ и х
зн а ч е н и й и м етод у д а л е н и я э л е м е н т о в ч р езм ер н о со к р а щ а е т объем
вы б о р к и . И с с л е д о в а т е л ь д о л ж е н о т д а в а т ь себе отчет в том , что п ри
этом во зм о ж н о в о з н и к н о в е н и е н е к о т о р ы х в ы ч и с л и те л ьн ы х н е ­
сообразн остей ( т а к и х , к а к о т р и ц а т е л ь н о е зн а ч ен и е сум м ы к в а д р а ­
тов и ли /■'-критерия). К р о м е т о г о , п р и и с п о л ь зо в ан и и это го м етода
н еп рим еним а о б ы ч н а я т е о р и я с т а т и с т и ч е с к и х вы водов.

Пример 3 .2 .6 . П р и в е д е м п р и м е р п р а к т и ч е с к о г о п р и м ен ен и я
регресси и д л я о ц е н к и о т с у т с т в у ю щ и х зн а ч е н и й . В м о н и то р н о й
системе н аб л ю д ен и я з а б о л ь н ы м и п о с т о я н н о по зн а ч е н и я м вел и ч и н
си стол и ческ о го д а в л е н и я X (мм. р т. ст.) и p H а р т е р и а л ь н о й к р о в и
7 А. Афифи С. Эйзен
194 Гл. 3. Регрессионный и корреляционный анализы

¥ в ы ч и с л я е т с я п р о гностический и н дек с со сто я н и я б о л ь н о г о


(АПН е1 а 1 . (1971)"и А геп , АНН (1972а, Ь)).
Т а к к а к А и зм ер я ется н еп р ер ы в н о , а ¥ — ч ер ез к а ж д ы е ч е т ы р е
ч аса, ж е л а т е л ь н о оценить отсутствую щ ие зн а ч е н и я p H а р т е р и а л ь ­
ной к р о в и с тем , чтобы в ы ч и сл ять п р о гн о сти ч еск и й и н декс и тогда,,
к о гд а д о с т у п н о зн ач ен и е т о л ь к о си сто л и ч еск о го д ав л ен и я .
Б ы л о рассм отрено ш есть м етодов оц ен ки p H а р т ер и а л ь н о й
к р о в и у { в м ом ент врем ени р.
1) П о д с т а н о в к а вм есто у 1 п о след н его и зм ер е н н о го зн а ч е н и я ¥ ,
2) П о д с т а н о в к а вместо у / средн его зн а ч е н и я по всем измеренны м,
зн ач ен и ям ¥ .
3) Р е г р е с с и я ¥ по £ и п о д с та н о в к а у (¿) вм есто
4) Р е г р е с с и я ¥ по X с и сп о льзо ван и ем в сех ко м п л ек тн ы х п а р .
В м есто у ; п о д став л я л о сь зн ач ен и е у (.г).
5) Р е г р е с с и я ¥ по X и / и п о д стан о в ка у ( х , вм есто у г
6) И с п о л ь з о в а н и е т о л ь к о ко м п л ек тн ы х п а р н аблю дений .

Р е з у л ь т а т ы м о д ел и р о в ан и я п о к а за л и , что о ц ен к а о т с у т с т в у ю ­
щ и х з н а ч е н и й п р и в о д и т к зн ач и м о м у у л учш ен и ю по ср а в н е н и ю
с и с п о л ь з о в а н и е м м етода 6. Т ак к а к в ел и ч и н а коэф ф иц иента к о р р е ­
л я ц и и м е ж д у ¥ и X (с и л ь н а я к о р р е л я ц и я ) б о л ьш е вели ч и н ы к о р р е ­
л я ц и и м е ж д у 7 и / (с л а б а я к о р р е л я ц и я ), то и с п о л ь зо в ан и е р е г р е с ­
сии ¥ п о X п ред п о ч ти тел ьн ее. П о д стан о вк а ср ед н и х зн ач ен и й не
р е к о м е н д у е т с я (А геп а1. (1972)).

3.3. Пошаговая регрессия

Во м н о г и х с л у ч а я х п р и м ен ен и я р егр есси о н н о го а н а л и з а э к с п е р и ­
м ен тато р н е им еет д о статочн ой и н ф о р м ац и и о п о р я д к е н езави си м ы х
п е р е м е н н ы х Х х, Х 2, . . . , Х Р по и х в а ж н о ст и д л я п р е д с к а за н и я
н е з а в и с и м о й перем енн ой ¥ . П р о в е р к а ги п о т езы /Г0: р г = О д л я
к а ж д о й п е р е м е н н о й А г-, 1 = 1, . . . , р, т а к к е не д а е т т а к о й и н ф о р м а ­
ции. Т а к , в п р и м ер е 3 .2 .3 о т в е р га е т с я ги п о т е за ^ = 0 и в то ж е
врем я п р и н и м а ю т с я ги п о тезы |33 = 0 и р3 = 0. Э то м ож ет п ри вести
к н е в е р н о м у за к л ю ч е н и ю , что д л я п р е д с к а за н и я У в а ж н а т о л ь к о
п е р е м е н н а я Х х.
П о с к о л ь к у стат и с т и к о й , и зм ер яю щ ей эф ф екти вн ость н а б о р а
н е з а в и с и м ы х перем енн ы х к а к п р ед и к то р о в , с л у ж и т м н о ж ес тв ен ­
ный к о э ф ф и ц и е н т к о р р е л я ц и и , о д н о из р еш ен и й у п о м я н у то й вы ш е
п р о б л е м ы сво ди тся к р егр есси и ¥ по всем возм ож н ы м подм но­
ж е с т в а м н е за в и с и м ы х перем енны х и вы б ору н аи л у ч ш его подм но­
ж е с т в а с о г л а с н о следую щ ей п р о ц ед у р е. С реди всех под м н ож еств
3.3. Пош аговая регрессия 195

перем енн ы х р а з м е р н о с т и &, & = 1, р, в ы б и р ается подм нож ество


котором у с о о т в е т с т в у е т н аи б о л ьш ее зн а ч е н и е м нож ественн ого
коэф ф иц иента к о р р е л я ц и и . Д л я п о д м н ож ества с пом ощ ью с т а ­
т и с т и к и (3.2.14) п р о в е р я е т с я ги п о теза о том, что д о б авл ен и е
о ст ав ш и х с я р — 1 п е р е м е н н ы х н е у л у ч ш а е т п р е д с к а за н и е У.
Е с л и эта ги п о т е за о т в е р г а е т с я , то п р о в е р я е т ся а н ал о ги ч н ая
ги п о т е за о том , что д о б а в л е н и е в подм нож ество 5 2 о ставш и х ся
р — 2 перем енны х не у л у ч ш а е т п р е д с к а за н и е У. Т а к а я п р о в ер к а
п о с л ед о в ате л ьн о п р и м е н я е т с я до тех по р , п о к а д л я некоторого
под м н ож ества 5 т , 1 с т < р, не п р и н и м ается ги п о теза об о т су т ­
ствии ул у ч ш ен и я п р е д с к а з а н и я У п ри д о б ав л ен и и р — т о с т ав ­
ш и х ся перем енн ы х. П о д м н о ж е с т в о 5 т я в л я е т с я наилучшим подмно­
жеством переменных д л я предсказания У, п о с к о л ь к у : а) ем у соот­
в етств у е т н а и б о л ь ш е е зн а ч е н и е коэф ф иц иента м н ож ествен н ой
к о р р е л я ц и и среди в с е х п о д м н о ж еств р азм ер н о сти т; Ь) д о б а в л е н и е
о с т ав ш и х с я р — т п е р е м е н н ы х н е у л у ч ш а е т зн ач и м о п р е д с к а за н и е
У. Е с л и т а к о е п о д м н о ж е с т в о не я в л я е т с я еди нственны м , то сл ед у ет
в ы б р а т ь н аи бо л ее п о д х о д я щ е е подм нож ество и сход я из х а р а к т е р а
за д ач и .
Е с л и число н е з а в и с и м ы х п ер ем ен н ы х в е л и к о , т а к о й под ход д л я
о п р е д е л ен и я н а и л у ч ш е г о п о д м н о ж ества п р а к ти ч е ск и б есп олезен
д а ж е п р и прим енении Э В М . Н а п р и м е р , если р = 5 им еется всего
5 + 1 0 + 1 0 + 5 + 1 = 3 1 у р а в н е н и е р егр есси и , а если р = 10,
то и х число с о с т а в л я е т у ж е 2 (10 + 45 + 120 + 210) + 252 +
+ 1 = 1023. В ообщ е, к о гд а ч и сл о перем енн ы х р а в н о р, им еется
2р — 1 р е г р е с с и о н н ы х у р а в н е н и й . О гр ан и ч ен и я на м аш и нное
в р ем я и допусти м ы е р а с х о д ы п р и в о д я т к необходим ости п о и ска
д р у г и х подходов.
О д ним из р е ш е н и й я в л я е т с я пошаговая регрессия (прямая),
к о г д а н езави си м ы е п е р е м е н н ы е о д н а з а д р у го й включаются в п од ­
м н о ж ес т в о с о г л а с н о п р е д в а р и т е л ь н о зад ан н о м у к р и тер и ю . В то ж е
в р е м я н е к о то р а я п е р е м е н н а я м о ж е т бы ть заменена д р у го й п ер ем ен ­
н о й , н е в х о д ящ ей в н а б о р , л и б о удалена из него. С о вок уп н ость
к р и т е р и е в , о п р е д е л я ю щ и х , к а к и е перем енн ы е в к л ю ч а т ь , за м е н я т ь
и у д а л я т ь , н а зы в а е т с я пошаговой процедурой. В р а зд . 3.3.1 п р и в о ­
д и тся четы ре п о ш а г о в ы е п р о ц е д у р ы .
С помощ ью п о ш а г о в о й п р о ц е д у р ы п о л у ч а ет с я у п оряд очен н ы й
с п и со к п р ед и к то р о в . Н а п р и м е р , есл и р = 5, т а к о й сп и со к м ож ет
и м еть в и д Х 2, Х 5, Х 4 и Х 3. Д л я о п р ед ел ен и я «наилучш его»
п о д м н о ж еств а из э т о г о с п и с к а в ы б и р аю тся т < р п ервы х п ер ем ен ­
н ы х т а к , чтобы 0 они в о зм о ж н о л у ч ш е п р е д с к а зы в а л и У и и ) их
ч и сл о т было по в о з м о ж н о с т и м еньш е. Д р у г и м и сл о вам и , эк о н о м ­
ны й н аб о р с о с т а в л я е т с я и з п ер ем ен н ы х у п о р я д о ч е н н о го сп и ск а,
ко т о р ы е имеют н а и б о л е е в ы с о к у ю п р ед сказы в аю щ у ю способность.
В п р и м ер е, п р и в е д е н н о м вы ш е, т а к о й набор м ог бы со с то я т ь т о л ь к о
из перем ен н ы х Х 2 и Х 6, есл и бы р егр есси я по ним б ы л а почти
7*
196 Гл. 3. Регрессионный и корреляционный анализы

т а к о й ж е «хорош ей», к а к и р е гр е с си я по Х 2, Af5, Х ъ X t и Х 3.


П р о ц е д у р а о п р ед ел ен и я ч и с л а пг н а зы в а е т с я правилом остановки.
В р а зд . 3 .3 .2 о б су ж д аю тся три р а зл и ч н ы х п р а в и л а о с т ан о в к и .

3 .3 .1 . Пошаговые процедуры

П р е д п о л о ж и м теп ер ь , что им ею тся набор н езави си м ы х перем ен н ы х


Х ъ ..., Л р, которы е я в л я ю т с я кан д и д атам и н а р о л ь п р ед и к то р о в
Y , и с л у ч а й н а я в ы б о р ка объем а п . Р ассм о тр и м с н а ч а л а ст андарт ­
ную пошаговую процедуру, к о т о р а я состоит из п р а в и л а в к л ю ч ен и я
п е р е м е н н ы х и п р а в и л а и ск лю ч ен и я перем енн ы х (зам ен а п е р ем ен ­
н ы х не в х о д и т в состав с тан д ар тн о й п о ш аговой п р о ц ед у р ы ). К а к
б у д ет п о к а з а н о н и ж е, д р у г и е п о ш аговы е п р о ц ед у р ы я в л я ю т с я
м о д и ф и к а ц и я м и с т ан д а р т н о й п ош аговой проц едуры .
1. С т андарт ная пошаговая процедура (F -метод). В к л ю ч ен и е
и у д а л е н и е перем енны х о с у щ еств л я ю тся с пом ощ ью введен н ой
р а н е е с т а т и с т и к и к р и т е р и я , именно ¿-кр и тери я (3.2.25) д л я п р о ­
в е р к и р а в е н с т в а ну л ю ч астн ого коэф ф иц иента к о р р е л я ц и и . В п р о ­
г р а м м а х б о льш и н ства П С П , о д н ак о , в ы ч и сл яется к в а д р а т этой
с т а т и с т и к и , которы й им еет / ‘'-р асп р ед ел ен и е (число степеней с в о ­
боды о п р е д е л е н о н и ж е), и н азы в ается либо F -включения, л и б о
F -удаления.
Б о л е е то ч н о , п р ед п о л о ж и м , что в н абор с у ж е в кл ю ч ен о k
п е р е м е н н ы х , k = О, 1, ... , р — 1. Т о гд а зн а ч е н и е F-включения
д л я п е р е м е н н о й X (не в х о д ящ ей в с) в ы ч и сл яется по ф орм уле
Fyx.c = r l x.c (n — k — 2)/(1 - r lx.c). (3.3.1)
Э та в е л и ч и н а с л у ж и т стати сти к о й к р и т е р и я д л я п р о в е р к и
г и п о т е з ы о том , что п р е д с к а за н и е Y зн ач и м о н е у л у ч ш а е тс я при
в к л ю ч е н и и X в н абор с, т. е. Н0: рухс = 0, и если эта ги п о т е за
в е р н а , т о р а с п р е д е л е н а по з а к о н у F (1, п — k — 2)
А н а л о г и ч н о , в е л и ч и н а F -удаления д л я к а к о й -л и б о перем ен н ой
X и з с с л у ж и т с тати сти к о й к р и те р и я д л я п р о в е р к и ги п отезы о том ,
что н а б о р с', п о л у ч а ю щ и й с я из с при у д ал е н и и X и содерж ащ и й
k! — k — 1 пер ем ен н ы х , п р е д с к а зы в а е т Y « так ж е хорош о», к а к
и н аб о р с. И н ы м и сл о в а м и , п р о в е р я е т с я ги п о т еза # 0: рух.С’ = О
и с т а т и с т и к о й к р и т е р и я я в л я е т с я в е л и ч и н а (F-удаления)
F yx.c■= Тух-с (n — k ' — 2)/( 1 — г 2
у х.с-), (3.3.2)
р а с п р е д е л е н н а я по з а к о н у F (1, п — k' — 2) , есл и Н0 в ер н а .
К а к б у д е т п о к а за н о в р а зд . 3 .3 .2 , п р а в и л о о ст ан о в к и , обычно
и с п о л ь з у е м о е в с т ан д а р т н о й п р о ц ед у р е, о сн о в ан о н а зад ан и и
д о п у с т и м о г о минимума F -включения (и л и , ч то э к в и в а л е н т н о ,
м а к с и м у м а уровня значимости а). В н ек о то р ы х п а к е т а х по у м о л ч а ­
нию п р е д п о л а г а е т с я , что м ин им ум / ‘'-в к л ю ч ен и я равен 4 .0 . Д л я
у д а л я е м ы х перем ен н ы х т а к ж е в ы б и р ается допустим ы й минимум
3.3. Пошаговая регрессия 197

F -удаления (эта в е л и ч и н а д о л ж н а б ы т ь м ен ьш е м ин им ум а /•’-в к л ю ­


ч ен и я; в н ек о то р ы х п а к е т а х п о у м о л ч а н и ю п р и н и м ается, ч то м и ­
ним ум /•’-у д ал ен и я р а в е н 3 .9 ). Р а с с м о т р и м теп ер ь подробно ш аги
стан д ар тн о й п р о ц е д у р ы .

Ш аг 0. В ы ч и с л я ю т с я просты е ко эф ф и ц и ен ты к о р р е л я ц и и гух
и вели ч и н ы F -в к л ю ч е н и я Fyx д л я i = 1, ..., р. (Зам ети м , что
простой коэф ф ициент к о р р е л я ц и и есть частн ы й коэф ф и ц и ен т
к о р р е л я ц и и п р и k = О и пустом н а б о р е с.) С тати сти к а к р и т е р и я
д ается вы р аж ен и ем

Р у Ч = г\х . (П - 2 ) / ( 1 - 4 * . ) , (3.3.3)

ко то р о е п о л у ч а ет с я из ф о р м у л ы ( 3 .3 .1 ) п о д стан овкой k = О, или


к а к к в а д р а т /- с т а т и с т и к и и з з а м е ч а н и я 3 .1 .5 .3 . В ел и ч и н а Fyx
им еет /•'-расп ределение с 1 и п — 2 с теп е н я м и свободы и с л у ж и т
д л я п р о в е р к и г и п о т е з ы Н 0: рух. = 0, i — 1, ..., р.

Шаг 1. П ерем ен н ая JCt l , к о т о р о й о т в е ч а е т н аи б ол ьш ее зн а ч е н и е


/^■включения (и л и , ч т о э к в и в а л е н т н о , н а и б о л ь ш а я в е л и ч и н а
к в а д р а т а к о э ф ф и ц и е н т а к о р р е л я ц и и с Y), в ы б и р ается к а к н а и л у ч ­
ш ий п ред и ктор д л я Y. В ы ч и с л я ю т с я со о тветствую щ ее у р а в н е н и е
н аи м ен ьш и х к в а д р а т о в , т а б л и ц а д и с п е р с и о н н о г о а н а л и за и м н о ­
ж еств ен н ы й к о э ф ф и ц и е н т к о р р е л я ц и и ry.Xi = | ryxi l \- В е л и ч и н а
F -удаления для X ix в э т о м с л у ч а е с о в п а д а е т с величиной F -включе­
ния. Д а л е е в ы ч и с л я ю т с я к о э ф ф и ц и е н т ы ч астн ой к о р р е л я ц и и
r Sx i x i и зн а ч е н и е /'- в к л ю ч е н и я

FУх^' X. = г y x i - x l (п ^ I {} ryxi'xi^) (3.3.4)

д л я i = 1, р, i т. е. д л я к а ж д о й перем ен н ой , не вош едш ей


в у р а в н е н и е р е г р е с с и и . Э та с т а т и с т и к а им еет 1 и п — 3 степеней
свободы и с л у ж и т д л я п р о в е р к и г и п о т е зы Н 0\ pyXl-xt = 0 , i —
= 1, ..., р, i Е с л и все в ы ч и с л е н н ы е зн а ч е н и я F -вкл ю чен и я
м еньш е у с т а н о в л е н н о г о м и н и м у м а , т о д а л е е в ы п о л н я е тся ш а г S.
В противн ом с л у ч а е п р о и с х о д и т п е р е х о д н а ш аг 2.
Шаг 2. П ер ем ен н ая и м е ю щ а я н а и б о л ь ш е е зн а ч е н и е /^ в к л ю ­
ч ен и я (или, что э к в и в а л е н т н о , н а и б о л ь ш и й к в а д р а т ч астн о го
к оэф ф иц иента к о р р е л я ц и и с Y п р и ф и к с и р о в а н н о м зн ач ен и и Л ^ ),
в ы б и р а е т с я к а к н а и л у ч ш и й п р е д и к т о р д л я Y п ри у с л о в и и , ч то у ж е
в ы б р ан а п е р е м е н н ая АТ,-,. В ы ч и с л я ю т с я у р а в н е н и е н аи м ен ьш и х
к в ад р ато в , т а б л и ц а д и с п е р с и о н н о г о а н а л и з а , м н ож ественн ы й
коэф ф иц иент к о р р е л я ц и и гу .х . ^ и и зн а ч е н и я F -у д ал ен и я Fyx. .xit
198 Гл. 3. Регрессионный и корреляционный анализы

и Fyx.^.jg. . Э ти стати сти к и имею т 1 и п — 3 степеней свободы и


о п р е д е л я ю т с я в ы р аж ен и я м и
rlxt -x ¡ ( n - 3 j rl < п - 3)
Pyx, = — Г ~ 1 ------------ и F ----------- ■ (3.3.5)
‘ ! [ ~ \ x ¡X¡ '• '« X - ñ , x t .x(
1 2 L2 Ll
О ни и с п о л ь з у ю т с я д ля п р о вер к и гипотезы Н0: рух. ,х — О
и Я 0: pc/JcÍ! xi¡ = 0 соответственно. Н а к о н е ц , вы чи сл яю тся частны й
к о э ф ф и ц и е н т к о р р е л я ц и и г,.х. . х. х . и зн ач ен и е /^-вклю чения
I 11 12
PyXj X^Xi' = гухг х, х^ (« — 4 ) / (l — rlxr x¡ J (3.3.6)

д л я п р о в е р к и гипотезы p yx..x¡ x¡ = 0 с 1 и л — 4 степ еням и


с в о б о д ы при i = 1, . . . , р , i ф i ] , i Ф г2. Е сл и в с е зн ач ен и я F -вклю -
ч ен и я м е н ь ш е у стан о в л ен н о го м ин им ум а, то д ал е е вы п о л н я ется
ш аг S. В п р о ти в н о м с л у ч а е п р о и сх о д и т п ер е х о д на ш аг 3.
Ш аг 3. а) П у с т ь L о б о зн ачает н аб о р из I незави си м ы х п ер е м ен ­
н ы х , к о т о р ы е вкл ю чен ы в у р а в н е н и е р е гр ес си и . Е сли к ак о е-л и б о
и з з н а ч е н и й F -у д ал ен и я д л я перем енны х из L меньш е, чем с о о т в ет ­
с т в у ю щ и й м и н и м у м , то п ер ем ен н ая, к о то р о й соответствует н а и ­
м е н ь ш е е зн ач ен и е f -у д ал е н и я , у д а л я е т с я и з н аб о р а и в ы п о л н я е тс я
ш а г 3 ,Ь ) с за м е н о й / на I — 1. Е с л и д л я всех перем енн ы х, не в х о д я ­
щ и х в L , зн ач ен и е /-в к л ю ч е н и я м еньш е у стан о в л ен н о го м ин им ум а,
то в ы п о л н я е т с я ш аг 5 . В п р отивн ом с л у ч а е в набор L д о б а в л я е т с я
п е р е м е н н а я , которой со о тветствует м а к с и м а л ьн о е зн ач ен и е F -вклю -
ч е н и я , и I з а м е н я е т с я н а / - f 1. b) В ы ч и сл яю тся у р а в н е н и е н а и ­
м е н ь ш и х к в а д р а т о в , таб л и ц а д и сп ер си о н н ого а н а л и з а и м н о ж е ­
с т в е н н ы й ко эф ф и ц и ен т к о р р е л я ц и и гу1 м еж д у Y и перем енны ми
и з Г, а т а к ж е зн а ч е н и я F -у д ал ен и я Fy x ¡ .[l_ í) м еж ду Y и п ер ем ен ­
ной X¡_ из L п ри за д ан н ы х о с т а л ь н ы х I — 1 перем енны х и з L.
К а ж д а я из э т и х вел и ч и н им еет 1 и п — I — 1 степ еней свободы и
и с п о л ь з у е т с я д л я п р о в ер к и гипотезы # 0: р ух..(1_ Х) = 0. Н а к о н е ц ,
определяю тся в ел и ч и н а частного ко эф ф иц иента к о р р е л я ц и и
гУх г 1 и з н а ч е н и е F -вклю чения м еж ду Fyx..i Y и каж д о й п ер ем ен ­
ной X i} н е в х о д ящ ей в L , п р и д а н н ы х перем ен н ы х н з L. Э та с т а т и ­
с т и к а и м е е т 1 и п — I — 2 степеней свободы и п р о вер я ет ги п о т езу
Я 0: рух. -1 = 0 д л я X h не в х о д ящ и х в L, i = 1, ..., р.

Ш а ги 4, 5 . . . Р е к у р р е н т н о п о в т о р я е тс я ш аг 3. Ш а г S в ы п о л н я е тся
а) е с л и /-в к л ю ч е н и я д л я всех п ерем ен н ы х, не в х о д я щ и х в L,
м е н ь ш е у с тан о в л ен н о го м иним ум а, Ь) если д л я всех перем ен н ы х
и з L з н а ч е н и е F -у д ал ен и я б ольш е у стан о в л ен н о го м ин им ум а и ли
с) ч и с л о вкл ю ч ен н ы х перем енны х р а в н о р.
3.3. Пошаговая регрессия I Я9

Шаг 5 . С у м м ар н ая т а б л и ц а п е ч а та е т с я , к а к п р ав и л о , по з а п р о с у
п о л ь зо в а т е л я . Д л я к а ж д о го ш а г а п еч атается номер ш а г а , номер
вкл ю ч ен н ы х и у д а л е н н ы х перем енн ы х, зн ач ен и я /"-вк л ю ч ен и я и
.Р -уд ален и я и м н о ж еств ен н о го коэф ф ициента к о р р е л я ц и и м еж д у
У и вкл ю чен н ы м и перем енны м и.

П рим ер 3 .3 .1 . П р о и л л ю с т р и р у е м прим енение п ош агового р е г ­


р есси он н о го а н а л и з а , и с п о л ь з у я п = 141 наблю дение из п р и м ер а
3 .2 .3 , гд е У — си сто л и ч еск о е д ав л е н и е , и зм еренн ое м етодом
ком п ресси о н н о й м а н ж е ты , а Х г, Х 2, Х 3 — соответственно с и с т о л и ­
ч еское, д и а с то л и ч е с к о е и средн ее д ав л е н и я (в мм. р т. ст.), и з м е р е н ­
ные в н у т р и а р т е р и а л ь н ы м методом. П о л о ж и м , что зн ач ен и е м и н и ­
м ум а Р -в к л ю ч е н и я р а в н о 0 .0 1 , а м ин им ум а Р -у д а л е н и я р а в н о
0.005. Т а к и е н и зк и е зн а ч е н и я пор о го вы х величин п р и в о д я т к то м у ,
что б удет в к л ю ч е н а п р а к ти ч е с к и к а ж д а я п ер ем ен н ая, а у д а л е н и е
к а к о й -л и б о пер ем ен н о й во зм о ж н о , т о л ь к о если о н а с и л ьн о к о р р е -
л и р о в а н а с о стал ь н ы м и . Д л я ш аго в , оп и сан н ы х вы ш е, имеем:
Шаг 0. П р о сты е коэф ф ициенты к о р р е л я ц и и су ть гуХ1 = 0 .871,
гуХг = 0.7 7 8 и гуХг = 0.845, и соответственно для з н а ч е н и я
Р -в к л ю ч е н и я имеем РуХ1 = 436 .8 , Р № = 213.2 и Р,/д.3 = 347.0
с 1 и 139 степ ен ям и свободы . Т а к к а к все зн а ч е н и я Р -в к л ю ч е н и я
больш е м ин им ум а, то п ереходим к вы полнению ш ага 1.
Шаг 1. Т а к к а к н аи бо л ьш ее зн ач ен и е Р -в к л ю ч ен и я с о о т в е т ­
ству ет перем енной Х г, она в ы б и р ается к а к н аи луч ш и й п р ед и к то р
д л я У. У р ав н ен и е н аи м ен ьш и х к в а д р а то в имеет вид: у = 8 .0 8 +
~Ь 0 .8 8 х ь а т а б л и ц а д и сп ер си о н н о го а н а л и за п р и в ед ен а н и ж е.

Источник Сумма Степени Средний


дисперсии квадратов свободы квадрат /"-отнош ение

Регрессия 88 731.0 1 88 731.0 436.8


Остаток 28 240.4 139 203.2

Полная 116 971.4 140

М нож ественн ы й ко эф ф и ц и ен т к о р р е л я ц и и есть гу.Х1 = 0.8710,


а Р -у д а л е н и е им еет зн а ч е н и е 4 3 6 .8 с 1 и 139 степ ен ям и свободы .
Ч а стн ы м и ко эф ф иц иентам и к о р р е л я ц и и с л у ж а т гуХг.Х1 = 0 .1 7 8
и гуХз.Хг = 0.206, а со о тветству ю щ и е зн а ч е н и я Р -в к л ю ч е н и я су ть
Рухг-х, = 4.49 и Р уХз.Х1 = 6.12 с 1 и 138 степ ен ям и свободы . Т а к
к а к о б а зн а ч е н и я Р -в к л ю ч е н и я б о л ь ш е м ин им ум а, то в ы п о л н я е т с я
ш аг 2.
Шаг 2. Т а к к а к п ер ем ен н ая Х а им еет н аи б о л ьш у ю в е л и ч и н у
^ • в к л ю ч е н и я , то о н а в ы б и р а е тс я к а к н аи лу ч ш и й п ред и к тор У при
200 Гл. 3. Регрессионный и корреляционный анализы

зад ан н о м Х х. У р а в н е н и е н аи м ен ьш и х к в а д р а т о в имеет вид: 2/ =


= 7.93 + 0.63*! + 0.37лг3. Н и ж е п р и в о д и тся со о тветствую щ ая
т а б л и ц а д и сп ер си о н н о го а н а л и за

И сточник Сумма Степеии Средний „


дисперсии квадратов свободы квад р ат F -отношение

Регрессия 89 931.1 2 44 965.6 229.5


Отклонение от ре­ 27 049.3 138 195.9
грессии

П олная 116 971.4 140

М но ж ествен н ы й ко эф ф и ц и ен т к о р р е л я ц и и гу.х^ г р авен 0.8768,


а зн а ч е н и я Р -у д а л е н и я су ть соответственно = 32.6 и
= 6 .1 2 с 1 и 138 степ ен ям и свободы . Д л я ч астн о го к о эф ф и ­
ц и ента к о р р е л я ц и и им еем гухг.х.хХ% = — 0.035, а д л я зн ач е н и я
Р -в к л ю ч е н и я — Р ух2-х1хз = 0 . 1 7 .
Шаг 3. а) И м еется н аб о р Ь = { Х ь с / = 2. Т а к к а к з н а ч е ­
н и я Р -у д а л е н и я д л я Х г я Х я б ольш е м и н и м ал ь н о го , т а к ж е к а к и
Р -в к л ю ч е н и я д л я ^ 2. набор I р а с ш и р я е т с я . И т а к , теп ер ь Ь =
= \ Х Ъ Х %, Х 3} с / = 3.
Ь) У р а в н е н и е м н аи м ен ьш и х к в а д р а то в б удет у = 8 .29 +
+ 0 .6 0 х х — 0.14л;2 + 0.52л;3, а т а б л и ц а д и сп ер си о н н о го а н а л и з а
им еет в и д

И сточник Сумма Степени Средний ^ -о т н о -


дисперсии квадратов свободы квадрат ш ение

Регрессия 89 963.8 3 29 987.9 152.1


Отклонение от регрес- 27 007.6 137 197.1
сии

П олная 116971.4 140

М н о ж ествен н ы й коэф ф иц иент к о р р е л я ц и и ry .XlXlX3 р авен 0 .8 7 7 0 ,


а з н а ч е н и я Р -у д а л е н и я су ть FyXl.KlX3 = 19.2, FyXl.XlX, = 0 .1 7
и FyX3.XlX2 = 1.7. Т а к к а к все они пр евы ш аю т м ин им ум и т а к к а к
больш е п ерем енн ы х д л я вкл ю чен и я не и м еется, в ы п о л н я е т с я
ш а г S.

2. Стандартная пошаговая процедура с заменой переменных


(F S W A P ). Э та п р о ц е д у р а и сп о л ьзу ет те ж е сам ы е п р а в и л а д л я
в к л ю ч е н и я и у д а л е н и я перем ен н ы х, ч то и о п и с ан н а я выш е п р о ­
ц ед у р а, з а и ск лю чен и ем то го что на к а ж д о м ш аг е им еется в о з-
3.3. Пошаговая регрессия 201

м ож н ость зам ены п е р е м е н н о й из н а б о р а н а к а к у ю -н и б у д ь не с о ­


д ер ж а щ у ю с я в нем п е р е м е н н у ю . Э т а п р о ц е д у р а п о зв о л я е т н ай ти
н ек о то р о е к о м п р о м и с с н о е р е ш е н и е м е ж д у н аи л у ч ш и м наб ором ,
о п и сан н ы м во введении (все пары , тройки и т. д.), и
«наилучш им » н а б о р о м , п о л у ч е н н ы м с пом ощ ью стан д ар тн о й п р о ­
цед уры .
П р и при м ен ении д а н н о й п р о ц е д у р ы в к л ю ч е н н а я в н абор п е р е ­
м е н н а я м ож ет бы ть з а м е н е н а н е с о д е р ж а щ е й с я в н аб оре п е р е м е н ­
ной , есл и при этом в о з р а с т а е т м н о ж ес т в е н н ы й коэф ф иц иент к о р ­
р е л я ц и и (не о б я з а т е л ь н о с т а т и с т и ч е с к и зн ач и м о ). Н а лю бом з а д а н ­
ном ш а г е , если в н а б о р е с и м е е т с я к п ер ем ен н ы х , вклю ченн ы х
в у р ав н е н и е р е г р е с с и и , э т а п р о ц е д у р а п о зв о л я е т ¡) у д ал и т ь н е ­
к о т о р у ю п е р е м е н н у ю и з с с п о м о щ ь ю п р а в и л а /’’-у д ал ен и я , и ) з а ­
м ен и ть н ек о то р у ю п е р е м е н н у ю из с н а п ер ем ен н у ю , не вх о д ящ у ю
в с и ¡11) добавить в н а б о р с н е к о т о р у ю перем ен н ую , и с п о л ь зу я
з н а ч е н и я Р -в к л ю ч е н и я .

3. Метод множественной корреляции (Я-метод). В этой п р о ­


ц е д у р е д л я в к л ю ч е н и я п е р е м е н н ы х и с п о л ь з у ет с я п р ав и л о , о с н о ­
в а н н о е н а в е л и ч и н е /-'-в к л ю ч ен и я , но п р а в и л о у д ал ен и я п ер ем ен ­
н ы х су щ еств ен н о в и д о и з м е н я е т с я . У д а л е н и е перем енной на д а н ­
ном ш аге п р о и з в о д и т с я с п о м о щ ью правила Я 2, т. е. если в р е з у л ь ­
т а т е у д ал е н и я п р о и с х о д и т у в е л и ч е н и е (не о б я за т е л ь н о значим ое)
м н о ж еств ен н о го к о э ф ф и ц и е н т а к о р р е л я ц и и Я 2- Р о с т м н о ж ес тв ен ­
н о го коэф ф иц иента к о р р е л я ц и и в о з м о ж е н , т а к к а к из в ы р а ж е н и я ,
п ри вед ен Б о го в з а м е ч а н и и 3 .2 .6 .1 , с л е д у е т , что Я 2 я в л я е т с я ф у н к ­
ц и ей не то ль ко д в у х ф и к с и р о в а н н ы х в ел и ч и н (именно, п и я^),
но т а к ж е и д в у х и з м е н я ю щ и х с я в е л и ч и н (в2 — остаточны й средн и й
к в а д р а т и р — ч и с л о и с п о л ь з у е м ы х перем енн ы х) 1}. С л е д о в а ­
т е л ь н о , вп о л н е в о з м о ж н о , ч то с о в м е с т н о е изм ен ен ие э т и х д в у х
ве л и ч и н при у д а л е н и и п е р е м е н н о й п р и в е д е т к у в ел и ч ен и ю з н а ч е ­
н и я Я 2. И так, р а с с м а т р и в а е м а я п р о ц е д у р а п р е д п о л а га е т с л е д у ю ­
щ ее: ¡) у д ал е н и е п е р е м е н н ы х на о с н о в е п р а в и л а Я 2 и и ) д о б а в л е ­
н и е перем ен н ы х с п о м о щ ь ю п р а в и л а /-в к л ю ч е н и я .

4. Метод множ ественной корреляции с заменой переменных


(Я$' №АР). Э та п р о ц е д у р а а н а л о г и ч н а /? -м етоду, з а и ск лю чен и ем
то го ч то д о п о л н и т е л ь н о д о п у с к а е т с я за м е н а п ерем ен н ы х. П о с л е ­
д о в ат ел ь н о с т ь д е й с т в и й это й п р о ц е д у р ы т а к о в а : ¡) у д ал ен и е п е р е ­
м енной с и с п о л ь з о в а н и е м п р а в и л а Я 2, п ) за м е н а перем ен н ы х по
кр и тер и ю в о з р а с т а н и я Я 2 и ¡ П ) д о б а в л е н и е новой перем ен н ой
с и сп о л ьзо в ан и ем п р а в и л а /'- в к л ю ч е н и я .

х) Речь идет, т а к и м образом, о н еко то р о м варианте несмещенной оценки


множественного коэф ф иц и ента к о р р ел яц и и . — Прим. перев.
202 Гл. 3. Регрессионный и корреляционный анализы

З а м е ч а н и е 3 .3 .1 . В п р о гр а м м а х пош аговой р е г р е с си и б о л ь ­
ш и н с т в а П С П им еется в о зм о ж н о с ть обязательного вк л ю ч е н и я
п е р с п е к т и в н ы х перем енн ы х в у р ав н ен и е р егр есси и . С этой цел ью
п о л ь з о в а т е л ь с помощ ью соответствую щ его вход н ого п а р ам ет р а,
н а з ы в а е м о г о уровнем принудительного включения, за д а е т д л я
к а ж д о й п е р е м е н н о й либо и н стр у к ц и ю , с л е д у е т ли в к л ю ч и ть эту
п е р е м е н н у ю н езави си м о от вел и ч и н ы ее /- в к л ю ч е н и я , либо п р и о ­
р и т е т ее в к л ю ч е н и я в у р а в н е н и е р егр есси и относительно д р у ги х
п е р е м е н н ы х . Т аки м о б р азо м , п о л ь з о в а т е л ь им еет в о зм о ж н о сть
у п р а в л я т ь отбором перем ен н ы х (в о тли чи е от оп и сан н ого вы ш е с т а ­
т и с т и ч е с к и о б осн ованного отбора) и первы м и в к л ю ч а т ь в у р а в н е ­
н и е р е г р е с с и и те перем енны е, к о т о р ы е п р ед став л я ю т ся н аи б о л ее
п е р с п е к т и в н ы м и . П о ш аго в а я п р о ц ед у р а п р и м ен я ется т о гд а т о л ь к о
к тем п е р е м е н н ы м , к о то р ы е о с т ал и сь «свободными» или д л я к о т о ­
р ы х н е з а д а н у р о в е н ь п р и н у д и т ел ьн о го в к л ю ч е н и я . З а м е т и м , что
п р и п р и н у д и т е л ь н о м вкл ю ч ен и и в у р а в н е н и е р егр е сси и всех н е ­
з а в и с и м ы х перем енны х п о ш а г о в а я р е г р е с с и я м ож ет б ы ть о с у щ е ­
с т в л е н а с п о м о щ ь ю п р ограм м ы м н ож ествен н ой р егресси и .

3 .3 .2 . П р а в и л а остан о вки

Н и ж е р а с с м а т р и в а ю т с я т р и п р а в и л а д л я оп ред ел ен и я ч и сл а
п р е д и к т о р о в , о то бр ан н ы х в «наилучш ее» у р а в н ен и е р е гр ес си и .
С т андарт н ое правило, ко то р о е р е а л и зо в а н о в больш и н стве п р о ­
г р а м м п о ш а г о в о й р егр есси и , о с у щ е с т в л я ет к о н тр о л ь ч и с л а п е р е ­
м е н н ы х с п о м о щ ь ю в ел и ч и н ы , н азы ваем ой допустимый минимум
F -включения., зн а ч е н и е к о то р о й я в л я е т с я входны м п а р а м е т р о м
п р о г р а м м ы . К а к у к а зы в а л о с ь вы ш е, в ел и ч и н е м ин им ум а / - в к л ю ­
ч ен и я с о о т в е т с т в у е т в е л и ч и н а м ак си м у м а у р о в н я зн ач и м о сти а,
что в с и м в о л ь н ы х о б о зн а ч е н и я х в ы г л я д и т т а к : min F - r k -лючрния =
= / i - а (1. д л я н ек о то р о го ч и сл а степеней свободы v. О бы чно
п о л а г а ю т v = п — р — 1, а реко м ен д у ем ое зн ач ен и е а с о с т а в л я е т
0 .1 5 (что б у д е т о б су ж д а т ь с я н и ж е), х о гя многие п о л ьзо в ател и
у с т а н а в л и в а ю т а = 0.05.

1. С т андарт ное правило остановки. С тан д ар тн о е п р а в и л о о с т а ­


н о в к и д л я п о л у ч е н и я «наилучш его» н а б о р а Н п ред и к торов м ож ет
б ы ть л е г к о п о н ято и з сводной таб л и ц ы , р асп еч аты ваем о й на
ш а г е S. З н а ч е н и я /- в к л ю ч е н и я одно з а д р у ги м ср а в н и в а ю тс я с в е ­
л и ч и н о й м и н и м у м а /- в к л ю ч е н и я . Н а б о р Н б удет опред ел ен , к о гд а
в с е в ы ч и с л я е м ы е зн а ч е н и я /- в к л ю ч е н и я ст ан у т м еньш е за д ан н о го
м и н и м у м а . Р а с с м о т р и м это т п р о ц есс по ш агам :
а) Н а ш а г е 1 в кл ю ч а е тс я п ер ем ен н ая X it. Е сл и со о т в е т с т в у ­
ю щ ее з н а ч е н и е /-в к л ю ч е н и я незн ачи м о, т. е. /-в к л ю ч е н и я < ;
<1 m in / - в к л ю ч е н и я , т о с ч и т а е т с я , что р егр е сси я бессм ы сл ен н а
3.3. Пошаговая регрессия 203

и п о л ь зо в а т е л ь д о л ж е н о б р а т и т ь с я к д р у ги м методам а н а л и з а
своих д ан н ы х . В п р о т и в н о м с л у ч а е Н = {X ,,}.
b) Н а ш аге 2 б ы л а д о б а в л е н а п ер ем ен н ая X i2. Е сл и д л я нее
/•в к л ю ч е н и я < m in / - в к л ю ч е н и я , 'т о Н состоит то л ь к о из п е р е ­
м енной X it и н а и л у ч ш а я р е г р е с с и я п о л у ч ен а на ш аге 1. В п р о ­
тивном случае Н — Х , 2\.
c) Д л я к а ж д о г о д а л ь н е й ш е г о ш а г а п ри у д ал ен и и п ерем ен н ой
из Н п р о и сх о ди т п ер ех о д н а сл ед у ю щ и й ш аг. С д р у г о й сторон ы ,
при в кл ю чен и и н е к о т о р о й п ер ем ен н о й п р о и зв о д и тся с р а в н е н и е
зн а ч е н и я / в к л ю ч е н и я с п о р о г о м . Е с л и в ел и ч и н а /-в к л ю ч е н и я
зн а ч и м а , Н р а с ш и р я е т с я д о б а в л е н и е м этой перем енной и п р о и с ­
ход и т переход н а с л е д у ю щ и й ш а г . В п р отивн ом с л у ч ае п р о и сх о д и т
о с тан о в к а п р о ц ед у р ы , а н а и л у ч ш и м б удет набор, пол уч ен н ы й н а
преды дущ ем ш аге .

2. Правило остановки , основанное на изменении R 2. А л ь т е р н а ­


т и в н а я п р о ц е д у р а тр еб у ет т щ а т е л ь н о г о вы бора зн ач ен и й м и н и м ум а
/-в к л ю ч е н и я и м и н и м у м а / - у д а л е н и я . М иним ум /- в к л ю ч е н и я
м ож н о в ы б р ать т а к , ч то б ы б ы ли вкл ю ч ен ы перем енны е, к о т о р ы е
п о тен ц и ал ьн о п о л е зн ы д л я п р е д с к а за н и я Y. Н а п р и м ер , м о ж н о
п р и н я т ь реш ен ие д а т ь к а ж д о й пер ем ен н о й п р и б л и зи те л ь н о 50-п р о -
иен тн ы й ш анс н а в к л ю ч е н и е . Т о г д а м иним ум /-в к л ю ч е н и я б у ­
дет / 0.50 ( ] , п — р — 1). С д р у г о й сто р о н ы m in /- у д а л е н и я м о ж н о
вы б р ать т а к , чтобы ш ан с н а у д а л е н и е у ж е вклю ченн ой п ерем ен н ой
был м ал . П о это м у м ож но с ч и т а т ь м ин им ум /- у д а л е н и я м а л о й в е ­
л и ч и н о й , н а п р и м е р 0 .0 1 . Р а с с м о т р и м те п е р ь л и ш ь те п ер ем ен н ы е
в р е зу л ь т и р у ю щ е й т а б л и ц е , к о т о р ы е б ы ли вклю чен ы н а п о с л е д ­
нем ш аге. П у сть L — т а к о й н а б о р из I перем ен н ы х, I < р , и п у с т ь
rtj .i есть м но ж ествен н ы й к о э ф ф и ц и е н т к о р р е л я ц и и м еж ду Y и всем и
переменны ми и з L . (З а м е т и м , что ес л и одна или н е с к о л ь к о п е р е ­
м енны х бы ли у д а л е н ы , то н ео б х о ди м о п ер есч и тать зн а ч е н и е ry.i).
П усть теп ерь Н — набор и з h п ер ем ен н ы х , в х о д ящ и х в у р а в н е ­
ние регресси и н а н е к о т о р о м п р о м еж у то ч н о м ш аге. П р е д л а г а е м о е
п р ав и л о о с т ан о в к и о с н о в а н о н а п р о в е р к е ги п отезы Н 0: pUh =
= р у .1 с пом ощ ью с т а т и с т и к и
2 2
F = ,г ~ 1 ~ 1 • гу ' ~ ^ у± . (3.3.7)
1 ' Гу ■I
Если эта ги п о т е за в е р н а , т о в е л и ч и н а / им еет /-р а с п р е д е л е н и е
с I — h и п — / — 1 с т е п е н я м и свободы . Этот к р и тер и й п р и м е ­
няется п о сл ед о в ател ьн о н а к а ж д о м ш аге до тех пор, п о к а не б удет
получено п ер в о е н е з н а ч и м о е зн а ч е н и е / . П р ед п о л о ж и м , н а п р и м е р ,
что эт о п р о и зо ш л о н а ш а г е 3, к о г д а д л я р егресси и и с п о л ь з у ет с я
набор H u h п ер ем ен н ы х . Т о г д а , е с л и на ш аге 4 б удет в о зм о ж н о
вклю чени е к а к о й -л и б о п е р е м е н н о й , п р о ц ед у р а о стан ови тся и н а и ­
204 Гл. 3, Регрессионный и корреляционный анализы

лучшим набором будет набор, полученный на шаге 3. С другой


стороны, если на иаге 4 будет возможно удаление переменной, то
применяют описанный выше критерий. Если величина статистики
критерия значима, то в качестве наилучшего набора выбирается
набор, полученный на шаге 4. Если величина статистики критерия
незначима, Н определяется как набор из k — 1 переменных, полу­
ченных на шаге 4, и процесс повторяется. Если получится незна­
чимое значение F, то наилучшим считается уравнение регрессии,
полученное на последнем шаге.

3. П рави ло остановки,"основанное н а безусловном среднем квад­


р а т е ош ибки. Одноj альтернативное правило остановки приве­
дено в работе Bendel, Afifi (1976). Оно основано на проверке гипо­
тезы о том, что при переходе к следующему шагу безусловный
средний квадрат ошибки (UMSE) не убывает. Величина UMSE
определяется равенством UMSE = Е ( Y — У)2, где математиче­
ское ожидание вычисляется по совместному распределению Y ,
Х г ........ Х р, которое предполагается многомерным нормальным.
Оценкой UMSE для данного шага будет
( п — 1 ) ( п 2 — п — 2) (1 — / * . , ) s2
y
UMSE (q, п) = MS п п
п (л — q — 2) пи (л
/и — _ Т
_ q— 1)\ (п —
_ <7__ 01
— 2) >

(3.3.8)

где q — число переменных в уравнении, а MSR — остаточная


сумма квадратов на данном шаге. График величины иМЭЁ в за ­
висимости от <7 имеет, как правило, Л- или и-образный вид.
М ожно показать, что проверка гипотезы Н 0: иМЭЕ^) =
= Х-Ш ЭЕ^и, т- е- того, что добавление (^ + 1)-я переменной
в уравнение не уменьшает безусловной среднеквадратичной
ошибки, эквивалентна проверке гипотезы Н 0: — р0 < р < р0. Здесь
р — частный коэффициент корреляции между V и (у + 1)-й не­
зависимой переменной при заданных остальных д переменных
в уравнении регрессии, р0 = 1/(п — ¡7 — 2)‘/2. Асимптотическая
процедура для проверки этой гипотезы основана на использовании
преобразования Фишера (3.1.32)— (3.1.35) с сг£ = 11 ( п —<7— 3).
Итак, правило остановки на основе ÜMSE требует на каждом
шаге проверки гипотезы Н 0 и останавливает процедуру на шаге,
соответствующем последнему значимому значению критерия.

Пример 3.3.1 (продолжение ). Определим «наилучший» на­


бор для этого примера, применяя указанные три правила оста­
новки. В этом случае примем а = 0.05, a v = я — р — 1 =
= 141 — 3 — 1 = 137, так что min F -включения 3.92. При-
3.3. П о ш а го в а я регрессия 205

меняя стандартное правило остановки и используя значения ста­


тистик , приведенные в иллюстрирующей таблице

П ерем енн ая Я' Коэффициент


корреляции
Номер
шага ч ро
включа- у д а л я­ в кл ю - у д а­ множе­ част­
емая емая чен ия ления ственный ный

1 1 4 3 6 .7 4 — 0.8710 0.87 0.08


2 2 *3 — 6 .1 2 — 0.8768 0.21 0.09
3 3 *2 0 .1 7 0.8770 0.04 0.09

имеем на шаге 1, ч то /•'-включения > 3.92. На шаге 2 также


Р-включения > 3.92, но на шаге 3 /-"-включения < 3.92. Итак,
Н = АГ3), так что регрессия У по Х х и Х 3 является наилуч­
шей для предсказания У, если использовать стандартное правило
остановки.
Применяя второе правило остановки (правило Я 2), имеем
Ь = {А^, Х г, Х 3} и Гу.1 = 0.8770. Используя формулу (3.3.7)
на шаге 1, получим значение

(1 4 1 — 3 — 1) (0 .7 6 9 1 — 0 .7 5 8 6 ) _ о 11
( 3 - 1 ) 1 -0 .7 6 9 1 ~ ’

которое значимо, поскольку Ро.эв (2, 137) =: 3.07. На шаге 2 —

( 1 4 1 — 3 — 1) ( 0 . 7 6 9 1 — 0 .7 68 8 ) _ 01 о
( 3 - 2) (1 -0 .7 6 9 1 ) ’

которое незначимо, поскольку Р 0.95 (1. 137) 3.92. Итак, имеем


И = {X!, АГ3} и к = 2. Так как на шаге 3 возможно включение
еще одной переменной, процедура останавливается и исполь­
зуется уравнение регрессии, полученное на шаге 2. Оба правила
остановки приводят к уравнению регрессии

у = 7.93 0. 63*! -|- 0.37лг3.

При применении третьего правила на шаге 1 (<? = 1) прове­


ряется гипотеза //„: — 0.08 < р •«£ 0.08, где р на первом шаге есть
простой коэффициент корреляции, оценка для которого р = 0.87.
Используя г-преобразование Фишера с а и = 0.085, получим г =
= (1 .3 3 3 — 0.080)/0.085 = 14.7, что значимо.
206 Гл. S. Регрессионный и корреляционный анализы

На ш аге 2 (ц = 2) проверяется гипотеза Н 0: —0.09 < р <


< 0.09, где р — частный коэффициент корреляции между V и Х 3
при данном Х ±. Теперь г = (0 .2 1 3 — 0.090)/0.085 = 1.45, что
является незначимой величиной. Итак, применение этого правила
остановки приводит к наилучшему уравнению регрессии на
шаге 1, а именно у = 8.08 + 0.88л:!. Ниже во вспомогательной
таблице приводятся Р-значения, полученные при применении
этих т р е х правил остановки: Первые два правила указывают, что

Правило 1 Правило 2 Правило 3


Шаг Переменная (F -вклю ­ (основанное (основанное
чения) на И'1) на UMSE)

1 X , < ю -5 < 0 .0 5 < ю ~ 5


2 X , 0 .0 1 6 NS NS
3 Х 3 NS

наилучшим являегся набор, получаемый на шаге 2 , в то время


как, согласно правилу, основанному на использовании UMSE,
предполагается, что наилучшим будет набор, полученный на
шаге 1.

Замечания 3.3.2. 1. Возможно правило остановки, которое


использует UMSE, но не требует проверки гипотезы. В этом случае
как наилучшее выбирается подмножество переменных, для кото­
рого достигается минимальное значение UMSE (3.3.8). Эквива­
лентным образом, можно искать минимум величины U (q ) =
= (1 — г^./)/(п — у — 1)(л — q — 2), пропорциональной UMSE.
Если график ÜMSE в зависимости от q выравнивается, то точкой
остановки: будет точка, в которой начинается выравнивание.
Этим правилом остановки легко дополнить программы пошаговой
регрессии, так как значения MSR в (3.3.8), как правило, выво­
дятся на печать.
2. Сравнение методом Мюнте-Карло графического правила
остановки для прямой пошаговой регрессии с другими
показало, что i) если vR < 40, предпочтительней использовать
стандартное правило остановки с а = 0.15 (т. е., min
F -включения =; 2.5) и ii) при vR^ 4 0 рекомендуется ис­
пользовать правило остановки, основанное на UMSE (Bendel,
Afifi (1977)).
3.3. Пошаговая регр есси я 207

Пример 3.3.2. Пошаговая регрессия была применена к моде­


лированной выборке объема п = 200 при р = 10. Результиру­
ющая таблица приведена ниже.

Переменная F Множественный Квадрат


Номер иЬале- кыФРичиент множественном>
шаге Включаемая Удаляемая в к л ю ­ ния корреляции коэффициента Ч U(q) х 105
чения

1 5 8.1 — 0.1982 0.0393 1 2.463


2 8 6.2 0.2619 0.0686 2 2.412
3 4 _ 5.8 0.3089 0.0954 3 2.367
А 8 — 0.002 0.3087 0.0953 2 2.343
5 3 2.4 0.3256 0.1062 3 2.338
« — 5 — 0.3302 0.1089 2 2.307
1 2 — 0.3311 0.1097 3 2.329
S 9 — — 0.3319 0.1102 4 2.352

Применяя первое правило при min F -включения = 3.8 и


min f -удаления = 0.01, получаем, что переменные Х ъ, Х 8, и Х 4
должны быть включены, так как имеют значимое /^-включение.
Итак, на шаге 3 имеем набор Я — {Х6, Х ь, X t \ и h = 3. На шаге 4
исключается переменная поскольку для нее значение F - уда­
ления меньше 0.01. Следовательно, имеем набор Я = {Хв, Х 4\
и h — 2. На шаге 5 наибольшим значением F -включения будет
для переменной А'з, но оно меньше 3.8. Поэтому процедура оста-
навливается, и набор f f , полученный на шаге 4 и составленный
из переменных Х ъ и Х 4 , выбирается как наилучший для пред­
сказания Y.
Применим теперь второе правило. Из таблицы результатов
имеем L = \ Х 2, Х 3, А4, Х 5, Х 8, X s ) и I = 6. Так как перемен­
ные X g и Х 8 удалялись, работа программы была повторена с при­
нудительным включением всех шести переменных из L в уравне­
ние регрессии, что дало возможность получить для этого набора
значение множественного коэффициента корреляции ry .i = 0.3324.
Применяя критерий (3.3.7) на шаге 1, получаем F = 3.09, что
больше, чем величина F 0^-o (5, 193) ^ 2.25. На шаге 2 получаем
F = 2.28, что меньше, чем величина F 0,g5 (4, 193) 2.40. Итак,
первое незначимое F возникает на шаге 2 при Я = {Х 5, Х"8}
и h = 2. Так как на ш аге 3 возможно лишь включение перемен­
ных, процедура останавливается. Наилучшее уравнение регрес­
сии получается на шаге 2, а именно: регрессия Y по Х ь и Х 8. З а ­
метим, что отличие этой процедуры от предыдущей становится
явным на шаге 2. В первом методе на шаге 2 проверяется, даст ли
какая-либо из не включенных еще переменных улучшение в пред­
сказании Y при ее добавлении к двум уже отобранным перемен­
ным. Во втором методе на шаге 2 проверяется, предсказывают ли
208 Гл. 3. Регрессионный и корреляционный анализы

эти две переменные У так же хорошо, как все шесть переменных


из Ь .
Используем теперь правило остановки из замечания 3.3.2.1.
В последней колонке таблицы приведены значения и на каж­
дом шаге. Минимум величины 0 (</) достигается на шаге 6, чему
соответствует набор из переменных Х 3 и Х 4. Так как п = 200,
то, согласно замечанию 3.3.2.2, следует считать набор (Х 3, ЛТ4)
наиболее предпочтительным для предсказания У.

3.4. Н елинейная регрессия


В предыдущих разделах рассматривались модели регрессии,
линейные по параметрам, вида
Hi — Ро ~~Ь
+ • • ■+ $pxpi + ev 1 — 1, • ■-, п. (3.4.1)
К ак отмечалось в начале этой главы, во многих случаях линей­
ная модель может служить по меньшей мере в качестве первого
приближения к истинной модели. Кроме того, как это указывалось
уже в примере 3.1.3, в некоторых случаях использование под­
ходящих преобразований переменных может привести к линейной
по параметрам модели. Однако имеется большое число ситуаций,
для которых линейная модель непригодна, например, когда
зависимость выражается с/ммой экспоненциальных и/или три­
гонометрических функций. В этом случае линейная модель не
будет уже удовлетворительной аппроксимацией, а простое пре­
образование переменных, приводящее к ней, отсутствует.
Любая модель, вид которой не совпадает с уравнением (3.4.1),
называется моделью нелинейной регрессии и может быть пред­
ставлена в виде
Ui = ! (Хц> ■ ■ -, *Рь 01, • - -, 0т) -M i, г' = !- • • •. п, (3.4.2)
где / ( ) — нелинейная функция параметров 0!, ..., 0m, a et —
некоррелированные ошибки. Приведем два примера нелинейной
функции
/ (■*;’> 9i> 02 > ®з)= >
f (х ü, x 2i\ 0,, 02, 0S) = 0L-J- 02 Sin (xy -f- 03 COS X2i), i = 1, . . ., n.

Если истинная модель линейна, то МНК-оценки параметров


будут оптимальными, поскольку они являются несмещенными
оценками с минимальной дисперсией. Но если модель нелиней на,
то методы получения наилучших оценок параметров отсутствуют.
О днако существует м ет од максимального^ правдоподобия, который
позволяет получать оценки 0*, 0?, ..., 9т , обладающие такими
3.4. Н ел и н ей н ая регрессия 209

ценными свойствами, как сост оят ельност ь и асимптотическая


эффективность при достаточно общих условиях. Более того, если
ошибки е1 суть независимые случайные величины с распределе­
нием (0, а2), оценки максимального правдоподобия совпадают
с МНК-оценками. Как и в предыдущем разделе, МНК-оценки суть
значения 0Ь 02, ..., 6,„, которые минимизируют сум м у квадрат ов
отклонений

5 = 2 (¿Л / (Хц, ■. ., хр,\ 0Х, . . ., 0т))". (3.4.3)


¿=1

Для линейной модели МНК-оценки получаются из решения


системы линейных уравнений. К сожалению, в случае нелинейной
модели приходится решать систему нелинейных уравнений и соот­
ветствующее МНК-решение нельзя уже представить в явном
виде. По этой причине приходится использовать различные итера­
ционные методы для численного определения МНК-оценок.

3.4.1. Итерационные методы численного определения


МНК-оценок
Во всех программах определения МНК-оценок 0!, ..., 0т из ПСП
вычисляется последовательность приближений 01(/>, ..., 0^’, / =
= 1, 2, ..., к этим о ц е н к а м . В большинстве программ от пользо­
вателя требуется задать начальное приближение 01О), ..., 0т*.
Б некоторых программах процесс последовательного приближения
останавливается, если различие в двух соседних приближениях
становится пренебрегкимым, т. е. если
0 ( Ж ) _ э<У)
< б (3.4.4)
е</>
для всех i = 1, ..., т и для некоторого заранее выбранного ма­
лого числа б. В других программах остановка происходит при
стабилизации остаточной суммы квадратов.
Технические детали, связанные с численным приближением
МНК-оценок, в этой книге не рассматриваются, но их можно найти
в работе Draper, Smith (1968) гл. 10, или в книге Ralston, Wilf
(1960). Наиболее часто используются методы линеаризации (Hart­
ley (1961)), н а к о п л е н и я (Rao (1965) с. 302), наискорейш его спуска
(Davies (1954)) и М а р к в а р д т а (Marquardt (1963)).
Помимо а) начальных значений параметров 0Ь ..., 0т, поль­
зователю обычно требуется еще задать Ь) верхние и нижние гра­
ницы для значений параметров и с) подпрограммы для вычисле­
ния значений функций / ( ), ее первых, а иногда и вторых частных
производных по 0J, . . . , 0^. Пользователю, мало знакомому с вь|-
210 Гл. 3. Регрессионный и корреляционный анализы

числительной математикой и программированием, может потре­


боваться помощь специалиста.
На выходе обычно получаем: а) конечные (а иногда и проме­
жуточные) оценки параметров, Ь) конечную (а иногда и промежу­
точные) сумму квадратов отклонений 5 как меру качества под-
гонки и с)оценки асимптотических дисперсий V (0г) и ковари-
аций соу (0,-, 0;) для 0г и 07-, £ Ф / = 1, ..., т. Величина
я* = БЦп — /га) (3.4.5)
(иногда называемая среднеквадратичной ош ибкой ) служит оценкой
дисперсии ошибки о2.
Указанные оценки асимптотических дисперсий можно исполь-
зовать для приближенной проверки гипотез и аппроксимации
100 (1 — а) %-ных доверительных интервалов для параметров.
Дополнительно в выходные данные могут быть включены предска­
занные значения у г , соответствующие стандартные отклонения
и остатки у 1 — У1 для г = 1, ..., п.

3 .4 .2 . Приближенная проверка гипотез


и а п п р о к с и м а ц и я д о в е р и те л ь н ы х и н те р ва л о в

Для проверки гипотезы


статистику
0г = 0го. * = 1. используем

г = (0г— е,о)/[У(е1)],/2, (3.4.6)

где 0г — численное значение МНК-оценки для 0г, а V (0г) —


оценка асимптотической дисперсии для 0г. При истинности # 0
и при больших п эта статистика приближенно распределена по
закону ЛГ (0, 1). Приближ енным 100 (1 — а) % -ны м доверит ель­
ным и н т е р ва л о м для I = Г, ..., т , служит

91± 2 1_ (а/2) [V (0,)]1/2- (3.4.7)


П ри бли ж ен н ы м 100 (1 — а) % -ны м доверительным интервалом
дл я с р е д н е го значения У , соответствующего выборочным значениям
Хц> %2г> • -м Хр1, I 1, ..., М, СЛуЖИТ
$1 ± 2] _ (а/2) [3(1(#;)], (3.4.8)
где у г — оцененное значение У при хи, х21, ..., хр1, а эс! (#,■) —
соответствующее стандартное отклонение для у г. Получение до­
верительного интервала для среднего значения У при Х 1у Х р,
не принадлежащих выборке, является непростой задачей.
Последовательность остатков у г — I — 1, ..., п, можно ис-
пользоватгь так же, как в разд. 3.1.$.
3 .4 . Нелинейная регрессия

З а м е ч а н и я 3 . 4 . 1 . 1. Выбор начальных значений 0[О), ..., 0 ^


является чрезвычайно важным моментом, поскольку неудачный
выбор может привести к медленной сходимости или даж е рас­
ходимости вычислительного процесса. Приемлемость начальных
значений можно установить на основании пробных предваритель­
ных просчетов, а в случае одной'независимой переменной X полез­
ный прием состоит в проведении ряда кривых f (х\ 0Х, ..., 0т )
для различных значений 0Ь ..., 0т на плоскости с нанесенными
точками данных.
2. Так как в некоторых программах оценкам не позволяется
выходить за установленные верхние и нижние границы, то поль­
зователь долж ен задавать границы очень аккуратно, чтобы не
сделать их слишком ограничительными.
3. Полезной величиной (которая, однако, не всегда присут­
ствует в составе выходных данных) является коэффициент корре­
ляции меж ду наблюдаемыми значениями и предсказанными y t .
Когда сравниваются альтернативные модели, лучшей считается та,
для которой величина этого коэффициента больше.
4. Д ля некоторых специальных видов нелинейных функций
(таких, как экспоненциальные или тригонометрические) сущ е­
ствуют программы, для которых не требуется задания начальных
значений и подпрограмм, написанных пользователем.

Пример 3 . 4 . 1 . У 107 больных в критическом состоянии были


измерены значения двух показателей: Y — сердечный индекс
[л/(мин-м2) ] и X — среднее время циркуляции (с). Диаграмма
рассеяния данных подсказывает (рис. 3.1.3) зависимость вида

lJ i — 0i ©¿е 03* 1 +

Д ля обработки этих данных была использована программа не­


линейной регрессии (BMDP3R). Начальные значения параметров,
верхние и нижние границы были получены путем анализа графи­
ческого отображения данных и кривых вида

f (*; 01> 02- ез) = 0! + О2е0з*

для различных наборов 01( 0 2 и 03. Были выбраны следующие


начальные значения: 0? = 1 .0, 0° = 1.0 и 0з = — 0.2 и границы
0.1 < е х < 5 . 0 , 0.1 < 0 2 < 100.0 и — 0.5 < 0Я < 0 . 0 .
Результаты итерационной процедуры (метод линеаризации)
даны в табл. 3.4.1. Окончательной оценкой уравнения служит

д = 1 .3 7 0 7 + 1.8925е-°-1580*,

а оценкой для а 2 будет s2 = 0.7304.


212 Гл. 3. Регрессионный и корреляционный анализы

Т а б л и ц а 3 .4 .1

Численные значения последовательных итераций метода


линеаризации для модели г/ = 0 1 - 1- 02е®зХ

Среднеквадратичная
Итерация ошибка 0, 4 вз

0 3.8168 1.0000 1.0000 -0.2000


1 2.4508 1.0400 2.5492 -0.1000
2 2.0765 1.4036 1.3727 -0.2562
3 0.8968 1.4393 8.8124 -0.1281
4 0.7857 1.3574 1.6380 -0.1618
5 0.7305 1.3744 1.8426 —0.1580
6 0.7304 1.3709 1.8303 -0.1580
7 0.7304 1.3707 1.8296 -0.1580
8 0.7304 1.3707 1.8295 -0.1580
9 0.7304 1.3707 1.8295 -0.1580
10 0.7304 1.3707 1.8295 -0.1580
11 0.7304 1,3707 1.8295 -0.1580

Оценки асимптотических стандартных отклонений суть


[V (0а)]>/2 = 0.1774, I V Св2) 11/2 = 5.728 и [ V (03) З1/2 = 0.02822.
Проверка гипотезы Я 0: 9 Х = 0 против Я 0: 0 Х=£= 0 производится
с помощью вычисления значения статистики

г = (1.3707 — 0 )/0 .1774 = 7.727,

которое высоко значимо (Р *< Ю-6). Д ля проверки гипотезы


Я 0: 02 = 2 против Я х: 02 <С 2 вычисляем величину

2 = (1.8295 — 2.0)/5.728 = —0.030,

которая незначима.
Приближенным 95 %-ным доверительным интервалом для 03
будет

— 0.1580 ± 1.96 (0.02822) = (—0.213, — 0.103).

Так как этот интервал не включает 0, гипотеза Я 0: 93 = 0 отвер­


гается с уровнем а = 0.05.
3.4. Н елинейная регрессия 213

Приближенным 95 % -ным доверительным интервалом для ср ед­


него значения У при х 23 = 20.5 будет

1.445 ± 1.96 (0.1106) = (1.228, 1.662),

где 0.1106 — стандартное отклонение для г/23 = 1.445.


Коэффициент корреляции между У и X есть rL — — 0.659.
Это мера линейной зависимости между рассматриваемыми пере­
менными. Для нелинейной модели мерой зависимости служ ит
опенка простого коэффициента корреляции г NL между y t и //*.
Так как rNL = 0.771 >» |rL |, то, следуя замечанию 3.4.1.3, можно
заключить, что нелинейная модель является более подходящей
для подгонки рассматриваемых данных.

Пример 3 .4 .2 . Р еак ц и я образования комплекса HR гормона Н


с рецептором R д ается формулой

H+ R^HR,
*2

где — константа п рям ого сродства (моль- 1 -мин'1), a k 2 —


константа распада комплекса гормон — рецептор (мин-1). Д иф ­
ференциальное уравн ен ие, описывающее эту реакцию во времени,
имеет вид

— = [Н] [R] kx — [HR] k2,

где [R ] — концентрация рецептора (10- 9Л4 мг протеин)-1, [HJ —


концентрация гормона (10' 9М) и [ HR] — концентрация ком­
плекса гормон — рецептор (10- 12Л1 мг протеин-1). В предположе­
нии, что концентрация [Н ] остается постоянной, решение этого
уравнения дается функцией

у = [HR (/)] = [" [ 2 [ 1 - exp ( - [kx [Н] + k2] t)],

которая может быть записана в виде


У = А( 1 — e~Bt),

где R 0 — общее число единиц комплекса, равное 1.3 (10-9М мг


протеин-1), А = Roky [ Н ] / 5 и В = [Н] + &2. Статистическая
задача состоит в оц ен к е параметров А и В.
Для различных концентраций Н (детали см. Hechter
et al. (1978)) были собраны данные об HR (t ). Таблица, распо-
214 Гл. 3, Регрессионный и корреляционный анализы

лож енная ниже, содержит такие данные при [НЗ = 0 .8 X


X ю-9м .

t 0.0 ' 1.0 1.5 2.0 2.5 3.0 3 .5 4.0


У 0.000 0.025 0 .0 35 0.045 0.055 0 .0 6 5 0 .0 7 5 0.082

t 4.5 5.0 5.5 6.0 6.5 7.0 7 .5 8.0


У 0.088 0.094 0 .1 00 0.105 0.110 0 .1 1 5 0 .1 2 0 0.125

Начальные значения для А и В можно выбрать, устремляя <


к оо и затем полагая £ = 1/В . Так как у -*■ А при г1->• оо, то А 0 =
= 0.125 (это значение у при 2! = 8 в таблице) — разумное началь­
ное приближение. Когда ( = 1/В имеем у = А 0 (1 — е-1) =
= 0.125 (0.632) = 0.079. Из таблицы следует, что у 0.079 при
t = 3.5. Итак, подходящим начальным значением для В будет
В 0 = 1/£ = 1/3.5 = 0.286. За минимальное и максимальное зна­
чения параметров примем соответственно 0 и сю.
Частные протводные по А и В имеют вид
— = 1 — е -в 1 и — =
д \ дВ 1

Эти выражения совместно с выражением для [НК (¿) ] задаются


программе в виде подпрограмм на Фортране.
Для получения результирующих значений программе
ВЛШРЗИ потребовалось пять итераций, как это можно видеть
из таблицы.

Остаточная
Итерация симма 2 6
:квадратов S
0 0.000926 0.1250 0.2860
1 0.000697 0.1368 0.20S7
2 0.000575 0.1688 0.1458
3 0.000130 0.1755 0.1537
4 0.000130 0.1758 0.1531
5 0.000130 0.1758 0.1531

Асимптотические стандартные отклонения суть [ V (Л) 1|/2 =


= 0.0032, [V (В) ]'/2 = 0.0044т, а оценка для о есть [S/(n — т ) Jl/2 =
= [0.00013/(16 — 2)]1/2 = 0.0030. Используя оценки для А и В
можно оценить константы и k 2. Так, /гх = A B / R 0 [ Н \ =
= 0 .1758 (0.1531)/(1.3 (0.8 X Ю"9)) = 2.588 X 107 и k2 =
= В — k x [ Н ] = 0.1531 — (2.588 X 107)(0.8 X 10"°) = 0.1324.
Асимптотические дисперсии для kx и k2 можно получить на основе
асимптотических разложений для дисперсий произведений и ча­
стных (K endall, Stuart (1969)).
3.4. Н елинейная регрессия 215

3.4.3. Линейная регрессия с ограничениями


Программы нелинейной регрессии в некоторых ПСП (например,
ВЛГОРЗИ) позволяют решать задачу линейной (или нелинейной)
регрессии, когда параметры удовлетворяют линейным ограниче­
ниям. Пусть уравнение регрессии имеет вид
(3.4.9)

для£ = 1, ..., п и параметры подчинены k линейным ограничениям


Cj — bj1Ql -)- bj 202 -f- • • • -)- b/m0m — bj — 0 (3.4.10)

для / = 1, ...,
И в этом случае МНК-оценки параметров получаются численно
с помощью итерационного процесса. Как и раньше, для работы
программы необходимо задать начальные значения параметров,
их верхние и нижние границы и подпрограммы для вычисления
фуикции / ( ) и ее производных. Кроме того, пользователь дол­
жен задать и подпрограмму для проверки выполнения ограниче­
ний и иногда первых производных от функции, описывающей
ограничения.
В выходные данные включаются оценки параметров, асимпто­
тические дисперсии и стандартные отклонения оценок у¡.

Пример 3.4.3. Рассмотрим линейную модель с ограничениями,


которая возникает в теории мембранного переноса и задается
уравнением
з

где Т — разность электрических потенциалов, ¥ А — разность


электрических потенциалов, обусловленная активным переносом,
Я — универсальная газовая постоянная, Т — абсолютная тем­
пература, F — константа Фарадея, — число переноса, г 1 —
валентность с возможными значениями ± 1 , с[ — концентрация
канальцевой жидкости, с[ — интерстициальные концентрации(I =
= 1 ,2 , 3). Индекс I соответствует хлориду (г = 1), натрию (г = 2)
или калию (1 = 3). Значение #77/'" = 26.72. Уравнение
можно записать в виде
Y — piX 1 + p 2X 2 + p 3X 3 + p it

где Y = /?4 = ¥ л; X t = (26.72/z;) ln {c'Jcl) и pi = i =


= 1 ,2 , 3. Из теоретических соображений величины p t должны
удовлетворять ограничениям p t > 0 для i = 1, 2, 3 и /?, + +
216 Гл. 3. Регрессионный и корреляционный анализы

+ р3 = 1 (детали эксперимента см. в работе МагэИ, Маг^п (1977)).


Данные по 26 экспериментам приведены в таблице.

№ У *2 *3

1 0.8 - 0 .2 9 3 3.397 -2 .1 7 3
2 0.8 . 2.558 -3 .5 6 7 10.833
3 -1 .0 1.724 1.137 - 2 6 .6 7 8
4 1.0 2.129 -4 .1 1 9 0.000
5 0.7 1.954 3.568 10.233
6 1.0 2.390 0 .3 83 - 3 5 .9 0 2
7 1.0 - 0 .9 7 2 0.463 -1 8 .8 5 1
8 0 .6 0.753 1.590 -2 5 .9 3 0
9 0 .3 0.513 0 .108 -2 8 .7 9 9
10 0.5 -0 .5 7 5 0.105 - 2 8 .4 4 7
11 - 3 .5 -6 .5 9 1 10.274 -8 .9 9 0
12 -6 .0 -2 9 .0 4 4 2 8 .4 5 6 - 1 0 .8 3 3
13 -8 .5 - 2 2 .1 5 7 2 3 .7 0 7 -4 .4 9 8
14 -2 .5 -2 .3 3 7 0 .6 20 1.753
15 -3 .0 -1 .0 4 8 1.237 7.550
16 6.0 -1 .4 6 4 - 1.620 -1 1 .7 6 4
17 -9 .0 - 1 9 .9 3 0 19.425 -6 .9 6 6
18 6 .0 14.099 -1 2 .7 4 7 9.439
19 7.0 16.421 - 1 5 .0 4 5 5.403
20 6.0 17.377 -1 4 .4 1 9 1.106
21 4.3 12.705 - 9.238 10.160
22 3.8 11.590 -1 1 .2 1 8 5.874
23 4.2 18.322 -2 0 .4 2 0 4.738
24 6.0 17.817 -1 8 .2 1 4 4.738
25 4 .6 14.177 -1 2 .5 0 7 2.259
26 4.0 14.877 12.679 0 .0 00

Были выбраны следующие начальные значения для параме­


тров /?{0) = р {20) = Рз0) = 0.33 и р [0) = 0.000. Значениям пара­
метров р г , р 2, р 3 позволялось меняться от 0 до + о о , а р 4 — от — оо
до + о о . Заметим, что ограничение р г > 0 для i = 1, 2, 3 задава­
лось с помощью значения нижней границы /?г.
Частные производные функции У по параметрам будут такие:

5У . = Х , 1— 1, 2, 3; -¡£- = 1.
др1 ~ ’ ’ ’ Зр4

Единственное оставшееся ограничение можно записать в форме


сх = р г р2 р 3 — 1 = 0 , а его частные производные имеют
вид
4^=1,
дрс ¿=1,2,3; ^Ф*- = 0.
Упражнения 21?

Все эти выражения были переданы программе ВМОРЗИ в виде


подпрограмм на Фортране.
Оценки с допусками, равными асимптотическому стандартному
отклонению, приведены ниже.

П арам етр Оценка ± А 5 Е

Р| 0 .6 6 0 9 ± 0.01797
Рг 0 .3 3 9 1 ± 0.01797
Рз 0 .0 0 0 0 ± 0.0 00 0 0
Р* -0 .1 4 7 9 + 0 .4 36 0 0

Остаточный средний квадрат равен 4.817. Заметим, что Х 3 яв­


ляется незначимым предиктором У при заданных и Х 2.

Упраж нения
Замечание.Набор данных А — это д а н н ы е из примера 1.4.1, табл. 1.4.1 и 1.4.2.
Набор данных В — это д а н н ы е из пр им ера 1 .4 .2 , табл. 1.4.3 и 1.4.4.

Раздел 3.1
3.1.1 (набор данных В ). П ост р ой те диаграмму рассеяния для перемен*
ных У — систолическое д а в л е н и е (1962) и X — систолическое давление (1950).
Убедитесь, чсто линейная зависимость является разумной аппроксимацией.
Оцените средние, д и с п е р с и и , ковар и ац и и и коэффициент корреляции между
У и X.
3 .1 .2 (набор данны х В ) . Д л я дан н ы х из уп р . 3.2.1 проверьте гипотезу неза­
висимости X к У и вы числите 95 % -ны й доверительный интервал для коэффи­
циента корреляции.
3 .1 .3 (набор данны х В ) , а) В ы п олни те уп р . 3 .1 .1 , используя вместо вели­
чины систолического д а в л е н и я величины диастолического давления ф Р ) .
b) Вычислите оценку л и н и и р егр есси и К по X и нанесите ее на диаграмму
рассеяния.
c) Вычислите 95 % -н ы й д овер ительны й интервал для среднего значения Б Р
(1962) у тех ин диви дуум ов, д л я которы х значение Б Р в 1950 г. составляло 75.
с!) Вычислите 90 % -н ы й интервал о ц е н к и О Р (1962) для тех индивидуумов,
у которых ОР (1950) с о ст а в л я л о 80.
е) Проведите п р и бл и ж ен н ы е гр ан и ц ы 95 % -ной доверительной полосы для
линии, полученной в п. Ь ) .

Раздел 3.2
3.2.1 (набор данны х А ) . а) И с п о л ь зу я данные первичного обследования для
всех больны х, оцените м н ож еств ен н ую л и н е й н у ю регрессию У по Х 1г Х г и Х 3,
где У = Р У 1, Хх = И а , Х 2 = Н ёЬ , Х а = Н сЬ
Ь) Проверьте ги п о т езу о том, что У не зависит от Х 1: Х 2 и Х 3.
3.2.2 (набор данны х А ) . Д л я данных и з уп р . 3.2.1: а) получите 95 %-ные д о ­
верительные интервалы о т д е л ь н о д л я , р2 и Рз-
b) получите 95 % -ны е довер и тел ьн ы е интервалы одновременно для {$1 ,
Рг и Рз!
c) сравните п. а) и Ь ).
218 Гл. 3. Регрессионный и корреляционный анализы

3.2.3 (набор данных; А). Для данных из упр. 3.2.1: а) вычислите 95 %-ный
доверительный интервал для среднего значения У при Х1 = 21, Х 2 = 12, Х3 =
= 32;
b) вычислите 90 % ный интервал для оценки величины Г при тех же самых
значениях -X; = 1 , 2 , 3, что и в п. а);
c) сравните п. а) и Ь).
3.2.4 (набор данных А). Для данных из упр. 3.2.1: а) оцените множествен­
ный коэффициент корреляции между У и Х 2, Х 3\
b) о ц е н и те м н ож ествен н ы й коэф ф иц иент к о р р ел яц и и м еж ду V и Х^,
c) проверьте, улучшает ли предсказание У добавление Х 2 и Х 3 к Х± как
независимых переменных.
3.2.5 (набор данных А). Для данных из упр. 3.2.1: а) оцените частный коэф­
фициент корреляции между У и каждой из переменных X, при фиксированных
двух других переменных, £ = 1 , 2 , 3;
Ь) вычислите совместный 95 %-ный доверительный интервал для трех част­
ных коэффициентов корреляции, оцененных в п. а). [ У к а з а н и е : используйте ин­
тервалы, вычисленные в упр. 3.2.2 (Ь), и соотношение, приведенное в замеча­
нии 3.2.5.3. ]
Р азд ел 3 .3

3.3.1 (набор данных А), а) Используя данные первичного обследования для


всех больных, проведите пошаговую регрессию для переменных У = С1, Х г =
= БР, Х2 = МАР и X, = ОР.
b) Получите результирующую таблицу и примените ее для выбора наилуч­
шего набора предикторов, согласно чегырем правилам остановки из разд. 3.3.2.
Уровень значимости а примите равным 0.15.
c) Объясните полученные результаты.

Р аздел 3.4
3.4.1 (набор данных А), а) Используя данные первичного обследования для
всех больных, постройте диаграмму рассеяния на плоскости У = С1 и X = АТ.
Получите оценку линии регрессии для двух моделей
1) + Р Л + + е ., £= 1 ...........п,

2) уI = 0! + 02е°Л -|- в[, I = 1........ п.


b)
Постройте графики этих линий. Какая из них лучше подходит для
подгонки данных? (Решите на основе визуального анализа,)
c) Ответьте на вопрос п. Ь), основываясь на среднем квадрате ошибки для
моделей ( 1 ) и (2 ).
&) О тветьте на вопрос п. Ь), используя замечание 3.4.1.3.
е) Каков ваш окончательный ответ на вопрос п. Ь).
3.4.2 (набор данных А). Используя данные первичною обследования для
всех больных, возьмите переменные У = С1, Х ^ — АТ, Х 2 — МСТ. Рассмотрите
модель
Ус - 0 ! + е 2Л * 1 г + В / Л , ¿ = 1 ................ /г.

a) Используя программу нелинейной регрессии, получите оценку пара­


метров уравнения регрессии.
b ) Проверьте нулевую гипотезу 0! = 0.
c) Вычислите приближенный доверительный интервал для 05. [У к а з а н и е .
В большинстве программ решающим является выбор начальных значений. Чита­
тель может сначала построить графики У в зависимости от Хх и У в зависимости
от Х 2 и аппроксимировать каждую функцию в отдельности. Полученные значе­
ния можно использовать при определении начальных значений.]
Упражнения 219

Д ругие н аборы данны х


Раздел 3.1
Было проведено сравнительное изучение двух методик, часто используемых
физиотерапевтами для оценки развития ребенка. Два важных параметра — хро­
нологический возраст (СА) (в месяцах) и задержка умственного развития (MDL)
(в месяцах) — были измерены с помощью обеих упомянутых методик Bayley
и Gesell (см. вспомогательную таблицу). Для каждой методики проводился кор­
реляционный и регрессионный анализ данных для двух параметров — хроноло­
гического возраста и задержки умственного развития (в мес.). Кроме того, про­
верялась коррелированность обоих методик (детали см. Eipper, Azen, (1978)).
a) Оцените регрессию MDL по СА для каждой методики. Для какой мето­
дики подгонка дает лучший результат?
b) С помощью i-критерия проверьте равенство наклонов линий регрессии
для обеих методик, т. е. равенство коэффициентов ßx и ß2 [Указание: величина
t = (¿>i — b2)/[se2 (6 j) + se2 (6 2) ] 1/2 имеет /-распределение с /гх -J- лг2 — 4 степе­
нями свободы, если и Ь2 независимы при Н0.]
c) Проверьте степень коррелированное™ между двумя методиками.
Набор данных

Испытуемый СА (Bayley) MDL(Bayley) CA(Gesell) MDLfGeseH,)

1 8.4 2.4 8.7 0.4


2 12.4 2.4 12.1 2.4
3 12.4 4.4 12.7 1.7
4 14.0 4.5 13.8 5.0
5 14.2 4.7 13.9 4.7
6 16.2 9.2 16.4 7.4
7 16.2 6.2 16.4 2.4
$ 16.3 3.3 16.5 1.5
9 16.8 6.8 17.0 6.0
10 17.0 5.0 16.7 3.7

Разделы 3 .1 — 3.3
Используя набор данных для задачи мембранного переноса (пример 3.4.3),
ответьте на следующие вопросы.
1) Применив программу линейной регрессии, оцените в отдельности регрес­
сию зависимой переменной по каждой из трех независимых переменных и сде­
лайте выводы по каждому анализу так, как указано ниже. Обязательно получите
графические результаты, включая графики остатков и законы распределения.
a) Каковы уравнения наименьших квадратов?
b) Как точны оценки коэффициента регрессии?
Ответ на это дайте в терминах стандартной ошибки коэффициента регрессии,
коэффициента вариации и 95 %-ного доверительного интервала для истин­
ного коэффициента регрессии. [Указание: коэффициент вариации равен
умноженному на 1 0 0 отношению стандартного отклонения оценки к величине
оценки.]
c) Каково качество подгонки? Ответ дайте с использованием коэффициента
множественной корреляции и графиков.
(1) Является ли независимая переменная значимым предиктором для зави­
симой переменной? Если нет, что является наилучшей оценкой для значений
независимой геременной?
220 Гл. 3. Регрессионный и корреляционный анализы

е) В к а к о й м е р е в ы п о л н я ю т с я п р е д п о л о ж е н и я р е г р е с с и о н н о й м о д е л и —
р авен ство д и сп ер си й и н орм альн ость ош и бок? Н еоб хо д и м о л и и сп ол ьзован и е
п р еобр азован и й д л я у л у ч ш ен и я со гл аси я с м оделью ?
Г) К а к а я и з н е з а в и с и м ы х п е р е м е н н ы х я в л я е т с я н а и л у ч ш и м , в т о р ы м п о к а ­
ч е ст в у и сам ы м плохи м п р ед и к то р о м ? П о ч ем у?
2) П р и м ен и в п р огр ам м у м нож ественной линейной р егр есси и , п ол учи те
р егр есси ю зав и си м о й п ерем ен н ой п о всем тр ем н езав и си м ы м перем ен н ы м .
a) В ы п и ш и т е у р а в н е н и я н а и м е н ь ш и х к в а д р а т о в .
b ) Н а с к о л ь к о то ч н ы о ц ен ки коэф ф иц иентов р егр есси и ?
c) К а к о в о к а ч е с тв о п од гон к и ?
с!) Я в л я ю т с я л и в се т р и н е з а в и с и м ы е п е р е м е н н ы е в с о в о к у п н о с т и з н а ч и м ы м
п р ед и к тором д л я зави си м ой п ерем енной ?
е) Я в л я е т с я л и к а ж д а я и з н е з а в и с и м ы х п е р е м е н н ы х зн ач и м ы м п р е д и к т о р о м
д л я У при ф и кси р ован н ы х о стал ьн ы х д в у х незави сим ы х п ер ем ен н ы х?
0 О б суд и те п р и ем л ем ость п р едп ол ож ен и й л и н ей н ой р егр есси о н н о й м одели .
3) В о с п о л ь з о в а в ш и с ь п р о гр ам м о й п о ш а го в о й р е гр е с с и и , п р о в е д и т е п о ш а ­
го в ую р егр есси ю с прим енени ем ч еты р ех п р ави л о стан о вк и . О д и н ак овы л и « наи­
лучш ие» у р а в н е н и я во в с е х ч еты р ех сл у ч а я х ? С р авн и те эта р е зул ь та ты с и сти н ­
ным н аи л уч ш и м ур авн ен и ем .

Р а з д е л 3 .4

И с п о л ь з у я н а б о р д а н н ы х и з п р и м е р а 3.4.2 п р и [Н] = 0.8х Ю“9 с о в м е с т н о


с н а б о р а м и д а н н ы х д л я д в у х д о б а в о ч н ы х к о н ц е н т р а ц и й [Н ] , о т в е т ь т е н а с л е д у ю ­
щ ие вопросы .
О

[ н ] = 1.7 [ Н ] = 4 х 10" 9 И
X

Ш (г) г К Н (*) !

0.000 0.0 0.000 0.0


0.035 0.5 0.080 0.5
0.060 1.0 0.135 1.0
0.080 1.5 0.180 1.5
0.095 2 .0 0 .2 30 2.0
0.115 2 .5 0.255 2.5
0 .1 30 3.0 0.280 3.0
0.140 3.5 0.305 3.5
0 .155 4.0 0.325 4.0
0 .1 65 4.5 0.340 4.5
0.175 5.0 0.360 5.0
0.185 5.5 0.370 5.5
0 .1 90 6.0 0.385 6.0
0.2 00 6.5
0.205 7.0
0 .2 10 7 .5
0 .2 20 8.0 -

1) О п р е д е л и т е д л я к а ж д о й к о н ц е н т р а ц и и [Н ] н а ч а л ь н ы е з н а ч е н и я А и В.
[ У к а з а н и е : п о л о ж и т е 1— у о о и / = 1 / В . ]
2) Л и н е а р и з у й т е ф у н к ц и ю Ц А , В ) = А ( 1 — е~
В{) в окрестн ости н ачал ь­
ны х значени й А 0 и В 0.
3) П р и м е н и в п р о гр а м м у н е л и н ей н о й р е г р е с с и и , н а й д и те о ц ен к и д л я А и В
д л я к аж д ой кон ц ен трац и и [ Н ] . О тветьте н а сл ед ую щ и е воп р осы отн оси тел ьн о
к а ж д о го из п о л уч ен н ы х ур авн ен и й р егр есси и .
Упражнения 221

a) К а к о в а т о ч н о с т ь п о л у ч е н н ы х о ц е н о к ?
b) К а к о в о к ач ество п о д го н к и ?
c) Н а с к о л ь к о п р и е м л е м ы п р е д п о л о ж е н и я м о д е л и : г о м о с к е д а с т и ч н о с т ь , н о р ­
м альность и т. д.
4) П р о в е р ь т е г и п о т е з у о т о м , ч т о д л я р а з л и ч н ы х к о н ц е н т р а ц и й в е л и ч и н ы А
и В значи м о о тл и ч н ы .
5) О ц е н и т е и /г2 д л я к а ж д о й и з к о н ц е н т р а ц и й .

Разд елы 3 .2 и 3 .4

З ави си м ость н о р а д р е н а л и н а (У ) от у р о в н я н атр и я (X ), ввод и м ого с пи щ ей ,


к а к это сл е д у е т из г р а ф и ч е с к о г о п р ед ста в л ен и я д а н н ы х , я в л я е тся л и б о п ол и н о­
м иал ьн ой , л и б о э к сп о н е н ц и а л ь н о й . Д л я вр ач ей п р ед ставляет и н тер ес, опред е­
ли ть с пом ощ ью « н аи л у ч ш ей п о д го н к и » , п о п ад ает ли данны й паци ен т в н у т р ь гр а ­
н и ц 95 % -н о й д о в е р и т е л ь н о й п о л о с ы .
a) П о с т р о й т е д и а г р а м м у р а с с е я н и я д л я д а н н ы х , п р и в е д е н н ы х в т а б л и ц е .
b ) П рим ените п р о г р а м м у м н о ж е ств е н н о й р егр есси и д л я о ц ен к и п о л и н о ­
м и а л ь н о й к р и в о й . В ы ч и с л и т е п р и б л и ж е н н у ю 9 5 % -н у ю п о л о с у .
c) П р и м е н и в п р о г р а м м у н е л и н е й н о й р егр есси и , п ол учи те о ц е н к у эк сп о ­
ненты . И сп о л ь зу й те о с т а т о ч н у ю су м м у к в а д р а то в д л я п р и б л и ж ен н о го о п р е д е л е ­
ния стан дар тн ой ош и бки о ц е н к и . В ы ч и сл и те и н а р и суй те 95 % -н у ю д о в е р и т е л ь ­
н ую полосу вдоль к р и во й .
<1) О п р е д е л и т е , к а к о е и з у р а в н е н и й о б е с п е ч и в а е т л у ч ш у ю п о д г о н к у .

Уровень Уровень
НораЬреналин 'И о р а ' д р е и а л и н
натрия натрия

2.0 3 1 .6 6 103.0 5.58


10.0 19.20 122.0 1 5 .2 1
5.0 45.03 136.0 7.58
6.0 13.30 80.0 9 .7 7
20.0 23.44 196.0 13.60
3.0 20 .61 196.0 10.01
14.0 18.46 224.0 3.68
21.0 1 1.9 8 245.0 7.03
97.0 13.90 17 1.0 1 4 .12
86.0 14.00 2 57.0 7.30
56.0 14 .6 ! 157.0 10.32
127.0 15.2 6

Р а з д е л 3 .4

Н елиней ная р е гр е сс и я и сп о л ь з у е т ся в ф арм оки н ети ке п ри определен и и


зави си м ости к о н ц ен тр а ц и и л е к а р с т в а о т вр ем ен и . Ч а сто д л я это го и сп о л ьзу е тся
д в у х ком п он ен тн ая м о д е л ь , о тр а ж а ю щ а я ск ор о сть р азруш ен и я к а к ф ун к ц и ю
врем ени. Такая двухк о м гго н ен тн ая м одель дается уравнением у =
-(- с ^ е “ 2*. И с п о л ь з у я п р о г р а м м у н е л и н е й н о й р е г р е с с и и и д а н н ы е из таблицы ,
ответьте ка сл ед ую щ и е в о п р о с ы .
1) К а к о в ы н а ч а л ь н ы е з н а ч е н и я п а р а м е т р о в ?
2) Ч е м у р а в н ы о ц е н к и п а р а м е т р о в и с т а н д а р т н ы х ош и бок?
3) К а к о в о к а ч е ств о п о д г о н к и ?

В рем я 0 .1 0 0 .2 5 0 .5 0 1 .0 0 1 .5 0 2 .0 0 4 .0 0 8 .0 0 1 2 .0 0 2 4 .0 0 4 8 .0 0

Н аблю даем ая 1 8 .7 1 6 .9 1 4 .5 1 1 .1 8 .9 7 .5 5 .2 3 .6 2 .6 1 .0 0 .2
концентраци я
4
Д и сп ер си он н ы й ан али з

В разд. 2.4 дисперсионный анализ (сокращенно ANOVA) р ас­


сматривался как аппарат для сравнения k средних из k подпопуля-
ций или слоев, k ^ 2 . Можно считать, что слои или подпопуляции
определяются различивши уровнями величины, положенной
в основу классификации. Эту величину обычно называют ф а к т о ­
ром . Общая задача дисперсионного анализа включает несколько
факторов, каждый из которых имеет не менее двух уровней.
В основе каждой задачи лежит план эксперим ент а , т. е. правило
соотнесения каждого эксперимента с определенной комбинацией
рассматриваемых факторов, и модель дисперсионного анализа,
т. е. математическое соотношение, представляющее каждую пере­
менную в виде суммы среднего значения и ошибки. В свою оче­
редь среднее значение каждого наблюдения представляется в виде
суммы генерального среднего и «эффекта» ог каждого фактора
и каждой комбинации факторов. Возникающие здесь статисти­
ческие задачи связаны с оценкой этих эффектов и проверкой
статистических гипотез о них.
Дисперсионный анализ впервые возник в работах Фишера
(Fisher (1918, 1925, 1935)). Подробный исторический обзор см.
у Sheffe (1956). Метод, разработанный Фишером, был позднее
переформулирован в терминах общей линейной модели. В разд. 4.1
мы обсудим эту изящную теорию, представляющую собой совре­
менный подход к дисперсионному анализу. Кроме того, будет
показано, что оценки и проверка гипотез в простой и множествен­
ной линейной регрессии могут рассматриваться как приложения
этой теории. Читатель, которого интересует только задача дис­
персионного анализа, может ограничиться чтением сводки ре­
зультатов в конце этого раздела и затем сразу перейти
к разд. 4.2.
В разд. 4.2 и 4.3 мы отойдем от нашего используемого до сих
пор приема изложения, при котором вычислительные и теорети­
ческие вопросы тесно переплетались. Вместо этого обсудим раз­
личные экспериментальные планы, теоретические модели и при-
4.1. Основы теории общей линейной модели 223

ложения. Начиная с разд. 4.4, снова вернемся к рассмотрению


вычислительной стороны дела и покажем, каким образом исполь­
зовать различные ПСП для решения задач дисперсионного ана­
лиза. Читатель, владеющий необходимым теоретическим аппара­
том, может при ж елании начать ср а зу с разд. 4.4.
В разд. 4.2—4.3 б у д у т разобраны несколько стандартных задач
дисперсионного анализа. Вначале вновь обратимся к однофактор­
ной модели АМОУА, изложенной в разд. 2.4. При выяснении раз­
личия в интерпретации так называемой модели I (ф иксированные
эффекты ) и модели I I (случ а й н ы е эффекты) в разд. 4.3 обсу­
ждаются двухфакторные задачи, возникающие в перекрестных
планах и планах с группировкой 1). Здесь различаются модель I,
модель II и модель с о смешанными эффектами. В обоих разделах
предполагается, что вычисления проводятся при помощи име­
ющихся ПСП.
В разд. 4.4 рассматриваются факторные программы, входящие
во многие ПСП. Мы покажем, как при помощи этих программ
можно анализировахь различные модели — уже рассмотренные
и некоторые новые. В разд. 4.5 будет показано, как использовать
программы множественной линейной регрессии для решения задач
дисперсионного анализа. Раздел 4.6 посвящен однофакторному
ковариационному анали зу. Стоит отметить, что, хотя АЖУУА
предназначен для «планируемых» экспериментов, многие задачи
дисперсионного анализа возникают из «непланируемых» экспе­
риментов: эю особенно характерно для общественных и биологи­
ческих наук. Например, исследователь, собирающий сведения
о размещении постоянных жителей данного города, может инте­
ресоваться влиянием факторов «этническая группа» и «социально-
экономическое положение». В этом случае он формулирует свою
задачу, как зад ач у двухфакторного дисперсионного анализа
(разд. 4.3), н использует стандартные процедуры обработки.
По читатель дол ж ен понимать, что интерпретация результатов
зависит от того, с чем мы имеем дело: с планируемым эксперимен­
том или с обследованием.

4.1. Основы те о р и и общ ей линейной модели

В этом разделе по сравнению с остальными большее внимание


уделяется теоретическим аспектам. Читатель, которого интересует
только техника дисперсионного анализа, может ограничиться
чтением выводов и перейти к следующим разделам.

*) В оригинале n e s t e d (гн ездован н ы е). — П р и м . перев.


224 Гл. 4. Дисперсионный анализ

Пусть мы располагаем п наблюдениями у и ..., у п — реализа­


циями п случайных величин У г ....... Т п. Предположим, что сред­
нее значение каждой величины У г линейно зависит от р неизве­
стных параметров 61} 0р, так что
Е (Г,) = 01% + . . . + дрхр1, I = 1.......... п, (4.1.1)

где Хх1, хр1 — известные постоянные. В эгом случае каждое


наблюдаемое значение г/г можно записать в виде суммы
у 1= д х Х и “Ь 6Р Х Р1 еь (4.1.2)

где ех, еп — ошибки. Общая линейная модель задается послед­


ними соотношениями при дополнительных предположениях:
Е[е>) = 0, 1/(е,) = а3,
(4.1.3)
СОУ (в/, е,) = 0 , г, / = 1 .......... п, I ф /.

Другими словами, ошибки считаются некоррелированными, име­


ющими н улевое среднее и одинаковую дисперсию а 2.
Мы у ж е рассматривали эту модель (в других обозначениях)
в разд. 3 .2 . при обсуждении множественной линейной регрессии.
В самом д е л е , если положить х1г = 1 и по-другому занумеровать
константы и параметры, то соотношение (4.1.2) примет вид модели
множественной линейной регрессии:
*/( — 9 о ^1хи Н- ■■■ ®яхд1 <? — Р — 1■
В настоящем разделе мы хотим найти процедуры точечной
оценки д л я параметров Эх, ..., 0р и описать методы получения
доверительных интервалов и проверки гипотез относительно этих
параметров. Точечные оценки можно получить без всяких допол­
нительных предположений, но для получения доверительных
интервалов и для проверки гипотез нам придется предположить,
что ош ибки е1 распределены нормально.

Пример 4.1.1. Для того чтобы из равенства].4 . 1.2 получить


модель простой линейной регрессии (3.1.2), положим 0! = (30,
02 = Рь Хх1 = 1, Хц = XI. Тогда У1 = Р 0 + Рл- + е{, г =

Пример 4 .1 .2 . Пусть есть две выборки: выборка г1ь ..., г1Л1


из популяции с распределением N (ц,2, а2) и выборка г21, ..., г2„2
из популяции N (ц2, а2). Положим у х = г1Ь ..., у „ х = у п,+1 =
— г21, •••. Уп = 22л , , Где п = Пх + П2 . Тогда
На “Ь еа 1— 1> • ••> п1<
У=
Р 2 Н- е1> £= > п,
Н- 1> • • ■
4 .1 . Основы теории общей линейной модели 225

где ег распределено по закону N (0, а2). Последним равенствам


можно придать вид (4.1.2), т. е.
уI = ПуХц-|- \12х21-\-е-и 1 = 1 , • ••, п,
где
| 1, 1 = 1 , . . я1, _| °, *= 1............ п 1,
— 1 О, I = пх + 1, . . ., п И Л"2’ 1 1, / = + 1............ п.
Это однофакторная модель дисперсионного анализа с к 2
подпуляциями, называемая еще задачей о двух вы борках
(разд. 2.3.2).
Может показаться, что мы усложняем простую ситуацию. Но
в дальнейшем будут видны преимущества формулировки таких
задач в терминах общей линейной модели.

4.1.1. Точечные оценки


Обычно оценки параметров 0Ь ..., 0,, получаются методом н а и ­
меньш их квадрат ов (МНК-оценки). Оценки наименьших квадра­
тов определяются как значения 0Ь ..., 0Р параметров 0Ь ..., 0,,,
минимизирующие сумму квадратов
П

5 = Ц (У1 — 0 А / ---- — %хр1)2 (4.1.4)


1=1
по всем наборам 01, ..., 0Р. Значения 0Ь ..., 0,; линейно зависят
от наблюдений. Сама точка минимума может либо определяться
однозначно (как в случае множественной линейной регрессии),
либо таких точек оказывается бесконечно много. Подобная не­
однозначность может возникнуть в ситуации дисперсионного
анализа. Для получения единственного решения обычно налагают
дополнит ельные условия на параметры и их оценки. Мы тоже при
необходимости будем вводить подобные условия.
В этом разделе будем считать, что либо сразу, либо после на­
ложения нужных условий получен единственный набор МНК-оце-
нок 0Ь ..., 0р. Тогда оценка наименьших квадратов для любой
линейной функции параметров является той же самой линейной
функцией от МНК-оценок самих параметров. Значит,

£ Ф = £ , СД , (4.1.5)
¿=1 1=1
где с1 — известные постоянные, I = 1, р . Поскольку 0г- ли-
р
нейно зависит о т у 19 у 1П то и 5] линейно зависит от наблю-
¿=1
дений у . Важность метода наименьших квадратов состоит в том,
8 А. Афифи, С. Эйзен
226 Гл. 4. Дисперсионный анализ

что МНК-оценки являются несмещенными оценками, линейно


зависящими от наблюдений. Это и есть содержание теоремы
Гаусса — Маркова.
Теорема Г аусса — М а р к о в а 1). Для общей линейной модели
р р
(4.1.2) с условиями (4.1.3) МНК-оценка 2 сг-0г величины
¿=1 1=1
(здесь 0г — единственные МНК-оценки для 0г, а с — постоянные)
является несмещенной и обладает наименьшей дисперсией среди
р
всех несмещенных оценок суммы 2 сД-, линейных по у и ..., у а.
1=1
Кроме оценок параметров 0Х, ..., 0р, нам понадобится оценка
для дисперсии ошибок а 2. Обычно для этого используют оценку,
называемую средним остаточным квадрат ом (или средним к в а ­
драт ом ошибки)'.
М ЗЕ = в2= (4.1.6

где остат очная сум м а квадрат ов {сумма квадрат ов ошибок)


имеет вид

= Ц (уI - в гхи — _ врхр,)г, (4.1.7)


1=1

а vR — остаточное число степеней свободы. Это величина, способ


вычисления которой мы будем указывать во всех рассматриваемых
случаях (см. замечание 4.1.1.2), выбирается так, чтобы оценка
оказалась несмещенной. Величины ЭБд, и МЭд фигурируют
в т абли цах А Ы О У А , таких, как табл. 2.4.1, 3.1.1 и 3.2.1 соответ­
ственно для задач однофакторного дисперсионного анализа, про­
стой линейной регрессии или множественной линейной регрессии.
Заметим, что остаточная сумма квадратов 33к показывает, на­
сколько хорошо построенная модель согласуется с данными: чем
меньше тем лучше согласие.

Замечания 4 .1 .1 . ★ 1. Общая линейная модель просто записы­


вается в матричных обозначениях. Пусть

= («/!. у„У, 6рх1 = (0!, . . ., 0р)', е»х1 = (е1, . . ., еп)',

41 Xр 1
(Х')ихР =
Чл

х) Это наиболее общая форма теоремы в предположении единственности


оценок. Д альнейш ее обобщение можно найти у БЬеГК (1959).
4.1. О сн овы теории общ ей линейной модели 227

В этих обозначениях равенства (4.1.2) и (4.1.3) соответственно


принимают вид
у = Х '0 + е,
Z?(e) = 0 и cov (е) = сгЧ,
где 0 — нулевой вектор, а I — единичная матрица. Сумма ква­
дратов, которую н уж н о минимизировать, теперь представляется
в виде
S = (у - X' 0)' (у — Х'0),
а оценки наименьших квадратов оказываются решениями уравне­
ний (называемых н о р м а л ьн ы м и у равнениями)'.
(XX') 0 = Ху.
Если ранг К' равен р , то матрица XX' невырожденная и имеется
единственное реш ение нормальных уравнений
0 = (X X ')-1 (Ху).
Эго так называемый случай п о л н о го р а н га . Ковариационная ма­
трица для 9 равна
cov (0) = о 2 (Х Х 'У 1.
Если же ранг X' = г то оценки неединственны (случай
неполного ранга).
2. Остаточное ч и сло степеней свободы vR равно п — г, где
г = rank X'. Поэтому
N\Sr = ( У - * ; е ) ' ( у — Х'ё)
к i n — Г)
Пример 4.1.1 (п родол ж ен и е). МНК-оценки для р0 и рх
получаются минимизацией величины

S = £ {у, — Ро — Р л )2
i=i
по р0 и Pj. Эти оценки однозначно задаются равенствами (см.
(3.1.5) и (3.1.6))
П
£ (*/ — х)"У1

К = у — М и = -------------------------.
£ (xi - *)2
i=i
Несмещенной оценкой для дисперсии ст2 служит

s2 == £ (У1 - Р о — PiXi)2/(n — 2),


t= l
228 Гл. 4. Дисперсионный анализ

так как в данном случае vR = п — 2. Применяя теорему Г а у с с а -


Маркова, получим, что МНК-оденкой для ро + 2j3x будет

Ро + 2(5Х= Ро + 2fj.

Эта оц ен к а обладает наименьшей дисперсией среди всех оценок


для р0 + 2 p it линейно зависящих от у и у п.

Пример 4.1.2 (продолж ение ). МНКоценки для fij и ¡^2


получаются при минимизации величины
п пх п
s = £ { у i — м- i % — v-2 x 2 i ? = £ (у i — h . • i ) 2 - f £ (y i — í v i) 2
i —1 1=1 >'=/!!+!

по всем и \i2. Эти оценки однозначно задаются равенствами

A
¡=i
i и А г= 2
í^ j+ i
-£-=**•

Остаточная сумма квадратов SSR равна

1£=1 (уí —У1)2 + (уi —у2)


S S R= £
Í=«!-l-l

а vR = % —(- и2 — 2. Стоит отметить, что средний квадрат б2 =


= МБК = 3 3 КЛ>К совпадает с объединенной дисперсией вр, фигу­
рирующей в соотношении (2.3.6).

4 .1.2. Доверительные интервалы


Для получения доверительных интервалов значений параметров
или функций от параметров нам понадобится предположение
о виде функций распределения ошибок. Обычно предполагают, что
они распределены нормально. И мы в этой главе будем считать,
что
еу, . . ., еп независимы и распределены по N (0, а2). (4.1.8)

В этих предположениях можно показать, что 100 (1 — а)%-


ный довери т ельн ы й инт ерваг для любой линейной комбинации
р
параметров г|) = £ с Д есть
1=1

í ± ¿1 - (сх/2) (Vr) ]/" У ($) , (4.1.9)


4 .1 . Основы теории общей линейной модели 229

Р , --- - „
где \|з = 2 ] сгв;> а ^(4‘) — оценка дисперсии 1р. Поскольку оценка
¿=1
г); линейно зависит от наблюдений, то ее можно записать в виде
П
с известными постоянными аг-. Отсюда имеем
1=1
У (ф) = а2 £ я?, (4.1.10)
1=1

^ ) = 52 £ а ? . (4.1.11)
£=1

где в2 — несмещенная оценка дисперсии о 2 с vR степенями сво­


боды.
Чтобы построить 100 (1 — а) %-ные доверительные интер­
валы для нескольких линейных комбинаций параметров, можно
применить формулу (4.1.9) к каждой из них. Однако общая до­
верительная вероятность уже не будет равна 1 — а . Напомним,
что решение этой задачи путем построения совместных довери­
тельных интервалов для однофакторного дисперсионного анализа
было описано в разд. 2.4. Методы построения совместных довери­
тельных интервалов существуют и для общей линейной модели.
Мы не будем рассматривать их в этой книге, но в следующем за­
мечании сформулируем только принцип, лежащий в основе этих
методов. Читатель, интересующийся этим вопросом, найдет его
обсуждение у Б сЬ ^ ё (1959, с. 86).

Замечание 4 .1 .2 . ★Пусть = а!0, . . . . ^ = а^0 суть q ли­


нейных функций от параметров 0 = (0!, ..., 0р)' и векторы
ах, ..., а9 линейно независимы. Пусть также , ..., г|)? суть
МНК-оценки для ..., и ь2 — обычная несмещенная оценка
дисперсии а2 с степенями свободы. Если ввести обозначения

^ Х1 = № . • • •- '!’?)' и ^ х1 = 6к, • ••,

то 100 (1 — а) %-ное доверительное множество для г|" задается


неравенством

(г|з — гр)' В 1 (г|з — гр) < ( ^ , V,,),

где
Соу (ф) = а 2В. ★
230 Гл. 4. Дисперсионный анализ

Пример 4.1.1 (продолжение ). Предположим, что еъ . . . , е ,


независимы и распределены по N (0, а2). Пусть гр = 0 - ро +
+ 1 -рг = рх. Оценка для -ф дается равенством

г|)= Рх Ц ЩУц где а, = (х1 — х) (х,- — х )2.


/=1
Отсюда

и (XI X)2
1=1
V (ф)
I] ( Х, - - Х) 2 Ц (х,- —х)2
Ь/=1

Мы вновь получили выражение для оценки дисперсии параметра


Ръ задаваемой формулой (3.1.13).

Пример 4.1.2 (продолжение). Пусть ех, . . . , е п независимы


и распределены по N (0, а2), а ф равно р,] — [х2. Оценкой для яр
служит яр = -2 = У1 — У2. поэтому
М
1/«! при 1 = 1 , . . ., %,
1/я2 при I = пг + 1, . . ., я

[оценкой для V (яр) служит V (яр) = вр ((1 /п г) + (1/л2))]. Отсюда


получим 100 (1 — а) %-ный доверительный интервал для раз­
ности ¡л,1 — }х2 (см. соотношение (2.3.7)):

(у 1— У2) ± ¿1—(а/2) (^1 -|- п2 — 2) --- 1


- —— ^ .

4.1.3. Проверка гипотез


В большинстве задач дисперсионного анализа проверяемую гипо
тезу можно записать в виде # 0: 0^ = 0,- = ... = 0,т = 0, т. е.
как гипотезу о том, что т из р параметров равны нулю. Не теряя
общности, можно считать, что речь идет о последних т. параме­
трах. Итак, запишем нулевую гипотезу: Н 0: ®р_т+1 = ... =
= 0р = 0. Сформулируем критерий отношения правдоподобия
для проверки этой гипотезы. Для этого выпишем усеченную модель

У1 01% + •■•+ бр / = 1, . . ., п. (4.1.12)

Такую форму принимает наша общая лине_йная модель с учетом


гипотезы Н 0. Затем найдем МНК-оценки 0Х, ..., 0р_т для пара-
4.1. Основы т е о р и и общ ей линейной модели 231

метров 0 1 ,..., 0р_т- Остаточная сумма квадратов при принятии


гипотезы На есть
П
ЭБя = 2 Су 1~~ 01-^и' — ... — 0р_т хр_т> (•), (4.1.13)
;=1
а Ук — соответствующее число степеней свободы. Поэтому стати­
стика критерия правдоподобия имеет вид
(Ю р - Э З ^ )/ ( ук - ук)

а Р-значеиие равно площади справа от точки Р под кривой плот­


ности распределения (у 'ц — \>к , \-к). Величина 5ЭН = — 5БК
называется ги пот ет и ческой с у м м о й квадрат ов, а ^ —
гипотетическим чи сл о м ст еп ен ей свободы. [Как и прежде, БЭд —-
остаточная сум м а к в а д р а т о в (сумма квадратов ошибок), а —
остаточное число ст еп ен ей свободы . ] Сумма служит мерой того,
насколько хорошо усеченная модель согласуется с наблюдениями.
Ясно, что э* ББр. Поэтому 8ЭН показывает, насколько хуже
наблюдения аппроксимируются усеченной моделью, а F есть мера
потерь при принятии гипотезы Я 0 по сравнению с согласием
в исходной модели. Ч е м больше Т7, тем хуже усеченная модель.
Следовательно, при больш их значениях Р нужно отклонить ги­
потезу //„.
В таблицах АЫОУА кроме ВБд, л>к и МБК может фигурировать
и статистика критерия называемая Т7-отношением. Мы еще
встретимся с такими таблицами в этой главе.

Замечания 4.1.3. 1. То, что величина 7% задаваемая равен­


ством 4.1.14, подчиняется /'-распределению, вытекает из резуль­
тата, известного как теорема Кокрэна. Приведем ее формули­
ровку.

Теорема К окр эн а . Рассмотрим общую линейную модель, описы­


ваемую соотношением (4.1.2) при условиях (4.1.3) и (4.1.8). Пусть
— суммы квадратов с v i степенями свободы1), ; = 1, ..., ц.
<7
Если величина 5 = 2 *5г распределена как а2х2 (V) и
»=1
... + = V, то
a) суммы 5 г распределены как о2%2 (V;), / = 1, ..., д,
b) все суммы ..., независимы.

х) ★ С у м м у квадратов 5 4- м о ж н о з а п и с а т ь в в и д е у ' А у , г д е у п х 1 — вектор на­


бл ю ден и й , а К п х п — и з в е с т н а я м а т р и ц а . П р и та к о й зап и си ч и сл о степ ен ей св о ­
боды 5 ; о п р ед ел я ет ся к а к р а н г м а т р и ц ы А . ★
232 Гл. 4. Дисперсионный анализ

Из раздела 1.2.8 приложения мы знаем, что если отношение


Б ^ а 2 имеет распределение у,2 (V,), а Б / а 2 — распределение х2 (у/)
и величины 5 г и 5^- независимы, то статистика Р = — ^ — иодчи-
3]/\'у
няется распределению F (л>г, V/).
2. М ожно показать, что сумма ББ^ распределена как о2х2 ^ ) .
А поскольку ББ^ = ББК + 5БН и ^ \>н, то
a) сумма ББК распределена как а2х2 (\’н), а ББН — как ст2%2 (ун),
b) величины ББК и ББН независимы. Поэтому отношение Р =
= имеет распределение (ун, л>к).

Пример 4.1.1 (продолж ение ). Для модели простой линейной


регрессии

Б Б К = 23 ( у с - р0 - Р Л > 2= 2 3 (г/, — У)2 — Р ? 23 — * ) 2-


¿=1 ¿=1 1=1

При выполнении нулевой гипотезы Я 0: рх = О усеченная модель


представляется в виде г/г = |50 е1, так что $0 = у и

ББ'н = 23 (г/,- - Р о )2 = £ (ус ~ У?-


¿=1 ¿=1

Числа степеней свободы суть vR = « — 2 и ^ = л — 1. Поэтому


гипотетическая сумма квадратов запишется в виде

Б Б н = (Б Б к - 5 Б К) = Й £ (** ~ *)
1«=1

Отсюда

р? 21 (*<■- *)7>
■Р= „ 1-1-----------------» где у , = Р0 +
23 ( У 1 - к ) * Ц п - 2)
1=1

Это та ж е самая статистика, которую мы использовали в (3.1.11).

Пример 4 .1 .2 (продолж ение ). В этом случае имеем

Б Б К = 2 : ( У с ~ У х ? + 23 ( У 1 ~ У 2) 2.
¿=1 ¡=л,-)-1
4 .1 . Основы теории общей линейной модели 233

При гипотезе Н 0: ¡.ц = ц2 = jx х) усеченная модель задается


соотношением y t = ц. + et , i = 1, ..., п. Соответствующей оцен-
П
кой для ¡л служит |1 = ÿ = (l/n) S y h так что
/=1
п пг п
SSR = ^ (tji — ÿ f = ^ (ÿi — ÿ \ f -+- ^ {yi — ÇiY 'r
i=1 1=1 £=n,+l

Число степеней свободы vR = + n2 — 2 и vr = % + п., — 1.


Отсюда для гипотетической суммы квадратов получаем
S S h = (S S r — S S r) = ( п \ п 21 ( п \ + n 2) ) { ÿ i — ÿ 2) 2 >

р __ («lW2/(ni + П2)) (Si — ÿ2)2 _ (Ух—В2)2 _ ¿2


4 sp (1/fti + 1/rt2)
где t — двухвыборочная ¿-статистика.
Резюме
В этом разделе мы описали общую линейную модель как еди­
ную теоретическую основу и дисперсионного, и регрессионного
анализов. Все конкретные модели дисперсионного анализа, кото­
рые мы будем далее рассматривать, можно записать в виде линей­
ной модели. Поэтому теорию общей линейной модели можно при­
менить к любой конкретной модели ANOVA. Итак:
1. Метод наименьших квадратов является оптимальным мето­
дом оценивания параметров моделей дисперсионного анализа.
Он приводит к несмещенным оценкам, обладающим наименьшей
дисперсией среди всех несмещенных оценок, линейно зависимых
от наблюдений.
2. В любой модели дисперсионного анализа в таблице ANOVA
приводится обычная несмещенная оценка дисперсии ошибок а2,
задаваемая средним остаточным квадратом MSR. Иногда для этой
величины используют более привычное обозначение s2. Эта оценка
дисперсии используется при построении доверительных интерва-
р
лов (4.1.9) для любой линейной комбинации 2 с Д параметров 0г.
¿=1
Число степеней свободы возникающего при этом ¿-распределения
равно остаточному числу степеней свободы vR.

х) Э т а г и п о т е з а о т л и ч а е т с я о т п р и н я т о й ф о р м ы Н 0 : 0,- = 0 . Н о , с д е л а в з а ­
м ену = Эх, ,и2 = 01 + 02 . п р и в е д е м н а ш у г и п о т е з у к в и д у Н 0 : 02 = 0 .
234 Гл. 4. Дисперсионный анализ

3. Каждая задача проверки гипотез относительно параметров


модели дисперсионного анализа приводит к некоторому /-крите-
рию. Каждая /-статистика есть отношение средних квадратов,
обычно представленных в соответствующей таблице АЬЮУА.

4.2. Одноф акторный дисперсионный анализ

Обсудим теперь простейшую модель дисперсионного анализа —


однофакт орный дисперсионный анализ (называемый еще одно­
факт орным планом или одноф акт орной классификацией ). Мы
вновь возвращаемся к этой модели, уже рассмотренной в разд. 2.4,
чтобы прояснить некоторые понятия дисперсионного анализа.
Напомним, что у нас есть / подпопуляций, которые можно рас­
сматривать как / слоев в исходной популяции. Обозначим средние
значения измеряемой величины по / -й подпопуляции через ¡д.ь
г = 1, ..., /. В этом разделе мы займемся оцениванием средних
по случайным выборкам из этих / подпопуляций, а затем — про­
веркой гипотез относительно средних. Для этого предположим,
что каждая подпопуляция распределена нормально с одной и той
же дисперсией. Итак, у нас есть / нормально распределенных
подпопуляций N (¡яь о2), ..., N (¡Л/, а2). Сформулированные пред­
положения можно записать в виде
Уи = Ич + <?,/, /= 1 ; = 1,...,/, (4.2.1)
где Уи обозначает у'-е наблюдение из ¿-й подпопуляции, а «ошибки»
ец независимы и распределены по N (0, ст2). Соотношения (4.2.1)
представляют собой одну из форм одноф акт орной модели д и с ­
персионного анализа.
Во многих случаях желательно выразить г-е среднее [хг в виде
суммы генерального среднего [я. и дифференциальных (или главны х)
эффектов а,-, определяемых для каждой подпопуляции. Такое раз­
ложение получится, если определить
/

**= т 2 (4-2 -2)


/=1
/
где п = и
г=1
а г = Н'г — Н- (4.2.3)
Теперь мы можем переписать однофакторную модель дисперсион­
ного анализа в виде
Ун = И + «/ + еа< / = 1, . . . ¿1, 1= 1 ( 4 . 2 . 4 )
4.2 . О дноф акторны й дисперсионны й анализ 235

где ошибки вц независимы и распределены по N (0, а2). Именно


такой формой модели мы и будем пользоваться в этой главе.
При интерпретации дисперсионного анализа эта однофактор­
ная модель АЫОУА используется при планировании эксперимента
с одним фактором. Р р убо говоря, ф акт ор А служит основанием
для классификации всей совокупности исследуемых объектов.
Пусть У — случайная величина, определенная на этой популя­
ции, а |х — ее среднее. Пусть популяция разбита на / подпопу-
ляций так, что каждая под популяция соответствует уровню /
фактора А , I = 1, . . . , / . В представлении ¡х; = [х + а,- для сред­
него величины У на ¿-й подпопуляции а г есть дифференциальный
эффект, соответствующий уровню г. На каждом уровне I случайно
выбираются / г- объектов и определяется выборка у п , ..., г/,,-..
Здесь у ц — значение У на/-м объекте, приписанном к ¿-му уровню.
Рассматриваемая модель дисперсионного анализа описывает
именно такую ситуацию в предположении, что распределение У
на каждой подпопуляции нормально с одной и той же дисперсией
сг2. Каждое значение у ц равно сумме генерального среднего ¡х
(единого для всех / уровней фактора), дифференциального эффекта
щ , определяемого уровнем ¿, и случайной ошибки еи . Поясним
все это двумя примерами.
Пример 4.2.1 П ри исследовании эффекта рентгеновского облу­
чения различные крысы получили дозы 0, 100, 200 и 300 рентген.
Тем самым у фактора А — полученной дозы радиоактивности —
определено 4 уровня ( / = 4), соответствующих дозам 0, 100, 200
и 300 рентген. Уровни занумерованы от 1 до 4 в порядке возраста­
ния доз, так что первый уровень соответствует нулю рентген,
а четвертый — 300 рентген. Популяция ¿ состоит из крыс (исследу­
емых объектов), получивших г'-ю дозу. Исследуется случайная
величина У — площадь обожженной кожи у крыс после облуче­
ния. В этом случае — средняя площадь ожога для г-го уровня
радиации, а а г — дифференциальный эффект ¿-го уровня = 1,
2, 3, 4).

Пример 4.2.2. В работе (ЛбяНс а1. (1972) били опубликованы


экспериментальные данные, подтверждающие образование газо­
образного азота в человеческом организме в естественных усло­
виях. Авторы измеряли величину У — количество выдыхаемого
азота (в литрах) в покое и при четырех режимах питания. Каждая
из / = 4 диет (фактор А ) характеризовалась процентным содер­
жанием белков. В эт о м случае — среднее количество выдыха­
емого азота при ¿-й ди ете, а <хг — дифференциальный эффект, т. е.
влияние ¿-й диеты н а количество выдыхаемого азота, ¿ = 1, ..., 4.
В последующем мы проанализируем этот пример различными спо­
собами.
236 Гл. 4. Дисперсионный анализ

В настоящей главе наи встретятся модели факторного анализа,


связанны е с планами, содержащими несколько факторов. К аж ­
дый фактор будет интерпретироваться либо по модели I , либо по
м о д ел и I I . Будем говорить, что (фактор соответствует модели I,
если экспериментатора интересуют подпопуляции, отвечающие
именно данным уровням этого фактора. В частности, при повторе­
нии эксперимента будут рассматриваться случайные выборки
и з тех ж е самых подпопуляций. В примере 4.2.1 радиация —-
фактор, соответствующий модели I, если экспериментатор инте­
ресуется реакцией крыс именно на дозы в .0 ,100, 200 и 300 рентген;
точно так же в примере 4.2.2 диета есть фактор, соответствующий
модели I, если нас интересуют именно эти четыре диеты. И на­
оборот, фактор относится к модели II, если подпопуляции, соот­
ветствующие различным уровням фактора, выбираются случайно
и з большого (бесконечного) числа подпопуляций. Поэтому при
повторении эксперимента скорее всего мы будем иметь дело со
случайными выборками из других подпопуляций. Так, в примере
4.2.1 радиация будет фактором, соответствующим модели II, если
значение дозы облучения, которым подвергаются подопытные
крысы, выбираются случайно.
Р и сун ок 4.2.1 поясняет разницу между моделью I и иоделью II
для фактора с / = 3 уровнями. В случае модели II величина т 1

1-я
п о о л о п у л я ц и я /*
м ( к . б гА / \ у \ / \
У
/ с \\ /
VI« \ «3 / \
/ \ / 1ог2
У V У
1 1 1

МодельI

Модель Л
Р и с . 4 .2 .1 . С равнени е факторов, описываемых м оделью ! и моделью II. Модель I —•
п р ов ер я ется гипотеза Я 0: |ха = (,12 = ц3 = (г или а.г = а2 = а3= 0; значе­
н и я ¡д1; (х2 и Цз выбираются по плану. Модель II — проверяется гипотеза Я 0:
сг^ = 0; т у т г, т з выбираются случайно.
4 .2 . Однофакторный дисперсионный анализ 237

обозначает среднее значение на случайно выбранной подпопуля-


ции, соответствующей ¿-му уровню фактора (г = 1, 2, 3), а о1 —
дисперсию популяции средних, отвечающих разным значениям
фактора. В двух следующих разделах мы поочередно обсудим
обе модели, а рис. 4.2.1 призван пояснить это обсуждение.
Раздел 4.2.1 посвящен случаю, когда А — фактор, соответ­
ствующий модели I. Такая модель называется еще однофакторной
моделью дисперсионного анализа с фиксированными эффектами
(а фактор — фиксированным фактором). Затем в разд. 4.2.2 рас­
сматривается ситуация, когда А — фактор, соответствующий мо­
дели II. Эта модель называется еще однофакторной моделью дис­
персионного анализа со случайными эффектами (а фактор —
случайны м фактором).

4 .2.1. Модель с фиксированными эффектами


М одель одноф акт орного дисперсионного анализа с фиксированными
эффектами (модель I) задается соотношением (4.2.1) или (4.2.4)
Из второго описания понятно, почему для характеристики модели
используется термин «фиксированные эффекты». В этом пред­
ставлении каждое наблюдаемое значение складывается из гене­
рального среднего |х и дифференциального «эффекта» а г, фиксиро­
ванного в том смысле, что подпопуляция со средним ¡г + а г за ­
фиксирована экспериментатором. Любое из соотношений, зада­
ющих модель, можно привести к виду общей линейной модели
(4.1.1). Поэтому для построения оценок параметров и проверки
гипотез относительно этих параметров можно воспользоваться
теорией, изложенной в разд. 4.1. Из представления модели в виде
(4.2.1) можно вывести МНК-оценки |хг для [хг, £ = 1, ..., I . Из
них вытекают МНК-оценки величин ^ и а г, входящих в соотно-
I
шение (4.2.4): |х = (11п) 2] ЛАг и аг = — £, 1 = 1, •••, /•
¿=1
Таким образом, мы получаем МНК-оценки £ и а г для пара­
метров (1 и а г модели (4.2.4). Соответственно, МНК-оценкой для
средних [хг- в модели (4.2.1) служит ¡хг = (х + а г, I = 1, ..., I.
Отсюда видно, что оценки наименьших квадратов для параметров
одной модели выражаются через оценки параметров другой.
Поскольку таблицы для обеих форм модели однофакторного ана­
лиза совпадают, то совпадают и оценки для дисперсии о 2 так же,
как и критерии для проверки гипотезы Н 0: ¡хх = ... = ¡х/ = [х
в модели (4.2.1) или # 0: а , = ... = а , = 0 в модели (4.2.4). Еще
раз отметим, что эти гипотезы эквивалентны, так что можно рабо­
тать с любым видом модели. Мы предпочтем (4.2.4).
Для того чтобы обеспечить единственность оценок наимень­
ших квадратов, нам придется наложить дополнительное ограни­
238 Гл. 4. Дисперсионный анализ

чение на параметры а 1( ..., а 7. Обычное требование состоит в том,


чтобы взвешенная сумма эффектов равнялась нулю:
1
И / / а , = 0. (4 .2 .5 )
¿=1
Таким образом, задача сводится к минимизации суммы квадратов
Г/ •Г1
5 = 1! И (.Ун — — «О2 ( 4 .2 .6 )
/=1 /=1
по переменным [х и а г, I = 1 подчиненным условию (4. 2. 5).
МНК-оценки находятся однозначно в виде
I 'Г1
А= у-= т
и X X У‘1' (4-2-7)
1=1 /=1
у..

= VI. ~ У.. = 7- 2 ^ ' / ~ &•- *= - 7- (4-2 -8)


/=1
Обычная несмещенная оценка дисперсии о 2 имеет вид
I ■г1
МБК ее я2 = £ £ [уЦ - у (.уЦ п - I). (4.2.9)
(=1 /=1
Типичная программа однофакторного дисперсионного анализа
печатает МНК-оценки £ г и ¿х. По ним пользователь может найти
оценки эффектов а г:
«г = Аг — А- (4.2.10)
Кроме того, программа вычисляет и печатает таблицу, аналогич­
ную табл. 4.2.1. В ней обычно приводятся сум м а квадрат ов (ББ),
Таблица 4.2.1
Т а б л и ц а одн оф ак торн ого ди сп ер си о н н ого ан ал и за

Источник Степени Средний


дисперсии Сумма квадратов свободы квадрат ^-отношение

М ежду I сс
уровнями БЭв = У] - У - )2 ув = / - 1 МЭВ = ^ Р = ^
(группами) ¿= 1 'Ув
В нутри 1 ■*I МБ^ ==
уровней ЭБр = 2 ] (УЦ — Уг-)2 ^ = п—I _ _ Я**
(групп) г= 1 / = 1 ~

П олная ББх = Л ( Л / — У--У2 = п—1


г= 1 / = 1
4 . 2 . О дноф акторны й дисперсионны й анализ 239

число степеней свободы (у) и ср е д н и й квадрат (МБ) для каждого из


источников дисперсии — меж уровневого (или меж группового) я в н у ­
т риуровневого (в н у т р и г р у п п о в о г о ). Последнюю величину называют
еще остаточной с у м м о й к ва д р а т о в (или суммой квадрат ов ош и­
бок). Иногда печатаются еще п о л н а я сумма квадратов и число сте­
пеней свободы. (Эти последние равны суммам соответствующих
величин внутри и м:ежду групп.) Из таблицы мы можем найти 52;
числитель в (4.2.9) представляет собой остаточную сумму квадра­
тов БЭя, знаменатель — остаточное число степеней свободы vR,
а я2 — среднее значение остаточного квадрата МБК.
Для проверки гипотезы Н 0: осг = ... = а 1 = О1) о том, что все
дифференциальные эффекты равны нулю, воспользуемся теорией
разд. 4.1.3. Как и там , для проверки Я 0 мы вычислим Р-отноше-
н и е , т. е. отношение среднего межгруппового квадрата к среднему
внутригрупповому квадрату. Р-значением служит площадь справа
от величины Р под кривой плотности распределения Р (I — 1,
п — /). Принятие гипотезы Н 0: в с е а,- = 0 означает справедливость
эквивалентной гипотезы, т. е. ^ = ... = [ху = ¡х, что все /
средних по подпопуляциям равны генеральному среднему.

Пример 4.2.2 (продолж ен и е ) . Предположим, что при иссле­


довании на газообразный азот экспериментатор зафиксировал
четыре диеты: — безбелковая, 0 2 — 23 % белков, £>3 — 32 %
белков, 1)4 — 67 % белков. Предположим также, что для ¿-й
диеты, г = 1, ..., 4, экспериментатор случайно отобрал 9 испытуе­
мых. Такой эксперимент адекватно описывается моделью одно-
факторного дисперсионного анализа с фиксированными эффек­
тами. В табл. А указано количество выдыхаемого азота для всех
Таблица А
Н абор данны х

О, »2 о} о,

4.079 4.368 4.169 4.928


4.859 5.668 5.709 5.608
3.540 3.752 4.416 4.940
5.047 5.848 5.666 5.291
3.298 3.802 4.123 4.674
4.679 4.844 5.059 5.038
2.870 3.578 4.403 4.905
4.648 5.393 4.496 5.208
3.847 4.374 4.688 4.806

Средние 4.0963 4.6252 4.7477 5.0442

1) Д о к о н ц а г л а в ы м ы будем зап и сы вать эту ги п отезу п р осто к а к «П 0: в се


а,- = О».
240 Гл. 4. Дисперсионный анализ

п = -36 объектов, а также среднее для каждой диеты. Заметим,


что количество выдыхаемого азога в среднем возрастает при воз­
растании потребления белков.
По этим данным можно подучить МНК-оценки параметров
модели. Оценки средних суть |йх = 4.0963, ..., Д4 = 5.0442, оценка
генерального среднего £ = (4.0963 + 5.0442)/4 = 4.6284, а оценки
дифференциальных эффектов 6 ^ = 4.0963 — 4.6284 = —0.5321, ...
..., сс4 = 5.0442 — 4.5284 = 0.4158.
Результаты дисперсионного анализа приведены в табл. В.
Для проверки гипотезы Н 0: все а,- = 0 сравним значение Т7 =
Таблица В

Д и с п е р с и о н н ы й ан ализ

И сточ ник Сумма Число Средний „


дисиерсии квадратов степеней квадрат ¿'-отношение
свободы

М е ж д у ди етам и 4.2321 3 1.4107 3.21


В н утри ди ет 14.0569 32 0.4393

П олная 18.2890 35

= 3.21 с процентилями распределения F (3, 32). Оказывается,


что р < < 0 .0 5 . Поэтому гипотеза Н а отвергается и нужно восполь­
зоваться методом множественных сравнений, чтобы решить, какие
диеты различаются. Отметим, что оценка дисперсии ст2 равна
MSR = 0.4393.

4.2.2. Модель со случайными эффектами


Рассмотрим теперь другую интерпретацию однофакторного
плана — м о д е л ь со случайными эффектами. (модель ком понен т н ого
ан али за и л и модель 1J). На этот раз мы предполагаем, что I под-
популяций случайно выбираются из бесконечной совокупности
всех возможных подпопуляции. Каждой подпопуляции при­
сваивается номер от 1 до / , и i -я подпопуляция считается соот­
ветствующей ¿-му уровню фактора. Из каждой подпопуляции
случайно выбираются объектов и рассматриваются значения
Уп . •••> У и с л ¿ = 1. ••-, I. Предполагается, что эти наблюдения
распределены нормально со средним и дисперсией о 2, не зав и ­
сящей от уровня ¿, i = 1, ..., 1 (рис. 4.2.1). Кроме того, пред­
положим, что т ъ представляют случайную выборку из
совокупности, нормально распределенной со средним ¡л и диспер­
сией о%. Определим ¿-й диф ф еренциальный (главный) эффект
фактора равенством = m t — ¡t. В отличие от эффектов а г в мо-
4.2. Однофакторный дисперсионный анализ 241

дели с фиксированными эффектами этот эффект представляет собой


случайную величину, распределенную нормально с нулевым сред­
ним и дисперсией <7%. Итак, модель одноф акт орного дисперсионного
ан а л и за со случайными эф ф ек т а м и (модель II) описывается урав­
нениями
Уц — F ~Ь ai eij, У = 1 , . . ., J¡, i = l ........../, (4.2.11)

где a t распределены по N (0, crl), etj распределены по N (0, а2)


и все аг- и ец в совокупности независимы, / = 1, J it i = 1
I.
В случае модели I н ас интересовала оценка дифференциаль­
ного эффекта а г- для t-ro уровня фактора и проверки гипотезы
о том, что все а,- равны нулю. В случае же модели II нас инте­
ресует не оценка отдельных эффектов ah а оценка дисперсии
распределения дифференциальных эффектов. Другими словами,
мы хотим оценить среднее ¡я и две компоненты дисперсии а2 и
и проверить гипотезу Н 0\ а \ = 0, означающую, что фактор не
вносит никакого вклада в дисперсию.
Для оценки компоненты дисперсии о2а и проверки гипотезы Н 0:
о \ = 0 нужно вычислить дополнительные величины, называемые
ож иданиями с р ед н и х ква д р а т о в (сокращенно EMS) 1). Они вы­
числяются для каждой компоненты дисперсии (исключая п о л ­
ную ) как среднее значение квадратов в исходной модели. Значе­
ния EMS можно вычислить и для модели с фиксированными эффек­
тами, но там они не необходимы для построения соответствующих
критериев.
В большинстве ПСП величины EMS не вычисляются. Формулы
их вычисления читатель может найти в соответствующих книгах,
например в этой, где такие формулы обычно сводятся в таблицы,
наподобие табл. 4.2.2. В ней приводятся определения внутри-

Т а б л и ц а 4 .2 .2
E M S дл я о д н о ф а к т о р н о й м одели ди сп ер си он н ого ан ал иза
(м о д е л и I и I I )

Источи и к EMS EMS


дисперсии М одель I Модель 11

М еж ду уровн ей а, , 02 + k ö a2
(гр уп п ) 0 + / - 1 [ с м . ( 4 .2 . 1 2 ) 1

В н утри уровней о2 (72


(гр уп п )

х) От английского E x p e c te d Mean Squares. — П ри м . перев.


242 Гл. 4. Дисперсионный анализ

уровневого и межуровневого EM.S как для моделей с фиксирован­


ными, так и со случайными эффектами. Заметим, что в обоих
случаях остаточное EMS равно дисперсии <т2 (позже мы убедимся,
что эт о верно для всех моделей дисперсионного анализа). Отме­
тим еще, что если (в модели I) = ... = а , = 0 или (в модели II)
дисперсия а% = 0, то внутриуровневые и межуровневые средние
квадраты MS могуг служить оценками дисперсии. Для модели II
межуровневое EMS оценивается суммой
а2 + ко;.2
где

(4.2.12)

если J x — ... = J , = J , то k = J .
Используя эти величины, легко выписать несмещенную оценку
для сг|. В самом деле, разность межуровневого EMS и внутри­
уровневого EMS для модели II равна k a l. Поэтому несмещенная
оценка ста имеет вид
a l = ( MSB - M S r)/6, (4.2.13)
где, как и в табл. 4.2.1, MSß и MSR обозначают соответственно
среднее значение межуровневого и внутриуровневого квадратов.
Оказывается, что для проверки гипотезы Н 0: = 0 можно
воспользоваться тем же самым /^-отношением, что и в случае
фиксированных эффектов. В более сложных случаях для задан­
ного критерия проверки гипотез соответствующее отношение
такж е можно выразить через EMS (см. замечание 4.2.1).

Пример 4 .2 .2 (продолжение). Предположим теперь (только


для иллюстрации), что из таблицы случайных чисел случайным
образом были выбраны четыре значения процентного содержания
белков в диете, и пусть эти числа суть 0, 23, 32 и 67. Здесь можно
применить модель однофакторного анализа со случайными эффек­
тами.
Предположим еще, что множество исходных данных, а значит,
и содержимое таблицы ANOVA, совпадают с табл. А и В, при­
веденными в разд. 4.2.1 для фиксированных эффектов.
МНК-оценка для среднего ¡х есть ji = 4.6284, несмещенная оценка
дисперсии а 2 есть MSR = 0.4393, а несмещенная оценка (Ха:
д \ = (1.4107 - 0.4393)/9 = 0.1079.

Напомним, что о \ имеет смысл дисперсии популяции дифферен­


циальных эффектов, определяемых фактором «диета».
4 .2 . О дноф акторны й дисперсионны й анализ 243

Для проверки гипотезы Н 0: cri = 0 следует вычислить то же


F -отношение, что и в случ ае фиксированных эффектов. Поскольку
F = 3.21 и Р < 0 .0 5 , то нулевая гипотеза отвергается и мы при­
ходим к выводу, что сущ ествует значимое различие в количестве
выдыхаемого азота в зависимости от диеты.

Замечания 4 .2 .1 . 1. Любая модель дисперсионного анализа


1 факторами называется м о д ел ью I или моделью с ф и кси ­
рованными эф ф ек т а м и , если все факторы соответствуют мо­
дели I, если ж е все факторы соответствуют модели II, то мо­
дель ANOVA называется м оделью II или моделью со случ ай ­
ны м и эф фект ами. Е сли же одни факторы соответствуют модели I,
а другие — модели I I , то вся модель называется моделью со см е­
шанными эффект ами.
2. Во всякой модели дисперсионного анализа c m ^ 1 факто­
рами каждый уровень фактора определяет свой параметр модели.
Члены, соответствующие фиксированным факторам, являются
постоянными, а соответствующие факторам модели I I — случай­
ными величинами.
3. Формулы, задающ ие суммы квадратов и числа степеней
свободы (а значит, и средние значения квадратов), одинаковы
в случаях модели I, модели II и смешанной модели.
4. Оцениваемые величины имеют различную природу в зави­
симости от типа фактора. Для соответствующих факторов мо­
дели I мы оцениваем постоянные параметры, связанные с различ­
ными уровнями фактора. Для факторов, соответствующих мо­
дели II, нас интересует генеральное среднее ^ и дисперсия сл у­
чайных переменных, соответствующих различным уровням фак­
тора.
5. Чтобы получить МНК-оценки постоянных параметров мо­
дели для проверки гипотез об этих параметрах, мы можем рассма­
тривать и модели со случайными эффектами и смешанные модели,
как модели дисперсионного анализа с фиксированными эффек­
тами. Но для оценки компонент дисперсии и проверки соответ­
ствующих гипотез необходимо получить выражения для EMS
каждой компоненты дисперсии. В последующих разделах мы
увидим, как из этих выражений вытекают формулы для оценок
компонент дисперсии и /'-отношения, необходимого для проверки
гипотез относительно этих компонент.
6. В модели с фиксированными эффектами c m ^ 1 факторами
знаменателем в F -отношении вс е гд а служит остаточный средний
квадрат JViSR.
7. F -критерий для проверки гипотезы Н п: = 0 в однофак-
горной модели дисперсионного анализа (модель II) является только
приближенным, если J t отличны д р у г от друга. Однако он вполне
244 Гл. 4 . Дисперсионный анализ

применим на практике при проверке нулевой гипогезы, так как


точный критерий слишком сложен. Если же все / г равны, то Т7-
критерий является точным.

4.3. Д вух ф а к то р н ы й дисперсионным анализ

В этом разделе рассматриваются различные модели, используемые


для анализа дифференциальных эффектов при двух факторах А
и В . Н а с будут интересовать два типа отношений между факто­
рами, называемые пересечением и групп ировкой. Два фактора А
и В называются пересекающимися (что обозначается А X В ),
если в п лан е эксперимента представлены все возможные сочета­
ния уровней факторов. Поэтому для фактора А с Г уровнями и
фактора В с J уровнями такой план должен содержать по меньшей
мере одн о наблюдение для каждой из / •</ комбинаций уровней.
Комбинацию г/, где I обозначает уровень фактора .4, а / — фак­
тора В , часто называют Ц-ячейкой , I = 1, ..., / , / = 1, /.
В каж дой ячейке мы рассматриваем значение случайной вели­
чины У н а К ц случайно выбранных экспериментальных единицах.
Эту ситуацию можно представлять себе и по-другому. Каждой
¿/-ячейке назначается единственная экспериментальная единица,
и К ц р а з измеряется значение случайной величины К. В любом
случае i _/-ячейке соответствует случайная выборка
Уи 11. Й/ 2> У178> ‘ ' ’> У1Ж,-;>
^= 1> • • •> Л / = 1> • • •>
Пример 4 .3 .1 . В одном эксперименте различные группы, по 10
крыс каж дая, подвергались радиоактивному облучению в до­
зах 0, 100 или 300 рентген и получали одну из двух диет — с вы­
соким и низким содержанием белков. Будем считать радиацию
фактором А с I — 3 уровнями, где ¿ = 1 соответствует дозе 0
рентген, ..., ¿ = 3 соответствует дозе 300 рентген. Фактором В
с / = 2 уровнями служит диега, где / = 1 отвечает высокому со­
держ анию белков, а / = 2 — низкому. Значит, К ц = 10 крыс
(экспериментальных единиц) не подвергались облучению и полу­
чали м ного белков, = 10 крыс не облучались, но получали
мало белков, /С32 = 10 крыс получили по 300 рентген и мало
белков. Для каждой ячейки измерялась относительная прибавка
в весе (величина У) в процентах. Ячейки обозначаются парой
нижних индексов: 11, 12, 21, 22, 31 и 32.

М одель с двумя пересекающимися факторами называют д в у х ­


ф а к т о р н ы м п лан ом , двухф акт орной классификацией, или ф акт ор­
4 .3 . Двухфакторный дисперсионный анализ 245

ной моделью с двумя факт орами. В разд. 4.3.1 обсуждается такой


план для фиксированных эффектов (т. е. для случая, когда оба
фактора соответствуют модели 1) и для случайных эффектов
(оба фактора соответствуют модели II). В разд. 4.3.2 рассматри­
вается случай, когда все К ц = 1. И наконец, в разд. 4.3.3 обсу­
ждается смешанная модель (один фактор соответствует модели I,
другой — модели II), представляющая собой модель плана с р а н ­
дом изированны м и блокам и.
Опишем теперь другой вид отношения между факторами. Гово­
рят, что фактор В груп п и рует ся фактором А , если каждый уровень
фактора В встречается в паре не более чем с одним уровнем фак­
тора А . Мы будем обозначать это отношение через В (Л) и го­
ворить, что фактор А гр уп п и р ует фактор В , что А — г р у п п и р у ­
ющий фактор, а В — сгруппированны й. В этом случае если число
уровней фактора А равно /, а фактора В равно / , то общее число
комбинаций уровней, при которых производились измерения,
конечно, меньше Ы . В каждой ячейке, для которой комбинация
факторов определена, мы случайным образом выбираем К ц экспе­
риментальных единиц и для каждой измеряем случайную вели­
чину У. Или можно выбрать один объект, но проделать К ц из­
мерений величины У. Во всяком случае, можно считать, что для
всякого уровня / фактора В , группируемого уровнем г фактора А ,
нам задана случайная выборка г/(,)/,, ..., У а )1 к г - Скобки у ин­
дексов иногда используются, чтобы указать на отношение груп­
пировки — индекс группирующего фактора заключается в
скобки. Там, где и без них все ясно, мы эти скобки будем опу­
скать.
Пример 4.3.2. В эксперименте 12 куколок самок москитов
были распределены по 3 садкам и у каждой самки дважды изме­
рялась длина крыльев. Фактором А с тремя уровнями можно
считать садки: г = 1 — первый садок, ..., / = 3 — третий садок.
Фактором В является куколка (экспериментальная единица)
с / = 4 уровнями: /-й уровень отвечает /-й куколке. И наконец,
К ц = 2 измерения величины У (длина крыльев) производится
у каждой куколки. Пусть при случайном распределении по
садкам куколки 2, 3, 7 и 10 попали в 1-й садок, 1, 4, 8 и 12 — во
второй, а 5, 6, 9 и 11 — в третий. В стандартной терминологии
ячейка 1, 1 обозначает 1-й садок и 2-ю куколку, 1, 2 — первый
садок и третью куколку, ... и 3, 4 обозначает третий садок и один­
надцатую куколку. Соответственно у П1 обозначает первое измере­
ние в ячейке 1, 1, г/2а2 — второе измерение в ячейке 2, 3 и т. д.
Важная особенность планов с группировкой состоит в отсутствии
всякого соответствия между одноименными уровнями сгруппи­
рованного фактора, отвечающего разным уровням группиру­
ющего. Так, например, нет никакого соответствия между кукол­
246 Гл. 4. Дисперсионный анализ

ками в ячейках 1, 2 и 2, 2. Это прямо противоречит случаю пере­


секающихся факторов, в котором 2 в ячейках 1, 2 и 2, 2 обозна­
чает один и тот же уровень фактора В.

Модель, в которой один фактор сгруппирован другими, назы­


вается двухф акт орной моделью с груп п и ровкой или"двухфакторной
иерархической моделью. В разд. 4.3.4 обсуждается интерпретация
таких планов в терминах фиксированных эффектов (оба фактора
соответствуют модели I) и случайных (оба фактора соответствуют
модели II). В разд. 4.3.5 все описанные модели сравниваются
на примере некоторого гипотетического эксперимента.
Мы считаем, что таблицы А1\ЮУА выдаются программами
дисперсионного анализа, входящими в соответствующие ПСП.
Большинство таких программ, называемых (т )-ф акт орны м и
АГЧОУА, требует, чтобы во всех ячейках было одно и то же число
наблюдений, т. е. чтобы существовала такая константа К , что
К ц = К при всех г, /. В разд. 4.4 мы подробно разберем эти про­
граммы. Метод получения таблиц дисперсионного анализа в усло­
виях, когда не все К ц равны, обсуждается в разд. 4.5.
Д о конца настоящего раздела будем предполагать, что К по­
стоянно и К 1- Если к > 1, то говорят, что эксперимент повто­
рен К раз.

4.3.1. Двухфакторные повторяемые планы.


Фиксированные и смешанные эффекты
В этом разделе будем считать, что заданы фактор А с 1 уровнями,
и фактор В с J уровнями. Эксперименты, соответствующие все­
возможным комбинациям уровней повторяются одно и то же
число К > 1 раз. Случай с различным числом повторений будет
рассмотрен в разд. 4.5. Пусть у 1}к обозначает значение перемен­
ной К, полученное при &-м повторении эксперимента в ячейке Ц,
I = 1, ..., I , / = 1, ..., / , & = 1, К . Если оба фактора соответ­
ствуют модели I, то двухф акт орны й план с фиксированными эф ­
фект ами задается соотношениями
Уик = М
' + а 1 + Р/ + (а Р)</ + ецк, .
¿ = 1 / = 1, . . ., / , 6 = 1, . . К. (^ Л)

Здесь [д. — генеральное среднее, а { есть г'-й диф ф еренциальный


(или главны й ) эффект фактора А , есть /-й дифференциальный
эффект фактора В . Величина (оф)г7- называется (двухф акт орны м )
взаимодейст вием г-го уровня фактора А и /-го уровня фактора В .
Эта величина учитывает дифференциальный эффект комбинаций
г-го уровня фактора А и /-го уровня фактора В , если он не выра­
жается суммой осг + + И- Модель, в которой взаимодействия
4 .3. Д вухф акторны й дисперсионны й анализ 247

(еф)/у- при всех г, / равны нулю, называется аддит ивной. Впослед­


ствии мы увидим, как можно проверить гипотезу аддитивности.
И наконец, ошибки предполагаются независимыми и распреде­
ленными по N (0, а2).
Обсудим теперь оценки параметров — дифференциальных эф­
фектов и взаимодействий. Поскольку для этой модели МНК-
оценки неоднозначны, то на дифференциальные эффекты прихо­
дится наложить соответствующие дополнительные ограничения.
Мы потребуем, чтобы

Е ^ = о, /=2 1 р,- = о,
¿=1
1 J
2 (сф),7 = о,
¿=1
/ = 1 ............У; 2/=1(сф )г/ = 0, ¿ = 1,...,/. (4.3.2)

При этих ограничениях МНК-оценки становятся однозначными


и дают
(Х = у . . . , = */,■.. — у . . . , р¡ = д . , . — у ...,
(®Р)<¡—Ун- УI" У-I■ "I- У• •■> ^:= 1 > • • •> /> / = 1> • • •> ^ • (4.3.3)
Все эти величины вычисляются любой факторной программой
дисперсионного анализа. Средние у £.. иногда называют средним и
по ст рокам , у.¡. — средними по ст о л б ц а м и г/...(— средними повеем
элементам. Кроме перечисленных оценок программы вычисляют
и печатают таблицы АТ^ОУА, подобные табл. 4.3.1. Эти таблицы
Т а б л и ц а 4 .3 .1
Т абл и ц а п овтор яем ого д в у х ф а к т о р н о г о д и сп е р си о н н о го ан ализа

Источник Сумма Число степеней Средний


дисперсии квадратов свободы квадрат

/
Ф актор/! БЭд = 2 (# < ••— У - - ) 2 УА = ^— 1 М Бд = — -
1=1 Ха
Ф ак тор В ББв = 1К 2 (# •/ • — У - У2 хв — J — 1 М Бв = — ^
У=1 Гв
/ J
Взаим одей- 35ав = К У] У \(д ц — VAв = Мс _^ав
стви е А В £ = 1 У" = ( / — 1 ) ( 7 — 1) М Ьав ~ ^
— Ус - — У ч- Л -У - )2
I V к
О с т а т о к (о ш и б - ББк = £ И 2 <Лф — ^ и ( К _ х) м5 =
ка) ¿=1 7 = 1 /е= 1 к ' ’
— Уи У
\ J К
Полная 53т = 5] ^ I ] (Уч'Ь хТ = и К — 1
1 = 1 / = 1 /¡= 1
—У - ) 2
248 Гл. 4. Дисперсионный анализ

содерж ат суммы квадратов, число степеней свободы и средние


значення квадратов для компонент дисперсии: остаточной, опре­
деляемой факторами А и В и определяемой взаимодействием
факторов А я В . Слагаемое, отвечающее взаимодействию, обычно
обозначается как А В (или А X В ). Оценка дисперсии ошибки о2
определяется по габл. 4.3.1 как среднее значение остаточного
квадрата М 5К. Можно также проверить гипотезы о дифферен­
циальных эффектах. Эти гипотезы, соответствующие критерии и
их статистики вместе с числами степеней свободы сведены
в табл. 4.3.2. / ’-значение определяется как площадь справа от

Т а б л и ц а 4 .3 .2

П роверка г и п о т е з для п о в т о р я е м о г о двухф актор н ого п лана


с ф и к си р о в а н н ы м и эф ф ектам и

Н0 : в се (а. 3) ц = 0 Н0 : все ( а £) = 9 Н0 : все (5^. = 0


О тсутствие эффектов Отсутствие главных Огсутствие главных
взаим одействия эффектов фактора А эффектов фактора В

р_ Ы$ав ¿г= МБВ


МБк МБ« - МБи

VI = (/-1) (/—1) = /—1 V! = 7 - ]

у2 = П ( К - \ ) у2= Ц(К-\ ) = Н(К—1)

числа Т7 под кривой плотности распределения Р (гх, г а). Нужно


заметить, что в некоторых случаях суммы квадратов и
могут складываться (т. е. объединят ься). Мы обсудим это
в замечаниях 4.3.1.

Замечания 4.3.1. 1. Обычно сначала проверяется гипотеза


Н 0: все (оф)0- = 0. Если оказывается, что взаимодействие незна­
чимо отличается от нуля, то при анализе главных эффектов есть
два пути . Первый — перейти к исследованию главных эффектов»
исходя из величин, приведенных в столбцах 2 и 3 табл. 4.3.2.
Второй — объединить остаточную сумму квадратов ББд с суммой
соответствующей взаимодействию, чтобы получить новую
оценку дисперсии о 2. В этом случае объединенная сумма квадра­
тов е с т ь ББр = 8 8 к + а число степеней свободы ур =
— ^ +~ уа в - Оценкой дисперсии о 2 служит МБР =
для проверки гипотезы Н 0: все а,- = 0 служит отношение р =
— МЭ^/МБр, а гипотеза Н 0: все ^ = 0 проверяется отношением
Т7 = М З В/М5Р. Я-значение вычисляется как площадь справа от Я
под кривой плотности распределения Т7 (ух, ур).
4 .3 . Двухфакторный дисперсионный анализ 249

2. Всех исследователей можно поделить на три категории:


часто объединяющие, редко объединяющие и необъединяющие.
Необъединяющие не изменяют оценку а2 независимо от результата
оценки взаимодействия. Часто объединяющие пересчитывают
оценку для а2, если взаимодействие несущественно. Редко объеди­
няющие переходят к объединению, только если Р-значение, полу­
ченное при проверке гипотезы аддитивности, достаточно велико,
например Р > 0.5. Нет никаких точных правил выбора единствен­
ного решения в каждой ситуации. Поэтому каждый исследователь
сам определяет свой «статус объединителя».

Пример 4 .3 .3 . Продолжим рассмотрение примера 4.2.2 и попы­


таемся теперь оценить влияние на количество выдыхаемого азота
не только диеты (фактор А с / = 4 уровнями), но и пола (фактор В
с J = 2 уровнями). Пусть, например, каждая комбинация пола
и диеты повторена 3 раза (А' = 3). Описанная ситуация соответ­
ствует модели двухфакторного дисперсионного анализа с фикси­
рованными эффектами и равным числом наблюдений в ячейках.
В табл. А приводятся исходные данные для анализа (эта таблица —
Таблица А

Н абор д а н н ы х

Диета Средние
------- по
Пол D, D, ст рокам

Мужчины 4.079 4.368 4.169 4.928 4.6697


4.859 5.668 5.709 5.608
3.540 3.752 4.416 4.940
ЬНенщи'ны 2.870 3.578 4.403 4.905 4.4347
4.648 5.393 4.496 5.208
3.847 4.374 4.688 4.806
Средние по
, столбцам 3.9738 4.5222 4.6468 5.0658 4.5522

часть таблицы А примера 4.2.2), а также частные средние по


строкам и столбцам. Так, например, МНК-оценки параметров ц, а г
и р2 суть р, = 4.5522, ах = 3.9738 — 4.5522 = —0.5784, р2 =
= 4.4347 — 4.5522 = —0.1175. МНК-оценка взаимодействия
диеты и мужчин есть
(сф)и = (4.079 + 4.859 + 3.540)/3 - 3.9738 -

- 4.6697 + 4.5522 = 0.0680.


250 Гл. 4. Дисперсионный анализ

В табл. В приводятся результаты дисперсионного анализа.


Проверим гипотезы относительно параметров, используя
табл. 4.3.2. Соответствующие значения Р-статистики, числа сте-
Таблица В

Р езультаты ди сп ер си он н ого ан ал и за

Источник Число
дисперсии SS степеней MS
свободы

Диета 3.6491 3 1.2164


Пол 0.3314 1 0.3314
Диета X пол 0.0428 3 0.0143
Остаток 7.8353 16 0.4897

Полная 11.8586 23 —

пеней свободы и Р-значения собраны в табл. С. Из нее видно,


что при уровне 0.05 нет значимых главных эффектов или взаимо­
действий. Это не противоречит результатам примера 4.2.2, по­
скольку мы использовали только часть данных. Но, вообще
Таблица С

П роверка гипотез

Н0-. все (afi)ij = 0 Я0: все а, = 0 Яо; б с е / 3 ; = 0


Отсутствие Отсутствие Отсутствие
взаимодействия 'дифференциальных дифференциальных
пола и диеты________________ эффектов пола_____________ эффектов диеты
F = 0.03 F = 2.48 F = 0.68
v, = 3 v, = 3 Vj = 1
v2 = 16 v2 = 16 v2 = 16
NS NS NS

говоря, включение новых факторов чаще приводит к увеличению


статистической значимости других.
Поскольку эффект взаимодействия оказался незначимым, сто­
ронник объединения мог бы (в соответствии с замечанием 4.3.1.2)
вычислить объединенные характеристики БЭр = 0.0428 4-
+ 7.8353 = 7.8781, vp = 3 + 16 = 19 и, наконец, МБР =
= 7.878/19 = 0.4146. Новые значения Р-отношения равны Р =
= 1.2164/0.4146 = 2.93 для фактора А и Т7 = 0.3314/0.4146 =
= 0.80 для фактора В . Эти значения нужно сравнить с процен -
тилями распределений Т7 (3, 19) и Т7 (1, 19) соответственно. Оказы­
вается, что и после объединения ни один главный эффект значимо
не отличается от нуля при уровне а. = 0.05. Отметим, наконец,
что оценки дисперсии а2 равны МБК = 0.4897 (без объединения)
и МЭР = 0.4146 (с объединением).
4 .3 . Д вухф акторны й дисперсионны й анализ 251

Если оба фактора Л и В соответствуют модели II, то модель


называется двух ф а к т о р н ы м план ом со случайными эффектами
и описывается соотношениями
Dijk = (-1 + a i + bj -(- (ab)tj -|- eijk,
( - 1 ..............r . i - i ................. j , * - i ..............K t ( 4 ' 3 ' 4)

где (.i — генеральное среднее, a t независимы и распределены по


N (0, ста), b j независимы и распределены по N (0, o l), (аЬ)ц неза­
висимы и распределены по N (0, о2аЬ) и, наконец, eijk независимы
и распределены по N (0, ст2). Кроме того, считается, что все ве­
личины ait bj, (аЬ)и и eljk независимы в совокупности.
В этой модели выделяются четыре компоненты дисперсии
<Ja> Оь, вЪъ и ст2, связанные с соответствующими источниками:
факторами А , В, A B и остатком R. Д л я вычисления несмещенных
оценок первых трех компонент и проверки гипотез о равенстве
этих компонент нулю н ам потребуется вычислить EMS (ожидания
средних квадратов) для каждого источника дисперсии-
В табл. 4.3.3 приведены эти величины как для фиксированных
эффектов (модель I), т а к и для случайных (модель II).
Т а б л и ц а 4.3 .3

О ж идания с р е д н и х к вад р ато в д л я п о втор я ем ы х


д в у х ф а к то р н ы х п л а н о в с ф и к си р о в а н н ы м и и сл уч ай н ы м и
эф ф ектам и

Источник EMS EMS


дисперсии модель I модель Ж

А о 2 + K a lb + J K o ?
/-1

В а 1 + K a l b + 1 К о ь2
/ - I

* Х авдгу
AB а 2 + K a lb
(/ -1 ) (J —о

R а 2 а г

Для получения несмещенной оценки компоненты дисперсии


нужно сначала представить эту компоненту в виде линейной
комбинации ЕМБ (в модели II) и затем взять ту же линейную ком­
бинацию средних квадратов. Таким образом , мы получаем оценки
МБл —МБущ МБд —ИЭдВ М$ав —МБр
С т а — ^ О ь — 1 К , С т а й - к

(4.3.5)
252 Гл. 4. Дисперсионный анализ

P -отношение для гипотезы Н 0 относительно компоненты диспер­


сии строится по габл. 4.3.3. Числителем Р-отношения служит
средний квадрат (MS) источника дисперсии, соответствующего
данной компоненте. Знаменатель Р-отношения равен MS того
источника дисперсии, EMS которого при выполнении гипотезы
Н 0 равняется EMS числителя. Например, при проверке гипотезы
Я 0: о \ = 0 числитель Р-отношения равен MSA. Так как при вы­
полнении гипотезы # 0 имеет место равенство EMSA = EMSAß, то
в соответствии с только что сформулированным правилом, зна­
менателем P -отношения служит MSAB, т. е. F = MSA/MSAß.
Таким образом, мы получим все критерии, приведенные
в табл. 4.3.4. P -значение для каждого критерия равно площади
Т а б л и ц а 4 .3 .4
П роверка ги п отез для п овтор яем ого двухф актор н ого п лан а.
С лучайн ы е эф ф екты

Н0: alt = О Н0 : о / = О Н0 : сг„2 = 0

M S ,* M S .4 M S»
£ =
f
M S* M S ,e M S ,B
'w'-

V, = 1 — 1 Vl = J - 1
1

п =

Vl = /■ /(К - ]) V2 = ( / - 1) (J- 1) v2 = ( /- 1 )( 7 - 1 )

под кривой плотности Р v2) справа от точки Р. Заметим, что


значения Р-отношения отличаются ог вычисленных для модели
с фиксированными эффектами.

Замечание 4.3.2. Вопрос об объединении намного существен­


нее для модели со случайными эффектами, чем с фиксированными,
потому что в этом случае объединение может резко увеличить
число степеней свободы знаменателя и, таким образом, увеличить
мощность критерия для главных эффектов. Пусть, например,
/ = / = З и / С = Ю . Предположим, что мы приняли гипотезу
аддитивности [#„: (сф)г/- = 0 (в модели I) или Н„: о1ь = 0 (в мо­
дели I I ) ] . Соответствующие вычисления показывают возрастание
числа степеней свободы знаменателя /•'-отношения при объединении
источников дисперсии. Но в случае модели I можно выиграть
только 4 степени свободы, в то время как в модели II — целых 81.
Модель I Модель II

Без объединения V, = 81 v2 = 4
сл
ОО
н

С объединением vp = 85
4.3. Двухфакторный дисперсионный анализ 253

Пример 4 .3 .3 (продолж ение). Предположим с иллюстратив­


ными целями, что результаты расчета по программе для мо­
дели II собраны в табл. В — таблицу результатов дисперсионного
анализа для данного примера (см. выше). Используя равенство
(4.3.5), получим оценки компонент дисперсии:
МБК = дисперсия ошибки = 0.4897,
о \ = (1.2164 — 0.0143)/6 = 0.2004,
61 = (0.3314 - 0.0143)/12 = 0.0264,
6 \ь = (0.0143 - 0.4897)/3 < 0.

Так как компонента дисперсии должна быть неотрицательной,


то последнюю оценку для а \ь заменяем на нулевую.
Значение критериев и вычисленная по табл. 4.3.4 величина
/•’-отношения приводятся в следующей таблице. Интересно от­
метить, что критерий теперь показывает значимое отличие от
нуля компонент дисперсии ст| и 05. Заметим, что оценка значи­
мости оказывается различной в зависимости от того, какую модель
дисперсионного анализа — модель I или модель II — мы рассма­
триваем. Поскольку взаимодействие незначимо, то стороннику
объединения может показаться целесообразным произвести объ ­
единение, так как число степеней свободы знаменателя слишком
мало для оценки о 2а и После объединения он получит соответ­
ственно значения ^ = 2.93 и /•" = 0.80. Оба они незначимы.
Эта изменения в оценке значимости показывают, насколько раз­
личными могут оказаться результаты в зависимости от отношения
исследователя к объединению.
а;

Я 0: ^ = 0. Но' аь2 = 0
ь
II
о

<3

F = 0.03
к.

оо

Г = 23.2
II

VI =3 V, =3 VI = 1
у2 = 16 у2 = з у2 = 3
N5 Р < 0.005 Р < 0.005

4.3.2. Неповторяемые двухфакторные планы.


Фиксированные и случайные эффекты
В этом разделе будем считать, что заданы факторы А и В с / и J
уровнями соответственно, но в каждой ячейке величина У наблю­
дается К = 1 раз. Такой эксперимент мы называем неповт оряе­
мым. Для него, как видно из табл. 4.3.1, остаточное число степе­
ней свободы = П (К — 1) равно нулю. Мы хотим построить
статастику сначала для случая фиксированных эффектов. Для
этого будем считать, что все дифференциальные эффекты, свя­
254 Гл. 4. Дисперсионный анализ

занные с взаимодействием между факторами А и В , равны нулю.


Тогда мы можем использовать сумму квадрагов взаимодействий
и соответствующее число степеней свободы для повторяемых
экспериментов как остаточную сумму квадратов и число степеней
свободы в нашем случае. Таким образом, неповторяемый двух-
ф акт орны й план с фиксированными эффектами описывается
моделью
Уц — И- ~ г а 1 Р/ ~ г е //> 1 = 1 , . . . , / , / = 1, . . ( 4 .3 .6 )

где ц есть генеральное среднее, а г есть г'-й дифференциальный


эффект фактора Л, есть /-й дифференциальный эффект фактора Б,
а ошибки е ц независимы и распределены по N (О, ст2).
Для обеспечения единственности МНК-оценок параметров
модели наложим дополнительные ограничения
/ J
Ц щ = 0, 2 3 Р/ = 0 ( 4 .3 .7 )
¿=1 /=1
и получим
р, = £ .., а 1 = у с . — у. . , Р¡ = у - / — у . . , для 1 = 1 , . . . , 1,
/ = 1 ( 4. 3. 8)

Н еповт оряемый двухфакт орный план со случайными эффект ами


имеет вид
Ун = I1 т а 1 ~ Ь Ь / - ) - е,-,-, / = 1 , . . . , / , / = 1, . . . , /, ( 4 .3 .9 )

где ¡л — генеральное среднее, а;, р^, ец — независимые в сово­


купности случайные величины, причем аг распределены по
Т аб л и ц а 4 .3 .5

Таблица н еп овторяем ого д в ух ф а к то р н ого ди сп ер си он н ого ан ализа

Источник Сумма Число Средний


дисперсии квадратов степеней квадрат
свободы

Ф актор Л ЭБл = J J ^ — у . )'2 у?А = 1 — \ № >А =


¿=1
.1
Ф актор В = 1 У , ( У , — У- ) 2 \ в = 1 М Бв =
/-1 ув
Г J
О статок Я 53к = ^ ( У ь \ — У1- — vR = (^ — ББр
(о ш и б к а) ¿= 1 " _ ] ) ( / _ ! ) М 5К = ^

— У -]\-У -)2
I
П олная 58 т = ^ (У 1 , — У - У ч т = и ~ 1
¿=1 /=1
4 .3 . Двухфакторный дисперсионный анализ 255

N (0, ст„), bj — по iV (0, öl), а вц — по iV (0, а2_ + о*аЬ). Заметим,


что дисперсия ошибок в данном случае равна сумме двух диспер­
сий о\ь и о 2.
Для обеих моделей таблица ANOVA имеет вид табл. 4.3.5,
а выражения для EMS как для модели I, так и для модели II при­
ведены в табл. 4.3.6. Так, средний квадрат MSR в случае модели I
Т абл и ца 4 .3 .6

О ж и д ан и я ср едн и х к в а д р а то в
для неповторяем ы х двухф акторн ы х планов
с ф и кси р ован н ы м и и сл у ч ай н ы м и эф ф ектам и

Источ­ EMS HMS


ник д и с­ модель I модель II
персии

А а 2 + а*6 + / а *
° + 1 -1

В 1 У— 1
o2+ olb+ Iol
R а2 °2+ ölh
представляет собой несмещенную оценку дисперсии а2. Однако
в случае модели II мы не сможем оценить эту дисперсию а2, если
только не предположим, что о \ ь = 0. Оценки для дисперсий о1
и сг{ задаются формулами
д2a ^ ( f A S A - m R)/J, 61 = (МБя - МБ*)//.
(4,3.10)
Наконец, /‘'-отношения для проверки гипотез приведены
в табл. 4.3.7. Р-значение равно площади справа от величины Р
Т абл и ц а 4 .3 .7

К ритери и для н еп овтор яем ого д вухф актор н ого


плана

Модель
I: Н0 : все а- = 0 Н, : все ß;. = 0
Модель
II: Н0 : о2а = 0 Я„ : 4 = 0

т в
M SR M SR
vt = / — 1 v2 - J—1
v, = ( / - ! ) ( / - ! ) v2 = (/_ !)(/_ !)

под кривой плотности распределения Р (ух, v2). Вопрос об объеди­


нении здесь не возникает, так как объединять нечего. Тем не
менее если в случае модели I предположение независимости ока­
256 Гл. 4. Дисперсионный анализ

зывается нереалистическим, то критерий для главных эффектов


может оказаться слишком «консервативным». Это значит, что
гипотеза Н 0 будет отклоняться реже, чем необходимо, и мощность
критерия уменьшится.

Замечание 4 .3 .3 . Для неповторяемых двухфакторных планов


мы предполагали, что модель аддитивна. Исследователь, сомне­
вающийся в истинности такого предположения, может рассмотреть
неаддитивную модель и для нее проверить гипотезу о том, что
все взаимодействия равны нулю (Тикеу (1949)). Для этого нужно
вычислить величины
-1 1 -12
2 2 (£■/— у~) У‘/
«Яг —1 ^1=1
ооо I/=1____________________
J -— 5.
£ (У1.-д..)гХ (У.,--У..)2
1=1 1=1

~ 23 ^3 (# 0 — У ’. — У .1~ \~ у .У >
1=1 /=1
= 55ав ЗБд.
Статистика, лежащая в основе критерия для проверки гипотезы
об отсутствии взаимодействий, равна
Р = (// —/ —У) 55а/55к.
.Р-значение равно площади справа от точки ^ под кривой плот­
ности распределения Р (1, / / —■/—/) .

Пример 4.3.4. Продолжим рассмотрение эксперимента, опи­


санною в примере 4.2.2. Оценим теперь дифференциальные
эффекты диеты и пола в неповторяемом эксперименте. В табл. А
Таблица А

Набор данных

Диета Средние по
Пол строкам у,.
А О, О.

М уж чины 4.079 4.368 4.169 4.928 4.3860


Ж енщ ины 2.870 2.578 4.403 4.905 4.9390
С р е д н и е по с т о л б ­ 3.4745 3.9730 4.2860 4.9165 д.. = 4.1625
цам у./

содержатся исходные данные для анализа (эти данные — часть


данных, приведенных в табл. А примера 4.2.2). Таблица диспер­
4.3. Д вухф актор ны й дисперсионны й анализ 257

сионного анализа содержится в табл. В, а критерий для проверки


гипотез— в табл. С . Никаких значимых результатов не полу­
чается.
Таблица В

Д исперсионны й анализ

Источник: Ч и сло
д и сп ер си и ^ степеней МБ
свободы

Д иета 2 .1 8 6 0 3 0 .7 2 8 7
П ол 0 .3 9 9 6 1 0.3996
Д иета X пол 0 .6 7 0 9 3 0.2236
(о ст ат о к )

П олная 3 .2 5 6 5 7

Таблица С

П роверка г и п о т е з

Я 0: в с е а , — 0 Н0: все р . = 0
О тсутствие д и ф ф е р е н ц и а л ь н ы х О тсутств и е дифференциаль-
эф ф е к то в диеты ны х эффектов пола

Р = 3 .2 6 /=■== 1 .7 9
= 3 V I == 1
~ 3 V , -= 3
ЫБ N3

4.3.3. Смешанные модели. Планы с рандомизированными


блоками
Б дисперсионном анализе см ет а н н о й моделью называется модель,
в которой одни факторы соответствуют модели I, а другие —
модели II. Для двух; факторов формально возможны две смешан­
ные модели. Не теряя общности, в этом разделе будем считать, что
фактор А с / уровням и соответствует модели I, а фактор В с / уров­
нями — модели II. П редполож им еще, что мы не повторяем экспе­
риментов, так что К = 1. Тогда можем записать смешанный
двухфакт орный план, в виде
Уц = + а ,- Ьу -(- 1= 1,...,/, У = 1, ---,*/, (4.3. 11)

где р. — генеральное среднее, а 1 есть /-й дифференциальный


эффект фактора А , Ь 1 — независимые величины, распределенные
но N (0, а|), ец так ж е независимы и распределены по N (0, а2).
Хроме того, мы предположим, что величины bj и еи независимы
9 А. Афифи, С. Эйзен
258 Гл. 4. Дисперсионный анализ

в совокупности и что между факторами А и В нет взаимодействия.


Отметим еще раз, что фиксированные эффекты обозначаются
греческим и буквами, а случайные — латинскими. Это соглашение
мы будем выдерживать до конца главы, чтобы различать факторы,
относящиеся к модели I и модели II.
Для единственности МНК-оценок параметров ¡х и а г наложим
обычное дополнительное условие a t = 0. При этом получим
i
jx = y . , ct; = y (. — y . . , i = 1, ..., / . Таблица дисперсионного
анализа н:е отличается от табл. 4.3.5, а оценкой а2 служит MSR.
Ожидаемые значения средних квадратов EMS приведены
в табл. 4 .3 .6 , в которой для фактора А нужно воспользоваться
столбцом, относящимся к модели I, а для фактора В и остатков —
столбцом модели II в предположении, что дисперсия взаимодей­
ствия alb равна нулю. Все величины собраны в табл. 4.3.8. Н е­
смещенная оценка дисперсии ст§ задается формулой а\ =
Т а б л и ц а 4 .3 .8

О ж идан и я ср ед н и х к в а д р а то в для см еш ан н ой
д вухф актор н ой м одели

Источник EMS
дисперсии (смешанная модель)

А : М одель I (м е ж д у об р а - ¡® ?
боткам и ) т / __ i

В: М одель 11 (м е ж д у бло- а г _j_ j G2


ками) ь

R а2

= (МЯд -— МБК)//; ^-отношение для проверки гипотезы Н 0:


все = 0 — формулой Р = М8А/М5К с \ г — I —• 1 и v2 =
= ( / — 1) ( / — 1) степенями свободы; Р-отношение для проверки
гипотезы Н 0: а'1 = 0 — формулой Т7 = М5В/МЗК с V! = / — 1
и л>2 = (Г — 1) ( / — 1) степенями свободы.
Эта модель описывает план эксперимента, называемый планом
с р а н д о м и зи р о ва н н ы м и блокам и. Пусть исследователь хочет
сравнить дифференциальные эффекты сс, при I способах «обработки»
(фактор-Л ). Он случайно распределяет их по / экспериментальным
единицам, однородным по некоторому параметру, влияющему
на значение измеряемой величины У. Это множество из I единиц
называется б л о к о м , а каждая единица — участ ком . Весь экспе­
римент повторяется / раз, т. е. все I способов случайным обра­
зом распределяются в каждом из / блоков (фактор В ). Именно
этой с х е м е соответствуют приведенные выше модель и таблица
дисперсионного анализа. Причем фактор А — это фактор, иссле­
4 .3 . Д вухф акторны й дисперсионный анализ 259

дуемый по модели I, а 1 — дифференциальный эффект ¿-го способа


обработки, фактор В определяет блоки и соответствует модели II,
(Т5 — дисперсия между блоками. А так как каждый способ об­
работки применяется только к одному участку внутри блока, то
оценить взаимодействие «блок—обработка» невозможно. По­
этому-то и предполагается, что между факторами А и В взаимо­
действие отсутствует.

Пример 4.3.5. Исследователя интересует оценка и сравнение


дифференциальных эффектов / разновидностей пшеницы по ве­
личине урожайности. Но, поскольку различные поля могут от­
личаться по плодородию и тем самым влиять на урожайность пше­
ницы, исследователь делит каждое поле на / блоков так, что
каждый блок внутренне однороден по плодородию. Затем каждый
блок делится на / участков и каждый участок засевается своим
сортом пшеницы. Если сорта распределяются по участкам внутри
блока случайно, то мы оказываемся в ситуации плана с рандо­
мизированными блоками.
П овт оряемому п л а н у с рандом изированны м и блокам и соответ­
ствует ситуация, когда каждый блок делится на К 1 участков,
так что каждый сорт пшеницы случайно приписывается к К уча­
сткам внутри блока. В этом случае можно оценить и взаимодей­
ствие блок—обработка.
Модель, описывающая повторяемый план с рандомизирован­
ными блоками, называется двухф акт орны м смешанным повт оряе­
мым планом :
Уцн = И- + Щ + Ь, + (ab)t} + eijk,

Здесь а,; есть ¿-й дифференциальный эффект фактора А , Ь] — не­


зависимые величины, распределенные по N (0, а!), взаимодей­
ствия (осЬ)и распределены по N (0, о1ь), а ошибки вц распределены
по N (0, а2). Предполагается, что все случайные переменные
в совокупности независимы. Отметим, что взаимодействие обозна­
чается комбинацией латинской и греческой букв.
Как обычно, чтобы обеспечить единственность МНК-оценок
I I
параметров fx, а ; и (сбб)^-, предположим, что Д] а г = 0, 2 {иЬ)ц —
— О при всех / = 1, J . Таблица дисперсионного анализа
имеет вид табл. 4 .3 .1 . Оценки EMS задаются табл. 4.3.9, а крите­
рии проверки гипотез — табл. 4.3.10.

Пример 4.3.3 ( продолж ен и е ). В этом примере повторяемого


двухфакторного смешанного плана мы рассмотрим диету как
фактор, соответствующий модели II, а пол — модели I. Для
9*
260 Гл. 4. Дисперсионный анализ

совпадения с обозначениями табл. 4.3.9 нам придется переимено­


вать факторы, так что теперь фактор А — эго пол, а фактор В —
диета. Уровни фактора В выбираются случайно, как это описано
в примере 4.2.2. Таблицей дисперсионного анализа служит таб­
лица В, приведенная ранее. Соответствующие критерии для
Таблица 4 .3 .9
О ж идания ср едн и х к вадр атов для п о втор я ем о го
см еш ан н ого д аухф ак тор и о го плана

Источник EMS
дисперсии смешанная модель

А: модель I

В: модель II о2 + IKo 1
АВ: смешанная + Ко2
аЬ
И а2

проверки гипотез приведены в табл. 4.3.10, а численные резуль­


таты — в следующей ниже таблице. Из-за того что теперь диета
рассматривается как фактор со случайными уровнями, дифферен-
Таблица 4.3.10
К ритери и для п овторяем ого см еш ан н ого д вухф ак то р н ого
плана

Н 0: о1ь = О Н о : <?ъ = О Н0'. все а, = 0

г MS^a MSb f= MSa


M S* ~ M Sr

v, = (/ -1)(У -1) y, = J — 1 Vi = / — 1

v2 = IJ(K-l) Vl = IJ ( K - 1) .»* = ( / - ! ) ( / - 1)

циальный эффект пола стал значимым в отличие от случая, когда


диета такж е считалась фактором с фиксированными эффектами.

но- ааь = 0 н°' а* = 0 И°' все а* = °


(ди сп еп си я взаимо- (дисперсия (отсутствие дифферен-
Р взаимо лирть.1 патчня циального эффекта
д ействия равна нулю) нулю) пола)

р = 0.03 ^ = 2 .4 8 F = 23.2
\,1= 3 =3 у1= 1
у2 = 16 у2= 16 у2 = 3
* N5 N5 Р < 0.025
4.3. Д вухф акторны й дисперсионны й анализ 261

Пример 4 .3.6. Продолжая исследование, описанное в при­


мере 4.2.2, попытаемся теперь оценить дифференциальные эффекты
диеты (фиксированный фактор Л с / = 4 уровнями), а также
дисперсию между объектами (случайный фактор В с / = 9 уров­
нями), не учитывая их пола. В этой ситуации каждый из 9 объектов
представляет собой «блок», получающий случайным образом все
четыре диеты. Предположим, что между двумя «испытаниями»
проходит достаточно м ного времени, так что переходящие эффекты
диеты исключаются. Этот эксперимент соответствует схеме не­
повторяемого плана с рандомизированными блоками. Данные,
приведенные в примере 4.2.2 (табл. А), можно обработать так,
чтобы получить соответствующую таблицу А1ЧОУА. Отметим,
что теперь исследуются не 36 объектов, а 9. Из этой таблицы
можно заключить, что по среднему количеству выдыхаемого азота
исследуемые объекты значимо различаются, так же как и диффе­
ренциальные эффекты, определяемые диетами. И вообще «блоки­
рование» повышает чувствительность эксперимента к блокируе­
мому фактору.

Источник Ч и сло
дисперсии ЭБ степ ен ей МБ Р р
сво б од ы

Диета 4.4321 3 1.4107 11.53 0.001


Объект (блок) 11.1216 8 1.3902 11.37 0.001
Остаток 2.9353 24 0.1223

Полная 18 .2 8 9 0 35

4 .3 .4 . Двухфакторный дисперсионный анализ с группировкой


Напомним, что во введении к этой главе мы назвали фактор В
(с / уровнями) с гр у п п и р о в а н н ы м фактором А (с / уровнями),
если каждый уровень фактора В сочетается не более, чем с одним
уровнем фактора А. В большинстве случаев фактор В описы­
вается моделью II, в то время как старший (группирующий)
фактор А может соответствовать либо модели I, либо модели II.
Если и фактор А задается моделью II, то мы имеем двухф акт орны й
план с группировкой с о сл уч а й н ы м и эф фект ами, задаваемый соот­
ношениями
У,/к == (-1 т~ а1 “I- + вцк, (4.3.13)
1= 1, . . . , /, / = 1,. . к = \,. ..,К,
где р — генеральное среднее, величины аг независимы и распре­
делены по N (0, ст|), Ь,- (,•) независимы и распределены по N (О,
°ь(а))> а ошибки ещг также независимы и распределены по
262 Гл. 4. Дисперсионяый анализ

N (О, о 2) . Будем также считать, что все величины а ь 67-, в ц к в со­


вокупности независимы. Скобки, в которые заключен индекс I
в обозначении Ь ц о , указывают на отношение группировки.
То ж е самое относится и к обозначению дисперсии сг| (а).
Если же, с другой стороны, фактор А соответствует модели I,
то возникает смешанный двухфакт орный план с груп п и ровкой ,
описываемый моделью
Уц* ~ Iх ~Ь а! + ^/(|) Н~ ецк, (4.3.14)
/=1,...,/, / = 1 , . . . , У , к = I, .. ., К ,
где а г — дифференциальный эффект, определяемый ¿-м уровнем
фактора А . Для единственности МНК-оценок параметров ¡х,
а г , ..., о./ мы наложим обычные дополнительные условия 2 аг = О
г
и получим оценки |1 = у . . . , аг = г/г.. — у . . . , ( = 1, /.
Таблицы дисперсионного анализа для обеих; моделей содер­
жатся в табл. 4.3.11. Отметим, что отношение группировки в вы-
Таблица 4.3.11
Таблица двухф актор н ого п л ан а с груп пи ровкой

И ст о ч н и к Сумма Число степеней Средний


д и сп ер си и квадратов свободы квадрат

Ф актор Л = 1 К У , (£,■•■ — у - - У 2 \А = 1— 1 М ЭЛ =
(=1-
ft) R 1 J M S ß (Л ) =
(в н у т р и A )SSB <Л> = К h £ (УН- - У1- )2 (Л) = I (J — 1) = SSB(A)
t—1/—l vB сл)

ОС(ошибк5) S S r» i] L f t e r t - ) ! v R = / y (/ < - l ) MSR = ^


i=i /=1 fe=i R
/ У А?
Полная SST = J J J (y ijk — y •■■)* v t — I J K — 1
_________________________ t=i /=1 fe=l________________________________________________________

раж ениях для суммы квадратов, числа степеней свободы и сред­


них квадратов обозначается индексом В (А). Необходимые для
оценки; дисперсий ст| и ст1(„) и для проверки гипотез о них ожи­
даемые значения средних квадратов приведены в табл. 4.3.12.
Несмещенные оценки для и а | (а) имеют вид
А2 M S A - M S S(y4) Ä2 M S ß(A-, ~ M S r , л Q 1C4
aa = ----------- -ß j- -------- и 06 (а) = -------------^ ----------- . (4 .< 5 .1Э)

И наконец, соответствующие критерии и статистики сведены


в табл. 4.3.13. В большинстве ПСП отсутствуют программы,
4 .3 . Двухфакторный дисперсионный анализ 263

Т а б л и ц а 4 .3 .1 2

О ж идания ср едн и х квадратов для д вухф актор н ого плана


с груп п и р овкой

Источ - EMS EMS


ник д и с ­ модель II смешанная модель
персии

JK % а2
А О2 + К в \ (а) + К J a \
а + ^ а Ь(я) 1 / _ ]

В (Л ) °2 + Köl (а) а2 + К в 1 {а)

R а2 п2

специально предназначенные для решения задач дисперсионного


анализа для планов с группировкой. Однако таблицу вида 4.3.11
можно получить, используя факторные программы, детально рас­
смотренные в разд. 4.4, или программы регрессионного анализа,
обсуждаемые в разд. 4.5.
Т а б л и ц а 4 .3 .1 3

К ритери и для двухф акторн ого п лана


с группировкой

Н0: все а . = 0 (смешанная)


н 0 : °Ь(а) — 0
Н0: сга = 0 (модель II)

р M S ß (А ) т А
M SR М Б я (Л )
7

V! = /— 1
?*
II
iH

v2 = I J ( К — 1) У2 = / ( 1 — 1)

Пример 4.3.7. Продолжая исследование, начатое в при­


мере 4.2.2, предположим теперь, что каждую диету ( / = 4) на­
значали четырем испытуемым ( / = 4). Если к тому же измерения
выдыхаемого Г\[2 проводились у каждого испытуемого К — 2 раза,
то можно говорить о (повторяемом) двухфакторном плане с груп­
пировкой с одним фиксированным фактором (Л — диета, / = 4),
а другим — случайным (В — испытуемые, / = 4). (Испытуемые
сгруппированы диетой.)
Данные этого эксперимента собраны в табл. А, а результаты
дисперсионного анализа — в табл. В. Проверка гипотез прово­
дилась в соответствии с критерием табл. 4.3.13 для смешанных
моделей. Отметим, что эффекты диет оказались значимо различ­
ными, а дисперсия между испытуемыми в рамках одной диеты —
незначимо отличной от нуля.
264 Гл. 4. Дисперсионный анализ

Таблица А

Набор данных

Диета

О, Ог Оз о*

4.079, 4.859 4.368, 5.668 4.169, 5.709 4.928, 5.608


3.540, 5.047 3.752, 5.848 4.416, 5.666 4.940, 5.291
3.298, 4.679 3.802, 4.844 4.123, 5.059 4.674, 5.038
2.870, 4.64§ 3.578, 5.393 4.403, 4.496 4.905, 5.208

Таблица В

Результаты дисперсионного анализа

Источник Число
дисперсии ээ степеней мэ Р
свободы

Д иета 3 .7 1 1 3 1 .2 3 7 8 .1 4 < 0 .0 0 5
О б ъ е к т (д и е та ) 1 .8 2 8 12 0 .1 5 2 0 .2 0 N5
О статок ' 1 2 .0 2 0 16 0 .7 5 1

П олная 1 7 .5 5 9 31

4.3.5. Сравнение моделей


В этом разделе мы сравним различные модели, чтобы подчеркнуть
достоинства и недостатки каждой из них. Для такого сравнения
рассмотрим гипотетический эксперимент, который, впрочем, в ка­
кой-нибудь форме может быть поставлен и в реальной жизни.
Эксперимент состоит в сравнении / мешдов исследований некото
рой характеристики крови у собак. Итак, А — фиксированный
фактор «способ исследования» с 1 уровнями, переменная У —
некоторая характеристика крови, а экспериментальной единицей
служит собака. Вопрос состоит в том, какой план избрать
(рис. 4.3.1).
П ервый ответ. О дноф акт орный план. В этом случае в I -м ме­
тоде исследования анализируются / г- собак, г = 1, ..., I , и изме­
ряется характеристика крови каждой собаки (рис. 4.3.1, а).
Это — простейший план (что, конечно, хорошо). Но его недоста­
ток состоит в том, что дисперсия ошибки включает как ошибку
измерения, так и различия между собаками. Поэтому этот план
может оказаться неэффективным и не выявить различия в методах
исследования. Некоторого улучшения можно достичь, выбирая
как можно более «однородную» группу собак и тем самым умень­
шая этот источник дисперсии.
4 .3 . Д вухф акторны й дисперсионны й анализ 265

Метод

Метод

Метод

Метод

1- К
1 к

Р и с . 4 .3 . 1 . С р а в н е н и е м о д е л е й : а — о д н о ф а к т о р н ы й п л а н (/ = 2 , — 2 , У2
= 3 )" Ь — п л а н р а н д о м и з и р о в а н н ы х б л о к о в ( / = 2 , У = 2 ); с — п л а н с г р у п п и ­
ровкой ( / = 2 , 7 = 2 , К и зм е р е н и й ); й — п о втор я ем ы й д в у х ф а к то р н ы й план
(1 = 2, ] = 2 , /С и з м е р е н и й ) .

В т орой ответ. Р а н д о м и зи р о в а н н ы е блоки. В этом случае мы


считаем метод исследования фиксированным фактором А , а «со­
бак »— случайным фактором В . Выберем У собак и проведем I
исследований у каж дой собаки (блок) в случайном порядке
266 Гл. 4. Дисперсионный анализ

(рис. 4 .3 .1 , Ь ). В р езу л ь тате каж д ого исследования получаем и з ­


м ерение характеристики крови. Д остоинство этого плана состоит
в том, ч т о эффекты всех I способов исследования получены от
о д н о р о д н о го блока (а именно, от одной и той ж е собаки), а очевид­
ный н е д о с т а то к — в том, что наблю дения в каждом блоке з а в и ­
симы. Э т у зависимость мож но уменьш ать, если делать д оста­
точно б о л ь ш и е интервалы между последовательными исследова­
ниям и.
Т р е т и й о т в е т . П л а н с г р у п п и р о в к о й . В этом случае будем
сч и тать «фактор В (собаки) подчиненным фактору А (метод иссле­
д о в а н и я ) . П ри этом сл уч ай н ая выборка из J собак подвергается
первом у способу исследования, д р у гая случайная вы борка того ж е
объем а — второму и т. д ., так что всего для эксперим ента нуж но
и с о б а к (рис. 4.3.1, с ) . В таком виде это по сущ еству одноф актор­
ный п л а н с J■í ^ — J 1 = J. Чтобы п ревратить его в план
с г р у п п и р о в к о й , проделаем К независимых измерений х ар а к тер и ­
сти ки V . Этот план лучш е всего соответствует нашему э к сп ер и ­
менту, п о т о м у что он позволяет оценить и ошибки измерения,
и р а з л и ч и я между собаками, так ж е к ак и разн и цу меж ду мето­
д ам и и ссл ед о в ан и я .
Ч е т в е р т ы й о т в е т . П о в т о р я е м ы й д в у х ф а к т о р н ы й п л а н . В этом
с л у ч ае рассм отри м перекрестны й двухфакторны й эксперим ент
с д ву м я ф акторам и А (метод исследования) и В (собаки). Возьмем
J со б ак и обследуем каж дую / способами в случайном порядке.
Д л я к а ж д о й комбинации факторов (собака — метод и сследова­
н ия) п р о в е д е м К измерений величины У (рис. 4.3.1, й ) . Это п о зво ­
л и т нам оценить ош ибки измерения и разли чи я между собакам и
вне за в и с и м о с т и от способа исследования, т а к же к ак и разницу
м еж д у сп о со б ам и исследований. Заметим, что э т о —- повторяемый
п лан с р ан д ом и зи рован н ы м и блокам и. У него тот ж е недостаток,
что и у неповторяемого п лан а с рандомизированными блоками.

4.4. Общ ая программа факторного планирования ')


В этом р а з д е л е вновь вернемся к «компьютерной точке зрения»
и со ср ед о то ч и м внимание н а программах дисперсионного ан али за,
в х о д я щ и х в стандартны е ПСП. Многие пакеты программ содер­
ж а т еди нственн ую программу дисперсионного ан ал и за, вы чис­
ляю щ у ю табли цу АЫОУА д л я ф а к т о р н о г о п л а н а . В разд. 4.4.1
мы о п и ш е м этот план, остановимся н а р азл и ч и я х м еж ду програм ­
мам и, к о т о р ы е допускаю т и не допускаю т повторение измерений,
и о б ъ я с н и м , к а к мож но анализировать повторяемые ф акторны е
п лан ы , и с п о л ь з у я программы второго ти па.
*) В л и т е р а т у р е часто используется термин анализ факторных планов. —
Прим. перев.
4.4. Общая программа факторного планирования 267

Ф акторны е программы можно использовать и д л я ан ал и за


других типов планов, таких, к ак планы с рандомизированными
блоками, повторяемыми рандомизированными блоками и планы
с группировкой. В разд. 4.4.2 опишем, к ак использовать ста н ­
дартную ф акторную программу при анализе эти х типов планов
и еще двух — р а с щ е п л е н н ы х и л а т и н с к и х к в а д р а т о в .

4.4.1. Дисперсионный анализ факторных планов


П усть мы исследуем т факторов А ъ . . . , А т и у ф актора А 1 всего
¡ 1 ^ 2 уровней, I = 1, ..., т . П усть каж д ая комбинация уровней
повторяется ровно N раз. Это значит, что каж дый фактор соче­
тается с каж ды м , т. е. задан полный перекрестны й план. Если
все т факторов — факторы с фиксированными эффектами (мо­
дели I), то говорят о (полном перекрестном) ф а к т о р н о м п л а н е
с т ф а к т о р а м и с ф и к с и р о в а н н ы м и э ф ф е к т а м и . Если ж е все ф а к ­
т о р ы — модели II, то это — (полный перекрестный) ф а к т о р н ы й
п л а н с т ф а к т о р а м и с о с л у ч а й н ы м и э ф ф е к т а м и . Смешанные мо­
дели возникаю т, когда часть факторов — модели I, а осталь­
ные — модели II. В этом разделе мы рассмотрим только планы
с фиксированными эффектами.
В модели с фиксированными эффектами считается, что изм е­
рения, соответствующ ие каж дой комбинации уровней . . . ¿т
факторов А г , А %, ..., А т , представляю тся суммой среднего, соот­
ветствую щ его этой комбинации уровней, и ошибки измерения.
Тогда
У 1112■■■‘ т п — ^ ‘1С2- л т ~ ^ в ‘ 11г - л т п ' (4 -4-1)
1*1= 1, . . ., / 1, • . •, = 1 Iщ, П = 1, . . ., N.
Д л я любых индексов /, к , I = 1, ..., т считается, что среднее
представимо в виде суммы
a) генерального среднего р;
b) дифф еренциального эффекта, определяемого фактором А ]
и обозначаемого (а,),-.;
c) дифф еренциального эффекта (о^-а*),-.,- , / < ; &, оп ределяе­
мого (д в у х ф а к т о р н ы м ) в з а и м о д е й с т в и е м всех пар различны х
факторов А } А к \
(1) дифф еренциального эффекта ( а / х ^ а ^ определяемого
( т р е х ф а к т о р н ы м ) в з а и м о д е й с т в и е м всевозмож ны х троек попарно
различны х ф акторов А 3А к , А [у / < к < ! /;

е) дифф еренциального эффекта (а ^ - • •а,п) /1,- опреде­


ляемого ( т - ф а к т о р н ы м ) взаим одейст вием всех т факторов
А \А г - •-А т.
268 Гл. 4. Дисперсионный анализ

К а к и раньш е, будем считать, что величина ошибки распреде­


лена по N (0, о2). Д л я единственности М Н К -оценок всех п арам е­
тров нуж но налож ить дополнительные ограничения на сами
параметры и их оценки. Обычно требую т, чтобы сумма дифферен­
циальны х эффектов д ля каж дого ф акторауравн ял ась нулю , к ак
и сумма дифф еренциальных эффектов д л я всех ¿-факторны х
(& = 2 , ..., т ) взаимодействий по каж дому индексу при любых
ф иксированны х зн ач ен и ях остальны х. Н априм ер,
£ ( а /а *)‘У * = 0 при вс;х 4 , ^ (а /а *)г/* = 0 ПРИ всех 1 ■
£/ У*
И спользование ф акторны х программ из ПСП особенно полезно
при больш их зн ачен иях т , потому что даж е вычисление сумм
квадратов становится затруднительны м. Ч ащ е всего эти программы
назы ваю тся «дисперсионный ан али з ф акторного планирования»,
«т-ф акторн ы й дисперсионный анализ», «дисперсионный ан али з
т -ф а к т о р н ы х перекрестны х планов». Все эти программы можно
разбить на две группы: допускаю щ ие повторение экспериментов
(т. е. N ^ 1) и недопускаю щ ие ( Ы — 1). Рассмотрим теперь
каж дый из эти х случаев.
1. П рограм м ы , допускаю щ ие повт орение. В этом случае на
выходе типичной ф акторной программы печатаю тся суммы к в а ­
дратов, степени свободы, средние значения квадратов для остаточ­
ной компоненты (или ошибки) Н и каж дого источника дисперсии
А и А 2 , ..., А т , А 1А 2 ........Л т _1Л т , ... и Л 1Л 2 - ” Л т , т. е. с в я за н ­
ной с каж ды м фактором, взаимодействием каж дой пары разли чн ы х
факторов, каж дой тройки попарно разл и чн ы х... и, наконец,
взаимодействием всех ф акторов. Д л я каж дого источника д испер­
сии (кроме остаточной суммы И) исследователь может проверить
нулевую гипотезу # 0, состоящ ую в том, что все соответствующ ие
дифф еренциальны е эффекты равны нулю Н апример, для источ­
ника, определяемого взаимодействием А 1А 2А 3 , гипотеза имеет
вид П „ : (о с1а . 2а 3) 111г 1! = 0 при всех ¿ 1 , 1'2 , ¿ 3 , ¿1 = 1, ..., 1 г , ¿.2 = 1, ...
..., / 2, ¿3 — 1, ..., / 3. Все ожидаемые значения средних квадратов
имеют вид суммы дисперсии ош ибки о 2 и величин, которые равн ы О,
если только гипотеза Н 0 справедлива. А так к ак остаточная сумма
квадратов МБр дает несмещенную оценку ст2, то для проверки г и ­
потезы # 0 мы рассмотрим отнош ение среднего квад рата М 5Н,
соответствую щ его данному источнику, к остаточнохму среднему
МЭд. П усть г н и vR обозначаю т число степеней свободы д л я этих
д ву х средних квадратов. Тогда для проверки вы полнения Н 0
вычислим ^-отнош ение
Р = МЗн/МЭк - (4.4.2)
Е сли ги п о теза Я 0 справедлива, то эта статистика имеет .Р-распре-
деление со степенями свободы ун и у к . Р -значение равно площ ади
4.4. Общая программа факторного планирования 269

под кривой п л о т н о сти р а с п р е д е л е н и я Т7 ^ н , vR) справа от точки ,Р.


Г ипотеза Я 0 о т к л о н я е т с я , если: Р < а .
Е сли число п о в то р е н и й в э к с п е р и м е н т е N = 1, то п ред пола­
гается, что все д и ф ф е р е н ц и а л ь н ы е эффекты /п-факторного взаим о­
действия равн ы н у л ю . П о это м у в выходной таблице программы
нет графы для и с т о ч н и к а д и сп ер си и А ХА 2 . . . А т .
2. П рограм м ы , пред п о ла га ю щ и е неповт оряемы й эксперимент .
Если в эксп ер и м ен те N = \ , то компонента, соответствующ ая
т-ф акто р н о м у в заи м о д ей ств и ю , приним ается за остаточную , так
что
БЗ к = Бв
1-
/5
т, \ ’р — V /!
п 1
Ат И М Б рк = М Б Л А ■

Поэтому выходные т а б л и ц ы ти п и ч н ы х программ такого рода со­


д ер ж ат суммы к в а д р а т о в , ч и с л о степеней свободы и средние
значения квадратов д л я всех ф ак торов и й-факторных взаи м о­
действий, к = 2 , ... , т , но н е сод ерж ат графы д ля остаточной
компоненты. Д л я о ц е н к и ди ф ф ерен ц и альн ы х эффектов можно
воспользоваться соотн ош ени ем (4.4.2).
С другой с то р о н ы , если в эксперим енте N > 1, то можно
ввести новый ф ак то р «п овторени я» А т+1 и воспользоваться п р о ­
граммой д и сп ер си о н н о го а н а л и з а д л я получивш егося т + 1-
сфакторного п лан а. Н а выходе э т о й программы мы получим д а н ­
ные д л я всех и сто ч н и к о в д и сп ер си и и их /г-факторных взаи м од ей ­
ствий, к = 2 , ..., т , /и 1 1. З а т е м необходимо объединить суммы
квад ратов и число с т е п е н е й своб од ы д л я фактора А т+1 и всех
взаимодействий, с о д ер ж ащ и х э то т ф актор. Эти объединенны е
величины даю т о стато ч н у ю су м м у квад ратов ЭЭя и число степеней
свободы д ля и сх о д н о го т -ф а к т о р н о г о плана с N повторениям и.
П оэтому М5К = и мы вновь можем восп ользоваться
форм улой (4.4.2) д л я оценки эф ф ектов.
Рассмотрим, н а п р и м е р , о д н оф акторн ы й план (4.2.1) с одним
ф актором и N п о в т о р е н и я м и на каж дом уровне ф ак тора А х .
Н азовем фактор А г « п о в то р е н и ем » и проанализируем нашей п ро­
граммой соответствую щ ий д в у х ф а к то р н ы й план. В резул ьтате
програм м а н а п е ч а т а е т суммы к в а д р а т о в ЭБл,, ЗБл.,, и числа
степеней свободы , у а 2 и ^ а 1 л ^ д л я компонент А х , А 2 и А ХА 2
соответственно. Значгения Б 5 К и д л я однофакторной модели
равн ы
БЯк = Б & л 2+ и VI* = \ а 2 +

так что
(4-4.3)

Замечание 4 .4 .1 . О б ъ е д и н е н и е превращ ается в слож н ую проб­


лему, если число ф а к т о р о в т в е л и к о . Мы рекомендуем не объеди­
270 Гл. 4. Дисперсионный анализ

нять ни о д н о из ¿-ф акторны х взаимодействий, & = 2 , т — 1,


если не объеди няется /л-факторное.

П р и м е р 4 .4 .1 . В одном эксперим енте1) 12 групп, но N = 4 крыс


к аж д ая, б ы л и обследованы последую щ ем у плану: 1) от рождения
до ко н ц а вск ар м л и в ан и я новорожденные крысы в группах 1— б
о с т а в а л и с ь все время с матерям и, а в груп п ах 7 —12 еж едневно
р а з л у ч а л и с ь с ними на определенный период; 2 ) от окончания
в с к а р м л и в а н и я до созревани я ж ивотны е из одного приплода
в г р у п п а х 1— 3 и 7—9 содерж ались совместно, а в груп пах 4 —6
и 10— 12 и зо л и р о в ан н о ; 3) с момента достиж ения половозрелости
а) ж и в о т н ы е из одного приплода в гр у п п а х 1 ,4 , 7 и 10 содерж ались
совм естно, Ь) в гр у п п ах 2, 5, 8 и 11 — изолированно, с) в
гру п п ах 3 , 6 , 9 и 12 — в сообщающихся к л е тк а х . В результате
э к сп ер и м ен т а и зм ерялась концентрация адреналина ¥ (м г/ 100 г).
В э т о м эксперименте фактор А 1 связан с первым периодом
(от р о ж д е н и я до окончания вскарм ливан и я). У него 1 Х — 2
у ровн я — и золировались от м атери или нет. У ф ак тора А 2 ,
с в я з а н н о г о со вторым периодом (от окончания вскарм ливан и я до
с о зр е в а н и я ), тож е / 2 = 2 у р о в н я — ж ивотны е одного приплода
со д ер ж ал и с ь совместно или нет. И наконец, у ф актора А 3 , отн о­
сящ егося к периоду зрелости, / 3 = 3 уровн я, а именно — и зо л и ­
рованно, совместно или в сообщающихся кл етк ах сод ерж атся
ж ивотны е из одного приплода. Исходные данны е приведены
Таблица А
Набор данных

Ф актор А , : от рож дени я


до кон ц а вск ар м л и ван и я

С матерью О т д е л ь н о от м а т е р и
Ф актор А г Ф актор Л 3: пери од Ф а к т о р А 3:
от к о н ц а вскармливания з р е л о с т и ____________ п е р и о д з р е л о с т и
до созревания
совместно

совместно

раздель­
раздель­
приплод

приплод
ЯЩИКОВ

ЯЩИКОВ
система
система

но
но

Приплод, совместно ' 3.2 1.9 4 .0 4.6 3.3 6.3


2 .6 2.3 4 .6 4.8 4.0 7.2
2 .2 2 .2 5.7 4.6 5.0 4.6
2 .6 2 .0 5 .7 4.4 3.2 7.2
Приплод раздельно 3.2 2 .7 4.8 4.5 2.4 3.8
2.5 2 .8 4 .8 4.2 3.6 4.4
3.0 2.4 5.4 4.4 3 .0 4.8
3.3 2 .7 3 .8 4 .3 3 .0 5.8

х) О писываемы й эксперимент был осуществлен Д ж . Х енри (D r. Jam es Henry,


D e p a rtm e n t of P hysiology, USC, Los Angeles, California).
4.4. Общая программа факторного планирования 271

в табл. А. Трехф акторн а я м одель д ля этого эксп ери м ен та имеет


вид
У1^,1,п= |А + (<*1 ) 1, + (« 2)12 + («3)1, + (о^аг)«^* +
+ (<Х1аз)|1г3 + (« 2^ 3)1213 + («10:2^3)1, 12», +
11, ^2 = ^ ¿з == 1, 2, 3, п = 1, . . . , 4.
Здесь с^-— диф ф ерен ц иальн ы й эффект ф актора А И спользуя
факторную п рограм м у, допускаю щ ую повторяемы е планы (из
пакета ВЛШ Р2У), п о л у ч и м таблицу дисперсионного ан ал и за
(табл. В). Р езультаты п р о в е р к и гипотез сведены в табл. С. И з нее
видно, что значимыми я в л я ю т с я эффекты, связан ны е с факторами
А г и А 3 и взаим одействием А х и А 2 . Остальные эффекты н езн а­
чимы, т. к. для них Р > 0.05.
Таблица В
Результаты дисперсионного анализа

Источник Сумма Число Средний


дисперсии квадратов стёпеней квадрат
свободы

Л1 15.187 1 15.187
л2 1.541 1 1.541
^3 43.058 2 21.529
А 1А 2 3.741 1 3.741
з 1.974 2 0.987
А ¡А 3 2.280 2 1.140
0.405 2 0.203
Остаток 14.085 36 0.391

Полная 82.271 47

Таблица С
Проверка гипотез

Но- все(а,а2(Хз)111.11] = 0 Н0:все(а2а3)1г,з = 0 Н 0 :все(а,а3)м, = 0

Г = 2.9 Я-= 2.5


О
и.
II

у, = 2 >-1 = 2 у, = 2
у2 = 36 у2 = 36 у2 = 36
N5 N5 N5

Н 0:все( а, а2),,12= 0 На : все («з),, = 0 Н0:все(а2)1; =0 Н 0'все (я,),, =0

/ = 9.6 Г = 55.1 Г =3.9 Г = 38.8


V,- 1 у, = 2 у. = 1 VI =1
v 1 = 36 у2 = 36 у2= 36 у2 = 36
В < 0.005 Р < 0.001 N5 р < 0.001
272 Гл. 4. Дисперсионный анализ

4 .4 .2 . Применение факторных программ к другим моделям

Ф ак то р н ы е программы можно использовать для ан ал и за и д р у ги х


видов п л а н о в , отличных от полного m -факторного п лан а (см.
статью H a rtle y в книге R alsto n , W ilf (I960)). О бязательн о т р е ­
буется то л ь к о , чтобы во всех ячейках было одно и то ж е число
наблю дений N . И скусство состоит в том, чтобы сф орм ули ровать
и сходны й п лан к а к факторны й, получить таблицу дисперсионного
а н а л и з а для этого факторного плана, а затем вы разить величины
д л я исходного план а, сгруппировав некоторы е суммы квадратов
и степ ен и свободы ф акторного плана. Если это проделано, то сред ­
ние зн а ч е н и я квадратов находятся делением соответствующ ей
об ъед и ненн ой суммы квадратов на ее «объединенное» число сте­
пеней свободы . По этим данным, к а к обычно, проводится п роверка
ги п о тез.
В эт о м разд ел е мы рассмотрим такую п роцедуру д л я двух
р ан ее рассм отренн ы х планов — с рандомизированными блокам и
и с гр у п п и р о в к о й . К ром е того, мы опиш ем еще два вида планов —
р а с щ е п л е н н ы е п л а н ы и л а т и н с к и е к в а д р а т ы . По мере необходи­
мости м ы будем отмечать различия между двум я рассмотренными
к а т е г о р и я м и ф акторны х программ — допускаю щ их и не д о п у ­
с к а ю щ и х повторения.

1. П л а н ы с р а н д о м и з и р о в а н н ы м и б л о к а м и . М одель с рандом и­
зи р о в а н н ы м и блоками, описываемую уравнением (4.3.11), можно
о б р аб ат ы в а т ь к ак ф акторны й план с двум я факторами и N = 1
н аб лю д ен и ем для каж дой пары уровней. Соответствующую т а б ­
л и ц у д и сперси онн ого ан ал и за выдает лю бая ф акторная програм м а,
а зн а ч е н и я средних квадратов вы числяю тся по ф орм улам из
табл. 4 .3 .8 .
М одель повторяемого п лан а с рандомизированны м и блокам и,
оп исы ваем ую уравнением (4.3.12), можно рассм атривать к а к п о ­
в то р яем ы й двухф акторны й п лан с N > 1 и обрабаты вать любой
ф ак то р н о й программой, допускающ ей повторение наблю дений.
Е сл и п р о гр ам м а не д опускает повторений, мы переф орм улируем
м одель следующим образом: А г — фактор «способ обработки»,
А 2 — ф актор «блок» и А 3 — фактор «повторения». И сп ол ьзуя
ф ак то р н у ю программу д л я трехф акторного п лан а, мы можем
п р ед ст ав и т ь остаточную сумму квадратов исходной модели в виде
S S r = S S ^3~г 5 5 л ,л 3 — S S A tA t -f- S S ^ y ij/V (4.4.4)
где в ел и ч и н ы , фигурирую щ ие в правой части, берутся просто из
т а б л и ц ы дисперсионного ан ал и за для трехф акторного п лан а.
А н а л о г и ч н а я ф орм ула справедлива и для остаточного числа
степ ен ей свободы. Величины EMS задаю тся по формулам
таб л . 4г.3.9.
4.4. Общая программа факторного планирования 273

2. Д вухф акт орная м одель с г р у п п и р о в к о й . В д вухф акторной


модели с г р у п п и р о в к о й , оп исы ваем ой формулами (4.3.13) или
(4.3.14), участвуют д в а ф актора А х и А 2 , причем А 2 сгруп п и рован
фактором А у . В к а ж д о й я ч е й к е п роизводится N наблю дений.
При использовании ф а к т о р н о й программы , допускаю щ ей повто­
рения, можно р а с с м а т р и в а т ь н аш план как ф акторны й план
с двум я факторами и N п о вто р ен и я м и . Сумма квадратов д л я ф а к ­
тора А 2 , п одчи ненн ого А 1г р а в н а
S S a a Ai ) = S S ^ 2 + S S -л.л,- (4.4.5)

Суммы, стоящие в п р а в о й ч а с т и , содерж атся в таблице д и сп ер­


сионного ан ал и за д л я ф ак то р н о го п лан а. А налогичная формула
верна и для числа с т е п е н е й своб оды Ула (Л,>- Величины S S^, и
SSR, т а к ж е к ак и с о о тв е тс тв у ю щ и е им числа степеней свободы,
берутся прямо и з э т о й т аб л и ц ы .
П ри и сп ользован и и п р о гр ам м ы , не допускаю щ ей повторений,
введем фактор «повторений» А 3 и рассмотрим полученную модель
к ак трехфакторны й п л а н . О с тато ч н а я сумма квадратов для мо­
дели с гр уп пи ровкой в ы р а ж а е т с я через величины, вы даваемы е
программой по ф о р м у л е
S S R = SS л , + S S A, A , + 5 5 л 2л 3 + S S -a .A 'A ,. (4.4.6)
Ч и сло степеней св о б о д ы н а х о д и т с я аналогично. В еличина БЭл., <л,)
задается равенством (4.4.5), а ББл, и v A l выдаются непо-
средствевно п р о гр ам м о й . З н а ч е н и я EMS находятся в соответ­
ствии с табл. 4 .3 .1 2 .

3. П л а н с р а с щ е п л е н н ы м и б л о к а м и . В этой ситуации мы р а с ­
полагаем / j видами о б р а б о т к и (ф а к то р Л 5), / 2 подвидами обработки
(фактор 42) и / 3 б л о к а м и (ф а к то р Л 3) (B row nlee (1965)). К аж ды й
блок делится на 1 г од нород н ы х уч астк о в, а каждый участок — на
/ 2 подучастков. В н у т р и к а ж д о г о б лока уровни ф актора A t с л у ­
чайно р асп р ед ел я ю тся по у ч а с т к а м , а внутри уч астка уровни
ф актора Л 2 случайно р а с п р е д е л я ю т с я по подучасткам. Н апри м ер,
один блок в случае / 3 — 3 , / 2 = 2 мож ет быть устроен так, как
п оказано в след ую щ ей т а б л и ц е , в которой индекс i j обозначает
уровень ф актора j , / = 1, 2 .
Участок 1 У часток 2 У часток 3
= 2 1\ = 3 ¿i = 1 П одучасток 1
¿2 = 2 i2= 2 ¿2 = 1
г\ == 2 4 = 3 4= 1
Подучасток 2
i2 = 1 ¿2 = 1 ('2 = 2
Блок
Т а б л и ц а 4 .4 .1

Таблица дисперсионного анализа расщепленных планов

Источник Сумма Число степеней Средний ЕМБ


дисперсии квадратов свободы квадрат модель I

А 3 (блоки) = 2 ] (У- ‘з ~ У -У ^А 3 = ¡з — * МЧ

А г (вид обра-
ботки) = I] (в и - —у - У = / Х— 1 МБл, а2 + /-дет? + / а/ 3

К (1) (ошибка 2 {у ‘ 1 - ь ~ у ^
сг2 + / 2а?
участка) V 1’ = ( / 1 - 1 ) ( / з - 1 )
— У - 1 3 + У - - ) '2

А 2 (подвид об­
^Л2= /г —1 МБл2
работки) 5^ 2 = I ] ( у - ‘ Г ~ У ■•)2 °а+л<^,д. + / 1/8^ ! ! 2)/ ‘
(видХ = 2 (У‘ 1г2' У‘ 1 ' '
^Л^а 7 (/1 —1) (/2 —1) МЭл,А„_ „2 1 1 2 2 К “*)2‘1<2
X подвид)
— 9ч2- + /Э(/1-1 )(/2-1 )'
А 2А 3 (подвидХ 55^2^3 2 ( У '‘ & з У"Ь>
''’ЛоЛз — (/2 —О (/з —1)
X блок) — у- 12- + £•• )2
М 5А цА3 а2 + /1°Га2аз
К (ошибка под- ==Бвт —(сумма всех М5Й оа
участка) предыдущих ББ) ^ = (/1-1) (/2-1) (/з—1)

Полная ББт = 2 (У111213 — У --)г гт= / 1 /2/3 - 1

Суммирование по «',£2 и [3.


4.4. Общая программа факторного планирования 275

Ц ель так о го п лан а состоит в уменьшении числа комбинаций


способов обработки внутри одного блока. Моделью п л ан а сл уж и т
У/,!2г, — И + (a i)í, + (а г)(2 + (а з к + ( a i a 2) i í t , +

+ (« 2Яз)м, + е!ч(£з) + (4-4.7)

/¡, t2 = 1, . • •, ^2> '■> 1> ■■■’ Ai-


З д есь — фиксированные эффекты, определяемые видами о б ­
раб отки , ос2 — фиксированные эффекты, определяемы е подви­
дам и, а 3 — случайные эффекты блоков, а ха 2 — взаимодействие
ви д а и подвида обработки, а 2а 3 — взаимодействие подвида с б л о ­
ком. Ч лен е {1) — случайная ош ибка участков внутри б лока,
а е — случ ай ная ош ибка подучастков внутри участка. П редп о­
л а га е т с я , что е(1) распределены по N (О, сг|), а е — по N (0, ст2).
Д ополнительны е ограничения имеют вид
£ M í , = £ M ¿ 2 = 0, Ц (« ia 2) i t U =* £ ( a ia 2)ílí2 m 0
íl í2 i"1 i"2
д л я каж дого значения tx и t 2. И наконец, считается, что (а 3),-3
распределены по Я (0, <т|,), а (сх2а 3),-2,-з — по N (0, < А га г ) при
всех i 2 и i3.
Т абли ца дисперсионного ан ал и за для такого п лан а имеет
вид табл. 4.4.1, а критерии проверки гипотез приведены
в табл. 4.4.2. Степени свободы /•’-отношения вы числяю тся по
Т а б л и ц а 4 .4 .2

Критерии для расщепленных планов

И 0: H 0 : все ( x , a 2) ,¡l2 = 0 H a : вс е ( a 2) ¡ 2 = 0
< » = °

r MS.
F —
MS r MS r M S ,,^ ,

Н о'. <t ¡2 = 0 Я 0 : все ( a j ; , = 0 Н о: = 0

MSRd) ■ р . M S-. r - M S *3
F =
MS r MS r<i > MSr.,)

таблице дисперсионного анализа. Если гипотеза Н 0 : а \ = 0 не


отвергается, то сторонник объединения может перейти к объеди ­
ненным оценкам сумм 5 5 кш и ¿Бд, чтобы получить новую о с т а ­
точную сумму квадратов. Эта сумма используется при п роверке
гипотез Н 0 : ( а 1) с 1 = 0 и Н 0: с^ 3 = 0. Чтобы получить табл. 4.4.1,
и сп о л ьзу я факторную программу, мы рассмотрим расщ епленны й
276 Гл. 4. Дисперсионный анализ

план к ак трехф акторны й с /V = 1 наблюдением д л я каж дой трой ки


уровней. Выпишем соотнош ения между двум я наборами и сточ­
ников дисперсии (факторной и расщ епленной модели), и сп ол ьзуя
стандартн ы е обозначения ф акгорной модели.

Р асщ епленная Ф акторная


ss¿. s s „ ., /= 1 ,2 ,3 ,
1 i
S S R(1, = s s ^ 3,
s s ^ , = SSylH 2>
5 5 л 2л 3 = (4.4.8)
если программа
5 5 л , л 2/1
не допускает повторений,
SSR
если программа
S S R,
допускает повторения.

4. П л а н л а т и н с к и х к в а д р а т о в . В этой ситуации нам зад ан ы


три ф иксированны х ф актора А Л, А , и А 3 с одним и тем ж е числом
уровней у всех трех, т. е. / г = / , = / г = / ^ 3. П редполож им
так ж е, что н и каки х взаимодействий меж ду факторами нет. В п лан е
лати н ски х квадратов каж ды й уровен ь ф актора А 1 сочетается
ровно один р аз с каж ды м уровнем ф актора А г и ровно один р аз
с каж ды м уровнем ф актора А 3 : Ч тобы фактически построить т а ­
кой план (латинский квад рат), выпишем в п оряд ке во зр астан и я
все / уровней ф актора А х и / уровней ф актора А г в виде д в у м ер ­
ного массива, считая уровни ф актора А х строками, а ф актора Л 2 —
столбцами. В каж дой клетке мы зададим значение ф ак то р а А 3
так , чтобы каж ды й уровен ь А 3 встречался ровно один раз в каж дой
строке и в каж дом столбце. Наблюдение в ячейке ( /х/а), обычно
обозначаем ое y i l Í 2 , теперь будем обозначать через y c¡¿2 (£а).
Здесь í 3 — это уровень ф актора А 3 , соответствующ ий п аре i x i 2
в латинском квадрате.
Д в а прим ера л ати н ски х квадратов для 1 = 3 приведены
в табл. 4.4.3. Ч и сл а в м атрице обозначаю т уровни ф актора А 3,
а буквы — наблю дения. Заметим, н априм ер, что f = ¿г2з (i )>
а Г = // 23(2). потому что комбинации 2 , 3 уровней ф акторов А х
и А 2 соответствует уровень 1 ф актора А 3 в первом квад рате, и
уровень 2 — во втором.
Д л я любого / сущ ествует множество различны х л ати н ски х
квадратов. В идеале экспериментатор долж ен был бы составить
список всех возмож ны х л ати н ски х квадратов и для своего э к сп е­
римента случайны м образом вы бирать один из них. Чтобы о б лег­
чить эту операцию , мы можем восп ользоваться списком л а т и н ­
ских квадратов, составленны м F ish e r, Y ates (1963).
4.4. Общая программа ф акторного планирования 277

Т а б л и ц а 4 .4 .3

Два примера латинских квадратов ( / __ 3)

А г Ах

1 2 3 1 2 3

1 2 3 2 1 3
а Ь с а' Ь' с'

2 3 1 1 3 2
А1 1
е / С1' е' Г
3 1 2 3 2 [
9 И / в' И’

Этот план л у ч ш е ф ак то р н о го п л а н а с тремя факторам и тем,


что вместо Р н аб л ю д ен и й , н еобходим ы х для ф акторного п л ан а,
для плана л а т и н с к и х к в а д р а то в достаточно / 2. З а эту экономию
мы расплачиваемся т е м , что п р ед п о л агаем отсутствие всех в заи м о­
действий .
П лан латинских квадратов описы вается моделью
У м. и») = Г-1 + (а 0<1 + < а г),ч + («з)г, + < ? м . (г,)- (4.4.9)
Здесь a j — д и ф ф ерен ц иальн ы е эф ф е к т ы факторов А ] , / = 1, 2, 3,
а ош ибки е,-,,-, (/,) н езав и си м ы и р аспределены по N (0, а 2). Д о п о л ­
нительны е у слови я, к а к об ы чн о, имеют вид
£1 (« 1);,
I
£ («з),,
¿2
£ («з).-, = 0.

Комбинации и н д ек со в г\г 2 (г3) в (4.4.9) задаю тся выбранным л а ­


тинским квадратом. Н априм ер, первы й из латинских к в ад р ато в ,
изображ енных в т а б л . 4 .4 .3 , з а д а е т следующ ее множество к о м б и ­
наций: {(1, 1, 1), ( 1 , 2 , 2 ), ( 1 , 3 , 3 ) , (2 , 1, 2), ( 2 , 2 , 3 ) , ( 2 , 3 , 1 ) ,
( 3 , 1 , 3 ) , ( 3 , 2 ,1 ) , (3 ,3 ,2 ) ! , а второй квад рат — множ ество
|(1, 1, 2), (1, 2, 1), ( 1 , 3, 3), (2, 1, 1), (2, 2, 3), (2, 3, 2), (3, 1, 3),
(3, 2, 2), (3, 3, 1)}. О т м е т и м еще р аз, что эти множества сод ерж ат
по / 2, а не / 3 к о м б и н ац и й .
Таблицы д и с п е р си о н н о го а н а л и з а и проверки гипотез д л я
п лан а лати н ски х к в а д р а т о в за д а ю т с я таб л. 4.4.4 и 4.4.5 соответ­
ственно.
Д л я того чтобы п о л у ч и ть т а б л . 4 .4 .4 , и сп ользуя ф акторную
програм м у, мы р ас см о тр и м д л я п л а н а л ати н ски х квадратов два
факторны х п лан а с д в у м я ф а к то р а м и и N = 1 и вычислим табли цы
дисперсионного а н а л и з а д л я ка ж д о го . С перва воспользуем ся
программой для п л а н а с ф а к т о р а м и А х и А 2 и получим суммы ква-
278 Гл. 4. Дисперсионный анализ

Т а б л и ц а 4 .4 .4

Т а б л и ц а д и сп ер си о н н о го а н а л и за для п л ан а л ати н ск и х к вад р ато в

И сточник Сумма Число Средний


дисперсии квадратов степеней квадрат ЕМЭ
свободы

а 2 -)-

^ ( т х Л ) — £■•<•))* ^ . 'Е ( « | А
Аг = 1 ~ ■1 М Б Л1
1 / - 1

а 2 -(-

А 2 (У -1 2- — У - - О ) 2 уа 2 = I — 1 М Б л .,
+ / — 1
11
а2

^3 55^з = / 2 ( у - и * ) — у ■■<■■))* * А з = 1 ~ 1 + / — 1
>)
О ст а т о к Б Б к = Б х — ( 5 5 Л1 + = ( / - 1)Х М 5К а2

+ X (/ — 2 )

П о л н а я
58т = 2 £ £ (% *2 сы ~
¿1 12 *3 Л’Х = /2 — 1
- У Л ))2

Т аблица 4 .4 .5

К р и тер и и для плана латинских квадратов

Н 0: все = О Н 0: в се ( а 2) ; 2 = О Н 0: все ( а 3) 1д = О

дратов и с т е п е н и свободы д л я факторов А ъ А 2 и взаимодействия


А ХА 2 . П о л н а я сумма квадратов 5 5 т и число степеней свободы \'г
равны
= 5 5 л , -|- 55л, -(- , Ут = -|- гл, \ а га 2- (4.4.10)
Затем п ер еп и ш ем наш латинский квадрат так, чтобы фактор А 3
зад ав ал сто л б ц ы , Л 2 — вид обработки:, а А х — по-преж нему
строки. Д р у г и м и словами, произведем п реобразование
Ун (;•)<, = Уппи з) (4.4.11)
т ак , ч т о б ы получилось то ж е самое множество ком бинаций ин­
дексов. Н а п р и м е р , первый квад рат из табл. 4.4.3 преобразуется
4.4. Общая программа факторного планирования 279

к виду в котором числа в клетках обозначаю т уровни ф актора Л 2.


Н априм ер, измерение с1 = у 2\ (2> в старом квадрате в новом будет
о бозначаться с1 = у - щ ) 2- Снова воспользуемся нашей факторной
программой и получим суммы квадратов и числа степеней свободы
для ф акторов А х , А 3 и взаимодействия А ХА 3 .
Ау
1 2 3
2
г 1 а Ь3 с

23 1 2
/ С1 е
2 3 1
3 Л / 9

И з полученных таким образом двух таблиц построим таблицу


дисперсионного ан ал и за для п лан а латинских квадратов. Суммы
квад ратов найдем из соотношений

П л ан латинских квадратов Факторный план


ББл, = ЭБл, (из расчета 1 или 2 )
Б Б л, = ЭБл, (из расчета 1)
БЭл, = БЭл, (из расчета 2)
ББт = Б Б л, + З Б л , + З Б л .л , (из расчета 1)
ББк = 5 5 т — (Б Б л. + ББл. + З З ^ )
(4.4.12)
и, аналогично, вычислим степени свободы у а ^ vл2, vлз и

Пример 4 .4 .2 . Н а этом примере мы продемонстрируем техн и ку


объединения для п лан а с группировкой. В одном эксп ери м ен те
9 м орских свинок были случайно распределены по 3 кл етк ам (по
3 сви нки на клетку) и в каж дой клетке животным обеспечивался
один из трех уровней Ы0 3 (1 — контрольны й, 2 — вдвое больш е
нормы, 3 — втрое больш е нормы). П осле недели эксп ери м ен та
дел ал о сь N = 2 измерения величины К (артериального pH ). Ц ел ь
эксперим ента состояла в оценке средней разницы в у р о в н я х p H
для = 3 условий эксперимента (фактор Л х). Ф актор А г — ж и ­
вотны е с = 3 сгруппирован ф актором А х . М одель этого э к с п е ­
римента:
¿/¿,¿2'* = М'~Ь (а 1)»1 “Ь (а 2)»г(^») ~Ь
¡ != 1, 2, 3, ¿г = 1 . 2 , 3 , «=1,2,
280 Гл. 4. Дисперсионный анализ

Здесь (а 1)<1 — эффект, определяемый фиксированным фактором


^ 1. а (« 2) 12(1,) — случайны м фактором Л 2. Исходные данные п ри ­
ведены в табл. А. Эти данны е переупорядочены и представлены
Таблица А

Режим Животное рн

1 1(1) 7.08, 7.02


2(1) 7.04, 7.07
3(М 7.07, 6.98

2 1(2) 7.29, 7.18


2(2) 7.42, 7.32
3(2) 7.08, 7.28

3 1(3) 7.74, 7.54


2(3) 7.53, 7.50
3(3) 7.51, 7.63

в виде факторного п лан а с двум я факторами и N = 2, как п оказан о


в табл. В. И спользуя факторную программу, допускаю щ ую повто-
Таблица В

Животное

1 2 3

7.08 7.04 7.07


7.02 7.07 6.98

7.29 7.42 7.08


7.18 7.32 7.28

7.74 7.53 7.51


7.54 7.50 7.63

р ен и я, получим таблицу дисперсионного ан ал и за (табл. С). Д л я


вы числения суммы квадратов для ж ивотны х при заданны х у с л о ­
в и ях используем формулы (4.4.5) и получим <л,) = 0.0111 +
+ 0.0439 = 0.0550 с (л 4> = 6 степенями свободы. П олученная
таблица дисперсионного ан ал и за для модели с группировкой п р и ­
ведена в табл. И. В оспользуем ся теперь статистиками из
табл. 4.4.13 д л я проверки гипотез. П олучим табл. Е . И з нее сл е­
дует значим ость различий меж ду уровням и для трех условий э к с ­
перимента.
4.4. Общая програм м а факторного планирования 28)

Таблица С

Сумма Число
И сточник
квадратов степеней
дисперсии
свободы

^1 0.8570 2
Л2 0.0111 2
/4]Л2 0.0439 4
О статок 0.0650 9

П олная 0.0970 17

Таблица И

И сточник Сумма Число Средний


днспе рсии квадра- степеней квадрат
то в свободы

*1 0 .8 5 7 0 2 0.4285
Аг (-А{) 0 .0 5 5 0 6 0.0092
О статок 0 .0 6 5 0 9 0.0072

П ол н а я 0 .9 7 7 0 17

Таблица Е

Н°' °а 2<а 1) = 0 Н0: в с е (а ,)^ = 0

(нет р а з л и ч и й м еж д у (нет д и ф ф е р е н ц и ал ь н ы х
ж и в о т н ы м и п р и одном эффектов режима)
ре^киме)

„ 0 .0 0 9 2 , „ „ 0.4285 .„ .
Р ~ 0 .0 0 7 2 ~ ‘ -3 0.0092 " ' 46'6

= 6
II
СО

= 6
II
< ю

N5 Р < 0.001

Пример 4 .4 .3 . В к а ч е с т в е п р и м е р а расщ епленного п лан а р а с ­


смотрим следующий э к с п е р и м е н т . В груп пе из 25 лабораторны х
мышей уровень т е с т о с т е р о н а (в н а н о гр а м м а х на грамм ткани в м и ­
нуту) изм ерялся в к а ж д о м (п р а в о м и левом) яичке. И змерения п р о ­
водились до с т и м у л я ц и и и после 1 5 , 30, 45, 60 и 75 мин стим уляции.
В результате п ы т а л и с ь оценить и зм ен ен и е уровня тестостерона во
времени. Р езу л ьтаты э то го о п ы та представлены в табл. А.
Таблица А
Н а б о р данных

Минуты после, стимуляции

К юнтрш7/> 15 30 45 60 75

Тестостерон ■лравое яичко 1г нанограмм/грамм ткани в минуту)


1 .7 4 .9 35.9 51.6 49.5 30.2
0.2 0 .4 3.3 8.1 15.6 17.1
0 .5 2 .7 18.1 26.6 30.7 33.6
1.6 1.4 2.5 3.2 3.4 3.1
0 .4 0 .5 3.3 5.1 4.9 4.8
0 .4 0 .9 6.6 12.3 13.9 13.9
2.6 3 .9 10.5 8.0 5.1 3.2
4 .5 » 4 .5 7.4 13.0 18.7 24.2
5 .0 5 .5 6.7 7.0 5.9 5.4
1 .9 2.2 4.1 6.0 7.0 7.4
20 5 .0 18.4 24.2 32.1 38.3
2 .7 5 .4 15.8 18.3 24.4 26.7
3 .6 3 .4 8.6 9.8 7.8 6.9
7 0 6 .3 30.2 36.5 29.9 23.9
7 .1 5 .6 9.9 10.4 9.4 7.3
0 .7 3 .0 11.1 12.6 14.5 14.7
3 .8 3 .3 9.1 10.7 10.4 10.6
3 .1 3 .0 3.0 2.9 2.9 2.6
3 .7 3 .6 3.5 3.7 3.5 4.0
9 .0 10.2 20.9 22.6 17.1 13.5
1 .3 7.1 37.8 46.6 55.6 48.9
1.1 4.1 8.9 20.1 27.2 30.9
4 .1 4 .5 11.0 15.4 13.0 10.4
2.8 . 6.0 14.4 32.7 53.7 60.2
1 .7 4 .9 .35.9 51.6 49.5 30.3

Тестостерон.: левое яичко ( нанограмм/грамм ткани в минуту)

1.9 5 .8 33.3 48.1 39.8 22.3


0.2 0 .7 4.2 8.7 13.8 16.1
0 .7 5 .2 15.5 25.3 33.4 34.5
0.8 1.0 3.0 3.7 4.3 4.3
0 .5 0.8 3.5 4.0 3.7 3.8
0 .5 1.1 6.9 11.0 16.1 15.6
1 .3 3 .3 14.4 12.4 6.4 2.8
7 .8 8.8 10.5 14.3 22.9 24.3
1 1 .3 11.3 14.5 16.3 12.7 11.1
2 .9 3 .5 5.1 7.0 6.9 7.1
1.6 3 .8 12.1 18.7 25.5 25.7
3 .1 4.3 12.7 16.2 17.9 18.3
3.4- 4 .5 11.1 12.8 11.3 9.6
4 .6 8.7 29.2 35.2 31.4 27.5
6.2 5.2 6.7 6.6 6.6 5.1
0 .9 3.5 9.8 11.8 12.0 13.5
4.4. Общая программа факторного планирования 283

П родолж ение т абл. А

Минуты после стимуляции


Контроль 15 30 45 60

Тестостерон: левое' яичко (нанограмм/грамм ткани в минуту)


3.3 4.0 3.1 2.9 2.8 2.6
3.2 3.0 2.8 3.2 4.2 3.9
9.3 11.8 21.9 25.7 24.4 22.6
0.9 0.9 3.1 3.2 2.9 24
1.1 7.7 33.6 45.3 48.5 52.4
1.0 3.5 9.9 19.3 27.6 33.3
3.7 4.1 10.1 15.2 13.3 9.5
2.7 6.5 27.6 53.4 64.0 61.6
1.9 5.8 33.3 48.1 39.8 22.3

В данном случае время будем считать фактором Л х (ф и кси ро­


ванны й, 6 уровней), яи чки — фактором Л 2 (фиксированны й,
2 уровня), а ж ивотное — фактором А 3 (случайный, 25 уровней).
К аж дое ж ивотное (блок) «делится» на периоды времени (участки),
а каждый период — на правое и левое яичко (подучасток).
В табл. В приведены полученные факторной программой р езул ь-
Таблица В
Результаты дисперсионного анализа

Источник Число
дисперсии БЭ степеней мэ Р
свободы

Животное 23.123 24 0.963 7.4 < 0 .0 0 1


Время 14.201 5 2.840 21.8 < 0 .0 0 1
И«1) (ошибка) 15.668 120 0.130 23.6 < 0 .0 0 1
Яички 1 1 1 < 1 N5
Время X яички 19 5 3.8 < 1 N5
Яички X животное 1933 24 80.5 14.6 < 0 .0 0 1
Н (ошибка) 654 120 5.5 — —

Полная 55.599 299

таты ан ал и за этих данны х, преобразованны х ранее описанным


способом. Эти р езультаты показы ваю т наличие значим ы х различий
м еж ду ж ивотны ми, наличие взаимодействия между яичками и ж и ­
вотными (факторы А 2 и Л 3), а такж е значимые дифференциальные
эффекты времени.

Замечание 4.4.2. Отнош ение группировки т р а н з и т и в н о . Н а ­


пример, для трех ф акторов А , В а С это значит, что если фактор В
284 Гл. 4. Дисперсионный анализ

сгруп п ирован фактором С , а фактор А — фактором В , то фактор А


сгруп п ирован фактором С . Это последнее отношение обозначается
А ( В С ) . Д л я того чтобы получить сумму квадратов 88 л<вс) и
число степеней свободы \ А ( в с ) Д л я А ( В С ) , исп ользуя ф акторную
програм м у д л я трех ф акторов, нуж но просто слож ить все суммы
квадратов и числа степеней свободы, соответствующ ие и сточни­
кам дисперсии, содержащ им букву А . А именно:
8 8 А -}- 8 8 АВ -(- 5 5 ас -¡- 8 8 АВС,

Ч а (ВС) — + У а в ~Ь Уа С + 'VЛВС■

К а к и раньш е, 8 8 5 (0 = $ $ в + 8 Бвс- Эта процедура применима


к любому отношению группировки А 1 ( А 2 . . . А т ) .

4.5. Дисперсионный анализ при помощи регрессии


В этом разд ел е мы обсудим использование программы м н ож ествен ­
ной линейной регрессии д л я реш ения всех рассмотренны х зад ач
дисперсионного ан ал и за. Это важ н о сделать, потому что некоторы е
ПСП содерж ат программы множественной линейной регрессии и
не содерж ат программ дисперсионного анализа. Н е менее важ н о,
что в отличие от ф акторны х программ программы множ ественной
линейной регрессии допускаю т различное число наблю дений
в ячейке. К ром е того, некоторы е программы дисперсионного
ан ал и за (например, ВМ ОР2У, МАЫОУА и ВАШ 10У) исп ользую т
методы регрессионного ан ал и за, так что этот раздел п о ясн яет
методы, леж ащ ие в основе так и х программ.
С лучай с различным числом повторений в яч ей ках часто в стр е­
чается к ак в планируемом эксперименте, когда некоторы е н аб л ю ­
дения пропускаю тся, так и в непланируем ы х и сследованиях. Н а ­
пример, при обследованиях населения, упомянуты х во введении
к этой главе, неправдоподобно предполагать одну и ту ж е ч и сл ен ­
ность обследуемых при разн ы х ком бинациях уровней социально-
эконом ических и этнических групп.
В этом разделе мы воспользуем ся измененной ф ормулировкой
зад ач и дисперсионного ан ал и за в виде общей линейной модели.
В частности, мы будем рассм атривать все факторы к а к ф иксиро­
ванны е (модель I). В зам ечании 4.5.3.2 будет п оказано, что при
вы числении таблицы дисперсионного ан ал и за мож но обрабаты ­
вать случайны е факторы к а к фиксированные. Н о при проверке
гипотез необходимо верн уться к первоначальной интерпретации
ф акторов.
4.5. Дисперсионный анализ при помощи регрессии 285

В начале мы рассм отри м т е х н и к у вычислений д ля одной ги п о ­


тезы Я 0, а затем — д л я всех ги п о тез, связан н ы х с полной т а б л и ­
цей дисперсионного ан ал и за. Г р у б о говоря, вся техника состоит
в переф орм улировке исходной м о д ел и дисперсионного а н а л и за
в терм инах ген ер ал ь н о го средн его ¡л и миним ального м нож ества
диф ф еренциальны х эффектов, оп ред ел яем ого выбором д о п о л н и ­
тельны х условий. З а т е м мы п редстави м эту новую модель д и с п е р ­
сионного анализа в форме общ ей линейной модели. И сп о л ьзу я
программу м нож ественной л и н ей н ой регрессии, получим о стато ч ­
ную сумму к в ад р ат о в БЭк и соответствую щ ее число степеней
свободы для и сх о д н ой модели. Д л я п роверки гипотезы Н 0 у д а ­
лим соответствую щ ие гипотезе перем енны е из общей м одели,
вновь пропустим п р о гр ам м у л и н ей н о й регрессии и получим сумму
квадратов и ч и с л о степеней свободы ^ для первоначальной
модели при вы полнении гипотезы Я 0. С татистикой кри тери я д ля
проверки # 0 с л у ж и т

р = (^ -^ /(У н -^ ),, (4.5.1)

Эта статистика, у ж е р ас см а тр и в ав ш а я ся в разд. 3.2 и 4.1, под­


чиняется /•'-распределению со степ ен я м и свободы ун = ^ — VI;
и Р-значение р а в н о площ ади сп р ав а от точки ¥ под кривой
плотности р ас п р е д е л е н и я Р (ун, V,}).
П р оверка зад ан н о й гипотезы Н а о дифф еренциальны х эф ф ек­
тах проводится в н еск о л ь к о ш агов.

Ш а г 1 . В ы п и сать исходную м о д е л ь дисперсионного ан ал и за


с фиксированными эффектами и д о п о л н и тел ь н ы е условия на диф ­
ференциальны е эф ф екты .
Ш а г 2 . И с п о л ь зу я д о п о л н и тел ьн о е условие, представить один
из участвую щих в нем эф ф ектов в виде линейной комбинации
д р у ги х . (Н ап р и м ер , если фактор А оп ред ел яет эффекты а 1( ..., а , ,
а дополнительное усл ови е имеет вид а х + а 2 + • • • + = 0 , то
мож но вы разить э ф ф е к т а , через о с та л ь н ы е : а , = —а , -— а 2 —
• • — «/_!•) Затем следует п одстави ть все полученные вы раж ения
в исходную м одель. В итоге п о л у ч и тся модель, формулируемая
в терм инах ген ер а л ь н о го ср ед н его р и м иним ального множества
из р д иф ф ерен ц иальн ы х эф ф ектов. З н ач ен и е р можно вычислить
т а к , к а к объяснено в зам е ч а н и я х 4 .5 .1 .4 и 5.

Ш а г 3 . П р е д с т ав и ть модель А Ы О У А , полученную на ш аге 2,


в виде общей л и н е й н о й модели. Д л я этого нуж но только любым
способом п ер ен у м ер овать все н аб лю д ен и я по п орядку: у ъ у п,
где п — общее ч и с л о н аб лю д ен и й . Д иф ф еренциальны е эффекты из
286 Гл. 4. Дисперсионный анализ

м и н и м ал ьн о го множества обозначим, наприм ер, через 0Х, ..., 0р.


Т огда м о д е л ь запиш ется в виде
Di — ОЛ ; ••• - \ - ® p x pí e í> 1= 1 , . . . , « , (4.5.2)
где ош ибки e ¿ независимы и распределены по N (0, о2). Величины
Х цо п р ед ел яю тся моделью , полученной на ш аге 2 .
Ш а г 4 . Р ассм атр и в ая х ъ ..., х р к а к независимы е переменные,
а у к а к зави си м ую , воспользоваться программой множественной
линейной р егр есси и и получить значения SSR и v R д л я исходной
модели д исперси онн ого ан али за. К а к и в разд. 3.2, эти величины
совпадаю т с остаточной суммой квадратов и числом степеней св о ­
боды из т аб л и ц ы ANOVA д л я множественной регрессии.
Ш а г 5 . П р едстави ть гипотезу Н 0 в виде: «некоторы е 0г = О».
У дали в соответствую щ ие переменные x ¡ из равен ства (4.5.2), вновь
п р о п у сти ть п р ограм м у регрессионного ан ал к за и вы писать з н а ­
чения S S r и -vr из получивш ейся таблицы ANOVA. Затем п р о в е­
ри ть г и п о т е з у # 0, исп ользуя статистику (4.5.1).
И с к л ю ч е н и е . Е сл и гипотеза Н 0 состоит з том, что 0 L = •••
П ti
... = 0р = 0, т о S S r = £ ( y ¡ — у )2. где у = (1/л) £ y ¡ . Эта вели-
t=i (=1
чина р а в н а полн ой сумме SST квадратов в полученной на ш аге 4
табли це A N O V A д л я программы множественной регрессии.
Ч и сл о степ ен ей свободы v r = п — 1. В данном случае мож но
определи ть S S r — SSR и v ' R — vR непосредственно из этой таблицы ,
п о ск о л ь к у о н и совпадаю т с «определяемой регрессией» суммой
к в ад р ато в и числом степеней свободы.

Замечание 4.5.1. 1. Ш аг 5 можно повторигь для любой другой


гипотезы о диф ф еренциальны х эффектах, представимой в виде # 0:
некоторы е = 0.
2. Н е к о то р ы е программы миожественной линейной регрессии
м о гу т р е ш а т ь целый набор задач линейной регрессии за один п ро­
гон. Это п о зв о л я е т пользователю реш ать задачи регрессии, в о зн и ­
каю щ ие в ш а г е 4 и в ш аге 5 сразу. Переменные для каж дой задачи
зад аю тся т а к называемой картой выбора, которая «выбирает» зав и ­
симы е и н езав и си м ы е переменные. Т ак , на ш аге 4 все x ¡ считаются
н езав и си м ы м и переменными, а н а ш аге 5 из их числа исключаются
x ¿ , соответствую щ ие эффектам 0¿, указанны м в гипотезе # 0.
3. Е щ е о д н о достоинство такой техники состоит в том, что на
ш а ге 4 п о л ь зо в а т е л ь получает М Н К -оценки парам етров [г, 0Х, ...
. .., 0р, введен н ы х н а ш аге 3. И спользуя св я зь между 0¿ и диффе­
р е н ц и а л ь н ы м и эффектами модели, фигурирующ ей в ш аге 2 , он
по лу ч и т М Н К -оц ен ки эффектов из миним ального множ ества.
О ценки о стал ьн ы х получаю тся при помощи линейны х комбинаций,
4.5. Дисперсионный анализ при помощи регрессии 287

попользованных на ш аге 2. Например, если а ; = —а х — •••


... — а 71, тоМ Н К-оценка эффекта а , равна а / = " —ах — • • — а,_1>
Где а ъ ..., й/_! есть МНК-оценки эффектов аъ ..., а 1_1.
4. Е сл и модель д и с п е р с и о н н о го ан а л и за такова, что зн ач ен и е
остаточного числа ст еп ен ей свободы v R известно a p rio ri, то число
р дифференциальных эффектов в миним альном множестве р а в ­
няется р = п — vR — 1, где п — общ ее число наблюдений.
★ 5. В общем с л у ч а е , к а к м ы зн аем из зам ечания 4 .1 .1 .2 ,
vR = п — rank X ', г д е X ' — м а т р и ц а п л ан а для модели д и с п е р ­
сионного ан ал и за, за п и с а н н о г о в виде общей линейной модели.
Тогда р = п — vR
— 1 = ra n k X ' — 1. ★

Пример 4 .5 .1 . П о я с н и м о п и сан н у ю технику вычислений.


П усть задан ф и кси р о в ан н ы й ф ак то р с трем я уровнями. Н а к а ж ­
дом из первых д ву х у р о в н е й д ел ает ся по 2 наблю дення, а на третьем
уровне — одно. Б у д е м п о сл ед овател ьн о выполнять описанны е
шаги
Ш аг 1. Исходная м од ел ь и м еет вид
у и = и + а,- - Ь «//. i = 1,2,3, / = 1........ Jit
где = / 2 = 2 и / 3 = 1. И с п о л ь зу ем обычное дополнительное
условие
2ссх - |- 2 с с 2 —]— cig — 0.

Ш аг 2. Из д о п о л н и те л ь н о го у с л о в и я получаем
а .л = — 2 о с 1 — 2 а 2.

П одставляя это в исходную м одель, получим модель вы ра­


ж енную через г е н е р а л ь н о е сред н ее [г и минимальное множе-

У и = а , + *>,„ у 12 = р + «1 + е 12,

У н = У +- а 2 + е 21, у 22 + а2 + е22,

У з1 = /I + «з + ем = 2 а , — 2а 2 + е 31,

ство4;ди ф ф ерен ци альн ы х эффектов а 1г сс2 . Заметим, что мы зн али ,


что = 5 — 3 = 2. П о э т о м у в со о тв етств и и с замечанием 4.5.1.4
число д и ф ф ерен ц и альн ы х эф ф ектов в минимальном множестве
равно р = п — v R — 1 = 5 — 2 — 1 = 2 .
Ш а г 3. П ер ен у м еруем у и :

Ух = Ухъ У2 = ^ 12 * Уз — У-г 1 » У\ = Уну Уь — Уз\-


288 Гл. 4. Дисперсионный анализ

П о л о ж и м 0Х = а ъ 0 2 = ое2. Теперь модель примет вид


г/i = ¡г + 10J +- 00, + e lt у2 = (-1 + 10i ~г О02 + е2,
Уз = = И- “Ь О0Х + - 1 0 2 + ¿з, г/4 = (J. ~Ь О0Х -f- 1 0 a + е 4,

Уь = М
- + (— 2) ei + (— 2) 6-2 + е „
г д е коэф ф и ци ен ты х при 0Хи 02 определены моделью, построенной
на ш а г е 2 .
Ш а г 4 и з а м е ч а н и е 4 . 5 . 1 . 3 . П рограм ма множественной л и н ей ­
ной р е г р е с с и и , которой заданы исходные данны е (см. слева),
вычислит нуж ны е величины SSR h v r . К ром е того,
У *2 мы П0ЛУЧИИ оценки (д., 0Х h J 2 . В обозначениях
j 0 исходной модели й 1= 01, а 2= 02 и а 3= — 2а х — 2а 2.
yi j 0 Ш а г 5 . П роверяется гипотеза Н 0: а х = а 2 =
У2 q j = сх3 = 0 , г. е. отсутствие дифференциальных эф-
q j фектов, связан ны х с фактором А . Д л я перемен-
ных 0 это экви вал ен тн о гипотезе Н „ : 0, = 02=О .
У5 ~
^ гг
~
П оскольку гипотеза состоит в равенстве нулю
всех 0Ь воспользуемся «исключением из правила»
д л я ш а г а 5. Сумма S S r равн а полной сумме квадратов в таблице
ANOVA. для множественной регрессии ш ага 4, a v'R = п — 1 = 4 .
М ож но и по-другому: разн ость S S r — SSR представляет собой
сум му к в ад р ато в , a v R — vR = 3 — число степеней свободы,
о п р ед ел я е м ы е регрессией.

З а м е ч а н и е 4 .5 .2 . 1. Таким способом можно получить таб ­


л и ц у A N O V A для лю бой задачи дисперсионного ан ал и за. Лю бой
з а д а н н ы й в табли це источник дисперсии (кроме остаточной) соот­
в е т с т в у е т гипотезе Н 0 о некоторы х дифференциальных эффектах
модели д и сперси онн ого анализа Эта гипотеза в свою очередь соот­
в е т с т в у е т некоторой гипотезе вида Н 0 : «в общей линейной модели
н е к о т о р ы е 0* = 0». П ри эгой гипотезе вычислим величины S S r
и v r к а к на ш аге 5. Сумма квадратов SSH и число степеней свободы
vH д л я и сх о д н о го источника дисперсии н аход ятся из равенств
S S h = S S r — SS r И Vh - Vr — "Vr .
С р е д н и й квад рат, как обычно, равен
M SH = SSpj/Vfj.
Этот п р о ц е с с можно повторить для каж дого источника дисперсии
и п о с т р о и т ь , таким образом, нуж ную табли цу ANOVA.
2. В больш инстве задач: дисперсионного ан ал и за, р ассм атр и ­
ваем ы х в этой главе, предполагалось, что числа наблю дений во
всех я ч е й к а х равны . Это предполож ение учиты вается в ф орм улах
к а к для: числа степеней свободы, так и д л я EMS д л я каж д ого
4.5. Дисперсионный анализ при помощи регрессии 289

источника д исперси и в таблице ANOVA. И спользование м н ож ест­


венной линейной регрессии возможно и при разли чн ы х ч ислах
наблюдений в я ч е й к а х . В этом случае формулы д л я числа степеней
свободы и EMS д л я всех источников дисперсии становятся более
сложными, и в это й кн и ге мы их не приводим. О днако слагаем ы е
в формулах для E M S остаю тся теми ж е, меняются только коэф ф и­
циенты (см. п рим ер 4 .5 .3 ). Отсюда следует, что и числитель и з н а ­
менатель /'’-отнош ения п ри проверке гипотез можно вы бирать т а ­
кими же, как и в сл у ч ае равного числа наблюдений.

Пример 4 .5 .2 . П усть у нас имеется два ф актора А и В , соответ­


ствую щие модели I, с / = 2 и i = 3 уровнями соответственно.
П усть в каждой я ч е й к е производится ровно одно наблю дение. Мы
хотим получить соответствую щ ую таблицу дисперсионного а н а ­
л и з а (табл. 4 .3 .5 ). Д ей ств у я, к ак и раньш е, получим
Ш аг 1. И сх о д н ая модель:

Уц == И а» + ß/ + e¡¡, ¿ = 1, 2 , /=1,2,3.

Д оп олн и тельн ы е у сл ови я имеют вид а х + а 2 = 0, ßi + ß 2 +


+ ß3 = о.
Ш а г 2 . В соответствии с дополнительными условиям и имеем
а 2 = — а х и ß3 = — ß]L — ß3. П одставляя эти вы раж ения в исход­
ную модель, п о лу ч и м модель
Уи = Н- a i + ßi + еп>

У 12 = “Ь а х + ß2 + е12>

г/u = I-i + « i — (ßi + ß2) + ei3>

У н = Н- — а 1 + ßl + е21>

Угг = — « i + ß2 + е22,

У 23 = Iх — а 1 — (ßl + ß2) + e2S’

вы раж енную ч ер ез ген еральн ое среднее р. и три диф ф еренциаль­


ных эффекта a l t ß x и ß2.
Ш аг 3. П ер ен у м еруем наблю дения следующим образом:
У\ — У \ \ 1 Уг = ^ 12> Уз = i/u , Vi ~ У2 i>

Уь ~ У 2 2 Уч = Уг.>'
10 А. Афифи, С. Эйзен
290 Гл. 4. Дисперсионный анализ

П олож им 0! = а 1, 0 .2 = 0 3 = р3. Модель примет вид


у х = (х -|- 101 -¡~ 10 2 4" 003 -Ь е1(
У2 = |-1 “Ь 10], “Ь ^02 -Н 103 + - е2>
УЯ = М' "Ь 1 4 “ (---- 1 ) ®2 + ( --- 1 ) 4 " е3>
#4 = Iх ~Ь (--- 1) 01 “Н 102 “I- 09.3 “Ь б4>
Уъ = ^ 4 - (— 1) 01 ~4~ 002 + 1бз Н- вЬ>
Ув = Н'~Ь (— 1) 01 + (— 1) Э.ЗЧ- ев>
где коэф фициенты при 015 0.2 и 03 определяются по модели, сф ор­
м у л и р о ван н о й на ш аге 2.
Ш а г 4 и з а м е ч а н и е 4 . 5 . 1 . 3 . П рограм м а множественной линейной
регрессии п о исходным данным вычислит требуемые величины
Э5К и у1?. К ром е того, она вы дает М НК-оцен-
У *1 *2 * 3 ки р,, 0и 02, 03. И з них мы получим оценки па­
У\ 1 1. 0 рам етров исходной модели
У2 1 0 1
Уз 1 -1 - 1 «1 = 01, «2 — — «1. в = 02-
У4 - 1 1 0 р 2 = — б3, к = - к - к -
^5 - 1 0 1
Ш а г 5 и з а м е ч а н и е 4 . 5 . 2 . 1 . И сточник диспер­
Ув -1 -1 -1
сии, определяемый фактором А , соответствует
гипотезе Н 0 : а г = а г = 0. Эта гипотеза в свою
очередь соответствует гипотезе Н 0 : 0Х = 0. Поэтому мы удалим
х х и п росчитаем программой множественной линейной регрес­
сии и сх о д н ы е данные. Получим величины и
Ч ер ез н и х выразим сумму квадратов БЭд = V *3
= — Б 5 К и число степеней свободы ^ = VI 1 0
= ^ — ■Уд д л я анализируем ого источника диспер­ У2 0 1
сии. Д л я и сто ч н и ка дисперсии, обусловленного Уз - 1 - 1
фактором В , ги п отеза Н 0 : = |33 = и соот­ У4 1 0
ветствует ги п о тезе Н 0 : 0г = 03 = 0 . У д аляя х х У5 о 1
и х 2 , п о л у ч аем исходные данны е и затем вели- У6 - 1 - 1
чины ч 'в — По
V этим данным вычислим средние квадраты и за-
VI
полним табл. 4.3.5.
У2
Уз Замечания 4 .5 .3 . 1. В некоторых п акетах есть
У4 програм м ы , подобные программе ВМ ОР2У, которы е
У5 з а один прогон производят все описанные в этом р а з ­
д е л е вычисления и позволяю т проверить все ги п о ­
Уб
тезы .
2 . О п и сан н ы е приемы м ож но применить и к ф акторам , соот­
ветствую щ им модели II. Д л я этого их следуег рассмотреть к а к
соответствую щ ие модели I и вы писать обычные для модели I до-
4.5. Д исперсионны й анализ п р и помощи регрессии 291

полнительны е условия. З атем д л я построенной модели, следуя


процедуре, описанной в зам еч ан и и 4 .5 .2 .1 , нуж но построить т а б ­
лицу дисперсионного а н а л и з а . Д л я п роверки гипотез нуж но вы п и ­
сать ож идания средних кв ад р ато в д л я исходной модели и вы чис­
л ить соответствующ ие /•'-отн ош ен и я. К а к указан о в зам ечании
4 .5 .2 .2 , если числа н аб лю д ен и й в разн ы х ячейках различны , то
ф ормулы для EMS о тл и ч аю тс я от ф о р м у л в случае равного числа
повторений. П р о в ер к а г и п о т е з , т е м не менее в обоих сл у ч аях п ро­
водится одинаково. Но д л я о ц е н к и компонент дисперсии сл у ч ай ­
ных факторов н ел ьзя и с п о л ь з о в а т ь зн ач ен и я EMS, вычисленные
по формулам д л я м о д ел и с р авн ы м числом наблюдений.

Пример 4.5.3. П р е д п о л о ж и м т е п е р ь что у ф актора А , соответ­


ствую щ его модели I, т р и ур о в н я, а у ф актора В , соответствую ­
щ его модели I I , два у р о в н я . П усть в разн ы х ячейках число наблю ­
дений различно. П о это м у мы не м о ж ем воспользоваться стан д арт­
ной программой д и сп ер си о н н о го а н а л и з а . Д ан н ы е для этого гипо-
тети ч еск о го эксп ер и м ен та п ри вед ен ы в следующ ей таблице.

А 1 2

1 >ш : 17.5 У12 1 = 10.1


У112 = 16.2 У122 = 8.6
У123 = 11.3

2 >21 i = 13.2 >221 = 5.4


>222 — 3.7

3 >■31 1 = 12.8 >321 10.3


>312 = 10.4
>313 = 9.9

Д ей ству я в со о тв етств и и с о п и с ан н о й процедурой, получим


Ш а г 1 и з а м е ч а н и е . 4 . 5 . 3 . 2 . Н е с м о т р я н а разное число наблю ­
дений в ячейках, м од ел ь д и сп ер си о н н о го ан ал и за аналогична м о­
дели, задаваемой р а в е н с тв а м и (4 .3 .1 ). А именно:

У'и к — I-1 “Ь oc¡ ~г b¡ -j- y¡¡ e¡¡k, i = 1 . 2, 3, / = 1 , 2 , k = 1, . . . , K ¡¡

где y ¿ j = (c t b ) i j , а /Си == 2 , /С21 = 1, /С31 = 3, /С32 = ^Cj2 3,


К22 = 2. Д о п о л н и тел ьн о е условие д л я ф актора А имеет вид а х +
+ а 2 + “ з = 0- Р а с с м а т р и в а я ф а к т о р В к а к фактор сф и кси рован -
10*
292 Гл. 4. Дисперсионный анализ

ными эф ф ектам и , выпишем дополнительны е услови я д л я ф актора


В и взаи м о д ей ств и я А В
bi 4~ Ь2 =

Vil + Vai + Vsi = Via ~r V22 + V32 = V11 4" У12= V21 + V22 = V31 + Vs2=0
Ш а г 2. И спользуя дополнительны е услови я, получаем
оса = сс^ сх2 , Ь2 = Ь х,

V1 2 = Vn> V22 — Vai>


V31 = —Vil —V21. V-32= —Val = Vil -f Val-
П о д с т а в л я я эти вы раж ения в исходную модель, приведем ее к виду,
с о д ер ж ащ е м у только генеральное среднее ¡л и минимальное множ е­
ство и з 5 диф ф еренциальны х эффектов а ъ а 2 , Ь ъ и y 2v
Уик ~ И- 4~ a i 4~ Ьх + V114~ e ± ib k — 1, 2,

Ут = И-+ а 2 ^i + V21 “Ь е2ц>


Уик = М- — «i - а 2 + ¿ i — vii — ? 2i + е з 1ь к - 1, 2, 3,

Уик = И + ai —bj, — vii + e12k, k = 1,2,3,

У 2.2)1 f—®2 ---


= И- — bl — V2I “H e22b ^ = 1> 2,

У321 = Ц — —a 2 — bx+ Vil + T21 + «321-


Ш а г 3. П еренумеруем наблюдения у х = г/ш , у 2 = у 112, ...,
У 12 = ¿/sa i-11оложим t)j = а х , 0 2 = а 2 , 0 3 = b x , t)4 = Vu и 05 = у 21.

М о д е л ь приведется к виду

Ук = И
- = 1014" 002Н- Юз 104 0964~ek> k — 1>2,
Уз — И' 4" 001 4~ 102 4" 103 4~ 0^4 4" 105 4~ е3>

Ук — f-L 4* (— i) 0i 4" (— i) 02 4" 10з 4~ (— 1) 4- (— 1) 0в 4~ е к>


6 = 4, 5 , б,

Ук — М- 4" 1014- 002 4~ (— 1) 0з 4 - (— 1)04 4“ 005 + еь к — 7, 8, 9,

Ук — м- 4" 001 4 - 102 4 - (— 1) 0з 4~ 004 4- ( — 1) ©в 4~ k = ю , 11,

У 12 — j-14 “ (— i ) 0 i 4~ (— i ) 024~ (— 1 )0з4~ 4" 10, 4~ е \ 2-


4.5. Дисперсионны й анализ при помощи регрессии 293

Ш а г 4 и з а м е ч а н и е 4 . 5 . 1 . 3 . Исходные данные д л я расчета по


программе м н ож ествен ной регрессии приведены в таблице.

к У ■»•г *3 ХЛ Л-5

1 17.5 i 0 1 1 0
2 16.2 i 0 1 1 0
3 13.2 i 1 1
4 12.8 - 1 - 1 1 —1 -1
5 10.4 - 1 - 1 1 —1 -1
6 9.9 - 1 - 1 1 —1 -1
7 IO. 1 i 0 -1 - 1 0
8 8.6 i 0 -1 -1 0
9 II .3 i 0 —1 -1 0
10 5.4 0 1 -1 0 -1
11 3.7 0 1 —1 0 -1
12 10.3 - 1 - 1 -1 1 1

В результате р а с ч е та получим значения = 10.757 и у„ = 6


и оценки р, = 10.99, 0! = а х = 2.44, 02 = а 2 = — 2.11, так что
а 3 = —а х — а 2 = ^ 0 . 3 3 . О ценки для параметров 03, 04 и 0б,
полученные п р о гр ам м о й , нет смысла приводить, п оскольку они
соответствую т сл у ч ай н ы м эффектам.
Ш а г 5 и з а м е ч а н и я 4 . 5 . 2 . 1 и 4 . 5 . 3 . 2 . Мы хотим зап о л н и ть
табл. 4.3.1. Д л я к а ж д о го источника дисперсии удалим соответ­
ствующие х и п о л у ч и м результаты , сведенные в табл. А. П осле
Таблица А
Сводные данные

Удалить SSH =, vH =
Источник Гипотеза из ио-
дисперсии «0 ходных SSr VR = SSß —10.757 = v'r - 6
данных

Ф актор А 0 1= е а= о *1, *2 48.996 8 38.239 2


Ф актор В 03 = 0 *3 82.626 7 71.869 1
Взаимодействие 04= О 5= О *4. *5 36.591 8 . 25.834 2
AB

этого нужно в е р н у т ь с я к исходной модели (т. е. рассмотреть ф а к ­


тор В и в заи м о д ей стви е A B к а к случайные) и зап олн ить таблицу
дисперсионного а н а л и з а (табл. В), вклю чая и столбец EMS.
В формулах д л я E M S (см. таб л. 4.3.9) ст| и о 2аЬ обозначаю т диспер-
294 Гл. 4. Дисперсионный анализ

Таблица В
Дисперсионный анализ

И сто ч н и к Сумма Число Средний


д и сп ер си и к вадр а­ степеней к вадр ат ЕМБ
тов свободы

Ф актор А 38.239 2 19.119 (г2 + ¿ 1 1] гА


Ф актор В 71.869 1 71.869 ° 2 +- к 1°1ь + к 2а ь2

В заим одействие АВ 25.834 2 12.917 ° 2+ к 1а 1 ь


О статок 10.757 6 1.793 а2

П олная 146.699 11

сии сл у ч а й н ы х эффектов, определяемых соответственно фактором


В и взаи м од ей стви ем А В . Зн ач ен и я коэффициентов /г, и к 2 получить
довольн о т р у д н о , потому что у нас разное число наблюдений в яч ей ­
к ах . А без н и х мы и не можем оценить сг§ и а \ ь . Гем не менее мы
мож ем п р о в е р и т ь гипотезы, наприм ер, при уровне а = 0.05:
a) # 0: о % ь — 0, / = МЭАВ/М 5К = 7.2. Гипотеза # 0 отвер­
гается, п о с к о л ь к у Р 0.95 (2, 6) = 5.14.
b) Я 0: 0| = 0, Р = М Бд/М Бав = 5.6. Гипотеза п рин и м ается,
потому что (1, 2) = 18.51.
c) Н 0 : а г = а г = а 3 = 0, Т7 = М5А/МЭК = 10.7. Мы откло­
няем # 0, п о то м у что / 0.95 (2, 6) = 5.14.
Т ех н и к а, оп исанная в этом разделе, позволяет не только по­
строить т а б л и ц у дисперсионного ан ал и за, но и проверить еще
одну г и п о т е з у : Н 0: = 0 и о-аЬ = 0. Д л я этого удалим х 3 , х4 и хб
из входной т аб л и ц ы для программы регрессии и после расчета по­
лучим з н а ч е н и я БЗд = 117.348 и ^ = 9. В оспользуемся форму­
лой (4 .5.1), т о гд а
Р (1 1 7 .3 4 8 - 1 0 .7 5 7 )/(9 - 6 ) _ „
1 0 .7 5 7 /6

Н о / 0.95 (3, 6 ) = 4.76, так что гипотеза Н 0 отвергается.

Пример 4 .5 .4 . Обратимся еще раз к исследованию газооб раз­


ного азо та, о п и сан н о м у в прим ере 4.4.2. П редполож им теп ерь, что
р ас см а т р и в ае тся перекрестны й план с двум я ф акторами, соответ­
ствую щ ими м о д ел и I: А (диета) с четырьмя уровнями и В (пол) —
с д ву м я. П у с т ь еще число муж чин, получавш их диеты равн о 6,
а число ж е н щ и н , п олучавш их те ж е диеты, равно трем, г = 1, ...
..., 4. Т а к и м образом, всего в эксперименте обследовано 36 ч ело­
век —- 24 м у ж ч и н ы и 12 к е н щ и н . Это пример несбалансированного
4.6. К о в а р и а ц и о н н ы й а н а л и з 295

п лан а и факторные п р о гр ам м ы из м ногих ПСП в этой ситуации


неприменимы. П о это м у нуж но либо использовать программы м но­
жественной р е гр е с с и и (п р и м ен я я п роцедуру, описанную в н астоя­
щем разделе), либо и с п о л ь з о в а т ь программы дисперсионного а н а ­
л и за, базирую щ иеся на регр есси о н н ы х методах. Мы воспользуем ся
т ак о й программой — В М Б Р 2 \/.
Д анны е для э т о г о п ри м ера содерж атся в табл. А к прим еру
4 .2 .2 . Теперь будем сч и тать , ч т о первы е 6 строк содерж ат данны е
д л я 24 муж чин, а п о с л е д н и е 3 строк и — для 12 женщ ин. Р е з у л ь ­
таты дисперси онн ого ан ал и за приведены в следующей таблице.

Источник Ч и сло
дисперсии SS степеней MS F Р
свободы

Диета 4 .2 1 1 2 3 1.40 3 7 2 .9 7 NS
Пол 0 .6 7 53 1 0 .6 7 5 3 1.4 3 NS
Диета X пол 0 .130 4 3 0.0 435 < 1 NS
Остаток 13 .2 5 1 1 28 0 .4 733

Полная 18.2680 35

И з таблицы в и д н о , что все эффекты незначимы.

Замечание 4 .5 .4 . В своем и ссл ед о в ан и и F rancis, e t a l . (1974)


сравн и вали четыре п р о гр ам м ы дисперсионного ан али за на задаче
ан ал и за двухфактор н о го п л а н а с неравны м числом наблю дений
в ячей ках. Во всех с л у ч а я х все програм м ы выдали различны е т а б ­
лицы дисперси онн ого а н а л и за . П ричиной такого р азл и ч и я о к а ­
з а л с я порядок, в к о т о р о м п р о в е р я л и с ь гипотезы . Это похож е на
си ту ац и ю в п о ш аго в о й р е гр е с с и и , когда сумма квадратов, об ъяс­
н яем ая отдельной п ерем ен н ой , за в и с и т от того, каки е переменные
у ж е вклю чены в у р а в н е н и е . О д н а програм м а, BM DX64 (BM D10V),
входивш ая в ран н ю ю версию П С П BM D, резко отличалась от д р у ­
ги х. Т олько о н а о к а з а л а с ь одн оврем ен н о точной, недвусмы слен­
ной, гибкой, х о р о ш о д о к у м е н ти р о в ан н о й , статистически п ри вл е­
кательной, эф ф екти вн ой и н ед орогой .
С овременная в е р с и я этой п рограм м ы назы вается BM DP2V.

4.6. Ковариационный анализ


В этом разделе мы о б с у д и м м ето д , назы ваемы й о д н о ф а к т о р н ы м
ковариационны ма н а л и з о м (А И А С О У А ). Он использует концепции
однофакторного дисп ер с и о н н о г о ан ал и за и простой линейной р е г ­
р есси и .
296 Гл. 4. Дисперсионный анализ

П р е д п о л о ж и м , что нам задан фактор А , обычно называемый


ф актором обработки, с I уровням и. П усть у ц обозначает р е зу л ь ­
тат и зм е р е н и я /-й экспериментальной единицы н а г-м уровне ф а к ­
тора А , / = 1, ..., ,/г , I = 1, ..., I . Е сли считать, что величины
У и р ас п р е д е л е н ы по N (р г-, а 2), то получится хорошо зн аком ая
модель д и сп ер си он н ого ан али за:
+ а г -М г /, / = 1, • • • , / / , 1 = 1----- - I , (4.6.1)
в к о то р о й ¡л — генеральное среднее, а 1 — дифференциальный эф ­
фект ¿-го у р о в н я фактора А , р г = р + а.г, а е и — независимы е и
р асп р ед ел ен н ы е по N (0, а 2) ош ибки изм ерения. К а к обычно,
н алож им дополн и тельн ы е условия
1
I ! У,а, = 0, (4.6.2)
£=1
обеспечиваю щ ие единственность М Н К -оценок параметров и и
аи а /.
П р е д п о л о ж и м теперь, что, прежде чем отнести /-ю эксперим ен­
тальн ую ед и н и ц у к ¿-му уровню ф актора А , мы изм еряем значение
х ц Д ругой величины, линейно связанной с у ц . Эта величина н азы ­
вается с о п у т с т в у ю щ е й п е р е м е н н о й . В этой ситуации следует р ас­
см отреть модель
У // ~ И"""Ь" Р (Хц х ..) / — 1> • • • I ^¿, I =з 1
(4.6.3)
где

* ••= 4 -2 2*"*
1=1 /=1 1=1
Т ак ая м о д е л ь назы вается м о д е л ь ю о д н о ф а к т о р н о г о к о в а р и а ц и о н ­
ного а н а л и за . О на рассм атривает //-е наблю дение к а к сумму ген е­
р ал ьн о го ср ед н его р, фиксированного дифференциального эффек­
та а г, о п р ед ел яем о го г-м уровнем ф актора А , члена |3 ( Х ц — х . . ) ,
о б у сл о в л е н н о го линейной связью измерений у и и Х ц , и ошибки
е ц . О тм ети м , что соотнош ения (4.6.3) можно представить и в виде
м одели о д н о ф акторн ого дисперсионного ан ал и за
У*/ =*Р 4 ~ а 1 Н- е а> ¿ = 1, • • • , / , / = 1,...,/,, (4.6.4)
в которой
Уц = Р (Х ц - X . . )
Уц — (4.6.5)
п о л у ч а е т с я из у ц после учета линейной регрессии по Х ц . Таким
образом , сс, мож но считать истинным дифференциальным эффек­
том от г -г о уровня ф актора А после учета линейной регрессии по
со п у тств у ю щ ей переменной.
4.6. Ковариационный анализ 297

Д остоинства э т о й модели продемонстрируем на следую щ ем


примере.
Пример 4 .6 .1 . В одном эксп ер и м ен те1) над 40 испытуемыми
изучалось, н а с к о л ь к о б ли зк о они могут подойти к устраш аю щ ему
объекту (живой зм е е), п реж де чем почувствую т дискомфорт или
беспокойство. З а т е м всех испытуемых разделили на / = 4 тр ен и ­
ровочные группы, о тл и ч аю щ и еся по объему тренировки и виду и с­
пользуемого м а н е к ен а. Одна из групп была контрольной. П осле
тренировки к а ж д о г о испытуемого подвергали повторному и сп ы ­
танию , и зм еряя, н а с к о л ь к о бли зко он может подойти к пугаю щ ему
объекту, не о щ у щ ая неудобства или страха.
В этом эксп ер и м ен те фактором А является метод трен и ровки,
уровнями — ч еты р е способа тренировки и каж дый прим еняется на
группе разм ера J i = 10, г = 1, 4.
И змеряю тся д в е величины : у ^ — расстояние до змеи после тр е­
нировок по г'-му сп особ у и х и — расстояние до змеи до трен и ровок.
П редполагая л и н ей н у ю св я зь между у 1} и Х ц , можно воспользо­
в аться одноф акторны м ковариационны м анализом для оценки и
сравнения д и ф ф ерен ц иальн ы х эффектов четырех методов тр ен и ­
ровки после учета исходны х различий между испытуемыми.
И з этого п р и м ер а видно, что одной из целей ковариационного
ан ал и за является повы ш ение точности ан ал и за интересую щ их
нас измерений у ц путем учета эффектов, определяемых сопутст­
вующей перем енной Х ц .
Выигрыш в то ч н о сти сильно зависит от величины коэффициента
корреляции между этими переменными.
Модель ко в ар и ац и о н н о го ан ал и за можно записать в виде общей
линейной модели, р ассм о тр ен н о й в разд. 4.1. Поэтому М Н К -оценки
ее параметров о к а зы в аю тс я несмещенными и имеющими м и н им аль­
ную дисперсию ср е д и всех линейны х несмещенных оценок. И сп о л ь ­
з у я метод н аи м ен ьш и х квадратов, получим оценки среднего и
внут ригруппового коэф ф ициент а регрессии:

А = У.. И р = Еху/ Е хх. (4.6.6)

Здесь
J J. I 3 .
ЕШ = 2 I I (*/, - ХиУ и Еху = 2 I ! (х„ - *г.) (Уц — У!.)-
1=1 ¡ = 1 1=1 /=1

К р о м е того, мы п о л у ч и м о ц е н к и с к о р р е к т ированны х диф ф еренциаль -


н ы х эф ф ект ов н а в с е х уровн ях:
а, = (У1. — У..) — Р (X/. — *..), 1 = 1........../ • (4.6.7)

х) Такого рода эксп ер и м ен т был проведен С. Замом (Dr. S. Z ah m , U n iv er­


sity of Portland, P o r tla n d , O regon).
298 Гл. 4. Дисперсионный аналиэ

Отметим ещ е, что оценкой с к о р р е к т и р о в а н н о г о среднего ¡х + «¡,


соответствую щ его уровню сл уж и т
А + «г — У(. — Р (*г. — *..)> * = 1........./- (4.6.8)
В н екоторы х ПСП программы ковариационного ан ал и за вычис­
л яю т и п ечатаю ттабл и ц уковари ац и он н ого ан ал и зати п а табл. 4.6.1.
В этой т аб л и ц е содерж атся суммы квадратов и перекрестны х п р о ­
изведений д л я различны х источников дисперсии: м е ж д у у р о в н я м и
( г р у п п а м и и л и с р е д н и м и ) , в н у т р и у р о в н е й ( г р у п п или с р е д н и х ) и
полной. О тметим, что в столбцах, называемых X X и УУ, ф и гури ­
рую т просто суммы квадратов, вычисляемые в однофакторном дис­
персионном анализе, для: переменных Х ц и у и . Элементы столбца
X V п о лу ч аю тся по аналогичным формулам из произведений этих
д ву х п ерем енны х. И з остаточной компоненты дисперсии опреде­
л яю тся вел и чи н ы Е х х и ~Ех у , необходимые д л я оценки вн утри ­
группового коэффициента регрессии р (по формуле (4.6.6)). Д л я
оценки и а г н уж но вычислить средние х ; ., х . . , у х . и у . , при по­
мощи этой ж е программы или какой-нибудь дескриптивной. Н а к о ­
нец, при к а ж д о м г, г = 1, ..., / , можно построить линию регрессии,
т а к н азы ваем у ю в н у т р и г р у п п о в у ю л и н и ю р е г р е с с и и , задаваем ую
уравн ен ием
У = & 1 . + Р ( * ~ */.)■ (4-6.9)
О на п р ед ст ав л я е т собой М Н К -прям ую для подпопуляции, соот­
ветству ю щ ей г-му уровню ф актора А , У гловы е коэффициенты всех
прям ы х р а в н ы р, так что все прямы е п араллельны .
И сходя и з таблицы ков ар наци одного ан ал и за, мы сможем
построить е щ е две линии регрессии. П ер вая, назы ваем ая л и н и е й
р е г р е с с и и с р е д н и х , определяется к а к М Н К -п р я м а я д л я множ ества
вы борочны х средних: (л ^ , у ъ ) , ( х 2 ., у 2. ) , •••. (*/., #/.)> соответ­
ствую щ их I разл и чн ы м уровням ф актора А . Она задается у р ав н е­
нием
У = У . . + Ь м ( х — х ..), (4.6.10)
К о эф ф и ц и ен т ¿>м = М х у 1 М х х , равный отношению средних сумм
квад р ато в д л я Х У и X X , назы вается к о э ф ф и ц и е н т о м р е г р е с с и и
средних. В т о р а я линия, назы ваемая л и н и е й п о л к о й р е г р е с с и и ,
со о тв етств у ет регрессии у по х в полной вы борке объема п , п о л у ­
ченной с л и я н и е м подгрупп для всех I уровней. Методом н аи м ен ь­
ш их к в а д р а т о в получаем
9 = 9 . . + ЬТ ( х — х . Х (4.6.1 1)
где коэф ф и ци ен т Ь Т = 7 х у П х х , равны й отношению полны х сумм
д л я Х У и X X , назы вается п о л н ы м к о э ф ф и ц и е н т о м р е г р е с с и и .
Н а к о н е ц , величина
(4.6.12)

дает несм ещ енную оценку дисперсии ошибок а 2.


Т а б л и ц а 4 .6 .1

Однофакторный ковариационный анализ

Сумма квадратов и смешанные произведения


Источник Число
дисперсии
свободы
VV ХУ УУ

/ / 1
М еж ду уровням и = 1— 1 м ** = 2 Л- (*<• — .) 2 = 2 Л ' (•*£• — * ••)(# £ • — </• ) №уу — £ Л ' (У1-— У- ) 2
(средними) ¿=1 1= 1 ¿= 1

/ у. 7 уг ' *1
В нутри уровней Л’Е = и — / Ехх = 2 2 (хч - * ,- ) 2 Е*г/ = 2 2 (ХЧ = Ц 2 {уц — У1 -)г
(средних) ¿=1 /= 1 1=11=1 1= 1 /= 1

1 з1
П ол н ая = п— 1 Тдгл; £ 2 (**/ — ¿ . . ) 2 ^ху = 2 2 (ХЦ Х. . )(уц у. ) Т уу = И 2 (Уч' — У' )2
1= 1 /= 1 1=11=1 1=1 1 = 1
300 Гл. 4. Дисперсионный анализ

П р и м е р 4 .6 .1 (п р о д о л ж е н и е ). Д анные, полученные в описанном


эк с п е р и м е н т е , приведены в табл. А. И спользуя дескриптивную
п р о г р а м м у , найдем оценки
З с г. = 17.1, х 2> = 16.0, х 3. = 16.8, х 4, = 15.3,
У г. — 26.8, у ъ = 11.9, Уз. = 8.2, у 4ш = 15.3,
= 16.3, {1 = у ,, = 15.5.
Таблица А
Набор данных

Тренировочные группы -
V-», У)
д л я испытуемых 1 2 3 4 (контроль)

1 25,25 17,11 32,24 10, 8


2 13,25 9, 9 30,18 29, 17
3 10,12 19,16 12, 2 7, 8
4 25,30 25,17 30,24 17, 12
5 10,37 6, 1 10, 2 8, 7
6 17,25 23,12 8, 0 30, 26
7 9,31 7, 4 5, 0 5, 8
8 1 8,26 5, 3 II, 1 29, 29
9 27,28 30,26 5, 1 5, 29
10 17,29 19,20 25,10 13. 9

Р е з у л ь т а т ы однофакторного ан али за представлены в табл. В.


П о эти м данным вычислим оценки:
-ху 2037.7
= 0.643,
3170.6

ь ш = = -^ 4 1 - = 3.37, Ь-г = т — 3190.4л 0.660,


жг 19.80 1ХК
(2037.70)2 ]
= 37.73.

Таблица В
Ковариационный анализ
С уммы квад ратов
Ч исло и см еш анн ы х п рои зведен и й
И сточник
дисперсии степен ей
свободы X X Х У У У

М е ж д у группами 3 19.80 66.69 1959.69


В н у т р и групп (о ста­ 36 3170.60 2037.70 2630.21
ток)
П олная 39 3190 2104.39 4559.90
4.6. Ковариационный анализ 301

Затем найдем оценки скорректированны х дифф еренциальных


эффектов для всех уровней. Н апример, дифференциальный эф ­
фект п ервого метода тренировки с учетом регрессии у по х равен
«1 = (У х . ~ У ..) ~ Р (*1. - *..) =
= (26.8 - 15.5) - 0 .6 4 3 ( 1 7 .1 - 16.3) = 10.74
А н алогично, оценки других дифференциальных эффектов с учетом
регрессии у п о х равны а 2 = —3.46, 6 3 = — 7.67, а 4 = 0.39.
В нутригрупповы е линии регрессии описываются уравнениям и:
у = 26.8 + 0.643 (х — 17.1) для тренировочной группы 1,
у = 11.9 + 0.643 (х — 16.0) для тренировочной группы 2,
у = 8.2 + 0.643 (х — 16.8) д л я тренировочной группы 3,
д = 15.3 -)- 0.643 (х — 15.3) для контрольной группы 4,

лин и я регрессии средних — уравнением


д = 15.5 + 3.37 (х — 16.3),
лин и я полной регрессии —
д = 15.5 + 0.660 ( х - 16.3).

В се эти прямы е изображ ены на рис. 4.6.1.


Обсудим теперь проверку гипотез. Во-первых, по таблице к о ­
вариационного ан ал и за мы можем проверить гипотезу о равенстве
средних значений сопутствующей переменной д л я всех / подгрупп.
Обозначим через ^ г- среднее значение переменной х для г-го уровня,
г = 1, ..., I . Рассмотрим гипотезу # 0: ц х1 = • • • = С татисти­
кой кр и тер и я сл у ж и т отношение
р = М „/ум (4.6.13)
Ех х 1 ^ Е '

подчиняю щ ееся /•'-распределению с числом степеней свободы vм и


г Е. Величины, входящ ие в равенство (4.6.13), представляю т собой
суммы квадратов и числа степеней свободы между и внутри у р о в ­
ней из столбца X X табл. 4.6.1. Р -зн ачен ие равно площ ади сп рава
от точки Р под кривой плотности распределения (ум , vE). Смысл
этой гипотезы состоит в проверке случайности распределения и с ­
следуем ы х объектов по / уровням фактора.
М ожно так ж е проверить гипотезу о равенстве средних иссле­
дуемой величины, вычисленных по I группам. П усть \1 у1 об озн а­
чает среднее значение величины у на ¿-м уровне, г = 1, 1.
Гипотеза # 0: \\.у1 = ■• • = \ху 1 проверяется при помощи статистики
р _ Ми,/ум (4.6.14)
Е у у /\Е '
302 Гл. 4. Дисперсионный анализ

В еличины , через которы е вы раж ается / \ содерж атся в столбце У ¥


табл. 4 .6 .1 . Р -зн ач ен и е равн о площ ади справа от Р под кри вой п лот­
ное! и распределении Г (ум , г е ).
Н аиболее интересна гипотеза о равенстве средних значений
скорректированной переменной
У* = У - Н х - х .). (4.6.15)
Эту гипотезу можно сформ улировать к ак Н 0 : а г — • •• = а , = 0,
где, к а к и ранее, осг обозначает скорректированны й диф ф ерен ц иаль­
ный эффект ¿-го у ровня, г = 1, ..., I . Д л я проверки этой гипотезы
построим новую таблицу, исходя из табл. 4.6.1, следующим о б р а ­
зом. О статочная сумма квадратов Е у у делится на д в е части —
сумму квадратов Е 2х у / Е х х , о п р е д е л я е м у ю р е г р е с с и е й , и сумму к в а ­
дратов Е у у — Е \ У! Е ХХ о т к л о н е н и й о т р е г р е с с и и . Остаточное число
степеней свободы соответственно разбивается на 1 и уе — 1.
А налогичное разбиение производится для полной суммы к в а д р а ­
тов Т у у и полного числа степеней свободыV-,.. Т аким образом, п о л у ­
чаются суммы квадратов и числа степеней свободы п ер в ы х двух
4.6. Ковариационный анализ 303

источников дисперсии:, у казан н ы х в таб л. 4.6.2, а именно в н у тр и ­


уровневой н полной. С ум м а к в а д р а т о в и число степеней свободы
оставш егося и с т о ч н и к а дисперсии — разности д л я п р о в е р к и р а ­
венст ва скоррект ированны х с р е д н и х — п олучается вычитанием
внутриуровневой с у м м ы и числа степеней свободы из полных.

Таблица 4.6.2
Р азб иен ие остаточной и п о л н о й сумм к в а д р а т о в

квадратов ° р е г р е с с и е ” аЯ О тк л о н ен и е от регрессии
И сточн и к (т а б л . 4 .6 .1 )
дисперсии
ст.св. ст. св. ББ ст. св. ББ т

Е2 Е2ху
Внутри 1 ху
гЕ— 1
р
УЕ Е УУ
Ехх ^ УУ ~ р м бе
уровней ^ XX
(остаточ­
ная)
Тху
2 т2
П олная \'т Т уу \’х — 1 т1УУ ХУ

Тхх 1 XX

Разность Ум = — Му у - МБм
для провер­ —
ки различий
Т2
ху | Е2ху
между скор- ТXX 1 Ехх
ректирован-
ными
средними

(Напомним, что vм 4- л?Е = и + 5 5 Е = вБ,..) Средние к в а ­


драты в последнем с т о л б ц е п о лу ч аю тся делением суммы к в а д р а ­
тов отклонений о т н о си тел ь н о р егр е сси и на соответствующ ие им
числа степеней св о б о д ы . В соответстви и с равенством (4.6.12)
получим, таким о б р а зо м , в н у тр и у р о в н е в ы й средний квадрат М 5Е,
даю щ ий несмещенную о ц е н к у д и с п е р си и а 2, а так ж е средний к в а ­
д рат М8м . Д ля п р о в е р к и гипотезы о равен стве скорректи рован ны х
средних ах— • = а , = 0 восп ол ьзуем ся /•’-отношением

/^ М ^ /М Б е, (4.6.16)

имеющим /^-распредел е н и е с и уе — 1 степенями свободы.


Р -значение, как в с е г д а , р ав н о п л о щ а д и сп р ав а от точки /^ под к р и ­
вой плотности р а с п р е д е л е н и я /^ (ум , уе — 1).
Н акон ец , мы можем: п р о вер и ть г и п о т е з у Н 0 : (3 = 0, у тверж д аю ­
щую, что в н у т р и гр у п п о в о й ко эф ф и ц и ен т к орреляц и и равен нулю.
Д л я этого м ы сравним с р е д н и й к в а д р а т , об условленн ы й регрессией,
304 Гл. 4. Дисперсионный анализ

со с р е д н и м квадратом отклонений от регрессии. Соответствующее


/-о т н о ш е н и е
Е 2 и/ Е

р = - ^ т г (4-6 Л ?)
имеет / ’-р асп р ед ел ен и е с числами степеней свободы 1 я v E — 1.
Р -з н а ч е н и е равн о площ ади сп рава от точки / под кривой п л о т ­
ности р а с п р е д е л е н и я / (1, — 1).
Т и п и ч н ы е программы ковариационного ан али за, в ходящ и е
в П С П , в ы д а ю т на печать табл. 4.6.2 и л а ее часть, а так ж е вы чи с­
л яю т и п е ч а т а ю т четыре /-о тн о ш ен и я.

П р и м ер 4 .6 Л (п р о д о л ж е н и е ). П роверим гипотезу о равенстве


средних первоначальн ы х измерений для всех четырех груп п, т. е.
Н 0 : ц х 1 = ••• = Д л я этого вычислим /-отн ош ен и е
р = М ^/уд = 19.8/3 = 0 0?
Е хх / ^ е 3171/36
П о с к о л ь к у / 095 (3, 36) = 2.9, мы примем гипотезу Н 0 на уровне
а , = 0 .0 5 и будем считать, что распределение испытуемых по тр ен и ­
р о в о ч н ы м группам я в л я е тся случайны м, что, конечно, ж елател ьн о.
Д л я п р о в е р к и гипотезы о равенстве средних повторных измерений
д л я в с е х груп п, т. е. Н 0 : \1 у1 = • • • = вычислим
р _ 1\ _ 1939/3 _ о од
~ Е у у /ч Е ~ 2630/36 _

Это з н а ч и т , что гипотеза отклон яется с Р < 0 .0 0 1 .


И н т е р е с н е е всего п роверять гипотезу о равенстве с к о р р ек ти ­
р о в а н н ы х средних (в д руги х обозначениях % = • • • = а 4 = 0).
Р е з у л ь т а т ы вычислений приведены в следующей таблице:

Сумма
И с то ч ь г ик квад­ О пределяем ая О тк л о н ен и е от р егр е сси и
дисперсии ратов регресси ей

ст. с в . ББ ст. с в . ст. св. БЭ МЭ

В нутри уровней 36 2630.21 1 1309.61 35 1320.60 37.731


(остаточная)
П олная 39 4569.90 1 1388.07 38 3181.83
Разность л л я п р о ­ 3 1861.23 620.410
верки р а зл и ч и й
меж ду о коррек­
ти рован ны м и
средним и

/-о т н о ш е н и е равно / = М ЗИ/М $Е = 16.44. Заметим, что Р - зн а ­


чение н а м н о г о меньше, чем Р для гипотезы Н 0 : ц у 1 = • •• = \х т .
4 .6 . Ковариационный анализ 305

Н аконец, для проверки гипотезы Я 0: (5 = 0 вычислим


с- _ Щсу^хх __ 1309.61 __ Q/I 71
MSE ~ 37.73

Этот р езу л ьтат такж е значим с Р < 0.001.

Зам ечан ия 4 .6 .1 . 1. Обобщением модели однофакторного ко­


вариационного ан ал и за служ ит однофакторная модель со многими
сопутствую щ ими переменными. Эта модель описывается соотно­
шениями
УИ= |i + а, + р (хц— х.) + у — z) Н- - - - |- elh
j — 1, ■■-, J¡> i — 1, . . . , / ■
Здесь хц, zu, ... суть значения сопутствую щих переменных, к а ж ­
д ая из которы х линейно связана с У ц . В резул ьтате ан али за оцени­
ваю тся парам етры : ¡д., все коэффициенты р, у, ..., а так ж е
дифф еренциальные эффекты a t . Это п озволяет проверить гипотезу
о равенстве дифференциальных эффектов.
2. Д альнейш им обобщением модели однофакторного ко р р ел я­
ционного ан ал и за явл яется многофакторная модель со многими
сопутствующими переменными. Н апример, модель
Уа — I-1+ a i ~Ь Р/ + у (ха — *■•) еа
описывает ситуацию с двумя факторами и одной сопутствующей
переменной, линейно связанной с у ц . Д етал ьн ое описание т - ф ак­
торной модели с несколькими сопутствующими переменными при­
водится у Sheffe (1958). См. такж е различны е статьи ж у р н ал а
B io m etrics, 13 (1957).
3. Рассм отренная в этом разделе модель содерж ала предполо­
ж ение о равенстве внутригруппового коэффициента р для всех /
уровней ф актора. М ожно отказаться от этого ограничения и счи­
тать, что зн ачен ия Р м огут быть различными в различны х груп пах.
В такой более общей модели можно проверить гипотезу о равенстве
значений р, а затем провести весь описанный анализ (Brownlee,
(1965, гл. 11)).
И нформация, вы даваем ая некоторыми программами из ПСП,
отличается от стандартной таблицы ковариационного ан али за.
Н апример, программа BM DP1V выдает табли цу (табл. 4.6.3).
Величины MSM и M Se совпадаю т с входящ ими в табл. 4.6.2, при­
чем vE — 1 = / — 1 и vM = vT — vE = п — / — 1. В еличина
MSz = Ely/E** та ж е, что в равенстве (4.6.17) и табл. 4.6.1. Сумма
квадратов ошибок и соответствующее число степеней свободы
(ошибка (1)) разбиваю тся на две компоненты д л я проверки гипотезы
о равенстве наклонов: связанную с разницей в угловы х коэффи’
ииентах и остаточную ош ибку (см. зам ечан ие 4.6.1.3).
306 Гл. 4. Дисперсионный анализ

Таблица 4.6,3
Выдача программы ВЛШР1У

Ч исло
И сточник дисперсии степеней МБ
свободы

Равенство скорректирован­ / — 1 МБм


ных средних
Н улевой наклон 1 м б2
Ошибка (1 ) п— I 1 МБе
Равенство наклонов I—1 МБв
О шибка (2) п — 21 МБК

Д л я правильного использования этих выходных данны х нужно


поступить следующим образом. С начала проверить гипотезу о р а ­
венстве угловы х коэффициентов Я 0: Р1 = • • • = Р/ = Р- Д л я эгого
следует воспользоваться статистикой Р = М 8В/М 5К, подчиняю ­
щ ейся /-р асп р ед ел ен и ю с числом степеней свободы / — 1 и п — 2 1 .
Е сли гипотеза Я 0 о равенстве наклонов отклон яется, то в н у тр и ­
групповы е коэффициенты рь ..., р/ н ельзя считать одинаковыми
д ля всех уровней фактора. Это значит, что гипотеза о единой связи
между х и у , содерж ащ аяся в модели дисперсионного ан али за, не
выполнена. В этом случае лучш е отказаться от обработки осталь­
ной информации.
Если ж е гипотеза Я 0 принимается, то суммы квадратов и числа
степеней свободы д л я компонент «равенство наклонов» и «ошибка
(2)» можно объединить. Это дает компоненту «ошибка (1)». С л е­
дующий ш аг состоит в проверке гипотезы о том, что единый в н у ­
тригрупповой угловой коэффициент Р равен нулю , Я 0: Р = 0.
Эта гипотеза эквивалентна п роверке независимости сопутствую ­
щей переменной X и зависимой переменной У . Если эта гипотеза
о независимости принимается, то теоретически нет необходимости
«корректировать» значения зависимой переменной У . В этом с л у ­
чае для ан ал и за переменной У подходит обычная модель одно­
факторного дисперсионного ан али за. С другой стороны, если
гипотеза Я 0 отвергается, то использование ковариационного
ан али за п озволяет проверить гипотезу о равенстве ск орректи ро­
ванны х средних Н 0 : а х = ■ ■ ■= а 1 = 0.

Пример 4 .6 .2 . П редполож им теперь, что в и сследован и и


газообразного азота, описанном в примере 4.2.2, собраны д а н ­
ные о количестве У — выдыхаемого N 2 (в литрах) и о кол и че­
стве X — вдыхаемого Ы2 (в литрах). Прсле этого исследователь
случайно вы бирает по J i = 9 человек и н азначает им г-ю диету,
г = 1, ..., 4. Д анны е об этом опыте собраны в табл. А. В ней ж е
приведены выборочные средние, внутригрупповы е коэффициенты
и скорректи рован ны е групповы е средние.
4.6. К ов ариационны й анализ 307

Таблица А
Набор данных

Безбелковая(д, ) 23% белков (£>2) 32“о оелков (03) 6 7 белков (04)

X у X у X V .X
У
4.079 4.158 4.368 4.322 4.169 4.102 4.928 4.829
4.859 4.877 5.668 5.617 5.709 5.582 5.608 5.400
3.540 3.576 3.752 3.720 4.416 4.339 4.940 4.799
5.047 5.078 5.848 5.797 5.666 5.585 5.291 5.167
3.298 3.315 3.802 3.773 4.123 4.049 4.674 4.565
4.679 4.702 4.844 4.800 5.059 4.987 5.038 4.933
2.870 2.901 3.578 3.539 4.403 4.322 4.905 4.762
4.648 4.718 5.393 5.317 4.496 4.383 5.208 5.080
3.847 3.880 4.374 4.343 4.688 4.623 4.806 4.709

СреЬние 4.0963 4.1339 4.6252 4.5809 4.7477 4.6636 5.0442 4.9160

Внутригрупповой „ па*--, 1.0121 1.0159 1.0854


коэффициент
Скорректировонные
грипповые 4.5400 4.6173 4.6562 4.6999
срЬдние

Результаты к о в а р и а ц и о н н о г о ан ал и за содержатся в табл. В.


Гипотеза о р а в е н с т в е н а к л о н о в приним ается ( / = 2.80, Р =
= 0.06), а о р а в е н с т в е н а к л о н а нулю отвергается ( / = 23999,
Таблица В
Ковариационный ан ал и з

Число
Источник д и сп ер си и степеней мэ Р
свободы

Равенство с к о р р е к ти р о в а н ­ 0. 1035 3 0.0345 57.5


ные средних
Нулевой наклон 14.0387 1 14.0387 23999
Ошибка (1) 0 .0 1 8 1 31 0.0006 —
Равенство наклонов 0 .0 0 4 1 3 0.0014 2.8
Ошибка (2) 0 .0 1 4 0 28 0.0005 —

Р < 0 .0 0 1 ). П о л у ч е н н а я с пом ощ ью программы оценка общего


углового коэф ф ициента р ав н а 1.0103. И наконец, гипотеза о равен ­
стве ск о р р екти р о в ан н ы х гр у п п о в ы х средних отклоняется ( Р =
= 57.5, Р < 0 .0 0 1 ).

Пример 4 .6 .3 . Т а б л и ц ы к о в ар и ац и о н н о го анализа, вы числен­


ные различными п рограм м ам и , м о г у т не совпадать. В следующей
таблице сравн и ваю тся суммы к в а д р а т о в , полученные при помощи
ЗС8 Гл. 4. Дисперсиониый анализ

п р о г р а м м из пакетов BMDP2V, SPSS и SAS д л я данны х предыду­


щ его п р и м е р а . Замегим, что суммы квадратов для проверки ги по­
тезы Н 0 : Р = 0, вычисленные программой SPSS, не совпадаю т
с д р у г и м и . Во время издания этой книги программа SPSS все еще
м о д и ф и ц и р о вал ась.

Сумма квадратов
Источник
дисперсии
BM DP2V SP S S SAS ст. св.

Д и ета 0.103 0.103 0.103 3


Сопутствующая 14.039 18.167 14.039 1
переменная
Ош ибка 0.018 0.018 0.018 31

Упражнения

Раздел 4 . 2
4.2.1. Чтобы определить возможное влияние наследственности на величину
а р тер и ал ь н о го давления, исследовались различия артериального давления между
тремя вы б орк ам и крыс различных семейств. Из каждого семейства выбиралось
по 10 к р ы с и у каждой крысы измерялось артериальное давление в мм рт. ст.
В ы борочны е средние для семейств А, В к С оказались равными хА = 84.5,
х — 8 8 .0 и хс — 91.1. «Внутригрупповая сумма квадратов» равна 270.
a) С оставьте таблицу однофакторного дисперсионного ан ал и за.
b) П р о в е р ь т е гипотезу о том, что все различия между семействами незна­
чимы.
c) П р о в ер ь те гипотезу о том, что различие меж ду семействами В и С незна­
чимо, сч и т а я , что проводилось только это сравнение.
сЬ О б су д и те проверку других гиттотеч о разл и чи ях меж ду семействами.
4.2.2. На сборочном конвейере большой фабрики занято много рабочих.
И з них сл учай н ы м образом были зы браны четверо, и у каждого из четверых
несколько раз измерялось время сборки определенной детали в минутах. Данные
приведены в следующей таблице.

Рабочие
1 2 3 4

24.2 19.4 19.0 19.9


22.2 21.1 23.1 15.7
24.5 16.2 23.8 15.2
21.1 21.2 22.7 19.8
22.0 21.6 18.9
17.8 16.1
1».6 16.2
18.5

t
Упражнения 309

a) Оцените полное среднее и компоненты дисперсии — внутригрупповую


и межгрупповую .
b) Вычислите величины, входящие в таблицу дисперсионного анализа,
включая ож идания средних квадратов.
c) Существуют ли значимые различия между рабочими?

Раздел 4.3

4.3.1. От каждой из четырех беременных самок мыши родилось по трое


мышат. На них сравнивались три диеты. К аж д ая из диет давалась одному слу­
чайно выбранному из трех мышонку в течение трех недель. Полученные при­
бавки в весе приведены в следующей таблице.

Диета

Мать 1 2 3

1 5.2 7.4 9.1


2 11.4 13.0 13.8
Ьо
оо
3 4.2 9.5
4 10.7 11.9 13.0

a) Сформулируйте необходимые предположения и выберите подходящую


модель дисперсионного анализа. Оцените параметры модели.
b) Составьте таблицу дисперсионного анализа и проверьте разумные гипо­
тезы относительно матерей и диет.
4.3.2. П усть у нас снова по трое мышат от каждой самки. Теперь мы хотим
сравнить две диеты. Случайным образом распределим самок по две на каждую
диету и будем кормить этой диетой всех шестерых мышат. Д анные собраны в сле­
дующей таблице:

П рибавка П рибавка
Д и ета- М ать в весе Д иета М а ть в весе
(г) (г)

1 1 11.8 2 1 7.4
10.5 9.7
12.5 8.2
2 12.3 2 7.2
15.5 8.6
11.4 7.1

a) Подберите соответствующие допущения и модель и оцените параметры


модели.
b) Заполните таблицу дисперсионного анализа и проверьте нужные гипо­
тезы.
4.3.3. Рассмотрим снова мышей и диеты. Теперь мы хотим сравнить три
диеты и инъекции двух различных лекарств. Возьмем всех двенадцать мышат
и случайно распределим их по двое на каждую комбинацию диеты и лекарство.
310 Гл. 4. Дисперсионный анализ

Данные о прибавке в весе в граммах за три недели приведены в следующей


таблице:

Д и е та

Л е к а р с тв о 1 2 3

1 8.2 13.1 10.5


8.0 12.3 10.1
2 8.4 12.4 9.7
7.3 13.0 9.4

a) Выпишите модель дисперсионного анализа и проведите стандартное


исследование.
b ) Целесообразно ли объединение членов с взаимодействием? Если д а , то
проверьте снова гипотезы о главных эффектах.
c) Если вы приняли гипотезу об отсутствии эффектов от лекарств, то, может
быть, стоит объединить «лекарственные» члены. К аким будет соответствующий
анализ, если провести такое объединение?
4.3.4. Сравните планы, использованные в упр. 4 .3.1, 4.3.2. 4 .3.3, и обсу­
дите преимущества и недостатки каждого.

Раздел 4.4

4.4.1. Решите упр. 4.3.1, используя факторную программу.


4.4.2. Решите упр. 4 .3.2, используя факторную программу.
4.4.3. Решите упр. 4 .3.3, используя факторную программу.
4.4.4. Исследовательский отдел автомобильного завода хочет сравнить износ
четырех типов шин на четырех выпускаемых заводом марках автомобилей. В этой
ситуации уместен план латинских квадратов, поскольку у каждого автомобиля
четыре позиции для шин. Эксперимент был проведен по такому плану и измерен
износ (мм) после 10 ООО миль пробега в одинаковых условиях. В следующей
таблице собраны результаты измерений (буквы в скобках обозначают марку
шин). Постройте таблицу дисперсионного анализа и проведите стандартное
исследование.

Автомобиль

< 1 2 3 4

(Ь ) (а) М) (с)
2.12 1.73 1.65 1.89

(с) (Ь ) (а) (с))


1.83 2.28 1.67 2.01
№ (с) (Ь ) (а )
1.83 2.2 7 2.18 2.03

(а) № (с) (Ы
1.85 1.93 2.24 2 .5 2
Упражнения 311

Раздел 4 .5

4.5.1. Решите упр. 4 .2 .2 , используя программу регрессионного анализа.


4.5.2. Решите упр. 4 .3 .1 , используя программу регрессионного анализа.
4.5.3. Решите упр. 4 .3 .3 , используя программу регрессионного анализа.
4.5.4. Решите упр. 4 .4 .4 , используя программу регрессионного анализа.

Раздел 4 .6

4.6.1. Четыре л е к а р с т в а , снижающих артериальное давление, сравниваются


методом ковариационного а н а л и з а . О тк л и ко м (исследуемой переменной) служит
систолическое давление ( Б Р ) . у подопытных ж ивотных после курса лечения,
а сопутствующей п ерем ен ной — систолическое давление до лечения. Данные
приведены в следующей табл и ц е:

С ист олическое С ист олическое


давление „ давление
Л екарст во ------------------------------------------- Л екарст во
Ьо после до после
лечения лечения лечения лечения

194 157 3 172 136


162 136 196 182
183 145 158 134
180 153

154 124 4 158 124


184 123 165 124
173 143 186 132
170 136 182 133

a) Найдите оценки внутри груп п овой и полной линий регрессии, а также


линии регрессии средних.
b ) Проверьте сл у ч ай н о сть расп р едел ен и я животных по группам.
c) Проведите дисперсионны й анализ о т к л и к а , не учитывая измерений сопут­
ствующей переменной.
с1) Проведите к о вари ац и о н н ы й а н а л и з отклика. Можно ли считать, что че­
тыре исследуемых л е к а р с т в а значимо разли чн ы ?
е) Сравните р е зу л ь т а т ы , полученные в п. с) и сЗ).
4.6.2. Решите упр. 4 .6 .1 , используя программу регрессионного анализа.

Д р угие наборы д а н н ы х

Разделы 4 .2 —4.4

Четыре исследователя и зм ер я л и д и ап азо н движ ения плеч при повороте


назад (в градусах) у четы р ех здоровы х испы туем ы х (детальное описание приве­
дено у Boone et al. (1978)). В каж дой и з дву х групп измерений, разделенных
312 Гл. 4. Дисперсиониый анализ

недельным перерывом, измерения повторялись дважды. Данные приведены


в следующ ей таблице:
Исследо­ Гру ппа Испыту­ Номер Угол ИсслеЪо- Группа Испыту- Номер Угол
ватель измерений емый измерения поворота в а т е л ь измерений емый измерения 'поворота

1 1 1 1 80 3 1 1 1 . 75
1 2 1 2 8? 3 1 1 2 75
1 1 -у 1 105 3 1 '2 1 105
1 1 2 2 105 3 1 2 2 •105
1 1 3 1 85 3 1 3 1 105
1 1 3 9 85 3 3 о 105
1 1 4 1 95 3 1 4 1 100
1 1 4 о 95 3 1 4 -> 95
1 2 1 1 85 3 2 1 1 90
1 2 1 2 83 3 2 1 2 90
1 2 2 1 105 3 2 2 1 110
1 2 2 2 105 3 2 2 2 110
1 2 3 1 90 3 2 3 1 90
1 2* 3 2 90 3 2 3 2 90
1 2 4 1 100 3 2 4 1 90
1 2 4 2 100 3 2 4 2 ’90
2 1 1 1 75 4 1 1 1 80
2 1 1 2 95 4 1 1 2 • 75
2 1 2 1 110 4 1 2 1 100
2 1 2 2 105 4 1 2 2 100
2 1 3 1 95 4 1 3 1 95
2 1 3 2 100 4 1 3 2 90
2 1 4 1 95 4 1 4 1 95
2 1 4 о 100 4 1 ’4 2 90
2 2 1 1 85 4 2 1 1 75
2 2 1 2 90 4 О 1 о 75
2 2 2 1 100 4 7 2 1 100
Л 2 2 2 100 4 2 2 т 100
2 2 3 1 95 4 2 3 1 95
2 2 3 2 90 4 2 3 2 95
2 2 4 1 110 4 2 4 1 95
2 2 4 2 100 4 2 4 2 95

Считая в с е измерения независимыми, ответьте на следующие вопросы.


a) И с п о л ь з у я одноф>акторный дисперсионный анализ, проверьте, что в экспе­
рименте н е т эффекта повторения (т. е. нет зависимости между повторными изме­
рениями). [Указание-, для этого исключите факторы группы измерений и иссле­
дователя. ]
b ) И с п о л ь з у я однофакторный дисперсионный анализ, проверьте отсутствие
эффекта г р у п п ы измерений.
c) И с п о л ь з у я однофакторный дисперсионный анализ, проверьте гипотезу
об отсутстви и разницы меж ду исследователями. Оцените соответствующую ком­
поненту д и сп ер си и .
с!) И с п о л ь з у я двухфакторный дисперсионный анализ, проверьте гипотезу
об отсутстви и эффекта группы измерений или разницы между исследователями.
Д л я этого усредните результаты измерений в одной группе. Вычислите компо­
ненту д и сп ер си и , определяемую исследователями.
е) П роан ал и зи р у й те всю совокупность исходных данных, используя рас­
щ еп л ен н ы й план.
Г) С р ав н и те и объясните результаты , полученные при разных методах анализа.
5
М е т о д ы м н о г о м е р н о г о

с т а т и с т и ч е с к о г о а н а л и за

Во второй и четвертой главах рассматривались преимущ ественно


методы статистического ан али за одной случайной величины .
О днако каж ды й объект в выборке может содерж ать наблю дения
более чем н ад одной переменной (см. гл. 3). Т ак ая ситуация в о з­
никает, наприм ер, в задачах множественной регрессии, когда все
переменные считаю тся случайными. Это можно рассм атривать как
первый пример применения многомерного статистического метода.
В регрессионном ан али зе изучается главным образом взаимоот­
ношение меж ду зависимой переменной, с одной стороны, и набо­
ром независимых переменных — с другой. О днако в д руги х много­
мерных статистических методах все случайные переменные ан ал и ­
зирую тся одновременно, к ак один случайный вектор, имеющий
многомерное распределение. К ак будет показано, некоторы е много­
мерные методы (например, п роверка гипотез о средних) являю тся
обобщением соответствующ их одномерных методов, тогда к ак д р у ­
гие (например, отнесение случайного вектора к одной из п оп ул я­
ций) не имеют аналогов в одномерном анализе.
В прошлом статистический анализ более чем одной перемен­
ной сводили к рассмотрению каждой переменной в отдельности.
Такой подход обладает ограниченными возмож ностями, поскольку
выводы относительно совокупности переменных, к а к правило, не
могут быть получены из выводов относительно каж дой переменной
в отдельности. В озможность получать такие общие выводы дает
многомерный ан ал и з. Следует заметить, что больш инство много­
мерных статистик вы числяется сложнее, чем их одномерные ан а­
логи. В связи с этим некоторые виды ан ал и за невозможны без
использования ЭВМ.
В больш инстве методов многомерного ан ал и за предполагается,
что случайны й вектор имеет многомерное нормальное распределе­
ние. К ак и в одномерном случае, обоснования д л я этого следую­
щие: а) многие наблюдаемые явлен и я приблизительно описываются
многомерным нормальным распределением; Ь) преобразования
некоторых или всех компонент случайного вектора иногда приво-
314 Гл. 5. Методы многомерного статистического анализа

д ят к многомерному нормальному распределению; с) центральная


предельная теорема д ля одной случайной величины расп ростра­
няется на многомерный случай, т. е. последовательность сумм
независимых одинаково распределенны х случайны х векторов с х о ­
дится к многомерному нормальном у распределению (Anderson
1958, теорема 4.2.3).
В этой гл аве в разд. 5.1 рассматриваю тся методы определения
аномальных наблюдений или выбросов; в разд. 5.2 приводится
статистика Х отеллинга Т 2 д л я проверки гипотез о векторе средних
и о равенстве двух векторов средних; р азд . 5.3 явл яется введением
в задачу отнесения наблюдаемого вектора к одной из двух м ного­
мерных популяций; обобщение этой задачи на случай k популяций,
k 52 2, приводится в разд. 5.4; пош аговая процедура кл асси ф и ка­
ции описывается в разд. 5.5. В разд. 5.6 рассматривается анализ
главны х компонент, в разд. 5.7 — факторный анализ. И наконец,
в разд. 5.8 представлены некоторы е аспекты многомерного д и сп ер ­
сионного ан ал и за. Перед изучением этой главы читателю следует
ознаком иться с разд. 1. 6 .

5.1. Анализ выбросов


Если одномерная случайная величина К распределена по закону
N (¡1, а 2), то случайная величина (У — р ) 2/сг2 имеет распределе­
ние х 2 (!)• В многомерном случае можно п оказать, что если сл у ­
чайный вектор Х е р компонентами имеет многомерное норм аль­
ное распределение с вектором средних ц р х 1 и матрицей ковариа-
ций 2 рхр, то величина
X2 = (X - I I ) ' а -* (х - и) (5.1.1)
имеет распределение х2
( р ) *)• Если ]и и 2 известны, то эта стати
стика мож ет быть использована д л я проверки возможной аном аль­
ности наблю даемого вектора х, т. е. наличия выбросов у его ком­
понент. Здесь Р-значением яв л яется площ адь области, располо­
женной под кривой функции плотносги распределения справа от
вычисленного значения х2-
Е сли Р меньше вы бранного заран ее
уровня значимости а , то наблю даемый вектор х можно считать
аномальным и его координаты долж ны быть проверены на наличие
ошибок. Таким образом, можно проверить все векторы из сл уч ай ­
ной выборки.
Пример 5 .1 .1 . М ониторная система ведения больны х, н аход я­
щ ихся в критическом состоянии, предполагает еж еминутное изм е­
рение систолического и диастолического давлений, средних ар-

*) Здесь предполагается, что матрица 2 — невырожденная. — Прим. ред.


5.1. Анализ выбросов 315

термального и в е н о зн о го д ав л ен и й , частоты ды хания, частоты


сердечных сокращ ений и р е к т а л ь н о й тем пературы . Д ля каж дого
вектора наблюдений в ы ч и сл яю тся статистика %2 п0 формуле
(5.1.1) и соответствую щ ее Я -зн ач ен и е. П арам етры ¡и и 2 известны
из наблюдений над зд о р о в ы м и л ю д ь м и . Д л я каж дого вектора
наблю дений сч и т ает с я , что при Р > 0.2 состояние больного
находится в пределах нормы; если 0.05 < Р < 0.2, то имеются
небольш ие отклонения от нормы; е с л и 0.01 < Р с 0.05, то з а ж и ­
гается световой с и г н а л тревоги, и п р и Р < 0.01 вклю чается си-
реиа. Это помогает леч ащ ем у врачу и п ерсон алу клиники опреде­
лять изменения в со с то ян и и б о льн о го или предупреж дает о воз­
мож ны х н еи сп р ав н о стях в о б орудован и и системы. Более подробно
об этой процедуре см. АПН а 1 . (1971а).

В большинстве с л у ч а е в п ри м ен ен и я методов обнаруж ения н а ­


блюдений с выбросами п арам етры ,и и 2 неизвестны и поэтому ис­
пользование стати сти к и %2 вида (5 .1 .1 ) не обосновано. Имеется
д ру гая процедура п р о в е р к и , к о т о р а я использует статистику, я в ­
ляю щ ую ся выборочны м аналогом в ы р а ж е н и я (5.1.1). Пусть хь ...
. .. . х к — случайная в ы б о р к а , и м ею щ ая распределение N ( ¡ х , 2).
Тогда выборочное с р е д н е е и к о в а р и а ц и о н н а я м атрица имеют соот­
ветственно вид
к

|х „ (5.1.2)
г=1
К
э = ¿ т 2 (Хг - *) (х*' ~ *)'■ (5 -1
г=1

Если х — некоторый в е к т о р н аб лю д ен и й , имеющий распределе­


ние N (ц, 2 ), то вы б ороч н ы й а н а л о г величины (5.1.1), назы вае­
мый в ы б о р о ч н ы м р а с с т о я н и е м М а х а л а н о б и с а , дается формулой
£>2 = (х — х )' в-1 (х — х). (5.1.4)
М ожно показать, что в е л и ч и н а

р \ № <5 1 -5>

имеет /'-расп ределен ие с р и £ — р степенями свободы.


П роцедура п р о в е р к и н а н а л и ч и е выбросов среди наблюдений
использует статистику, задаваем ую вы раж ен и ем (5.1.5), где х и 8
вы числяю тся по п о д м н о ж еств у в е к т о р о в той ж е выборки, уж е
проверенны х на в ы б р о сы . П ри вед ем процедуру, примененную
к случайной выборке х х, ..., х„ о б ъ е м а п .
316 Гл. 5. Методы многомерного сгатистического анализа

1. Д л я каж дого вектора наблюдений хь г = 1........ п , вычис­


л яется вы борочны й вектор средних хг и ковари ац и онн ая м атрица
8г-по в с е м &= п — 1 векторам наблюдений, исклю чая хг. Согласно
в ы р а ж е н и ю (5.1.4), вычисляется выборочное расстояние М ахала-
нобиса П>\ меж ду хг и хг с использованием оценки ковариационной
м а т р и ц ы (5.1.3). Затем с помощью формулы (5.1.5) вычисляю тся
Рг для к = п — 1 и соответствующ ее Р -зн ачен ие Рг =
= Рг (Р ( р , к - р ) > Р , ) .
2. П р о в е р к а Р г , Р 2, ..., Р п . Если все Р г > а, д л я некоторого
взято го з а р а н е е значения а , то считается, что в выборке нет вы­
бросов и процесс останавливается. Если некоторые Р г- < а , то
вектор н аб лю д ен и й , соответствующ ий наименьш ему Р-значению ,
с ч и т а е т с я выбросом и исклю чается из выборки. П роцедура повто­
р яется д л я выборки из оставш ихся п — 1 наблюдений.

П р и м е р 5 .1 .2 . В таб л . 5.1.1. задан ы 15 значений систоличе­


ского (А ^ ) и диастолического ( Х г) давлений, измеренных в мм
Таблица 5.1.1
15 гипотетических значений систолического и диастолического давлений

ОбслеЪов ание 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Х,: систп. Ъавл. 154 136 91 125 133 125 93 80 132 107 142 115 114 120 141
Хг -. Ъиасгп. Ъавл. 108 90 54 89 93 77 43 50 125 76 96 74 79 71 90

рт. ст. С помощью программы ВМОЮМ был проведен анализ этих


данны х н а наличие выбросов среди наблюдений при а = 0.05.
С н ачала были найдены выборочные средние и стандартны е откло­
нения = 120.6, = 20.9, х 2 = 81.0, ¿2 = 21.7. Согласно опи­
санной в ы ш е процедуре, при п = 15 вектор х 9 = (132, 125)'' был
п р и зн ан аномальным, поскольку для него Р -значение Р 9 = 0.0003
было н а и меньшим и з всех Р -значений, меньших а . Затем в выборке,
п о л у ч е н н о й из исходной удалением вектора х 9 при п = 14, был
в ы я в л е н аномальный вектор х 7 — (93, 43)', поскольку Р = 0.0264
о к а з а л о с ь наименьш им из всех Р-значений, меньших а . В выборке
из о с т а в ш и х с я 13 векторов аномальные наблюдения не были обна­
р у ж ен ы . Затем заново были вычислены выборочные средние и
с т а н д а р т н ы е отклонения: х 1 = 121.8, = 20.8, г 2 = 80.5, з 2 =
= 16.3. М ожно заметить, что в аномальных данны х разница
м еж д у систоли чески м и диастолическим давлениям и необыкно­
венно м а л а д л я хд и подозрительно велика д л я х7. П роверка зап и ­
сей п о к а з а л а , что правильными значениями являю тся х7 = (93, 54)'
и X) = ( 132, 94)'.
5.2. Проверка гипотез о векторах средних 317

5.2. Проверка гипотез о векторах средних


Этот раздел посвящ ен многомерным аналогам проверок гипотез
о средних, приведенных в гл. 2. В разд. 5.2.1 рассматривается
п роверка гипотезы Н 0 : р = ju0, когда м атрица 2 известна. Р а з ­
дел 5.2.2 посвящ ен случаю, когда 2 неизвестна. И наконец,
в разд. 5.2.3 представлена двухвы борочная проверка гипотезы
Н п : Ц! = jLio, когда 2 неизвестна.

5 .2 .1 . Проверка гипотез о векторах средних


(при известной ковариационной матрице)
Если в одномерном случае случайная величина Y распределена
по закон у N (р, a 2), a а 2 считается известной, то для проверки
гипотезы Н 0 : р = р 0 против альтернативы Я х: р Ф р 0 используется
статистика г = J/ ' п ( у — р 0)/ст, где у — выборочное среднее. Г и­
потеза # 0 отвергается, если | г | > Zi_(a/ 2) д ля некоторого заран ее
определенного значения а . В многомерном случае предполагается,
что вектор X имеет распределение N (р , 2 ). Пусть х ь ..., х„ —
случайная вы борка с таким распределением. Если м атрица 2
известна, то д л я проверки гипотезы о том, что вектор средних р а ­
вен заданном у вектору, т. е. гипотезы Я 0: р = р 0. против
¿j, ф |Li0j используется статистика
Х2 = п (х — р 0) ' 2 ' 1 (х — р 0), (5.2.1)

где х — выборочный "вектор средних. П ри гипотезе Н 0 статистика


(5.2.1) имеет ^ -р асп р ед ел ен и е с р степенями свободы, так что
Я -значение равно площади области, располож енной справа от вы­
численного значения %2 под кривой функции плотности %2 ( р ) .
Распределение %2 д л я статистики (5.2.1) следует из того, что в ек­
тор х при гипотезе Н 0 подчинен зак он у распределения N (р0,
(1 I n ) 2 ). Заметим, что односторонние проверки теряю т смысл
в многомерном случае.
Замечание 5 .2 .1 . Вычисление статистики %2 по формуле (5.2.1)
может быть легко запрограм м ировано с помощью процедур пере­
множ ения и обращ ения матриц. П усть вектор А есть х — р0,
а м атрица 5 = 2 зап и сан а по столбцам и I P = р . Тогда с ис­
пользованием подпрограмм из пакета подпрограмм IBM для н ауч­
ных исследований S cien tific S u b ro u tin e P ackage (SSP) вычисление
вы раж ения (5.2.1) может быть запрограм м ировано на Ф ортране
тремя операторами. Н апример, оператор CALL M INV ( В , I P ,
D , L , М ) зам еняет м атрицу В на В-1. П араметр D принимает зн а ­
чение определителя матрицы В \ L и М — рабочие векторы р аз­
мера I P каждый. Затем оператором CALL GM PRD ( А , В , С , 1,
I P , I P ) вычисляется м атрица С = А В и в результате выполнения
318 Гл. 5. Методы многомерного статистического анализа

оператора CALL GM PRD ( С , А , Е , 1, I P , 1) параметр Е п ри н и ­


мает значение произведения С А ; тогда %2 = п Е .

Пример 5.1. 2 ( п р о д о л ж е н и е ) . В примере 5.1.2 были исправлены


две ошибки так, что вектор х7 стал равен (93, 54)', а вектор х9 =
= (132, 94)'. П ол агая, что стандартны е отклонения а х = 20,
0 2 = 15 и что коэффициент корреляц ии р равен 0.8, имеем
'4 0 0 2 4 0 ‘
240 225
П роверяется гипотеза о том, что у казан н ы е 15 пациентов п ри н ад ­
леж ат к популяции здоровых лиц со средним систолическим и д и а ­
столическим давлениям и соответственно 120 и 80. Таким образом:,
Н 0 : ц = (120, 80)' и Н г : ц Ф (120, 80)'. Д л я имеющихся данны х
было найдено х = (120.6, 79.7)'. И спользуя обозначения зам е­
чания 5.2.1, запишем
~400~
0.6 240
А = х - =
— 0.3 240
225
Отсюда зс2 = 0.006 и величина статистики критерия н езначим а.

5.2.2. Проверка гипотез о векторах средних


(ковариационная матрица неизвестна)
В больш инстве практических задач дисперсии и ковариации не­
известны и долж ны быть оценены по выборке. В одномерном с л у ­
чае, в обозначениях разд. 5.2.1 п роверяется гипотеза Н 0 : ц, = |х0
против Н г \ ^ Ф |х0 с использованием статистики t — V п ( у — (Д0)^ ,
где 5 — выборочное стандартное отклонение. Гипотеза Н 0 отвер­
гается при \ Ц > ¿1_ (а/ 2) ( п — 1). В многомерном случае вычис­
ляется несмещ енная оценка 8 матрицы 2 по формуле

(5.2.2)

Элемент я 2 м о ж н о обозначить к ак в ц . Тогда статисгика Т 2 Х опгел-


линга ( П о ^ е П т ё (1931)) задается формулой
Т°- = п (х — (х0)' S (х Мо) ■ (5.2.3)
Если гипотеза # 0 верна, то величина

(5.2.4)
5.2. Проверка гипотез о векторах средних 319

имеет /-р а с п р е д е л е н и е с р и п — р степенями свободы; / - з н а ч е ­


нием является п л о щ ад ь сп рава от / под кривой плотности расп ре­
деления / ( р , п — р ) .

Замечания 5 .2 .2 . 1. П рограм ма для вычисления вы раж ения


у? (5.2.1) прим еним а и д л я вычисления вы раж ения 7 2 (5.2.3).
Д ля этого надо в е л и ч и н у В из зам ечания 5.2.1 полож ить равной 5.
Тогда для вы ч и сл ен и я / остается величину Г 2, получаю щ ую ся
в результате р а б о т ы программы, умнож ить на постоянную
( п — р ) / р ( п — 1).
2. К роме п р о в е р к и гипотез о средних, могут быть построены
многомерные а н а л о г и доверительны х интервалов для линейны х
комбинаций ко м п о н ен т вектора ц. Д л я заданного набора ко н ­
стант а15 ..., а р м н огом ерн ы й аналог доверительного интервала
р
для 2] имеет в и д
<=1
1/2
а 15 Ц а !
1=1 ¿=1 /=1
Общий уровень зн ач и м о сти равен 1 — а для любых наборов аь ...
..., С1Р .
Т ак, например, м н огом ерн ы й аналог доверительного и нтервала
для г'-й компоненты ¡л* вектора ^ имеет вид

[ - % Г = ^ р 1-« (Р’ п ~ Р ) ]* > *' = 1........ Р-


Таким образом, м о ж н о получить доверительны й интервал, и с­
пользую щ ий м н огом ерн ую струк туру данны х, аналогичный тому,
который мы п о л у ч а л и с помощью ¿-распределения Стьюдента.
Как и в дисперсионном ан али зе, доверительны й интервал расш и­
ряется для п о л у ч ен и я общего уровня значимости 1 — а .
Пример 5 .1 .2 (п р о д о л ж е н и е ). В ыборочная ковариационная м а ­
три ца имеет вид
_ Г438.26 343 .0 2 '
“ 343.02 291.38.
Д л я проверки ги п о те зы = (120, 80)' из формулы (5.2.3)
имеем
0.02902 - 0 .0 3 4 1 7 0.6
Т 2 = 15 [0.6 — 0.3] = 0.400.
— 0.03417 0.04365 0.3
Поэтому из (5.2.4) с л е д у е т , что
15 — 2
/ = (0.400) = 0.186.
2 ( 1 5 — 1),

Эта величина так ж е незначим а.


320 Гл. 5. Методы многомерного статистического анализа

П р едп о л о ж и м теперь, что проверяется гипотеза о том, что


рассм атр и ваем ы е 15 пациенток принадлеж ат популяции гипотони­
ков с си столи чески м и диастолическим давлениям и 90 и 60 соот­
ветствен н о . Тогда Я 0: ц = (90, 60)' и Н х . ¡и Ф (90, 60)'. В этом
случае Т 2 = 43.76 п Т7 = 20.32. П оскольку р < 0.005, гипотеза
Я 0 о т в ер гае т ся .
П о л ь з у я с ь замечанием 5.2.2.2, можно построить 95 %-ные
д о вер и тел ьн ы е интервалы для ¡хь ¡х2 и — 2 р 2. Таким образом,
с в ер о ятн о ст ью 95 % ¡хх попадает в интервал

1 2 0 .6 ± [ - щ Щ - (3.81) (438.26)] ^ = (105.1, 136.1),

р2 — в интервал

7 9 .7 ± [ (3.81) (291.38)] 1/2 = (67.1, 92.3),

а в е л и ч и н а рх — 2 ¡х2 — в интервал
120.6 — 2 (79.7) ±

± [ - ^ | - (3.81) { 4 3 8 .2 6 - 2 (2) (3 4 3 .0 2 )+ 4 (291.38)}]1/2 =

= ( — 50.1, — 27.5).

5.2.3. Проверка гипотез о равенстве двух векторов средних


(ковариационная матрица неизвестна)
П усть ¿ = 1 , 2 , — случайная одномерная величина, распре­
делен н ая по зак о н у N (рг, а 2), а у ц , ..., «/¿П /— случайная вы­
борка из э т о г о распределения. Д л я проверки гипотезы Я 0: ¡а,х =
= н-2 п р о т и в гипотезы Н г : р? р 2 при неизвестной дисперсии а 2
мож но и сп о л ь зо в ать статистику

*= (У х - # 2 ) / ] Л р (« Г 1-!- П 2 1) ,

где у , есть г-е выборочное среднее, г = 1 ,2 и ^ — общая дисперсия.


Гипотеза Л0 отвергается, если | / | > ¿1_(а/ 2> [ п х + п2— 2) для
н е к о то р о го вы бракного зар ан ее а . М ногомерным аналогом этой
д ву х в ы б о р о ч н о й ¿-статистики Стьюдента явл яется д в у х в ы б о р о ч н а я
Т 2- с т а т и с / п и к а Х о т е л л и н г а . П редположим, что случайны й век­
тор Хг- и м е е т распределение Л/ (цг, 2 ), г = 1, 2. П усть х г1, ...,
..., х Сп. — случайная вы борка из ¿-го распределения. М атрица Е
о ц е н и в а е т с я о б ъ е д и н е н н о й в ы б о р о ч н о й к о в а р и а ц и о н н о й м а т р и ц е й 8:

5 = 2 - !) + (п 2 - 1 )в я], (5.2.5)
5.2. Проверка ги п о т е з о векторах средних 321

где — стандартная о ц е н к а ковари ац и он н ой матрицы по г-й


выборке. Тогда д в у х в ы б о р о ч н ая Г 2-стати сти ка имеет вид

Т '2 = Я" У Я>' (Х1 — х а)' ^ (Х1 — х з)> (5 -2 -6)

где
"1

х ,- = - ¿ " 2 г = 1’ 2 > (5-2,7)


/=1
— оценка ¡и,,. Если г и п о т е за Н 0: ¡и,г = и 2 верна, то величина

Г = »1 + »2 — Р - I 72 (5 2 .8)
(«1 + "2 — 2) р '

имеет /•'-распределение с р и /г 2 — р — 1 степенями свободы.

Замечание 5 .2 .3 . 1. В ы борочны е векторы средних и ковари а­


ционные матрицы для к а ж д о й вы б орки м огут быть получены с по­
мощью дескриптивной програм м ы . О бщ ая ковариационная м а­
трица вычисляется с о г л а с н о в ы р аж ен и ю (5.2.5). Д л я вычисления
вы раж ения (5.2.6) м о ж н о и сп о л ьзо в ать программу, указан ную
в замечании 5.2.1, в к о т о р о й сл ед у ет полож ить А = х х— х 2 и В Б.
2. Р -статистику м о ж н о п о л у ч и ть с помощью программы д вух-
ьыборочного дискрими н ан тн о го а н а л и з а (см. зам ечание 5.3.2.3).
Поэтому примеры п р и в о д я т с я в соответствую щ ем разделе.
3. Многомерный а н а л о г д о вер и тел ьн о го интервала д л я линей-
р
ной комбинации р азн о сте й средних Т а 1 (Нчг — М-2») имеет вид
1=1

У а, (хи — хи )
1=1
1/ 2;
У д -Д 1’, п 1 + п , - р ~ 1) У ; х ; а д , .а ,
¿=1 /=1
где 5^- — элементы м а т р и ц ы 8. О б щ и й у ро вен ь значимости д л я
всех комбинаций а ъ . . . , а р равен 1 — а . Н ап ри м ер, довери тел ь­
ный интервал д л я р,1г- — }х2; и м е е т вид
(хи — х 21) ±

± я & Ь Г и . (р . « . + * , - / > - 1) 1,2

1 1 А. Афифи, С. Эйзен
322 Гл. 5. Методы многомерного статистического анализа

5.3. Классификация индивидуума в случае двух


популяций
Задача классиф икации состоит в отнесении ^некоторого инди­
в и д у у м а ш к одной и з £ п опуляци й №2, на основе
и з м е р е н и я р парам етров х х , ..., х р . Следующ ие два примера и ллю ­
с т р и р у ю т су т ь проблемы.
П р и м ер 5 .3 .1 . П рием ная комиссия колледж а задается целью
о тн ести каж дого абитуриента либо к популяции студентов,
к о т о р ы е успеш но за к о н ч а т колледж , либо к п о п у л яц и и й?2 тех,
к то не зак о н ч и т к о л л ед ж . Реш ение комиссии склады вается на
основе оценок абитуриента по р вступительны м экзам енам .
П р и м ер 5 .3 .2 . В р ач д олж ен определить, какой из А болезней
болен п а ц и е н т на основе н ал и чи я или отсутствия р симптомов.
Этот п р и м е р будет рассмотрен в р а зд . 5.4.3.
В э т о м разделе будет рассмотрен частный случай кл асси ф и ка­
ц ии — о т н есе н и е индивидуум а к одной из д вух п опуляци й , >г. е.
к = 2. В р а зд . 5.3.1 этот вопрос изучается в предполож ении
м н о го м ер н ы х нормальны х распределений с известными п а р а ­
м етрам и: в каж дой п опуляци и , тогда к а к в разд. 5.3.2 п ред став­
л ен а т а ж е зад ач а с неизвестными парам етрам и распределений.
В р а з д . 5 .3 .3 рассм атриваю тся способы оценивания вероятности
о ш и б о ч н о й кл асси ф и кац и и, разд. 5.3.4 посвящ ен оцениванию
а п о с т е р и о р н ы х вероятностей.

5 .3 .1 . Классификация в случае многомерных нормальных


популяций с известными параметрами
С т а н д а р т н а я п роцедура классиф икации д л я случая р непреры вны х
п ер ем ен н ы х предполагает, что наблю дения п рин ад леж ат одной
из д в у х п опуляци й , имеющих многомерные нормальны е р ас п р е­
д е л е н и я . Н аблю дения х х , г 2, ..., х р записы ваю тся в виде вектора
х = ( х 1 > •••> х РУ . и предполагается, что имеет распределение
Л А (|< х1, 2 ? хр), а №2 — распределение N (¡ы2, %2 Х Р ) , где
Мч = (Н'г 1) •••. М-грУ, ¿ = 1 , 2 . Д р у го е упрощ аю щ ее предполож ение
состоит в том, что 2 Х = 2 2 =■ 2 = ( о и ) , 1 = 1, = 1....... р .
И т а к , в е к т о р х имеет распределение N ([1 и 2) или N ( р 2 , 2 ).
П а р а м е т р ы ц 2, |и2 и 2 вначале будут считаться заданными.
И н т у и т и в н о каж егся разумны м найти линейную комбинацию
н а б л ю д е н и й , назы ваемую д и с к р и м и н а н т н о й ф у н к ц и е й , имеющую
вид
г = <х1х 1 + а 2х2 -+ ------- (- Я р Х р , (5.3.1)

где « !, . . . , а р — некоторы е постоянные, и отнести х к если


г ^ с , (5.3.2)
5.3. К лассиф икация в случае двух популяций 323

и ж Ц72. если
2<с, (5.3.3)
гд е с — п о ст о я н н ая . Т о г д а зад ач а будет сведена к определению
значений а х........ а п и с , м и н и м и зи р у ю щ и х вероятность ошибочной
класси ф и кац и и. В н а ч а л е будем вы бирать эти постоянные на
интуитивном у р о в н е , а з а т е м покаж ем , что получивш аяся п ро­
ц едура к л асси ф и к ац и и о п т и м а л ь н а .
Е сли наблю ден и е х п о с т у п и л о из W ,, то величина г имеет
нормальное р а с п р е д е л е н и е со средним

Ь = Е a # i/ (5-3.4)
/= 1
и дисперсией

< * 1 = 2 2] «¿<7<7а /- (5.3.5)


<=1 /= 1
А налогично д л я х из W2 в ел и ч и н а г имеет нормальное распределе­
ние со средним

£2 = S а/Н-2/ (5.3.6)
/= 1
и с той ж е д и сп ер си ей ст|. И меет смысл вы брать таки е a l t а р,
при которых и £, б ы л и бы к а к мож но больш е удалены д руг
от д р у га о тн о си тел ьн о сг|. Д л я этого введем расстояние М ахала-
нобиса
д 3 ;= g i - E i ) * .. (5.3.7)

Эта величина б ы л а п р е д л о ж е н а в работе M ah alan o b is (1936) для


измерения «расстояния» м е ж д у двум я п опуляци ям и. Таким об ра­
зом, тр еб у ется н ай ти коэф ф и ц и ен ты а ь а р , м аксим изиру­
ющие А2. В р а б о т е F is h e r (1936) показано, что такие a t служ ат
реш ением систем ы л и н е й н ы х уравнений
сCiCTu + а,ст12 + • • ■ + а п о 1р = цп — ц21,
®1*^21 Ч- ЯзС*22 “Ь ' ' ' Ч- ®р*^2р = И'12 hl22> (5.3.8)
« lO p i + a .2c r о2 “Г ' ' ’ Н- а ра рр = М-1р — М-2р-
П осле п одстановки п о л у ч ен н ы х а г в (5.3.1) каж дому объекту
хг, с т а в и т с я в соответствие з н а ч е н и е д и с к р и м и н а н т н о й
ф ункции Z.
Д л я о п р ед ел ен и я п о с то я н н о й с следует рассмотреть рис. 5.3.1,
н а котором п о к а за н ы два. распределени я величины г относительно
постоянной с. Е с л и в е к т о р х прин адлеж и т W 2 , но z — 2jf=ia ixi ^
^ с , то х о тн о си тся к W i и, таким образом, будет соверш ена
ош ибка. В ер о ятн о сть P r (1 | 2) этой ош ибки п оказана на
рис. 5.3.1. Н а этом р и с у н к е п о казан а так ж е вероятность Рг (2 j 1)
11*
324 Г л . 5. Методы многомерного статистического анализа

ош ибочной классиф икации объекта из популяций к а к при­


н ад л е ж ащ его п о п у л яц и и И72. Естесгвенно и скать такую постоян­
ную с , чтобы сумма вероятностей Рг (1 | 2) -)— Рг (2 | 1) была
м и н и м ал ьн о й . Это можно достигнуть выбором постоянной с ,
р а в н о у д а л е н н о й от средних, т. е.
е=(Ь + Ы/2. (5.3.9)
И т а к , э в р и с т и ч е с к а я процедура классиф икации состоит в вычисле­
нии а и ..., а 0 , удовлетворяющих; системе уравнений (5.3.8),

Рис. 5 .3 .1 . Распределение величины г, когда х принадлеж ит ^ и XV.г соответ­


ствен н о ; Ц7. имеет распределение N (¡и , 2 ). ¿ = 1 » 2.

о ц е н о к ^ и £2, согласно (5.3.4) и (5.3.6), а затем постоянной с —


из ф о р м у л ы (5 .3 .9 ). Д л я каж д ого вектора наблюдений вы чис­
л я е т с я зн а ч е н и е (5.3.1) дискриминатной функции г и х относится
к п о п у л я ц и и V ? ! , если вы полняется условие (5.3.2), иначе — к Ц72-
П р и в ед ем теп ер ь более строгое реш ение задачи классиф икации,
о сн о в ан н о е н а теорем е Б ай еса. О пределим вначале а п р и о р н у ю
в е р о я т н о с т ь дг к ак вероятность того, что индивидуум п р и н ад ­
л е ж и т к популяции 1 = 1, 2. П редполагается, что сумма
ап р и о р н ы х вероятн остей ^ -4- равн а 1. В частности, для при
м ера 5 .3 .1 м о ж е т быть известно из опы та предыдущ их лет, что
к о л л е д ж о к а н ч и в а ет г / 3 поступаю щ их в него студентов. Отсюда
q 1 = ^-/з и <72 = 2/3. В прим ере 5.3.2 при £ = 2 априори мож ет
бы ть и зв е стн о , что 20 % пациентов имеют болезнь Л и 80 % —
б о л е з н ь В . С л ед овател ьн о, = 0.2 и ? 2 = 0.8.
О п р ед ел и м д а л е е условную вероятность Р г (х | № г ) получе­
н и я н е к о то р о го в ек то р а наблюдений х , если известно, что объект
п р и н а д л е ж и т к п о п у л я ц и и № 1 , I = 1 , 2 . О бозначим т а к ж е через
Рг (№%- \ х) у сл о в н у ю вероятность того, что объект п рин адлеж и т
к п о п у л я ц и и \\? г при данном векторе наблю дений х. Величины
Р г ( Г х х) и Р г | х) назы ваю тся а п о с т е р и о р н ы м и в е р о я т ­
н о с т я м и . Р а з н и ц а меж ду априорны ми и апостериорны ми в ер о ят­
н о с т я м и за к л ю ч а е т с я в том, нто до получения вектора наблю дений
д а н н о г о о б ъ ек та известно, что он п рин адлеж и т к совокупности Жг-
с в ер о я т н о ст ь ю <?г. П осле ан ал и за вектора наблю дений этого
5.3. Классиф икация в случае двух популяций 325

объекта можно с к а з а т ь , что он п ри н ад л еж и т п опуляци и W ¡ с в е ­


роятностью P r ( W t | х).
Сформулируем сл ед у ю щ у ю т е о р е м у для задачи классиф икации.
Теорема Б айеса. В о в веден н ы х выш е обозначени ях равенство

Р г ( Г , | х ) = — n , i L P[ (Х1 , iw w / — 1, 2, (5.3.10)
' 11 > cfx Р г (х | Wi) -|- <7а P r (х | №2)
справедливо д л я л ю б о г о р ас п р е д е л е н и я величин х.
Если х имеет м н о го м ер н о е н о р м ал ь н о е распределение N (jli15 2 )
или N ( ц 2 , 2 ) , то Р г (х W x ) и P r (х W 2) мож но зам енить с о ­
ответственно на п л о тн о сти р асп р ед ел ен и й fi(x ) и f 2 (х). В р е зу л ь ­
тате получим
Рг(Ц7, I х) - , l q. i í ‘ { x \, , , / = 1, 2. (5.3.11)
v 11 ' + 9 а /2 00
Байесовская процедура классиф икации состоит в отнесении в е к ­
т о р а наблю дений х к W x, если
P r (W7! | х) З г Р г ( № 2 |х ),
и к W 2, если
P r (U7XI х) < P r (W .2 1х).
П одставляя в эти н ер ав ен ств а зн ач ен и я апостериорны х вероят­
ностей из (5.3.11), п о л у ч аем сл ед ую щ ее п равило классификации:
х относится к п о п у л я ц и и W х , если
Ы х (х))/С<7г/2 (х )) ^ 1 - (5.3.12)
и к TF2, если
Ш х (*))/(<7«Л (х)) < i • (5.3.13)
М ожно показать, к а к это сд ел ан о , наприм ер, в работах R ao
(1965), A nderson (1958), что т а к а я п роцедура миним изирует
ож идаем ую вероят ност ь ош ибочной классиф икации

qx )—<72 Рг (1 | 2).
Рг (2 11) — (5.3.14)
Заметим, что эта вел и чи н а я в л я е т с я вероятностью того, что
объект, п р и н ад л еж а щ и й к п о п у л я ц и и W u ошибочно классиф ици­
руется, к ак п р и н ад л еж а щ и й W . ¿ , или наоборот, объект из W 2
ошибочно о тн о си тся к W t .
А л гебраи чески м и п р ео б р азо в ан и я м и неравенства (5.3.12) можно
показать, что б а й е с о в с к а я п р о ц е д у р а экви вален тн а отнесению х
к W l t если

£ a . x¡ ^ b + Í L + In ( - J - ) , (5.3.15)
1=1
и к W 2, если

£ a¡x¡ < Í L + k . 4 . in ( - J - ) . (5.3.16)


326 Гл. 5. Методы многомерного статистического анализа

П о с т о я н н ы е щ являю тся реш ениями системы уравнений (5.3.8),


а и £2 за д а ю т с я соответственно вы раж ен и ям и (5.3.4) и (5.3.6).
Зам етим , ч т о при q л = = 1/ 2 байесовская процедура аналогична
эвр и сти ч еск о й процедуре классиф икации в соответствии с (5.3.3).
Д альн ей ш ее усоверш енствование байесовской процедуры
св язан о с вкл ю чен и ем в нее с т о и м о с т и о ш и б о ч н о й к л а с с и ф и к а ц и и .
Д л я это го введем величину С (2 | 1) — стоимость потери из-за
отнесения объекта из к п опуляци и А налогично, С (1 ] 2)
я в л я е т ся стоим остью потери из-за отнесения объекта из И?2 к
В п р и м е р е 5.3.1 С(1 | 2) вы раж ает стоимость обучения сту­
дента, к о т о р ы й бросает колледж , недоучившись, а С (2 | 1) —
стоимость потери потенциально хорош его студента.
О б о б щ е н н а я п р о ц е д у р а к л а с с и ф и к а ц и и Б а й е с а состоит в отне­
сении х к Т^!, если

(5.3.17)
и к W 2, если

(5.3.18)

Т ак ая п р о ц е д у р а м иним изирует ож идаем ую ст оимост ь ош ибоч­


ной классиф икации

4 lC ( 2 11) Pr ( 2 11) + £ ?2С(11 2) Рг (1 12). (5.3.19)


Эта п р о ц е д у р а сводится к байесовской процедуре, когда стои­
мости р а в н ы , и к эвристической, когда при этом q x = #2 = 1/2.
Д л я обобщ енной байесовской процедуры вероятности ошибоч­
ной к л ас си ф и к ац и и имеют вид

(5.3.20)
и

(5.3.21)
где
д- _ | п foC ( И 2)
(5.3.22)
?iC (2 11) ’
а А2 з а д а е т с я равенством (5.3.7). Заметим, что, когда С (1 | 2) =
= С ( 2 | 1) и Я1 = q, = V2,
(5.3.23)

З а м е ч а н и я 5 .3 .1 . 1. Системы уравнений (5.3.8) м ож но реш ить


при п о м о щ и любой из подпрограмм для реш ения систем линейны х
уравн ен ий , например подпрограммы Б Ш Р из БЭР.
5.3. Классиф икация в случае двух популяций 327

2. Можно п о к а з а т ь , что набор а ъ а р , полученный ум н ож е­


нием решения си стем ы (5.3.8) н а лю бое полож ительное число,
такж е максимизирует Д2. Е сл и п очем у-л и бо а ь ' ..., а 0 ум нож ены
на полож ительную п о с то я н н у ю , т о вели чи на
X | п Яг С (1 I 2)
Л </1 С (2 | 1) ’
встречаю щ аяся в п р о ц е д у р е к л а с си ф и к ац и и , ум нож ается н а ту
ж е постоянную .
3. Величины Рг (2 | 1) и Р г (1 | 2) явл яю тся убывающ ими
ф ункциям и от Л2, т . е. в ер о ятн о сти ош ибочной классиф икации
убываю т, когда р а с с т о я н и е м е ж д у двум я п опуляциям и растет.
★ 4. Реш ение си стем ы (5.3.8) м ож но зап и сать в матричных
обозначениях
ос = 2 ' 1 <М1 — М^г), г д е а = ( а ь . . ., а р) ' .
П одстановка в (5 .3 .7 ) позволяет за п и с а т ь расстояние М ахалано-
биса в виде
А2 = (М1 - М-2У — (*г)- *
5. Если х п р и н а д л е ж и т к од н ой из д ву х известных п опуляци й
с произвольными ф у н к ц и я м и п л о т н о с ти (х) и /2 (х) соответ­
ственно, то о б о б щ ен н а я б ай есо в ск ая п роцедура сводится к отн е­
сению х к И7Х, если
С (2 11) /Ч (х) .
< 7 .С ( 1 |2 ) Л ,( х ) "

и к в п р о ти вн ом сл уч ае.

Пример 5 .3 .1 ( п р о д о л ж е н и е ). П усть прием ная комиссия у ч и ­


ты вает оценки, п о л у ч ен н ы е аб и ту р и ен там и на р = 2 экзам ен ах .
П у сть х = (*]., х г ) ' — вектор о ц ен о к абитуриента. Из опыта п р е­
дыдущ их лет и зв е с т н о , что
^ Г 100 7 0 '
ц 3= (60, 5 7)', ц2 = (42, 39)' и 2 = 70 100
П у сть ^ = Ч » = 2/3 и примем д л я иллю страции, что С (1 | 2) =
= 2000 и С (2 | 1) = 3000 долл. П о д ставл яя эти значения в си ­
стему ^уравн ен и й ( 5 .3 .8 ) , п о л у ч а е м 100а 3 - 70с?2 = 18, 7 0 а 3 +
+ 100сс2 = 18, о т к у д а а х = а 2 = 54/510. С ледовательно, д и ск р и ­
минантная ф у н к ц и я имеет вид г — (54/510) ( х х + х.г ) . С огласно
(5 .3.4), ^ = (5 4 /5 1 0 ) (60 + 57) = 12.39, а по формуле (5.3.6)
имеем = 8.58. С л е д о в а т е л ь н о , (5.3.9) и (5.3.22) соответственно
д аю т с = (12.39 + 8 .5 8 )/2 = 1 0 .4 9 и К = 1п (4/3) = 0.288. И так,
обобщ енная б а е й с о в с к а я п р о ц е д у р а относит х к популяции
если (54 510) ( х у + х 2) ^ 10.49 -+- 0.288, т. е. х х + х 2 ^ 101.79.
Е с л и ж е * ! + х г <4 101.79, то в е к т о р относится к № 2. В еличина а 2
(5.3.5) равна 3.81 и р а с с т о я н и е М ахалан об и са А2 (5.3.7) т ак ж е
328 Гл. 5. Методы многомерного статистического анализа

р а в н о 3 . 8 1 . З а т е м по ф ор м у лам (5.3.20)— (5.3.21) м о ж н о п о л у ч и т ь


в е р о я т н о с т и ош ибочной к л а с с и ф и к а ц и и : Рг (2 f 1) = Ф (—0.83) =
= 0 .2 0 3 , Р г (1 | 2) = Ф (— 1.12) = 0.13 1.
И т а к , а б и т у р и е н т п р и н и м а е т с я , е сл и л и н е й н а я к о м б и н а ц и я
его о ц е н о к б о л ь ш е и л и р а в н а 101.79 и не п р и н и м а е т с я в п р о т и в ­
ном с л у ч а е . П р и та ко й п р о ц ед у р е 20.3 % п о т е н ц и а л ь н о х о р о ш и х
с т у д е н т о в о т в е р г а е т с я ком и сси ей и п р и н и м а е т с я 13.1 % по тен­
ци альн о плохих.

5 .3 .2 . Классификация в случае двух м н огом ерны х


нормальных популяций при неизвестных параметрах

П у с т ь и м е е т с я о бъект, к о т о р о м у соответствует в е к т о р на б л ю д е н и й
х = (лг1( лг2, . . . , хРУ. Т ребу ется отнести его н а о с н о в е этих н а б л ю ­
д е н и й к п о п у л я ц и и Wx с р а с п р е д ел е н и е м N (¡ufx l , 2 рхр) ил и
к W.2: N ( ц г " Л 2 РХР). П р е д п о л а г а е т с я , что изве с т н ы а п р и о р н ы е
в е р о я т н о с т и и стоимости ош ибочной к л а с с и ф и к а ц и и , но с р е д н и е
jult ¡u2 и м а т р и ц а к о в а р и а ц и й 2 не и зв е ст н ы . Е с л и х ц , . .. , x ini
и х 2ь • • • , х 2Пг — н езави си м ы е с л у ч а й н ы е в ы б о р к и и з п о п у л я ­
ц и й W 1 и: W2 с оответственно, то м о ж н о о ц е н и т ь |иг- вы б ор очны м
в ектором : с р е д н и х к,- = (хп , xip) ' , i = 1, 2 (см. (5.2.7)), а 2 —
о б ъ е д и н е н н о й вы боро чно й к о в а р и а ц и о н н о й м а тр и ц е й S = (sJk),
/ = 1, . . . , р , k = \ , .. . , р; см. (5.2.5). В т а к о й с и т у а ц и и н е в о з ­
м о ж н о н а й т и п р о ц е д у р у к л а с с и ф и к а ц и и , к о т о р а я б ы л а бы о п т и ­
м а л ь н о й в с м ы с л е стоим о сти о ш ибочной к л а с с и ф и к а ц и и (5.3.19).
О д н а к о м о ж н о п о к а з а т ь (A n derson (1958, т е ор ем а 6 .5 .1 )), что если
п а р а м е т р ы в об общ енно й б ай е с о в ск о й п р о ц е д у р е (5 .3 .1 7 )— (5.3.18)
з а м е н и т ь их с о с т о я т е л ь н ы м и оц ен кам и , то б р е з у л ь т а т е о ж и д а е м а я
с т о и м о с т ь о ш ибочной к л а с с и ф и к а ц и и б уд е т у б ы в а т ь п р и л х и я 2 ->
- > оо. П о с к о л ь к у приведенны е вы ш е о ц е н к и с о с т о я т е л ь н ы , обоб­
щенная п р о ц е д у р а байесовской классификации на основе оценок
п арам ет ров з а к л ю ч а е т с я в следую щ ем: в н а ч а л е р е ш а е т с я систем а
у р а в н е н и й (5 .3 .8 ) с за м е н о й н а хи , i — 1, 2, / = 1......... р,
и з а м е н о й o jm н а sJm, т = 1, ..., р. З а т е м п о л у ч е н н ы е о ц е н к и
к о э ф ф и ц и е н т о в а х, . . . , а.р (обозначим их аъ ..., ар) и с п о л ь з у ю т с я
д л я о п р е д е л е н и я з н а ч е н и я д и с к р и м и н а н т н о й ф у н к ц и и zu (5.3.1)
д л я к а ж д о г о в е к т о р а н а б л ю д е н и й xih I = 1, .. . , nL. Д а л е е
заданны е ф о р м у л а м и (5 .3 .4 ), (5.3 .6 ), о ц ен и в а ю т с я величинами
ni
^ = (5 -3 -24)
1 /=1

а а\, з а д а н н ы е (5.3.5), — вел и ч и н о й

si = V 2 ajsjma m. (5.3.25)
¡=1 ;га=1
5.3. Классификация в случае двух популяций 329

Т а к и м образом, о б о б щ е н н а я б а й е с о в с к а я п р о ц е д у р а о ц е н и в а н и я
со сто и т в о т н е с е н и и х = (х1, . . . , хр)' к № 1г если
р

2 ~ 2-1 а 1х 1 > - 2 £7х С (2 | 1) ’


¡=1

и к 1Г2 — в п р о т и в н о м случае. Выборочное расстояние Маха-


ланобиса
О2= - ¿ 2)2^ (5.3.27)

я в л я е т с я о ц е н к о й д л я А2 (см. ( 5 . 3 . 7 ) ) .
В результате р а б о т ы п р о гр а м м дискриминантного анализа,
как пр а в и ло , п о л у ч а е м с л е д у ю щ е е : а) о ц е н к и ко эф ф иц иенто в
д и с к р и м и н а н т н о й ф у н к ц и и а и . . . , ар; Ь) зн а ч е н и е д и с к р и м и н а н т ­
ной ф у н к ц и и ги д л я к а ж д о г о в е к т о р а н аб л ю д е н и й х,7 , г = 1, 2,
I = 1, ..., п\ с) в ы б о р о ч н ы е с р е д н и е и г 2; с1) вы б ор очно е р а с ­
стояние М а х а л а н о б и с а О 2. Эта и н ф о р м а ц и я д о ст а т о ч н а д л я з а ­
писи п р о ц е д у р ы к л а с с и ф и к а ц и и (5 .3 .2 6 ).

З ам е ч а н и я 5 . 3 . 2 . 1 . Е с л и , к а к и в с л у ч а е с известны м и п а р а ­
метрами, к о э ф ф и ц и е н т ы а ь ..., ар и м е ю т общий п о л о ж и т е л ь н ы й
м нож итель, в е л и ч и н а
С ( 1 12)
К = 1п <?1 С (2 | 1)

д о л ж н а быть т о ж е у м н о ж е н а н а н е г о . В н е к о то р ы х п р о г р а м м а х
объединенные д и с п е р с и и и к о в а р и а ц и и в системе у р а в н е н и й (5.3.8)
за м еняю тся н а с у м м ы к в а д р а т о в и с м е ш а н н ы е п р о и зв е д е н и я о т ­
кл о н ен и й с о о т в е т с т в е н н о . В р е з у л ь т а т е коэфф ициенты д и с к р и м и ­
нантной ф у н к ц и и а 1, . . . , ар д е л я т с я н а ^ + « 2 — 2. С л е д о в а т е л ьн о ,
в е л и ч и н у К н е о б х о д и м о т а к ж е р а з д е л и т ь на пг + — 2.
2. Ч асто б ы в а е т с л о ж н о о п р е д е л и т ь а п р и о р н ы е в е р о я т н о с т и
и ^2. Е с л и с л у ч а й н ы е в ы б о р к и о б ъ е м а п1 и гг2 б ер у т ся с о о т в ет с т ­
в енн о из п о п у л я ц и й \Х71 и то и Цг м о ж н о о цен ить в е л и ч и н а м и
+ л 2) и <72 = + « г )-
3. В р е з у л ь т а т е р а б о т ы п р о г р а м м ы д и с к р и м и н а н т н о г о а н а л и з а
об ы чно в ы во д и тс я з н а ч е н и е Р - с т а т и с т и к и
«1 + «2 — Р — 1 П1П2 О 2,
(«1 + пг — 2) р Л! + Я2

к о т о р о е м о ж н о и с п о л ь з о в а т ь д л я п р о в е р к и г и по тезы Я 0: А2 = 0.
Ч и с л а степеней с в о б о д ы Б р а в н ы р и п 1 + п2 — р — 1 ■ П о с к о л ь к у
последняя э к в и в а л е н т н а ги п о тезе ¡иц = ц 2, эта с т а т и с т и к а
и д ен т и ч н а /‘’- с т а т и с т и к е ( 5 . 2 . 8 ) . И м е н н о на т а к о й способ в ы ч и с ­
л е н и я /•’-статистики д е л а е т с я с с ы л к а в за м е ч а н и и 5.2.3 .2 .
330 Гл. 5. Методы многомерного статистического анализа

4. В ы б о р о ч н а я о ц е н к а О 2 расстояния М ахаланобиса является


с м е щ е н н о й . Н е с м е щ е н н а я о ц е н к а имеет в ид

» 1 + п2 — р — 3
Д2 =
Я 1 -М 2— 2

5. Д и с к р и м и н а н т н ы й а н а л и з д л я д в у х п о п у л я ц и й м ожно осу­
щ е с т в и т ь п р и помощ и п р о г р а м м ы м н ож ес т в е н н ой р е г р е сси и . Д л я
э т о г о в к а ч е с т в е за в и с и м о й переменной надо в з я т ь ве л и ч и н у
V = п 2 / ( « 1 4- щ ), е с л и о б ъ е к т п р и н а д л е ж и т п о п у л я ц и и и
У = — г г г1(пг + я 2), е с л и б ер е т ся о б ъ е к т и з Й72. Н е за в и с и м ы м и
п е р е м е н н ы м и я в л я ю т с я в е к т о р ы Х ъ ..., Х р. О б ъ е к т относится
к п о п у л я ц и и '№1 пр и у ^ 0, в п р о т и вн о м с л у ч а е — к О ценка
р а с с т о я н и я М а х а л а н о б и с а О'1 м о ж е т б ы т ь п о л у ч е н а по ф о рм уле

Л 2_ ( « ! + % ) (П!-)-П2— 2)
” (1 - Я 2) гцп 2

где 7? — м н о ж ест ве н н ы й коэф ф иц иент корреляции. Б о л е е под­


р о б н о о б этом см. L a c h e n b r u c h (1975).

П р и м е р 5 . 3 . 3 . П р и по м ещ ении па ц и е н т о в в к р и ти ч е с к о м с о ­
с т о я н и и в о т д е л е н и е ин тен си вн ой т е р а п и и ж е л а т е л ь н о к л а с с и ф и ­
ц и р о в а т ь их н а «тяжело» и «менее т я ж е л о » б о л ь н ы х . П о с к о л ь к у
в е р о я т н о с т ь смерти т я ж е л о б о л ь н ы х п ац иенто в в е л и к а , п о п у л я ­
ц и я « т я ж е л о больных» у с л о в н о н а з ы в а е т с я «н ев ы ж и в ш и е» ,а п о ­
п у л я ц и я «менее т я ж е л о б ольн ы х» — «выжившие». Т а к и м об разом,
к п о п у л я ц и и Wx о т н о с я тс я в ы ж и в ш и е пац иенты , а к п о п у л я ц и и
W2 — у м е р ш и е На р а з л и ч н ы х с т а д и я х лечения со б и р а ю т с я д а н
ны е о и х с остоян ии. В этом п р и м е р е д л я н а и л у ч ш е г о р а зд е л е н и я
д в у х п о п у л я ц и й и с п о л ь з о в а л и с ь вы б о р к и по н а б л ю д е н и я м , с о б ­
ранным н е п осред ствен но п ер ед в ы зд ор ов лен и ем и л и смертью
больного.
У п2 = 7 0 в ы ж и в ш и х и п2 = 43 у м е р ш и х п а ц и е н т о в п р о в о ­
д и л и с ь и з м е р е н и я 13 ф и зи о л о г и ч е с к и х п а р а м е т р о в . С ю да в к л ю ч а ­
л и с ь : а р т е р и а л ь н о е и в е н о зн о е д а в л е н и я , изм е ре н и е к р о в о т о к а ,
о п р е д е л е н и е с о с т а в л я ю щ и х к р о в и , д и у р е з . С о г л а сн о зам ечан и ю
5 .3 .2 .2 , м о ж н о о цен ить qx в е л и ч и н о й = 70/113 и q2 — в е л и ч и ­
ной <7 2 = 43/1 13. В е л и ч и н ы С (2 1) и С (1 | 2) бы ли в з я т ы р а в ­
ными 1, п о с к о л ь к у нет о б ъ е к т и в н ы х осн ов ан и й д л я п р и с в о ен и я
им д р у г и х з н а ч е н и й .
П р и и сп о л ь зо в ан и и программы дискриминантного анализа,
п о д с т а в л я ю щ е й в систем у у р а в н е н и й (5.3.8) сум м ы к в а д р а т о в
и с м е ш а н н ы е п р о и зв е д е н и я о т к л о н е н и й вместо д и с п е р с и й и ко-
5.3. Классификация в случае двух популяций 331

в а р и а ц и й , бы ли п о л у ч е н ы сл едую щ и е коэф ф ициенты д и с к р и м и -


н а н тн о й функции:
<¡1 а2 «з й4 «6
— 0.00013 0 .0 0 1 8 3 — 0.00006 — 0.00043 — 0 .0 01 67
<¡6 о7 «8 «9 аю
0.06193 — 0 .0 1 4 3 7 0.02534 0.00007 0 .1 020 6
¿¡11 ¿^12 «13
0.02684 — 0 .0 0176 0.00070
Б ы л и найдены т а к ж е в е л и ч и н ы z-. - 0.37487, ¿ 2 = 0.28851 и
D 2 = 9.5S588. С о г л а с н о зам е ч а н и ю 5 .3 .2 .1 , сл е дуе т поделить
К = In (43/70) = — 0 .4 9 н а п х + п 2 -- 2 = 1 1 1 .
Т а к и м образом, б а й е с о в с к а я п р о ц е д у р а к л а с с и ф и к а ц и и з а ­
к л ю ч ае т с я в с л е д у ю щ е м : в е к т о р х = (хь ..., х 13) ' относится к п о ­
пуляции если

а _х _ ^ ( 0 .3 7 4 8 7 + 0.28851) _ 0 _0 0 4 4 2 = Q.32727,
i= l

и к W2 — в п р о т и в н о м с л у ч а е .
Н а к о н е ц , д л я п р о в е р к и г и по тезы Я 0: Д2 = 0, или, что то ж е
сам ое, Я 0: ,их = ¡и2, в о с п о л ь з у е м с я зн а ч е н и е м F -стати сти к и , в ы ­
ч исл яем ы м п р о г р а м м о й : F (13, 99) = 17.52. П о с л е д н ее зн ач и м о
с Р < 0 .0 0 1 .
В примере 5 .5 .3 п р и в о д и т с я метод к л а с с и ф и к а ц и и , и с п о л ь з у ­
ю щ и й п о втор н ы е н а б л ю д е н и я н а д с о сто я н и е м п ац и ен тов .

5 .3 . 3 . Вычисление в е р о я т н о с т е й о ш ибочной кл а с с и ф и к а ц и и
В с л у ч а е к о г д а п а р а м е т р ы р а с п р е д е л е н и й известны , зн а ч е н и я
веро ятн о стей о ш и б о ч н о й к л а с с и ф и к а ц и и Р г (2 1) и Рг (1 | 2)
д а ю т с я (формулами (5 .3 .2 0 ) — (5.3.21). В с л у чае, когд а п а р а м е т р ы
оц е н и в аю тс я , с у щ е с т в у е т н е с к о л ь к о способов о ц е н ки э т и х в е р о я т ­
ностей. П р е и м у щ е с т в а и не д о с та т ки т а к и х способов б у д у т р а с ­
с м о трен ы н и ж е . Б о л е е п о д р обн о об этом см. H ills (1966) и L a-
c h e u b r u e h , M ic k e y (1968).
Метед 1. П о с к о л ь к у D 2 я в л я е т с я о ц е н к о й А2, в ф о р м у л а х
(5.3.20) и (5.3.21) м о ж н о за м е н и т ь Д 2 на D 2. С ледует, о д н а к о ,
зам ети ть , что т а к и е о ц е н к и б у д у т см ещ ен ны м и, т. е. д е й с т в и т е л ь н а я
в ер оя тн ость о ш и б о ч н о й к л а с с и ф и к а ц и и будет в с р е д н е м б о л ьш е ,
чем т а к а я о ц е н ка . П р е и м у щ е с т в о м м е тод а я в л я е т с я п р о с т о т а т а ­
к и х оценок: их л е г к о п о л у ч и т ь по р е з у л ь т а т а м работы п р о г р а м м ы .
Метод 2. Этот м е т о д состои т в к л а с с и ф и к а ц и и к а ж д о г о э л е ­
м е н т а вы б ор ки о б ъ е м а пх и з п о п у л я ц и и Wr и в ы б о р к и объема п2
332 Гл. 5. Методы многомерного статистического анализа

из W 2 с о г л а с н о в ы р а ж е н и ю (5.3.26). Если т 1 — ч и сл о н а б л ю д е ­
н и й из Wx , о т н е с е н н ы х к W2, и т.г — ч и сл о н аб л ю д е н и й из W2,
к л а с с и ф и ц и р о в а н н ы х в W lt т о Р г (2 | 1) = т11п1 и P r (1 | 2) =
= m j п.г . Э т о т метод д ае т б о л ь ш е е смещение, чем п ре д ы ду щ и й ,
и, е с л и п р о г р а м м о й не в ы в о д я т с я з н а ч е н и я д и с к р и м и н а н т н о й
ф у н к ц и и д л я к а ж д о г о н а б л ю д е н и я , им т р у д н о п о л ь з о в а т ь с я .
Метод 3. Э тот метод состоит в р а з д е л е н и и в ы б о р к и из п х
наблю дений из популяции н а д в е п од вы борки. Н а б л ю д е н и я из
п е р в о й п о д в ы б о р к и и с п о л ьзу ю т с я д л я вы ч и с л ен и я д и с к р и м и н а н т ­
ной ф у н к ц и и , а члены в тор ой п о д в ы б о р к и к л а с с и ф и ц и р у ю т с я
с о г л а с н о п р о ц е д у р е , п о л у ч е н н о й по пер вой по д в ы б о р к е . Д о л я
н е в е р н о к л а с с и ф и ц и р о в а н н ы х об ъектов я в л я е т с я оцен кой в е р о я т ­
но с т и о ш и б о ч н о й к л а с с и ф и к а ц и и . Этот метод об лад ает тем п р е и м у ­
щ ес т в о м , ч т о д а е т несмещ енны е о ц е н к и , но они имеют б о л ьш и е
д и с п е р с и и , чем оценки, п ол уч ен н ы е по первы м д в у м методам.
Д р у г о й н е д о с т а т о к этого м етод а состоит в том, что не сущ ес т ву е т
с т а н д а р т н о г о спосо б а д е л е н и я вы б о рки.
Метод 4. L a c h e n b r u c h (1967) п р е д л о ж и л п р о ц е д у р у с к о л ь ­
з я щ е г о э к з а м е н а . И з п е р в о й в ы б о р к и и с к л ю ч а е т с я п ер в о е н а б л ю ­
д е н и е , и д и с к р и м и н а н т н а я ф у н к ц и я с т р о и т ся по о с т ав ш и м с я
н а б л ю д е н и я м . З а т е м к л а с с и ф и ц и р у е т с я ис к л ю ч ен н о е н аб л ю д ение.
П р о ц е д у р а п о в т о р я е тс я д л я к а ж д о г о ч л е н а п е р в о й в ы б о р к и . Д о л я
н е в е р н о к л а с с и ф и ц и р о в а н н ы х о б ъектов я в л я е т с я о ц е н к о й в е л и ­
ч и н ы Р г (2 | 1). Т а ж е п р о ц е д у р а п р и м е н я е т с я к о в то рой в ы б о р к е
д л я о ц е н к и Рг (1 | 2). М етодом М о н т е -К а р л о L a c h e n b r u c h , M ic k e y
(1968) п о к а з а л и , что см е щ е н и е т а к и х о ц е н о к п р е н еб р е ж и м о м ало.
Метод 5 . Э то т мегод а н а л о г и ч е н методу 1, т о л ь к о о ц е н к а D 2
з а м е н я е т с я на А2. С р а в н е н и е всех п р и в ед е н н ы х вы ш е методов
м о ж н о н а й т и в ра б о т е L a c h e n b r u c h (1975).
Пример 5 .3 .3 ( продолжение). Применяя первый метод пр и
D 2 = 9 . 5 8 5 8 8 и К = — 0.4 9, п о л у ч и м Р г (2 | 1) = Ф (— 1.71) =
= 0 .0 4 4 и Р г (1 | 2) = Ф (— 1.39) = 0 .082. И с п о л ь з у я 113 з н а ч е ­
ни й д и с к р и м и н а н т н о й ф у н к ц и и , вторы м методом п о л у ч и м = 5
и т 2 = 4. С л е д о в а т е л ь н о , Р г (2 | 1) = 5 /7 0 = 0.071 и Р г (1 | 2) =
= 4 /4 3 = 0 . 0 9 3 . Д л я р е а л и з а ц и и т р е т ь е г о и ч етв ерто го методов
требую тся специальны е программы.

5 .3 .4 . Вычисление апостериорных вероятностей


В о м н о г и х с л у ч а я х не т р е б у е т с я отнести о б ъ е к т к той и л и иной
п о п у л я ц и и и н а х о д и т ь в е р о я т н о с т и ош иб очно й к л а с с и ф и к а ц и и ,
а б о л е е в а ж н о н а й т и а п о с т е р и о р н ы е в е р о я т н о с т и (5.3.10) п р и н а д ­
5.3. Классификация в случае двух популяций 333

л е ж н о с т и о б ъ е кт а п о п у л я ц и и V/х и л и 1^2. В с л у ч а е изв е ст н ы х много­


м ерны х нормальных р а с п р е д е л е н и й п оп у ляц и й апостериорная
в е р о я т н о с т ь т о го , ч т о о б ъ е к т п р и н а д л е ж и т имеет вид

Р г ( и 7 1| х ) = ------------------ -- --------г ■ г <> (5.3.28)

где г за д ае т с я р а в е н е т в о м (5.3.1), а и £г — ф о р м у л а м и (5.3.4)


и (5.3.6) с о о т в е т с т в е н н о . Д л я а п о с т е р и о р н о й в е р о я т н о с т и в ы п о л ­
н я е т с я равенство Рг (№.г | х) = 1 — Р г (№ , х). П р и и с п о л ь з о ­
в а н и и оценок п а р а м е т р о в м о ж н о з а м е н и т ь £,■ н а г 1 см. (5.3.24),
г = 1, 2. О со бен но п р о с т о в ы ч и с л я т ь т а к и е в е р о я тн о с ти с помощью
программ, им ею щ ихся в П СП.

Пример 5 .3 .4 . Во ф р э м и н г х е м с к о м об сл ед о вании (ТгиеН еЛ а1.


(1967)) д и с к р и м и н а н т н ы й а н а л и з и с п о л ь з о в а л с я д л я о п и с а н и я з а ­
в иси м ости от сем и ф а к т о р о в р и с к а а п о с т е р и о р н о й в е р о я тн о с ти
р а з в и т и я и ш е м и ч е с к о й б о л е з н и с е р д ц а ( С Н Б ) з а 12 л ет. Н е с м о т р я
на зам етн ы е о т к л о н е н и я д а н н ы х о т м н о го м е р н о го н о р м а л ь н о г о
р а с п р е д е л е н и я , т а к о й а н а л и з о к а з а л с я м ощ ны м средством и з у ч е ­
н и я в л и я н и я с о в о к у п н о с т и ф а к т о р о в р и с к а н а р а з в и т и е и ш ем и ­
ч ес к ой болезни.
З а 12 лет б ы л и с о б р а н ы д а н н ы е о п р о я в л е н и я х иш ем ич еск о й
б о л е з н и у 1929 м у ж ч и н и 2 5 4 0 ж е н щ и н в в о з р а с т е от 30 д о 62 лет.
В н а ч а л е о б с л е д о в а н и я вс е п а ц и е н т ы б ы л и зд о ро вы . Семью п е р е ­
м е н н ы м и ( ф к т о р а м и р и с к а ) с л у ж и л и : в о з р а с т (в го д а х ), к о л и ч е ­
ство х о л е с т е р и н а в к р о в и (м г/Ю О м л ), с и с тол и чес к ое д а в л е н и е
(мм рт. ст.), о т н о с и т е л ь н ы й ве с ( 1 0 0 X в ес — ср е д н и й в ес соответ­
с т в ен н о полу о б с л е д у е м о г о ) , к о л и ч е с т в о гем огл об ин а в к р о в и
(г/100 м л), к о л и ч е с т в о в ы к у р и в а е м ы х в д е н ь с и г а р е т (0 — д л я
н е к у р я щ и х , 1 — д л я в ы к у р и в а ю щ и х м е н ь ш е одной п а ч к и , 2 —
о д н у п а ч к у , 3 — б о л ь ш е о д н о й п а ч к и ) , Э К Г (0 — н о р м а л ь н а я ,
1 — ненормальная и л и н ея сн ая ).
А п о с т е р и о р н а я в е р о я т н о с т ь р а з в и т и я и ш ем и ч еск ой болезн и
( з а 12-летний п е р и о д ) д л я д а н н о г о п а ц и е н т а в ы ч и с л я л а с ь по ф о р ­
м уле:

XI + х2
Р = Р г (С Н О |х ) = 1

где коэф ф иц иенты и п о с т о я н н ы е в е л и ч и н ы п р и в о д я т с я н и ж е


в т а б л и ц е о тдел ьно д л я м у ж ч и н и ж е н щ и н . В ы ч и с л и т е л ь н а я
п р о ц е д у р а н е с к о л ь к о о т л и ч а л а с ь о т о п и с а н н о й в этой к н и г е
(д е т а л и см. в Т гиеН е / а1. (1967)).
334 Гл. 5. Методы многомерного статистического анализа

Коэффициенты
Мужчины Женщины

Постоянная 10.8986 12.5933


Возраст 0.0708 0.0765
Холестерин 0.0105 0.0061
Систолическое давление 0.0166 0.0221
Относительный вес 0.0138 0.0053
Гемоглобинс 0.0837 - 0.03554
Количество выкуриваемых 0.3610 0.0766
сигарет в день
ЭКГ 1.0459 1.4338

Для оценки годности д и с к р и м и н а н т н о й м одели б ы ло полу-


Л
ч ен о р а с п р е д е л е н и е в е л и ч и н ы Р и опред елен ы его д е ц и л и . Р а с п р е ­
д е л е н и е н а б л ю д а е м о г о ч и с л а с л учаев иш ем ической б о л е зн и сердц а
б ы л о р а з д е л е н о на д е ц и л и . С у м м и р о в а н и е м в ы ч и с л е н н ы х р и с к о в
(2] Р ) п о всем об ъ ектам , п оп а в ш и м в д ец и л ь, б ы л о о пр ед ел ен о
о ж и д а е м о е ч и с л о с л у ч ае в б о л е зн и в к а ж д о м д е ц и л е . Н и ж е в т а б ­
л и ц е п р и в е д е н ы о ж и даем ы е и наблю денны е к о л и ч е с т в а с л у ч а е в
б о л е з н и к о р о н а р н ы х сосудов. К р и т е р и й с о г л а с и я %2 п о к а зы в а е т ,
что м о д е л ь с о отв етс тву е т дан ны м (%2 = 10.9 и %2 = 12.8 д л я м у ж ­
ч и н и ж ге н щ и н соответственно, Р > 0 . 1 0 ) .

Мужчины Женщины
Децили^ Ожидае­ Наблюдае­ Ожидае­ Наблюдае­
риска Р мое мое мое мое

10 90.5 82 70.4 54
9 47.1 44 24.7 23
8 32.6 31 15.0 21
25.0 9.8 14
6 19.7 22 6.5 5
5 15.0 20 4.4 6
4 11.5 В 3.2 2
3 8.6 10 2.3 0
2 60 5 1.7 3
1 3.4 0 1.1 1

5.4. Классификация в случае * популяций


В э т о м р а з д е л е ра с с м ат р и в а е т с я с л у ч а й отн есен и я неи зв е ст н о го
в е к т о р а н а б л ю д е н и й х рх1 = (хл, . . . , хр)' к одной и з к п о п у л я ц и й
Ц?,-, I = 1 , . . . , к, й ^ 2.
5.4. Классификация в случае £ популяций 335

Р а з д е л 5.4.1 п о с в я щ е н о б щ е м у с л у ч а ю к л а с с и ф и к а ц и и , когд а
объекты в п о п у л я ц и я х р асп р ед ел ен ы произвольно и п а р а ­
м етры известны; в р а з д . 5 .4 .2 р а с с м а т р и в а е т с я с л у ч а й , ко гд а
распределения в ^ с ч и т а ю т с я м н о г о м е р н ы м и н ор м а л ьн ы м и ;
в р а з д . 5.4.3 п р е д с т а в л е н а з а д а ч а к л а с с и ф и к а ц и и в с л у ч а е п о п у ­
ляции с биномиальным распределением.

5 .4 .1 . Классификация в случае популяций


с произвольными известными распределениями
П у с т ь f ¡ (х) о з н а ч а е т п л о т н о с т ь р а с п р е д е л е н и я х в №1 и <7г —
а п р и о р н у ю в е р о я т н о с т ь т о го , ч т о в е к т о р н а б л ю д е н и я х п р и н а д
леж ит популяции £ = 1, . . . , &. О б о з н а ч и м стоим ость о т н е ­
с е н и я н а б л ю д е н и я из УР] к ч е р е з С(1 | /), а в е р о я т н о с т ь отнесения
на б л ю д е н и я и з к №,■ — ч е р е з Р г (» | /'), I, } = 1, . .., /г, I ф /.
П о л а г а я , что все пар а м е т р ы и з в е с т н ы , м о ж н о п о к а з а т ь , что обоб­
щенная байесовская п ро ц е д ур а классификации о тносит векто р х
к если в е л и ч и н а
к
Е <7,7/ (*) С (I | Л (5.4.1)

я в л я е т с я м а к с и м а л ь н о й , г = 1, ... , к. ( Е с л и о д и н ак о в ы й м а к ­
с и м ум достигается к а к в так и в то х относится к или
№,-,.) В е л и ч и н а ( 5 . 4 . 1 ) н а з ы в а е т с я значением дискриминантной
функции для 1-й популяции. Б а й е с о в с к а я п р о ц е д у р а м и н и м и зи ­
р у е т ожидаемую стоимость ошибочной классификации

(5.4.2)

К о г д а стоимость о ш и б о чн ой к л а с с и ф и к а ц и и не им еет з н а ч е ­
н и я , все С (1 | /) п о л а г а ю т с я р а в н ы м и и п р о ц е д у р а Б а й е с а о т н о ­
сит х к ^ ¿ , если
ЯЛс (х) (5.4.3)
имеет м а к с и м а л ь н о е з н а ч е н и е , г = 1, Т а к и м о б р аз о м , м и н и ­
м и зи р у е т с я о ж и д а е м а я вероятность ошибочной классификации

(5.4.4)

З а м е т и м , что э т о э к в и в а л е н т н о отнесению х к если апосте­


риорная вероятность

(5.4.5)

д о сти га ет м а к с и м у м а .
336 Гл. 5. Методы многомерного статистического анализа

5 . 4 . 2 . К л а с с и ф и к а ц и я в сл у ч а е п оп уляц ии
с м н о г о м е р н ы м и н о р м а л ьн ы м и ра с п ре д ел е н и я м и

Пусть п оп уляц и я им еет р а с п р е д е л е н и е N (¡и,?х1, 2 РХР) с ф у н к ­


ц и е й п л о т н о с т и / г (х), I — 1, Б у д е м с ч и т а т ь , что в с е п а р а ­
м е т р ы и з в е с т н ы и стоим ости ош иб очны х к л а с с и ф и к а ц и й равны .
П одставляя (х) в в ы р а ж е н и е (5.4 .3), л о г а р и ф м и р у я и и с к л ю ч а я
о б щ и е м н о ж и т е л и , п о л у ч а е м линейную дискриминантную функ­
цию для 1-й популяции
б £- = а ах± -|------ + а,фХр -(- 7,1п </ь I = 1 , . . ., £. (5.4.6)

В з а м е ч а н и и 5 .4 .1 .6 эт и у р а в н е н и я о т н о с и т е л ь н о к о э ф ф и ц и е н ­
тов а а , а 1а и к о н с т а н т ы у 1 п р и в о д я т с я в м а т р и ч н о й форме.
И т а к , в е к т о р наб л ю д ений х о т н о с и т с я к п о п у л я ц и и если з н а ­
ч е н и е 6, я в л я е т с я м а к с и м а л ь н ы м среди всех / = 1 к. А п о с т е ­
р и о р н а я в е р о я т н о с т ь (5.4.5) п р и н и м а е т вид
к
Р г ( ^ | х ) = Л -1 Е е 6/, 1 = 1 , . . . , Л. (5.4.7)
/=1

К а к у ж е б ы л о за м е чен о , п р е д п о л о ж е н и е о том, что п а р а м е т р ы


р а с п р е д е л е н и й известны , о б л е г ч а е т т о л ь к о т е о р ет и ч е с к у ю ч асть
а н а л и з а . К а п р а к т и к е , к а к п р а в и л о , имеются н е за в и си м ы е с л у ­
ч а й н ы е в ы б о р к и и з £ п о п у л я ц и й , по ко т о р ы м м о ж н о п о л у ч и т ь
о ц е н к и п а р а м е т р о в . П р и э т о м не с у щ е с т в у е т о п т и м а л ь н о й п р о ­
ц е д у р ы к л а с с и ф и к а ц и и , но п о д с та н о в к о й с о с т о я т е л ь н ы х оцен ок
в в ы р а ж е н и е (5.4.6) м о ж н о п о л у ч и т ь а с и м п т о т и ч ес к и о п т и м а л ь ­
н у ю п р о ц е д у р у . П у с т ь щ — объем г'-й в ы б о р к и , х,- — е е вектор
с р е д н и х и ¿г — к о в а р и а ц и о н н а я м а т р и ц а , г ' = 1, . . . , к. Т о гда
в ф о р м у л е (5.4.6) м о ж н о за м е н и т ь ¡и,- нах,- и 2 — н а об ъ е д и н ен н у ю
к о в а р и а ц и о н н у ю м а тр и ц у 5:

5 = ( Б К - 1) $ ) / ( £ " * - * ) • (5-4-8)

Таким об разом , оценка дискриминантной функции для г-й по­


пуляции имеет вид
4 = 0,1*1 Н------ + а 1рхр + с,- + 1п I = 1 ,..., (5.4.9)
В з а м е ч а н и и 5 .4 .1 .6 п р и в о д я т с я в ы р а ж е н и я д л я к о э ф ф и ц и е н ­
т о в аЛ, . . . , а :р и п о с т о я н н ы х Сг в м а т р и ч н о й ф орме. В е к т о р х
к л а с с и ф и ц и р у е т с я , к а к п р и н а д л е ж а щ и й п о п у л я ц и и И?,-, если
в е л и ч и н а с1 им ее т н а и б о л ь ш е е зн а ч е н и е . П р и этом о ц е н к а а п о с т е ­
р и о р н о й в е р о я т н о с т и и м е е т вид
к;
Рг (Г,-1 х — е I Л (5.4.10)
/=1
5.4. Классификация в случае k популяций 337

П рограммы д и с к р и м и н а н т н о г о а н а л и за предназначаю тся, к ак


п рави ло, для в ы ч и с л е н и я с л е д у ю щ и х величин:
a) о б ъединенной м а т р и ц ы к о в а р и а ц и и S и и н о гд а к о в а р и а ­
ц и о н н ы х м а т р и ц S,- д л я п о п у л я ц и й W¡, i = 1, . .., k\
b) оценок д л я к о э ф ф и ц и е н т о в л и н е й н о й д и с к р и м и н а н т н о й ф у н к ­
ции ап , ..., a¡p и п о с т о я н н о й с, д л я п о п у л я ц и и W¡, i = 1, ..., k\
c) оценок з н а ч е н и я л и н е й н о й д и с к р и м и н а н т н о й ф у н к ц и и д л я
к а ж д о г о эл ем ента x ¡m в ы б о р к и из W¡, т = 1, . . . , п:, i = 1, ..., k\
d) о ценки а п о с т е р и о р н о й в е р о я т н о с т и д л я к а ж д о й п о п у л я ­
ции Wj п р и зад ан н о м в е к т о р е х/пг, к о т о р ы й я в л я е т с я т-м э л е м е н ­
том в ы б о р к и и з W¡, rrt = 1, ..., n ¡ , г, / = 1, . . . , k\
e) номеров п о п у л я ц и й , к к о т о р ы м о т н о с я т с я в е к т о р ы — э л е ­
м енты вы б о рки из Wi, т = 1, ..., щ, i = 1, ..., k (тех п о п у л я ц и й ,
д л я которы х о ц е н к а а п о с т е р и о р н о й в е р о я т н о с т и д л я д и с к р и м и ­
н ан тн о й ф у н к ц и и д о с т и г а е т н а и б о л ь ш е г о зн а ч е н и я ).

З ам е ч а н и я 5 . 4 . 1 . 1 . Н е к о т о р ы е п р о г р а м м ы в ы в о д ят на печать
таблицу результатов классификации, с о д е р ж а щ у ю ч и с л о ди­
векторов x jm в ы б о р ки : и з Wj, о т н е с е н н ы х к W¡, т = 1, n¡,
i, j = 1, . .., k. З а м е т и м , что 2 í = i пи = пз — объем /- й в ы б о р к и ,
/ = 1, ... , k. С п о м о щ ь ю э т о й т а б л и ц ы м о ж н о оц е н и ть ве р о я тн о с ть
ошибочной к л а с с и ф и к а ц и и

Р г (* I Í ) ~ -ТГ> l’ Í ^ 1......... k ’ 1 ^ /■
Х о т я п ол уч ен н ы е о ц е н к и я в л я ю т с я см е щ е н н ы м и , в с л у ч а е k
п о п у л я ц и й все д р у г и е о ц е н к и э т и х в е р о я т н о с т е й тр е б у ю т с л о ж ­
ных вы чи сл ен ий.
2. В н е к о т о р ы х п р о г р а м м а х в ы ч и с л я е т с я т а к н а зы в а ем о е
обобщенное расстояние М ахаланобиса V — об общ ение в е л и ч и н ы D 2.
Оно м о ж ет б ы т ь и с п о л ь з о в а н о д л я п р о в е р к и г ипотезы Н0:
= ■■■ — цк. Е с л и г и п о т е з а Я 0 в е р н а , а объемы вы б о р о к щ с т р е ­
м я т с я к оо , то р а с п р е д е л е н и е в е л и ч и н ы V с трем и тся к %2 с р ( k — 1)
степ еням и свободы. Т а к и м о б р а з о м , п р и б л и ж е н н а я п р о в е р к а г и ­
потезы # 0 с ос то и т в т ом , что г и п о т е з а о т ве р га е т с я п р и %2 >
> l í - a (р (k — 1)).
3. З ам етим , ч т о п р о в е р к а г и п о т е з ы Н 0: jaj = • • • = ft* я в ­
л я е т с я м ногом ерны м а н а л о г о м о д н о ф а к т о р н о г о д и сп ер си о н н ого
а н а л и з а . Т е о р и я п р о в е р к и э т о й и б о л е е о б щ и х гипотез р а с с м а ­
т р и в а е т с я в м н о г о м е р н о м д и с п е р с и о н н о м а н а л и з е A n d e r s o n (1958),
R a o (1965). М н о г и е п р о г р а м м ы в ы в о д я т на п еч ать т а к н а з ы в а е ­
м у ю U -статистику, к о т о р а я я в л я е т с я точной д л я п р о в е р к и
ги п о т е зы Н0. В в и д у с л о ж н о с т и р а с п р е д е л е н и я в е л и ч и н ы U н а
п е ч а ть вы водится ее F -аппроксимация и соответствую щ ее ч и сл о
степеней свободы. Т а к о й к р и т е р и й я в л я е т с я точн ы м д л я р = 1 , 2
при лю бы х k, и л и ж е п р и k = 2 д л я л ю б ы х р.
338 Гл. 5, Методы многомерного статистического анализа

4. П р о г р а м м ы , п р е д п о л а г а ю щ и е , что все ^ п о п а р н о р а в н ы
д л я I = 1, &, м о ж н о и с п о л ь з о в а т ь и в с л у ч а е , к о г д а это у с л о ­
в и е не в ы п о л н я е т с я . Д л я эт о г о с л е д у е т при в ы в о д е п о с т о я н н ы х с,-
(см. п. Ь)) п р и б а в л я т ь к ним в е л и ч и н ы 1п ^ -. К о ц ен ке з н а ч е н и я
д и с к р и м и н а н т н о й ф у н к ц и и д л я к а ж д о г о в е к т о р а х 1т с л е ду ет
т а к ж е п р и б а в и т ь 1п (см. п. с)). В п. е) т р е б у е т с я п р ои зв ести
п е р е к л а с с и ф и к а ц и ю : в е к т о р х1т о т н о с и т с я к той п о п у л я ц и и , д л я
к о т о р о й м о д и ф и ц и р о в а н н а я д и с к р и м и н а н т н а я ф у н к ц и я имеет н а и ­
б о л ь ш е е зн а ч е н и е .
5. В этом р а з д е л е п р е д п о л а г а л о с ь , что к ^ 2 и стои м ости о ш и ­
б о ч н о й к л а с с и ф и к а ц и и равны. Е с л и к = 2 , то п р о д е д у р а сводится
к сравнению
р р
(Л-1 — Е @1
/=1
~Ь ^1 ^ (¡х С £¿2 “ Е
/=1
(¿2¡ X ; —|—С<) —|- 1п Оо-

В ектор х относится к ^ при ^ или, что р а в н о с и л ь н о ,


р
Г («1 / - а 2/) X/ 5= (с2 - сх) 1п (¿72/ ^ х).
/=1
П о л а г а я ау- = а 17- — а 2у- д л я ; = 1, . . . , р и (¿ х + г 2)/2 = с2 — Сд,
п о л у ч и м л и н е й н у ю д и с к р и м и н а н т н у ю ф у нкц ию (5.3.26) п р и
С ( 1 | 2) = С (2 | 1).
★ 6. Ф о р м у л ы (5.4.6) д л я л и н е й н ы х д и с к р и м и н а н т н ы х ф у н к ­
ци й м о ж н о з а п и с а т ь в м а тр и ч н о м виде

б г = (|*/ X _1) х — 4 " И _1 »*( + 1п

причем
«/1
1 г Ч'' -1
= 1 " ‘ м( и Т Р ! 2а Мг. 1= 1 ,- .,к .

_ос,-р_
А налогично, о цен ки (5.4.9) д и с к р и м и н а н т н ы х ф у н к ц и й п р и н и ­
мают в и д
= ( х ^ - 1) х - 4 х ^ х г + 1п <?£,

= 8~1х,- и с{ — ----- о- х^8-1х;, 1 = 1 ,...,

и
И наконец, м атри чн о е выражение для У (зам е ч а н и е 5.4.1.2 )
им е е т в и д
к
V = £ Я; (х,- — х ) ' Б -1 (х, — х),
¡=1
5.4. Классификация в случае к популяций 339

г де

х = ( Е
1=1
1 1 ! «(•
/ / i=i

Н а ин туи ти вном у р о в н е в е л и ч и н у V м о ж н о и н т е р п р е т и р о в а т ь к а к
в зв е ш ен н у ю с у м м у « р асстояни й» от в е к т о р о в ср е д н и х к а ж д о й
г р у п п ы х ; до о б щ е г о в е к т о р а с р е д н и х х. ★
7. В с л у ч а е к о г д а не в ы п о л н я е т с я п р е д п о л о ж е н и е о р а в е н ­
ств е к о в а р и а ц и о н н ы х м а т р и ц , т. е. к а ж д а я п о п у л я ц и я Wi имеет
р а с п р е д е л е н и е N (¡it,, 2 0 Дл я <■— 1, •••, можно получить к в а ­
д р а т и ч н у ю д и с к р и м и н а н т н у ю ф у н к ц и ю (R a o (1965, с. 488)).
Е с л и плотности fi (х) н е и зв е ст н ы , д л я к л а с с и ф и к а ц и и в е к т о р а х
сл едует п о л ь з о в а т ь с я н е п а р а м е т р и ч е с к о й п р о ц е д у р о й (F ix , H odges
(1951, 1952)) и P a l m e r s h e i m (1970).

Пример 5 .4 .1 . У 113 т я ж е л о б о л ь н ы х пациентов в момент


и х по с т у п л е н и я в к л и н и к у о п р е д е л я л и сл е д у ю щ и е х а р а к т е ­
ри с т и к и : Х г — в о з р а с т , Х 2 — с и с т о л и ч е с к о е д а в л е н и е (в мм рт.
столба), Х 3 — л о г а р и ф м сердечного и н д е к са [ л и т р /( м и н - м 2) ],
Х 4 — д и у р е з (см3/ ч .). К а ж д ы й п а ц и е н т п р и н а д л е ж а л к одной
из 6 популяций: — б о л ь н ы е , не им евш и е ш о к а , W2 — и м е в­
ш и е т и п о в о л е м и ч е с к и й ш о к , W3 — к а р д е о г е н н ы й ш о к , VZ4 —
б а к т е р и а л ь н ы й ш о к , W 6 — н е в р о ге н н ы й ш о к , W e — д р у г и е т и п ы
ш о к а . О бъемы в ы б о р о к и з со от вет с т в у ю щ и х п о п у л я ц и й были
следую щ ие: пг = 32, п2 = 17, п3 = 20, п 4 = 16, пъ = 16, п е =
= 10. П о этим д а н н ы м т р е б о в а л о с ь в ы вести п р о ц е д у р у к л а с с и ф и ­
к а ц и и к а ж д о г о п о с т у п а ю щ е г о п а ц и е н т а п р и у с л о в и и , что он о т н о ­
с ится к одной из п р и в е д е н н ы х вы ш е ш ести п о п у л я ц и й . В п р е д п о ­
л о ж е н и и р а в е н с т в а в с е х а п р и о р н ы х в е ро я тн о с те й и р а в е н с т в а
стоимостей о ш и б о ч н ы х к л а с с и ф и к а ц и й д л я в ы ч и с л е н и я в е л и ч и н
di, i = l , ... , 6, б ы л а и с п о л ь з о в а н а п р о г р а м м а одного из п а к е т о в .
В ы ч и сл ен н ы е к о э ф ф и ц и е н т ы п р и в о д я т с я в т а б л . 5 .4 .1 . Т а к ,
например, для б ы л а най д е н а д и с к р и м и н а н т н а я ф у н к ц и я

Таблица 5.4.1
Коэффициенты зн ач ен и й линейной дискриминантной функции
для популяции и з примера 5.4.1

Козффициенты И', И'4 \Р\ Wt

0,1 0.339 0.331 0.339 0.333 0.250 0.337


а12 0.197 0.150 0.167 0.151 0.147 0.166
аи 1.575 1.453 0.916 1.915 1.049 0.999
0,4 0.196 0.135 0.129 0.132 0.142 0.123
Ci -26.827 -20.491 -21.455 -22.141 -15.362 -21.373
340 Гл. 5. Методы многомерного статистического анализа

Таблица 5.4.2

Результаты классификации для примера 5.4.1

Число случаев ntj из Wj, классифицированных в Щ


Суммарное
yv, Wi w, УК w, nj
20 1 5 4 4 0 34
w2 1 2 5 5 3 1 17
3 0 8 2 5 2 20
2 2 0 6 4 2 16
2 1 0 1 И 1 16
2 1 4 1 1 1 10

dx = 0 .3 3 9 % - + - • • • + 0 .1 96 х4 — 26.827. В т а б л . 5 . 4 . 2 р е з у л ь т а т о в
к л а с с и ф и к а ц и и п 13 = 3, н а п р и м е р , о зн а ч а е т , что т р о е и з д в ад ц а ти
б о л ь н ы х , п р и н а д л е ж а щ и х в ы б о р к е из п о п у л я ц и и Ws, отн о с я тс я
к W v С л е д о в а т е л ь н о , Рг (V3) = 3/20. Д л я п р о в е р к и г ипотезы Н 0:
4 x1 4x1 ^
jui = • • • = ¡ц6Л бы ло в ы чи сл ен о з н а ч е н и е F — 4.21 с 20 и
345.9 с т е п е н я м и свободы. (Зам ети м , что дро бное ч и сл о степеней
свободы п о я в и л о с ь и з -з а т о го , чго F я в л я е т с я а п п р о к с и м а ц и е й
¿ /- с т а т и с т и к и .) П о т а б л и ц е ^ - р а с п р е д е л е н и я н ах од и м f 0.999 (20,
345.9) ^ 2 .5 . С л едо вател ьн о, г и п о т е з а Н 0 д о л ж н а бы ть о т в е р г ­
нута при Р -< 0 .0 0 1 .

5 .4 .3 . Классификация в случае популяций


с биномиальными распределениями

С л у ч а й о т н е с е н и я о б ъ е к т а к одной из k п о п у л я ц и й с б и н о м и а л ь ­
ными р а с п р е д е л е н и я м и р а с с м а т р и в а л с я в при м ере 5.3 .2 . Н у ж н о
отнести п а ц и е н т а к одной из k к а т е г о р и й б о л ь н ы х в за ви с и м о с т и
от п р о я в л е н и я р симптомов. В общем с л у ч а е т р е бу ется к л а с с и ф и ­
ц и р о в а т ь о б ъ е к т н а основе н а л и ч и я и л и о т с у т с т в и я р событий.
О п р е д е л и м д л я к а ж д о г о /-го с о б ы т и я , / = 1, ..., р, с л у ч а й н у ю
величину
( 1, если с обы тие / имеет место,
X 'i = [ 0,
п если собы
^ тие /• о т су тств ует. (5.4.11)

П о л о ж и м Р г (X) = 1 Wí) = ри и Р г (Х } = 0 | №г) = 1—р и


д л я / = 1, . . . , к, / = 1, ..., р. Т о г д а з а к о н р а с п р е д е л е н и я X ]
д л я п о п у л я ц и и И7,- имеет вид

М * / ) = P i/ Ч 1 - Р ц ? 1= У,...,к, 7 = 1....... р. (5.4.12)


5.4. Классификация в случае (с популяций 341

Е с л и п р е д п о л о ж и т ь н е з а в и с и м о с т ь Х ъ . . . , Х р , то совместный
з а к о н р а с п р е д е л е н и я /, (х) д л я \У£ м о ж н о з а п и с а т ь в виде

М х )= П М ^). 1 = 1 , . . . , к, х = (хъ . . . , х ру . (5.4.13)


/=1
П о л а г а я , ч то а п р и о р н ы е в е р о я т н о с т и <7 Ь . . . , цк о д и н а к о в ы и с т о и ­
мости ошибочной к л а с с и ф и к а ц и и р а в н ы , в ы ч и с л и м апостериорны е
в е р о я тн о с ти по ф о р м у л е (5.4.5):

Р г ( ^ ,.|х ) 1 (5.4.14)
к 1 - Х/
т =1
П Рт'О-Рт/)
В е к т о р х относится к т а к о й п о п у л я ц и и для которой вели­
чина Р г ( И Р , |х ) м а к с и м а л ь н а .

Пример 5 .3 .2 (продолжение). Э т о т п р и м е р и л л ю с т р и р у е т то,


к а к Э В М ставит д и а гн о з. П о с к о л ь к у в е л и ч и н ы р и неи звестны ,
их с л е д у е т оц е н и т ь п о с л у ч а й н о й в ы б о р к е из п пац и е н тов , в зя т о й
из смеси к п о п у л я ц и й . П у с т ь п г — ч и с л о п а ц и е н т о в , ст р ад а ю щ и х
1 -й б о лезн ью , 1 = 1 , . . . , 6, а £ ? = 1 п; = п ■ П у с т ь Пц — число
п ац иенто в с ¿-й б о л е з н ь ю , и м е ю щ и х /- й сим птом . Т о г д а о ц е н к а р^
имеет вид
Р£*у 1=1 п1j. /2/, I 1 , . . • , к, / 1 , . . . , р.
Если априорные вероятности ^ н е и зв е с т н ы , то их о ц ен кам и
являю тся
= П[/п, 1 = 1 ......... к.
Т е п е р ь можно н а п и с а т ь п р о г р а м м у о ц е н к и а п о ст е р и о р н о й в е р о я т ­
ности д л я к а ж д о г о в н о в ь п о с т у п а ю щ е г о п а ц и е н т а х = (хъ ..., хр) ',
имею щей вид

¡= 1
Р г ( Г ,|х ;
к г р х• 1— х •
V Г~[ ( (1
т= 1
Л и .
П
1/=1
1 1\ Пт' \
/ \ 1 Пт' )
пт )
1

П о с к о л ь к у п р е д п о л о ж е н и е о н е з а в и с и м о с т и симптомов на
п р а к т и к е в б о л ь ш и н с т в е с л у ч а е в н е в ы п о л н я е т с я , то, ко гд а вс е ^
р ав н ы , д л я к л а с с и ф и к а ц и и и с п о л ь з у е т с я д р у г а я п р о ц е д у р а , к о ­
т о р а я д л я любой в о з м о ж н о й к о м б и н а ц и и симптомов в ы ч и с л яе т
соответствую щ ую д о л ю о б ъ е к т о в в к а ж д о й вы б ор ке. Н о в ы й объект,
за д а в а е м ы й к о м б и н а ц и е й с и м п т о м о в , от н о с и т с я к п о п у л я ц и и ,
342 Гл. 5. Методы многомерного статистического анализа

в ы б о р к а из которой имеет н а и б о л ь ш у ю д о л ю о б ъ екто в с т а к о й


к о м б и н а ц и е й . П усть, н а п р и м е р , /г = 2, р — 3. П о д в ум вы б о р ка м
о б ъ е м а « х и п2 с о с т а в л я е т с я с л е д у ю щ а я т а б л и ц а :

Симптомы Wi

ООО 0 .1 0 0 .2 0
100 0 .1 0 0.15
0 10 0 .2 0 0 .1 0
001 0 .1 0 0.15
110 0 .2 0 0 .1 0
101 0 .1 0 0 .20
он 0 .1 0 0.05
111 0 .1 0 0.05

П о с т у п а ю щ и й объект с к о м б и н ац и е й симптомов 110 б у д е т о т н е ­


сен к п о п у л я ц и и Wu п о с к о л ь к у 0 .2 0 > 0 . 1 0 . Н е у д о б с т в о этого
м етод а з а к л ю ч а е т с я в том, что д л я к а ж д о й п о п у л я ц и и надо в ы ­
ч и с л я т ь 2 ^ п а р а м е т р о в . П о это м у удобнее п р и н я т ь п р е д п о л о ж е н и е
о н е з а в и с и м о с т и симптомов.

П р и м е р 5 .4 .2 . В этом п р и м ер е п р е д с та в л е н а г р а ф и ч е с к а я
форма б ай есо вск о й процедуры классификации. Т а к назы вае­
мый н о м о гр а ф часто об л е гч а ет в р а ч а м д и а г н о с т и к у (L u s te d
(1968)).
Н а о с н о в е в е к г о р а на б л ю д е н и й х = (jclf ... , хр)' т е ч е н и я б е ­
р е м е н н о с т и , родов и к о р м л е н и я детей, и м е в ш и х пр и р о ж д е н и и
м а л е н ь к и й : в ес ( < 1 5 0 0 г), т р е б о в а л о с ь п р е д с к а за т ь и х п с и х о м о ­
то р н о е р а з в и т и е к одном у году. К а ж д а я п р е д и к т о р н а я п е р е м е н ­
н а я x lt i = 1, ..., р , и м е л а б и н о м и а л ь н о е р а сп р е д ел е н и е . У детей
в в о з р а с т е одного г о д а м ож н о о п р е д е л и т ь индекс п с и х ом о торн ого
р а з в и т и я ( P D I ) со гл асн о ш к а л е детского р а з в и т и я Б е й л и ( B a y le y
(1969)). О б л а с т ь зн а ч е н и й P D I б ы л а р а з б и т а на д ве части: при
P D I 5 * 85 с чи тал ос ь, ч то р е б е н о к п р и н а д л е ж и т к п о п у л я ц и и
д ет е й с н о р м а л ь н ы м р а зв и т и е м , P D I < 8 5 о п р е д е л я л п о п у л я ц и ю
W2 д е т е й с н е н о р м а л ь н ы м ил и п а т о л о г и ч е с к и м р а з в и т и е м (более
п о д р о б н о с м . A zen et al. (1979)).
Т е о р е м у Б а й е с а д л я в ы ч и с л ен и я а п о с т е р и о р н ы х в е р о я т н о с т е й
м о ж н о з а п и с а т ь с л е д у ю щ и м об разом :

* < П Рг ( * / 1wi)
P r (W, 1х) = — -------------------_
2 <7« П Рг (X, \ W m )
тшш 1 L /= 1
для 1 = 1, 2. Если в з я т ь л о га р и ф м отнош ения д в у х а п о с т е р и о р -
5.4. Классификация в случае к популяций 343

ных в е р о я т н о с т е й , то м ож но п о л у ч и т ь
z = l o g [ P r ( r 1 | x ) / P r ( V 1 |x )] =

= lo g (q jq i) -f- Г l o g [ P r (Xj | W 2) /P r (x,-| W^)].


/=i
Л е г к о з а м е т и т ь , ч то им еет м е с т о в з а и м н о о д нознач но е с о о т в е т ­
ствие м еж д у z и Р г ( Wo | х), к о т о р о е м о ж н о п р о д е м о н с т р и р о в а ть
на одном ерном н о м о г р а ф е , и з о б р а ж е н н о м на р ис. 5.4.1.

00
J---------0.1
1---------Ü2 0.3
---------0.4
1----------05
1---------061---------G7
;---------0.S
1---------0.9 1.0 Р'
1----------1 1----------1
-СО -095 - 060 -0.37 —018 -0 0 0 10 0 37 0.60 0.95 СО /

Рис. 5.4.1. Н омограф, отраж аю щ ий зависимость между г и Р г (П72 | х).

В е л и ч и н а lo g [Рг (xj | 1F2 ) / P r (xj | W^)] я в л я е т с я весом, с о ­


ответствую щ им п р е д и к т о р н о й п е р е м е н н о й х-п к ото ры й м о ж е т быть
оценен по в ы б о р к е и з п о п у л я ц и и д етей с м а л е н ь к и м весом при
р о ж д е н и и , / = 1, . . . , р. П о с т о я н н а я lo g (<72 /^ 1 ) о ц е н и в а е т с я по
той ж е выборке.
По р е т р о с п е к т и в н о с о б р а н н ы м д а н н ы м о 117 м л а д е н ц а х бы ли
най дены б а й е с о в с к и е веса и п о с т о я н н ы е д л я р — 9 зн а ч и м ы х
пр ед ик тор ов P D I ( з н а ч и м о с т ь о ц е н и в а л а с ь посред ством к р и т е ­
р и я х 2) (см. т а б л . А ). П о э т и м д а н н ы м а п р и о р н а я в е р о я т н о с т ь
н о р м а л ьн о го р а з в и т и я 4i — 0 .7 1 , а н е н о р м а л ь н о го q2 = 0.29.
Таблица А
Байесовские веса

Переменная Значение Вес

О слож нения Нет —0.111


беременности Есть 0.233
Вес ребенка при рож дении 1000 г —0.092
< 1000 г 0.460
Сокращ ение срока беременности ^ 10% —0.049
в % от нормы < 10% 0.505
Д ы хание Нет —0.150
Есть 0.270
Ф ототерапия Нет —0.324
Есть 0.092
П ереливание крови Нет —0.303
Есть 0.132
Х ирургическое вмеш ательство Нет —0.054
Есть 0.623
Инфекция Нет —0.162
Есть 0.338
В рож денная болезнь сер д ц а Нет —0.264
Есть или 0.186
подозре­
вается
Постоянная —0.389
344 Гл. 5. Методы многомерного статистического анализа

Таблица В
Пример

Переменная Значение Вес

П ротекание беременности Н енормаль­ - 0 .1 1 1


ное
Вес ребенка п ри рождении < 1000 г 0.460
Сокращ ение срока беременности < 10% 0.505
в % от нормы
Д ы хание Есть 0.270
Ф ототерапия Нет - 0 .3 2 4
П ереливание крови Нет - 0 .3 0 3
Х ирургическое вмешательство Есть 0.623
И нфекция Нет - 0 .1 6 2
В рож денная болезнь сердца Нет —0.264
П остоянная -- - 0 .3 8 9

Д л я и с п о л ь з о в а н и я эгой м о д е л и т р е б у е т с я с л о ж и т ь веса,
с о о т в е т с т в у ю щ и е д а н н ы м х: р а с с м а т р и в а е м о г о м л а д е н ц а , и най ти
т о ч к у , с о о т в е т с т в у ю щ у ю п о л у ч е н н о м у з н а ч е н и ю суммы н а номо-
г р а ф е рис. 5 .4 .1 . Н а п р и м е р , д л я м л а д е н ц а , д ан н ы е к о т о р о г о п р и ­
в е д е н ы в т а б л . В , г = 0.305. П о н о м о гр а ф у Рг(Ц7о | х) с о с т а в ­
л я е т о к о л о 0 .7 0 . Это б ольш е 0.5 и д л я т а к о г о р е б е н к а будет п р е д ­
с к а з а н о н е н о р м а л ь н о е психомоторное р а зви т и е .

5.5. Пошаговый дискриминантный анализ


В р а зд . 5 .3 и 5 .4 р а с с м а т р и в а л с я с л у ч ай о тн есен и я р -м е р н о го
в е к т о р а н а б л ю д е н и й х = (д^, .. . , хр)' к од ной и з k п о п у л я ц и й W
о б ъ е к т ы к о т о р ы х имеют м н ого м ерн ы е н ор м ал ьн ы е р а с п р е д е л е ­
н и я N ( f i ? x l , 2 РХР), г д е |л, = (ц,а , ..., и ¡„У, i = 1, ..., k. П о ­
с к о л ь к у х с л у ж и т р е а л и за ц и е й с л у ч а й н о г о в е к т о р а X = (Х х, ...
. . . , Х р)', д л я р а з д е л е н и я &п о п у л я ц и й до с и х пор и с п о л ь з о в а л и с ь
в с е п е р е м е н н ы е Х х, ..., Х р. О д н а к о н а п р а к т и к е часто т р е б у е т с я
в ы я в и т ь т а к о е п о д м н о ж ес т в о эт и х п е р е м е н н ы х , по ко то р о м у м о ж н о
п о с т р о и т ь « на и л у ч ш ее » р а з д е л е н и е k п о п у л я ц и й . М о ж н о пр овести
а н а л о г и ю с п о ш а г о в о й р е г р е с си е й (разд. 3.3), где т р е б у е т с я о п р е ­
д е л и т ь п о д м н о ж е с т в о н е за в и с и м ы х пе р е м ен н ы х, « н а и л у ч ш и м об­
р а з о м » п р е д с к а з ы в а ю щ и х з а в и с и м у ю пер ем енн у ю Y. Д л я этого
в р е г р е с с и о н н о м а н а л и з е м о ж н о в о с п о л ь з о в а т ь с я F- с т а т и с т а кой,
п о с т р о е н н о й н а о с н о в е частны х к о р р е л я ц и й . В д и с к р и м и н а н т н о м
а н а л и з е F - с т а т и с т и к а д л я о т б о р а п е р е м е н н ы х о с н о вы в а е т ся на
5.5. Пошаговый дискриминантный анализ 345

к р и те р и и о д н о ф а к т о р н о г о д и с п е р с и о н н о г о а н а л и з а . В об оих
с л у ч а я х F - c т a т и c т и к a н а з ы в а е т с я « ^ - в к л ю ч е н и я » перем енны х,
не вош едш их в и с к о м о е п о д м н о ж е с т в о и «/•’-у д ал е н и я » в ы б р а н н ы х
переменных.
В сущ н о сти л о г и к а п о ш а г о в о г о а н а л и з а т а к о в а : в н а ч а л е о п р е ­
д ел я е т с я п е р е м е н н а я , д л я которой с р е д н и е з н а ч е н и я в й п о п у л я ­
ц и я х « наи более р а з л и ч н ы » . Д л я к а ж д о й перем енной р а з л и ч и е
и зм е р я е т ся с п о м о щ ью / ’’- с т а т и с т и к и о д н о ф а к т о р н о г о д и с п е р с и о н ­
ного а н а л и з а и в ы б и р а е т с я ( и л и включается) т а п е р е м е н н а я ,
которой с о о т в е т с т в у е т н а и б о л ь ш е е з н а ч е н и е /7. Н а к а ж д о м ш а г е
процедуры р а с с м а т р и в а е т с я у с л о в н о е распределен ие каж дой пере­
менной, не в к л ю ч е н н о й в п о д м н о ж е с т в о , п р и за д а н н ы х в к л ю ч е н ­
ные переменных.
Из числа не в к л ю ч е н н ы х п е р е м е н н ы х о п р е д е л я е т с я п е р е м е н ­
ная, д ля которой с р е д н и е з н а ч е н и я у сл о вн ы х распределений
в А п о п у л я ц и я х « н а и б о л е е р а з л и ч н ы » . Э то р а з л и ч и е и зм е р я е т с я
с пом ощ ью ^ - с т а т и с т и к и о д н о ф а к т о р н о г о д и с п е р с и о н н о г о а н а л и з а .
П р оцесс з а в е р ш а е т с я , к о г д а н и о д н а из о с т а в ш и х с я п е р е м е н н ы х
не в но си т з н а ч и м о г о в к л а д а в р а з д е л е н и е & п о п у л я ц и й . К а к и
в по ш аго во й р е г р е с с и и , п о л ь з о в а т е л ь в ы б и р а е т д о пусти м ы й м и ­
ним ум F -включения, с о о т в е т с т в у ю щ и й м а к с и м а л ь н о м у у р о в н ю а
(стан дартное з н а ч е н и е р а в н о 4 .0 ) и м и н и м у м ^ - у д а л е н и я ( с т а н ­
д ар т н о е зн а ч е н и е р а в н о 3 .9 ), п р и ч е м м и н и м у м ^ - у д а л е н и я д о л ж е н
быть м еньш е, чем м и н и м у м / • '- в к л ю ч е н и я .
Р а с с м о тр и м п о ш а г о в у ю п р о ц е д у р у б о л е е подробно. П у с т ь
Хах1, ..., х?,*.1 — с л у ч а й н а я в ы б о р к а и з / = 1, ..., к. Т огда ,
и с п о л ь з у я о б о з н а ч е н и я и о п р е д е л е н и я р а з д . 5 .4 , м о ж н о о п и с а т ь
по ш а го ву ю п р о ц е д у р у с л е д у ю щ и м о б р а з о м .

Шаг 0. Д л я к а ж д о й п е р е м е н н о й X / = 1, ..., р, а н а л о г и ч н о
^ - с т а т и с т и к е д л я п р о в е р к и г и п о т е з ы Я 0: [х1;- = • • • = ¡х^ в о д н о ­
факторном д и с п е р с и о н н о м а н а л и з е вы чи сляется статистика F-
в к л ю ч е н и я с 6 — 1 и п — & с т е п е н я м и с во бод ы . Е с л и вс е з н а ч е ­
н и я / ’’-в к л ю ч е н и я м е н ь ш е п р и н я т о г о м и н и м у м а , то с ч и т а е т с я , что
н и о д н а п е р е м е н н а я н е вноси т в е с о м о г о в к л а д а в р а з д е л е н и е
популяций.

Шаг 1. П е р е м е н н а я Х ц , к о т о р о й с о о т в е т с т в у е т н а и б о л ь ш е е з н а ­
ч ен и е F - в к л ю ч e н и я , с ч и т а е т с я п е р в о й . Д л я к а ж д о й п о п у л я ц и и
1 = 1, о ц е н и в а е т с я коэф ф иц иент и определяется постоянная
л и н е й н о й д и с к р и м и н а н т н о й ф у н к ц и и . К р о м е того, в ы ч и с л я е т с я
т а б л и ц а р е з у л ь т а т о в к л а с с и ф и к а ц и и , ¿ /-с т а т и с т и к а и ее F -аппрок­
симация. В ы ч и с л я е т с я т а к ж е з н а ч е н и е F - y д a л e н и я с /г — 1 и
п — к степенями с в о б о д ы д л я п е р е м е н н о й Х ]Ъ которое равно
з н а ч е н и ю F - в к л ю ч e н и я . З а т е м н а х о д и т с я з н а ч е н и е F -в к л ю ч e н и я
е й — 1 и п — й — 1 степ ен ям и свободы д ля каж дой из пере­
346 Гл. 5. Методы многомерного статистического анализа

м е н н ы х , н е в к л ю ч е н н ы х в иск о м ое подм нож ество. Т а к и м о бразом,


проверяется г и п о т е за Н0: \ku .fl ==■■■ = (xA //l, где ц £/./, —
с р е д н е е у с л о в н о г о р а с п р е д е л е н и я X¡ в п о п у л я ц и и при ф икси­
р о в а н н о м з н а ч е н и и п ерем енн ой X í t , i = 1, .. . , k, j = 1, p,
j ф Д . Е с л и в с е зн а ч е н и я / ’-в к л ю ч е н и я м еньш е е го м и н и м у м а ,
то в ы п о л н я е т с я ш а г S , в п р о т и в н о м с л у ч а е п р о ц е д у р а п е рех од и т
к в ы п о л н е н и ю вт о р о го ш ага.
Ш а г 2. В ы б и р а е т с я п е р е м е н н ая X j2, д л я к о т о р о й з н а ч е н и е
/ - в к л ю ч е н и я м а к с и м а л ь н о . В ы ч и с л я ю т с я о ц е н ки д в у х коэф ф и ­
ц и е н т о в и постоянные дискриминантных ф ункций д л я каждой
п о п у л я ц и и W¿, i — 1, . .., k . О п р е д е л я е т с я т а б л и ц а р е з у л ь т а т о в
к л а с с и ф и к а ц и и , ¿ /-с та т и с т и к а и е е / - а п п р о к с и м а ц и я . К р о м е того,
д л я X п и X j2 и щ у т с я з н а ч е н и я с т а т и с т и к / - у д а л е н и я с k — 1
и п — k — 1 с т еп е н я м и свободы . Т а к и м об р азо м , п р о в е р я ю т с я
соответственно гипотезы Я 0: f-H/,-/* = • • • = И-*/»-/« и ^о:
H'i/z/j = • • • = I**/,./,. Загем для каждой не вклю ченной
п е р е м е н н о й вы чи сляется статистика /-в к л ю ч е н и я с k — 1 и
ti — k — 2 с т е п е н я м и свободы. С ее п о м о щ ь ю п р о в е р я е т с я г и п о ­
т е з а / / 0 : 1*1 /./,/, = • • • = {**//,/,, г д е (А,•/./,/, — средн ее у с л о в н о г о
р а с п р е д е л е н и я X ¡ п р и з а д а н н ы х Х }1 и X ¡2 в п о п у л я ц и и Wh i =
= 1, . . . , k, j = 1, .. . , p, j Ф jlt / , . Е с л и все з н а ч е н и я / - в к л ю ч е -
н и я м е н ь ш е у с т а н о в л е н н о г о м и н и м у м а , то в ы п о л н я е т с я ш а г S,
в п р о т и в н о м с л у ч а е — ш аг 3.
Ш а г 3. а) О б о зн а ч и м с и м в ол ом L м н о ж ест в о из I п е р е м е н н ы х ,
п р е д в а р и т е л ь н о отобранных д ля построения проц едуры к л а с ­
с и ф и к а ц и и . Е с л и зн а ч е н и е / - у д а л е н и я м еньш е п р и н я т о г о м и н и ­
м у м а х о т я бы д л я о д н о й переменной из L , то п е р е м е н н а я , д л я
к о т о р о й э т о значение минимально, исклю чается из L и в ы п о л ­
н я е т с я (Ь), в к о т о р о м I з а м е н я е т с я на I — 1. Е с л и т е п е р ь н е к о т о ­
ры е з н а ч е н и я / - в к л ю ч е н и я д л я п е р ем е н н ы х , не п р и н а д л е ж а ­
щ и х L , б о л ь ш е п р и н я т о г о д л я этой ’ с т ат и с т и к и м и н и м у м а , то
п е р е м е н н а я , д л я которой эго значение максимально, вклю чается
в L и I з а м е н я е т с я н а I - f 1.
Ь) Д л я к а ж д о й п о п у л я ц и и Wh i = 1, . . . , k, о ц е н и в а ю т с я l
к о э ф ф и ц и ен то в дискриминантной ф ункции и вычисляется постоян­
н а я . О п р е д е л я е т с я таблица результатов классификации, зн ач е­
ние ¿ /-с т а т и с т и к и и ее /-а п п р о к с и м а ц и я . К р о м е того, д л я каж дой
п е р е м е н н о й и з L в ы ч и с л я е т с я зн а ч е н и е / - у д а л е н и я и с о о т в е т ­
с т в у ю щ и е с т е п е н и свободы. Т е м сам ы м п р о в е р я е т с я г и п о т е з а # 0:
H -is-u -o • • • = M-*s(í-i) д л я к а ж д о й п ерем енн о й Х г и з L при
ф и к с и р о в а н н ы х з н а ч е н и я х остальных; I — 1 п е р е м е н н ы х из L.
С и м в о л о м jaís.(/_i) об о зн а ч а е т с я средн ее у сл о в н о г о р а с п р е д е л е ­
ния переменной X s в при ф иксированны х значениях о стал ь­
ны х п е р е м е н н ы х в L И наконец, вы числяется значение ста­
т и с т и к и / - в к л ю ч е н и я и соответствую щ их степеней свободы д л я
5 .5 . П ош аговы й дискриминантный анализ 347

к а ж д о й п е р е м е н н о й , не в к л ю ч е н н о й в L. Т а к и м образом, п р о в е ­
р я е т с я г и п о т е з а Н 0: ¡.ii/.(o = - •• = (**/.(/), где (.1,7 .</> о б о з н а ­
чает среднее у с л о в н о г о р а с п р е д е л е н и я пе ре м е н н о й X j в при
ф икси ро ван н ы х з н а ч е н и я х всех п е р е м е н н ы х из L , i = 1, ..., k,
j = 1, ... , р, X j не п р и н а д л е ж и т L .
Шаги 4, 5, . . . .Ш а г 3 п о в т о р я е т с я р е к у р р е н т н о . К о г д а / - в к л ю ­
чен ия с т а н о в я т с я м е н ь ш е з а д а н н о г о м и н и м у м а д л я всех п е р е м е н ­
ных, не в к л ю ч е н н ы х в L, и л и к о г д а вс е перем енн ы е о к а зы в а ю т с я
в кл ю чен н ы м и в и с к о м о е п о д м н о ж е с т в о и зн а ч е н и е / - у д а л е н и я
стан овится м е н ь ш е з а д а н н о г о м и н и м у м а , в ы п о л н я е т с я ш а г S.
В н е к о то р ы х п р о г р а м м а х р е к у р р е н т н а я п р о ц е д у р а о с т а н а в л и ­
в а е т с я т а к ж е и в то м с л у ч а е , к о г д а I = m in (п г), i = 1, .. . , k.
Шсг S. Н а э т о м ш а г е д л я к а ж д о г о в е к т о р а \ lm, т = 1, ...,
i = 1, .. . , k, п р о и з в о д и т с я в ы ч и с л е н и е ап о с т е р и о р н ы х в е р о я т ­
ностей его п р и н а д л е ж н о с т и к п о п у л я ц и я м ..., W,.. Н а о с н о в а ­
нии эти х в е р о я т н о с т е й к а ж д ы й о б ъ е к т к л а с с и ф и ц и р у е т с я к а к
п р и н а д л е ж а щ и й о д н о й из п о п у л я ц и й и с о с т а в л я е т с я т а б л и ц а
результатов к л а с с и ф и к а ц и и .
О бычно по т р е б о в а н и ю п о л ь з о в а т е л я м о ж н о вы вести н а печ ать
таблицу, в к о т о р о й о то б р а ж аю т ся д ей стви я процедуры н а каж дом
ш а г е . К р о м е т о г о , н а к а ж д о м ш а г е в ы в о д я т с я сл е д у ю щ и е в е л и ­
чины : номер ш а г а , в к л ю ч е н н ы е и у д а л е н н ы е перем енны е, з н а ч е ­
ния статистик / - в к л ю ч е н и я и / - у д а л е н и я , ¿/-с та ти с ти к а и ее
/-ап п р о к с и м а ц и я .

За м е ч а н и я 5 . 5 . 1 . 1. Это з а м е ч а н и е сп р а в е д л и в о т о л ь к о д л я
с л у ч а я k = 2.
a) Д и с к р и м и н а н т н а я ф у н к ц и я (5 .3 .2 6 ) п о л у ч а ет с я к а к р а з ­
ность двух ди скри м и н ан тн ы х ф у н к ц и й д ля разных популяций
(см. 5.4.9), т. е . а, = а и — а г1 и (% + ¿ 2) / 2 = С 2 — Сг.
b) К а к у ж е б ы л о отмечено, / - а п п р о к с и м а ц и я с т ат и с т и к и U,
по стро енная п о q перем енны м в с л у ч а е д в у х кл а сс о в , я в л я е т с я
точной. Б ол ее т о г о , и с п о л ь з у я з н а ч е н и е / , м о ж н о п о л у ч и т ь оцен ку
расстояния М а х а л а н о б и с а D \ д л я q переменных

Dl = q ^ п~\ ^'?1 ^ ( /- а п п р о к с и м а ц и я I/),


Q «1«2 («1 + « 2 — 9 - О V ^
где 7 = 1 , ..., р , а пх и п2 — о б ъ е м ы в ы б о р о к со ответственно из
Wj и W2.
c) П р е д п о л о ж и м , что в к л ю ч е н н ы е п ерем енн ы е Х 1г ..., X q
с о с т а в л я ю т м н о ж е с т в о L, q = 1 , . . . , р — 1. Д л я того чтобы у зн а т ь ,
не в н о с я т л и п е р е м е н н ы е Х д+1, . . . , Х р з н а ч и м ы й в к л а д в р а з д е л е ­
ние г о Х г , ..., X q, м о ж н о п р о в е р и т ь г и п о т е з у Я 0: = Ар, где
— р а с с т о я н и е М а х а л а н о б и с а м е ж д у п о п у л я ц и я м и , изм еренн ое
по т пе р е м е н н ы м , т = р, и л и q, q = 1, . . . , р — 1. Д л я п р о в е р к и Н0
348 Гл. 5. Методы многомерного статистического анализа

об о зн а ч и м в ы б о р о ч н ы е оценки А | и А |с о о т в е т с т в е н н о сим волам и В~р


и Од. Т о г д а в е л и ч и н а

р = пг + п . - р - ^ 2 (Р р - Д ^>
р—Я (пх + п2) («! + п2 - 2) 4 - п ^ п р 2^

п р и в ы п о л н е н и и гипотезы Н 0 имеет р а с п р е д е л е н и е / (р —
п1 4- «г — Р — !)• Г и п о те за о т в е р г а е г с я , когда / > /! _ « (р — <7 ,
П 1 + Щ — Р —- 1)- Этот к р и т е р и й м о ж е т б ы ть и с п о л ь з о в а н в п р о ­
ц е д у р е о т б о р а «наилучш его» н а б о р а п е рем енн ы х. Д л я эт ого надо
в к а ч е с т в е м и н и м у м а в з я т ь м а л у ю в е л и ч и н у д л я /- в к л ю ч е н и я
( = 0 . 0 1 ) и е щ е м еньш ую д л я / - у д а л е н и я ( = 0 . 0 0 5 ) . П р и этом б у д у т
о т б р а с ы в а т ь с я т о л ь к о с и л ьн о к о р р е л и р о в а н н ы е перем енны е. З а ­
т е м с и с п о л ь з о в а н и е м сводной т а б л и ц ы работы п р о ц е д у р ы с л е ­
д у е т п р о и з в е с т и п о ш а г о в у ю п р о в е р к у ги п о тез Н 0: Д | = Ар,
<7=1, р — 1. «Н а и л у ч ш и й » н а б о р п р и з н а к о в п о л у ч а е т с я п еред
ш а г о м с п е р в ы м н е зн а чи м ы м р е зу л ь т а т о м . З ам етим , что этот к р и ­
т е р и й а н а л о г и ч е н п р а в и л у ос т ан о в к и , о сн о в ан н о м у н а и с п о л ь ­
з о в а н и и в е л и ч и н ы Я 2 в п о ш а г о в о й р ег р е с си и .
2. К а к и в сл у ч а е п о ш а го в о й р е г р е с с и и , п о л ь з о в а т е л ь м о ж ет
с а м в к л ю ч и т ь определен ны е п ерем ен н ы е в п р о ц е д у р у к л а с с и ф и ­
кации. П о сл е этого пош аговая п роц едура применяется к остав­
шимся перем енны м.

П рим ер 5 . 5 . 1 . П о ш аго в ы й д и с к р и м и н а н т н ы й а н а л и з п ри м е ­
н я л с я к п о д м н о ж е с т в у р — 4 пер е м е н н ы х из п р и м ер а 5.3.3. Б ы л и
с о б р а н ы д а н н ы е о и, = 70 б о л ь н ы х из п о п у л я ц и и выживших
и о я 2 = 4 3 б о л ь н ы х из п о п у л я ц и и Ц72 у м е р ш и х . П е р е м е н н ы м и
бы ли: Х г —- с р е д н е е а р т е р и а л ь н о е д а в л е н и е (мм. р т. ст.), Х 2 —
среднее в е н о з н о е д а в л е н и е (мм. рт. ст .), Х 3 — д и у р е з (см3/ч),
Х 4 — л о г а р и ф м ин дек са об ъем а п л а з м ы (м л/кг) И с п о л ь з о в а л а с ь
п р о г р а м м а п о ш а г о в о г о д и с к р и м и н а н т н о г о а н а л и з а с м иним ум ом
/ - в к л ю ч е н и я = / 0.95 (1, оо) = 4 и д л я / - у д а л е н и я = 3 . 9 , т. е.
нем ного м е н ь ш и м , чем ве л и ч и н а п о р о г а д л я / - в к л ю ч е н и я . С о о т ве т ­
ственно д л я ш а г о в п р оц еду ры , о п и с ан н ы х выше, б ы ли п о л уч ен ы
сл е д у ю щ и е р е з у л ь т а т ы .
Шаг 0. / - в к л ю ч е н и я со с т еп е н я м и свободы 1 и 111 д л я к а ж д о й
пер ем енн о й с л е д у ю щ и е :
П еременная Хг Х2 Хя Л4
^-вклю чен и я 131.41 14.06 22.01 2.49

П о с к о л ь к у т р и значения / - в к л ю ч е н и я бо льш е п р и н я т о г о м и н и ­
мума, п е р е х о д и м к ш а г у 1.
Шаг 1. П е р е м е н н а я в ы б и р ается в качестве перв ой , п о ­
с к о л ь к у о н а и м е е т н аи бо л ьш ее з н а ч е н и е / - в к л ю ч е н и я . Д л я к а ж -
5.5. Пошаговый дискриминантный анализ 349

дой п о п у л я ц и и б ы л а п о л у ч е н а о ц е н к а к оэф ф и ц и ен та д и с к р и м и ­
нан тн ого у р а в н е н и я и п о с т о я н н о й :

щ ап с,

0.262 -11.627
УУ2 0.141 -3.383

Таблица р е зу л ь т а т о в классификации имеет вид

И', \у2

И'', 60 10
Щ 8 35

Н а п е р в о м ш а г е з н а ч е н и е / - а п п р о к с и м а ц и и ¿ /-статистик и, т а к
ж е к а к и / - в к л ю ч е н и я и / - у д а л е н и я д л я Х 1г р а в н о 131.41 с ч и с ­
л ом степеней с в о б о д ы 1 и 111. Д л я Х 2, Х 3 и X , б ы л и в ы ч и с л ен ы
зн а ч е н и я / - в к л ю ч е н и я с 1 и П О с т е п е н я м и свободы:

П ер ем ен н ая Х3 Х4
/•■-включения 1 0 .5 5 9.52 17.35

В се о н и б о л ь ш е м и н и м у м а , п о э т о м у п е р е х о д и м к о в т о ро м у ш а г у .
Шаг 2. П о с к о л ь к у п е р е м е н н о й X 4 соо т вет с т в у е т м а к с и м а л ь н о е
зн а ч е н и е / - в к л ю ч е н и я , е е в ы б и р а ю т в ка ч е с тв е второй п е р е м е н ­
ной, в к л ю ч е н н о й в п р о ц е д у р у к л а с с и ф и к а ц и и . О ц е н ки к о э ф ф и ­
циентов д и с к р и м и н а н т н о й ф у н к ц и и и п о с т о я н н ы е д л я к а ж д о й
п о п у л я ц и и им ею т в и д

Я.1 Я(4 с,-

Щ 0.690 211.621 -213.956


\У2 0.544 199.016 -182.326

Б ы ла получена т а б л и ц а к л а с с и ф и к а ц и и

И /, \У2

63 7
\Уг 6 37
350 Гл. 5. Методы многомерного статистического анализа

/ - а п п р о к с и м а ц и я д л я U р а в н а 84.06 с 2 и 111 с т еп еням и свободы.


З н а ч е н и я статистики /-у д а л е н и я д ля Х х и с 1 и 110 с т еп е ­
н я м и свободы п р и в о д я т с я в сл е дую щ е й та б л и ц е :
Переменная Хг Xt
F -удаления 162.01 17.35

И н а к о н е ц , д л я пер ем ен н ы х Х 2 и Х 3 б ы л и о п р е д е л е н ы с л едую щ и е
з н а ч е н и я / - в к л ю ч е н и я с 1 и 109 с т е п е н я м и свободы:
Переменная Х2 Хя
F -вклю чения 9.55 8.97

Ш а г 3. а) Т е п е р ь L = | Х Ь Х 4} и / = 2. П о с к о л ь к у зн а ч е н и я
с т а т и с т и к и / - у д а л е н и я д л я Х х и Х 4, а т а к ж е з н а ч е н и я / - в к л ю ­
ч е н и я б о л ь ш е с о о т в етству ю щ и х м и н и м у м о в , м нож ество L д о ­
п о л н я е т с я пе ре м е н н о й с н а и б о л ь ш и м зн а ч е н и е м / - в к л ю ч е н и я .
Т а к и м о б р а з о м , L = {Хь Х 2, Х 4) и / = 3.
Ь) О ц е н к и коэфф ициентов л и н е й н о й д и с к р и м и н а н т н о й ф у н к ­
ци и и: с о о т в ет с т в у ю щ и е п о с т о я н н ы е п р и в о д я т с я в следую щ ей т а б ­
лице:

W; ап а,2' ац с,-

Щ 0.686 0.126 211.481 -214.141


щ 0.535 0.324 198.654 -183.557

Т а б л и ц а к л а с с и ф и к а ц и и имеет в и д

Wt W2

67 3
7 36

/ - а п п р о к с и м а ц и я ¿/-статистики р а в н а 63 .58 с 3 и 109 степенями


с в о б о д ы . З н а ч е н и я с т ат и с т и к и / - у д а л е н и я с 1 и 109 степеням и
с в о б о д ы д л я к а ж д о й перем енной из Ь п р и в о д я т с я в следую щ ей
таблице:
Переменная Хг Х2 Х1
^•удаления 152.16 9.55 16.24

И н а к о н е ц , зн а ч е н и е с т ат и с т и к и / - в к л ю ч е н и я с 1 и 108 степеням и
с в о б о д ы д л я Х 3 р а в н о 7.49.
Ш а г 4. а) П о с к о л ь к у в с е з н а ч е н и я с т а т и с т и к / - у д а л е н и я
и / - в к л ю ч е н и я б о льш е со ответствую щ их п р и н я т ы х м иним ум ов,
им еем / = { Х ъ Х 2, Х 3, ХА] и 1 = ( .
5.5. Пошаговый дискриминантный анализ 351

Ь) Д л я к а ж д о й п о п у л я ц и и о ц е н к и коэфф ициентов д и с к р и м и ­
н а н тн о й ф у н к ц и и и п о с т о я н н ы е п р и в о д я т с я в сл еду ю щ ей т абл иц е:

W¡ a¡¡ <2 ,2 a¡ з a¡4 c¡

W¡ 0.686 0 .1 4 0 0.013 212.086 -2 1 5 .5 2 4


W2 0.535 0 .3 3 1 0.0 0 6 198.934 - 183.856

Таблица классиф икации и м е ет вид

W¡ w2

W¡ 67 3
W2 6 37

^ - а п п р о к с и м а ц и я ¿ / - с т а т и с т и к и с 4 и 108 с т еп е н я м и свободы
р а в н а 52.39. Д л я к а ж д о й п е р е м е н н о й из L зн а ч е н и я с т а т и с т и к и
F -у д ал е н и я с 1 и 108 с т е п е н я м и свободы п р и в о д я т с я в сл е д у ю щ е й
табл иц е:
Переменная Хг Х2 Х3 Х4
F -удаления 129.31 8.06 7.49 15.76
П о с к о л ь к у все з н а ч е н и я с т а т и с т и к и F -уд ал ен и я б о л ь ш е п р и н я ­
т о го м и н и м у м а и все п е р е м е н н ы е в о ш л и в L , с л е д у е т п е р е й т и
к ш а г ^ S.
Шаг S . « Н а и л у ч ш е е » д и с к р и м и н а н т н о е у р а в н е н и е за д а е т с я
коэф ф и ц и ен там и , п о л у ч е н н ы м и на ш а г е 4. Н и ж е п р и в о д и т с я
т а б л и ц а р е з у л ь т а т о в р а б о т ы п р о ц е д у р ы пош агового д и к р и м и н а н т -
н о го а н а л и з а .

J Переменная F
Номер и
шага Vi Vz
включаемая удаляемая включения удаления

1 Ху 131.41 1 111 0.458


2 X .* 17.35 1 110 0.396
3 хг 9.55 1 109 0.364-
4 7.49 1 108 0.340

П о с к о л ь к у 6 = 2, м о ж н о п р и м е н и т ь за м е ч а н и е 5 .5 .1 .1 . О ц е н к а
л и н е й н о й д и с к р и м и н а н т н о й ф у н к ц и и (5.3.26) п о л у ч а е т с я п о д с т а ­
н о в к о й к о э ф ф и ц и е н т о в и п о с т о я н н ы х , н а й денн ы х н а ш а г е 4.
Т а к и м о б р а з о м , в е к т о р н а б л ю д е н и й х относится к п о п у л я ц и и
если г = 0 .1 5 1 л :!— 0 . 1 9 1лг2 + 0 .0 0 7 х 3 + 1 3 .152х4 2 г 3 1 .6 6 8 , п р и
Чх = 7г = х/ , .
352 Гл. 5. Методы многомерного статистического анализа

К р о м е то го, н а к а ж д о м шаге м ож но оценить расстояние


М ах ал ан о б и са / ) |. Результаты приводятся ниже в таблице. Вто­
р о й с т о л б е ц с о о е р ж и т /'- а п п р о к с и м а ц и и т о ч н ы х зн а ч е н и й и -ста­
т и с т и к и , а в четвертом с то лб це с т о я т з н а ч е н и я /- с т а т и с т и к и д л я
п р о в е р к и г и п о т е зы Н 0: Д 9 = Д 4. (З а м е ч а н и е 5 .5 .1 .1 . с.) П о с л е д н и й
с т о л б е ц с о д е р ж и т 95-е п р о ц е н т и л и / - р а с п р е д е л е н и я с числ ом
с т е п е н е й свободы 4 —■7 и 108. П о с к о л ь к у з н а ч е н и я из ч етв ерто го
с т о л б ц а б о л ь ш е со ответствую щ их зн а ч е н и й п я т о г о с т о л б ц а г и ­
п о т е зы Н0\ Д! = Д4, Н 0\ Д 2 = Д4 и Н 0: Д 3 = Д 4 о т в е р га ю тс я .
С л е д о в а т е л ь н о , вс е ч еты р е перем енн ы е в н о с я т з н а ч и т е л ь н ы й в к л а д
в д и с к р и м и н а ц и ю д в у х п о п у л я ц и й . У р о в е н ь знач им ости а = 0 . 0 5 .

F- аппрокс и мац ия
Шаг q и V F F0 .95(4 - q. 108)

1 131.41 4.95 12.25 2.7


2 84.06 6.35 8.72 3.1
3 6.1.58 7.30 7.05 3.9
4 52.39 8.05

Пример 5.5.2. К л и н и ч е с к и е эк с п е р и м е н т ы п о к а зы в а ю т , что


н а д о л ю л е т а л ь н ы х исходов п р и л е ч е н и и о ж о го в в л и я е т целый
р я д ф а к т о р о в . О д н а к о т р а д и ц и о н н о р а с с м а т р и в а л и с ь т о л ь к о в о з­
р а с т п а ц и е н т а и о б щ а я п л о щ а д ь о ж о г а (в %). П р е д п о л а г а я , что
д о п о л н и т е л ь н ы е ф а к т о р ы м о г у т повы сить т о чн о сть п р е д с к а з а н и я
и с х о д а б о л е зн и , д л я п остроен и я м н о г о ф а к т о р н о й м о дел и были
и с с л е д о в а н ы д а н н ы е о 1 2 0 2 о ж о г о в ы х б о л ь н ы х (подробнее см.
L a w a c k i et al. (1979)). И с с л е д о в а л а с ь с л е д у ю щ а я ин ф орм аци я:
о б щ и е д а н н ы е (во зр а с т, пол , раса, вес); п р е д ш е с т в у ю щ и е з а б о л е ­
в а н и я ( п а т о л о г и и и л и б олезн и д ы х а т е л ь н ы х пугей, п р е д ш е с т в о в а в ­
ш и е о ж о г у ) ; х а р а к т е р о ж о г а (общая п л о щ а д ь о ж о г а , о б л а с т ь с о ж о ­
г о м т р е т ь е й степ ени, э т и о л о г и я и р а с п о л о ж е н и е о ж ога); п о р а ж е н и е
д ы х а т е л ь н ы х п у т е й , а н а л и з г а зо в а р т е р и а л ь н о й к р о в и п р и п о с т у п ­
лении.
Б ы л проведен п ош аго вы й д и с к р и м и н а н т н ы й а н а л и з , причем
п е р е м е н н ы е в о з р а с т и общ ая пл о щ а д ь о ж о г а б ы ли з а в е д о м о введены
в д и с к р и м и н а н т н о е у р а в н е н и е . Из о с т а в ш и х с я пер е м е н н ы х п р о ­
и з в о д и л с я в ы б ор с о г л а с н о к р и т е р и ю / - в к л ю ч е н и я . В р е з у л ь т а т е
б ы л о о т о б р а н о ш ес т ь н а и л у ч ш и х перем ен н ы х д л я п р е д с к а з а н и я
и с х о д а б о лезн и . Х л — в о зр а с т , Х 2 — общ ая п л о щ а д ь о ж о га
(в %), X з — Р аО а ( 0 — н ор м а л ьн о е , 1 — н е н о р м а л ь н о е < 7 0 мм
р т . с т . ) , Х 4 — п о р а ж е н и е д ы х а т е л ь н ы х путей ( 0 — нет, 1 — есть),
Х ъ — п л о щ а д ь о ж о г а тр е тье й степени (в %) n X s — п р е д ш е с т в о в а в ­
ш и е з а б о л е в а н и я д ы х а т е л ь н ы х путей ( 0 — не было, 1 — были).
О с т а в ш и е с я переменны е не в н о с и л и зн а ч и м ы х у л у ч ш е н и й в п р е д ­
с к а з а н и е исход а.
5.5. П ош аговый дискриминантный анализ 353

В с и л у того что д л я п о л у ч е н и я т а б л и ц к л а с с и ф и к а ц и и о ж о г о в ы х
больных в м ед и ц и н е традиционно использовался пробит-
анализ (F in ney ( 1 9 7 1 ) ) , с п о м о щ ь ю п р о г р а м м ы G L IM (N e id e r
(1976)) по п о л у ч е н н ы м 6 п е р е м е н н ы м с т р о и л о с ь м н ого ф а кто рн о е
п р о б и т -у р а в н е н и е . Б ы л а п о л у ч е н а м о д е л ь ви д а Р = Ф 1 (Z),
где Z = — 3.9 + 0 . 0 3 6 (Х„ + Х 2) + 0 .5 2 Х 3 + 0 .5 6 Х 4 + 0 .0 2 8 Х 5 +
- f 0 . 4 0 X g, а Ф 1 — обратная к функции р а с п р е д ел е н и я
J f ( о, )•
М о д ель была п р и м е н е н а д ля к л а с с и ф и к а ц и и гипотетического
п а ц и е н т а 3 2 л ет с о б щ е й п л о щ а д ь ю о ж о г а 44 %, с п л ощ адью о ж о г а
третьей степени 22 % , не и м е в ш е г о д о п о л н и т е л ь н ы х о с л о ж н е н и й .
В е л и ч и н а Z р а в н а — 0 . 5 5 , и, с л е д о в а т е л ь н о , в ер о я тн о с ть ф а т а л ь ­
ного исхода Р р а в н а Ф 1 (— 0 . 5 5 ) = 0 .2 9 . Д л я этого б о л ь н о г о
было п р е д с к а з а н о в ы з д о р о в л е н и е .
В рабо те Z a w a c k i e t al. (1979) б ы л о п о к а з а н о , что т а к а я ш е с т и ­
ф акт о р н а я модель и м е е т л у ч ш у ю с п о с о б н о с т ь п р е д с к а з а н и я , чем
к л ассич еская д в у х ф а к т о р н а я .

-к Пример 5 . 5 . 3 . П р и п р и м е н е н и и м о н и то р н о й системы н а б л ю ­
дения б ольн о го б ы л о ж е л а т е л ь н о п р е д с к а з а т ь н а основе в е к т о р а
х = (л:0 , Х]_, . . . , х п)' и з п + 1 н а б л ю д е н и й , п о л у ч енны х в р а з н ы е
моменты вр ем ени, в ы з д о р о в е е т л и п а ц и е н т . В бай есовской п р о ­
цедуре д л я о ц е н к и к о в а р и а ц и о н н о й м а т р и ц ы 2 ра зм е р а (п + 1) X
X (п - f 1) и д в у х в е к т о р о в с р е д н и х (и х и ]и2 р а з м е р а (п + 1) х 1
каж ды й , нео б х о д и м ы б о л ь ш и е в ы б о р к и и з п о п у л я ц и й в ы ж и в ш и х
и у м е р ш и х п а ц и е н т о в ( з а м е ч а н и е 5 .3 .1 .4 ) . К о г д а число п в е л и к о ,
оценка п а р а м е т р о в с т а н о в и т с я н е в ы п о л н и м о й и п р и х оди тс я п о л ь ­
зо ваться д р у г и м и м е т о д а м и к л а с с и ф и к а ц и и .
В т а к о м с л у ч а е м о ж н о п р е д п о л о ж и т ь , ч то д л я д ан ного п а ц и е н т а
изменения в е к т о р а н а б л ю д е н и й и м е ю т т р е н д (наприм ер, л и н е й н ы й
или э к с п о н е н ц и а л ь н ы й ) и с т р у к т у р а к о в а р и а ц и о н н о й м а т р и ц ы 2
описывается п р о ц е с с о м а в т о р е г р е с с и и п е р в о г о п о р я д к а с п а р а ­
метром X. Т а к и м о б р а з о м , м о ж н о з н а ч и т е л ь н о у м е н ьш и т ь ч и с л о
оцениваемых п а р а м е т р о в . Н а п р и м е р , в с л у ч а е л и н е й н о го т р е н д а
вместо п -j- 1 п а р а м е т р а в е к т о р а с р е д н и х достаточно оц е н и ть д в а
п ар а м е т р а в е к т о р а к о э ф ф и ц и е н т о в ß = (ß 0, ß j ' , где ß„ — н а ч а л ь ­
ная т о ч к а , а ß t — н а к л о н л и н и и р е г р е с с и и , описываю щ ей т р е н д у
по врем ени t, t = 0, 1, ..., п .
В р я д е рабо т ( A z e n , A fifi ( 1 9 7 2 а, b) и Azen et al., (1975)) б ы л о
п о к а зан о , что з а м е н о й ве к т о р а н а б л ю д е н и й х векто ром ß м о ж н о
п о л у ч и ть э ф ф е к т и в н у ю п р о ц е д у р у к л а с с и ф и к а ц и и . Б о л е е т о го ,
б ы ла о б о сн о в а н а з а м е н а п а р а м е т р а а в т о к о р р е л я ц и и X нул е м , к о г д а
ее о ц е н к а у д о в л е т в о р я е т н е р а в е н с т в у | к | < 0 . 6 . Это п о з в о л я е т
в п р о ц е с с е о ц е н и в а н ия п р и м е н я т ь м е то д н аи м ен ьш и х к в а д р а т о в ,
и, т а к и м образом, р е ш а ю т с я п р о б л е м ы , с в я з а н н ы е с а в т о к о р р в '
л и р о в а н н о с ть ю д а н н ы х .
12 А. Афжфи, С. Эйзеы
$54 Гл. 5. Методы многомерного статистического анализа

Т а к а я процедура классиф икации была применена д л я п редска­


з а н и я и с х о д а о т р а в л е н и я б а р б и т у р а т о м , г л у те т а м и д о м , и л и м е ­
п р о б а м а т о м (АПН ef а1. (1971 Ь)). В р е з у л ь т а т е п о ш агов ого д и с к р и ­
м и н а н т н о г о а н а л и з а д а н н ы х , в з я т ы х н е п о сре д с тв е н н о перед
с м е р ть ю у 18 и п ер ед вы веден ием я д а из о р г а н и з м а у 34 п а ц иентов,
б ы л о у с т а н о в л е н о , что «наилучш ими» р а з д е л и т е л я м и я в л я ю т с я
п е р е м е н н а я Х г — с и сто л ическ ое д а в л е н и е (в мм рт. ст.) и Х 2 —
p H а р т е р и а л ь н о й к р о в и . Б ы л а п о л у ч е н а л и н е й н ая д и с к р и м и н а н т ­
н а я ф у н к ц и я (так назы ваем ы й прогностический индекс) г =
= 0 . 0 7 8 5 X ^ 4 - 1 2 . 5 2 9 Х , . Д л я к а ж д о г о п а ц и е н т а этот и н д е к с о ц е н и ­
в а л с я ч е р е з о п р е д е л ен н ы е п р о м е ж у т к и вр е м е н и (при м ерн о к а ж д ы е
чет ы р е ч а с а ) д о см ерти и л и - в ы з д о р о в л е н и я п а ц и ен т а . В л ю б о й м о ­
м ент в р е м е н и м о ж н о б ы л о о ц е н и в а ть сос то я н и е п а ц и е н т а по г р а ф и к у
г( к а к н е к о т о р у ю к о м п ози ц и ю с и с т о л и ч е с к о г о д а в л е н и я и p H .
П р е д п о л а г а я , что д л я к а ж д о г о п а ц и е н т а и зм е н е н и я к р и в о й 2 #
о б у с л о в л е н ы л и н е й н ы м трендом и средний т р е н д д л я в ы ж и в ш и х
пациентов отличается от тренда д ля умираю щ их, было получено
с л е д у ю щ е е п р а в и л о к л а с с и ф и к а ц и и : б о л ь н о й о тносится к п о п у л я ­
ции в ы ж и в ш и х п ац иенто в, ко г д а д л я него в ы п о л н я е т с я 0.892Ь0 +
2 1 .0 7 8ЬХ > 90.05 9, где Ь0 и Ьх с у т ь о ц е н к и н а ч а л ь н о й точк и
и н а к л о н а кри вой наименьших квадратов, аппроксимирую щ ей
н а б л ю д е н и я (¿, 2 ,), ¿ = 0 , 1, п. ★

5.6. Анализ главных компонент


П у сть и м е е т с я р с л у ч а й н ы х переменны х Х ь . . . , К р с м н о г о м е р ­
ным, н е о б я з а т е л ь н о н ор м ал ьн ы м , совместны м р а сп р е д ел е н и е м ,
вектором с р е д н и х = ( р х, . . . , р р) ' и к о в а р и а ц и о н н о й м а т р и ­
цей ^ рхр = ( а , ) . Ч а с т о тр е б у е т с я о п р ед ел и ть в з а и м о с в я з ь
м еж ду п е р е м е н н ы м и Х х, . . . , Х р. Э та в з а и м о с в я з ь н а з ы в а е т с я
ст рукт урой зависимости и м о ж ет бы ть и зм е р е н а к о в а р и а ц и я м и ,
или, ч т о э к в и в а л е н т н о , д и с п е р с и я м и и к о р р е л я ц и я м и м е ж д у
Х 1г ..., Х р . В н е к о то р ы х с л у ч а я х м о ж н о най ти л и н е й н ы е к о м б и ­
н ац ии У л, . . . , У ч пер ем ен н ы х Х ъ ..., Хр (^ < р), по которы м м о­
ж н о п о л у ч и т ь с т р у к т у р у зависи м о сти м е ж д у Х 1г . .. , Х р. Т а к и м
об р азо м , п о л у ч а е т с я с ж а т о е о п и с ан и е с т р у к т у р ы зав и си м ости , н есу ­
щ е е п о ч т и в с ю и н ф орм аци ю , с о д е р ж а щ у ю с я в с а м и х п е рем енн ы х.
В н а с т о я щ е м р а з д е л е р а с с м а т р и в а е т с я один из методов а н а л и з а
с т р у к т у р ы з а в и с и м о с т и . О н носи т н а з в а н и е анализа, главных ком­
понент. С у т ь м етода состоит в т о м , что и щ у т с я т а к и е л и н е й н ы е
к о м б и н а ц и и и с х о д н ы х перем енны х
5.6. Анализ главных компонент 355

ЧТО
c o v { Y iY j) = 0, I, / = 1 , . . р, I ф '], (5.6.1)

К ( Г 1) > У ( Г 2) > . . - > У ( К Р), (5.6.2)

í v ( Y i) = £ в u. (5.6.3)
г=1 £=1

И з эт и х ф орм ул в и д н о , что перем енн ы е Уъ ..., У р не к о р р е л и -


ров ан ы и у п о р я д о ч е н ы по в о з р а с т а н и ю д ис п е рс и и . Б о л е е того,
общая дисперсия V = 2?=1 а н по с л е п р е о б р а з о в а н и я о с т ае т ся
без изменений. Т о г д а п од м н ож ес тв о п е р в ы х д п е р е м е н н ы х У 1
б у д е т о б ъясн ять б о л ь ш у ю ч асть общей д и с п е р с и и и, т а к и м о б р а з о м ,
п о л у ч и т с я с ж а т о е о п и с а н и е с т р у к т у р ы зависи м ости и с х о д н ы х
перем енн ы х. М е т о д г л а в н ы х к о м п о н е н т состоит в о п р е д е л ен и и к о э ф ­
ф ициентов а,ц, / = 1, .. . , р. В н а ч а л е мы обсудим п о д робн о сти
это го метода в т е р м и н а х п а р а м е т р о в р а с п р е д ел е н и й , а з а т е м б у д у т
рассм о трены в о п р о с ы , с в я з а н н ы е с о ц е н к о й п а рам етро в по в ы б о р ­
кам. Совместное р а с п р е д е л е н и е и с х о д н ы х перем енн ы х н е о б я з а ­
т ельн о с чи тать м н о г о м е р н ы м н о р м а л ь н ы м . О д н а к о т а к о е п р е д п о ­
л о ж е н и е у д о б н о , п о с к о л ь к у л и н е й н ы е ком б ин ац ии н о р м а л ь н о
р а с п р е д ел е н н ы х в е л и ч и н имеют в свою очередь н о р м а л ь н о е р а с ­
п р ед ел ен и е и, с л е д о в а т е л ь н о , п о л н о стью о п р е д е л яю тс я п а р а м е т ­
р а м и [1 и Е . Т о г д а м о ж н о п о л о ж и т ь ¡и, = (0, . . . , 0)' и с т р у к т у р а
зав и с и м о с т и , з а д а в а е м а я м а тр и ц е й 2 , будет полностью о п и с ы в а т ь
совместное р а с п р е д е л е н и е пер е м ен н ы х Х г, Х р.
П у с т ь м а т р и ц а 2 и з в е с т н а и имеем У х = а и Х х + ... а хрХ р.
Т р е б у е т с я н а й т и т а к и е а ш . . . , а 1р, чтобы в е л и ч и н а

У (^1)= Л £ (5 -6 -4)
¿=1 /=1

была максим альной при = 1. (Это усл о в и е о б е с п е ч и в а е т


единственность р е ш е н и я . ) Р е ш е н и е а х — (ап , ..., а 1р)’ н а з ы в а ­
е тся собственным вектором и с о о т в етству ет м а к с и м а л ь н о м у соб­
ственному значению м а т р и ц ы 2 . Э то собственное зн а ч е н и е ра в н о
д и с п е р си и V ( У ^ . Л и н е й н а я к о м б и н а ц и я У х = « х Л + ... +
+ а.1рХ р н а з ы в а е т с я п е р в о й главной компонентой пер е м е н н ы х
Х х, ..., Х р. О н а о б ъ я с н я е т 100 V (Ух)/У процентов общ ей д и с ­
п ер сии .
П о л о ж и м У2 = а 21Х х + ••• + а 2р-Хр. Н а д о най ти т а к и е к о э ф ­
ф и ц и е н ты а 21, а и , чтобы в е л и ч и н а

^ ( ^ а ) = Л Г « й « 2 /^ / (5.6.5)
¿=1 /=1
12*
356 Гл. 5. Методы многомерного статистического анализа

р
достигала м аксим ального значения при условии £ а|у = 1
/=1
и соу (У ъ У 2) = 2 ; = 1 2 у= 1 а 1£а 2/ст(7 = 0. П е р в о е у с л о в и е об есп е ­
чивает единственность решения, а второе — некоррелированность
Ух и У2. Р е ш е н и е а 2 = ( а 21, ..., а 2р) ' я в л я е т с я собственн ы м в е к ­
тор ом м а т р и ц ы 2 , соответствую щ им в т о р о м у по в е л и ч и н е с о б с т в е н ­
ному з н а ч е н и ю . Это собственное з н а ч е н и е р а в н о д и с п е р с и и V (У 2),
а У 2 я в л я е т с я в т о р о й г л а в н о й к о м п оненто й п р и з н а к о в Х 1} ...,
..., Х р. П е р в ы е д в е гл а в н ы е к ом п о н е н ты о б ъ я с н я ю т 100 [V (Ух) +
+ V (У 2) ] / У пр о ц е н т о в о б щ е й д и с п е р с и и . П о с л е т о го к а к п о л у ­
чены У ъ . . . , Уч_1г д = 2, ... , р, н а й д е м п е р е м е н н у ю У9 =
р
= £ Яд/Х,-, т а к у ю , чтобы в е л и ч и н а
/=1

У (у ч) = И I ! а ? ;“ ?/0 «'/
¿=1/=а
Р
дост и гл а максимального значения при условии £ а 1/ = 1
/=1
и
р р
СОУ (У т , У?) = £ 1 = 0 д л я т = 1. •••.<? — 1 •
»=1 /=1
В р е з у л ь т а т е по л у ч и м а д = (а д1, ..., а 9Р) ' — собственн ы й в е к ­
тор м а т р и ц ы 2 , со о т вет с т в у ю щ и й у-му по ве л и ч и н е с обс тве н н ом у
зн а ч е н и ю , к о т о р о е равно д и сп ер си и V (У 9). Т а к и м о б р азо м , Уц
бу дет <7 -й г л а в н о й к о м п о н е н т ой и п е р е м е н н ы е Ух, . . . , У(1 б у д у т
о б ъ я с н я т ь 1 0 0 2 ?= 1 1 / (У,-У У п р о ц е н т о в общ ей д и с п е р с и и .
М о ж н о п р и в е с т и с л е д у ю щ у ю геом етри ческую и н те р п р ет а ц и ю
а н а л и з а г л а в н ы х ко м п о н е н т (см. рис. 5.6.1 д л я р = 2). П е р е м е н н ы е
Х ь ..., м о г у т быть п р е д с та в л е н ы к о о р д и н а т н ы м и о с я м и .
Н а ч а л о к о о р д и н а т н а х о д и т с я в то чк е ¡и = (1% , . . . , ¡л,,)'. Т а к и м
об р азо м , в р-мерном пространстве к а ж д а я р е а л и з а ц и я в е к т о р а
х = (хх, . . . , х р)' п р е д с т а в л я е т с я точкой с к о о р д и н а т а м и Х г =
= хи Х р = хр. В а н а л и з е г л а в н ы х к о м п о н е н т и щ е т с я т а к о й
поворот с и с т е м ы к о о р д и н а т , чтобы п е р е м е н н ая Ух, с о о т в ет с т в у ю ­
щ а я о д н о й и з н о в ы х к о о р д и н а т н ы х осей, им ела м а к с и м а л ь н у ю
д и с п е р с и ю , а п ер ем ен н ая У2, с о о т в ет с т в у ю щ а я д р у г о й оси, б ы ла
не к о р р е л и р о в а н а с У х и и м е л а бы при этом м а к с и м а л ь н у ю д и с п е р ­
сию . А н а л о г и ч н о п е р е м е н н а я У ,, с о о т вет с т в у ю щ а я новой к о о р д и ­
на т н о й оси с д-м ном ером , д о л ж н а быть не к о р р е л и р о в а н а с У 1?
У2, . . . , Уд_х и им еть п р и эт о м м а к с и м а л ь н у ю д и с п е р и с ю , <7 =
3, . . . , р. П у с т ь / (х) — ф у н к ц и я плотности н о р м а л ь н о г о р а с п р е ­
д е л е н и я с л у ч а й н о г о в е к т о р а X = ( Х ь ..., Хр) '; т о гд а н е р а в е н ­
ство / (х) < с, где с — н е к о т о р а я п о с т о я н н а я , о п р е д е л я е т о б л а с т ь
5.6. Анализ главны х компонент 357

,0 -мерного п р о с т р а н с т в а , н а з ы в а е м у ю эллипсоидом концентрации.


М о ж н о п о к а з а т ь , ч то г л а в н ы е к о м п о н е н т ы имею т т а к о е ж е н а п р а в ­
ление, к ак и оси э л л и п с о и д а к о н ц е н т р а ц и и .
Н а рис. 5 .6 .1 п е р е м е н н ы е Х х и Х г п о р о ж д а ю т д в у м е р н о е п р о ­
с т р а н с т в о с ц е н т р о м в т о ч к е ( р 1; р 2)- Э л л и п с о и д о м к о н ц е н т р а ц и и
з д е сь б у д е т э л л и п с . П е р в а я г л а в н а я к о м п о н е н т а У г = а п Х х +
*2

а 1| '*"|+ а12^2

4- а 12Х 2 о п р е д е л я е т н а п р а в л е н и е б о л ь ш о й оси э л л и п с а , а в т о р а я
главная компонента У 2 = —)- а 22Х 2 — м ал ой оси.
К о г д а м а т р и ц а 2 н е и з в е с т н а , м о ж н о п р е д п о л о ж и т ь , что и м е ­
ется с л у ч а й н а я в ы б о р к а х ? * 1, ..., х „ х 1 , по к о т о р о й 2 о ц е н и в а ­
ется в ы б о р о ч н о й к о в а р и а ц и о н н о й м а т р и ц е й 8 . Д л я п о л у ч е н и я
оценок главных ком понент с л е д у е т п р и м е н и т ь о п и с ан н у ю вы ш е
пр о ц е д у р у к м а т р и ц е »5. В р е з у л ь т а т е п о л у ч а т с я о ц е н к и а (7 к о э ф ­
ф ициентов сб; у, г , / = 1, ..., р. О ц е н к о й ^-й г л а в н о й к ом п он ен ты
р
будет вектор Уд = £ ад,Х,-, где а ? = (ад1, ..., адр)' есть
/=1
^-й с о б с т в е н н ы й в е к т о р м а т р и ц ы ¿7 = 1 , .. . , р. П р и геом е тр и ч е ­
с ко й и н т е р п р е т а ц и и с л е д у е т з а м е н и т ь выборочными
ср едн им и х г , . . . , х„.

З а м е ч а н и я 5 . 6 . 1 . 1. Е с л и п е р е м е н н ы е Х ъ ..., Х р имеют с о в ­
м естное н о р м а л ь н о е р а с п р е д е л е н и е , т о г л а в н ы е компоненты в з а ­
им но н е з а в и с и м ы .
2. Д л я л ю б ы х д в у х н е р а в н ы х : с о б с т в е н н ы х зн а ч е н и й V (У ,)
и V ( У ;) с о о т в е т с т в у ю щ и е с о б с т в е н н ы е в е к т о р ы о б р а з у ю т п р я м о й
уго л . Это с в о й с т в о н а з ы в а е т с я ортогональностью и в ы р а ж а е т с я
358 Гл. 5. Методы многомерного статистического анализа

с л е д у ю щ и м и с о о т н о ш е н и я м ! : Ър т =\ а 1та !т = 0 , t , / = 1 , р,
i ф /. Е с л и ж е д в а собственны х з н а ч е н и я р а в н ы , то с о о т в е т с т в у ­
ю щ и е с о б с т в е н н ы е в е к т о р ы м о ж н о в ы б р а т ь т а к , что и о н и б у д у т
о р т о г о н а л ь н ы . Т а к и м об р азо м , можно с ч и т а т ь , что р г л а в н ы х
к о м п о н е н т в з а и м н о о р т о го н а л ь н ы .
3. Д л я п о л у ч е н и я г л а в н ы х ко м п о н е н т м о ж н о и с п о л ь з о в а т ь
вм есто к о в а р и а ц и о н н о й м а тр и ц ы к о р р е л я ц и о н н у ю . Д е й с т в и т ел ь н о ,
к о г д а р п е р е м е н н ы х и зм е р я ю т с я в р а з л и ч н ы х ед и н и ц а х , не и м е ю ­
щ и х м е ж д у с о б о й ни чего общего, л и н е й н ы е к о м б и н ац и и п е р е м е н ­
н ы х б ы в а е т т р у д н о и н т е р п р е т и р о в а т ь . В этом с л у ч а е м о ж е т помочь
с т а н д а р т и з а ц и я к а ж д о й перем енн ой, т. е. зам ен а X ,■ перем енн ой
Z i = (Х[ — р) сг,- ил и Zt = (Xi — г ) s,-, i 1 р,
п о с к о л ь к у в е л и ч и н а Z, б ез р а з м е р н а . Д а л е е сл е дуе т провести
а н а л и з с т р у к т у р ы зави си м о сти п е р е м е н н ы х Z ,, . . . , Zp, к о т о р а я
з а д а е т с я к о р р е л я ц и о н н о й м атри ц ей п е р е м е н н ы х Х и .. . , Х Р. З а ­
м ети м , ч т о п р и э т о м о б щ а я д и с п е р с и я V р а в н я е т с я ч и сл у п е р е м е н ­
н ы х р. В о б щ е м с л у ч а е гл а в н ы е ком п о н ен ты , п о л у ч а ем ы е по к о р ­
р е л я ц и о н н о й м а т р и ц е , о т л и ч н ы о т г л а в н ы х ко м п он ен т к о в а р и а ц и ­
о н н о й м а т р и ц ы . Н а с а м о м д ел е в с я к о е л и н е й н о е п р е о б р а з о в а н и е
и с х о д н ы х п е р е м е н н ы х п р и в о д и т к новым г л а в н ы м ком п онентам .
4. К о р р е л я ц и я м е ж д у перем енн ой X.i и г л а в н о й к о м п о н е н т ой
Y,- з а д а е т с я в е л и ч и н о й а п [ V (Y , ) ] 1111а1У где 0 г — с т а н д а р т н о е о т ­
к л о н е н и е п е р е м е н н о й X t . С л е д о в а т е л ьн о , д л я с р а в н е н и я в к л а д о в
п е р е м е н н ы х X lt . . . , Х р в Y/ с л е д у е т с р а в н и т ь в е л и ч и н ы а /г/а,-,
/= 1 , р . К о г д а и зв естна к о р р е л я ц и о н н а я м а т р и ц а , достаточн о
с р а в н и т ь к о э ф ф и ц и е н т ы а /Ч-. В этом с л у ч а е самый б о льш о й к о э ф ­
ф и ц и е н т п о к а з ы в а е т , к а к а я п е р е м е н н ая в н е с л а н а и б о л ь ш и й в к л а д
в /-ю г л а в н у ю компоненту.
5. В п е р в ы е а н а л и з г л а в н ы х к о м п о н е н т п о я в и л с я в работе
P e a r s o n (1901). Т а м р е ш а л а с ь з а д а ч а н а х о ж д е н и я п ря м и й , с ум м а
к в а д р а т о в п е р п е н д и к у л я р о в на к о т о р у ю из т о ч е к -р е а л и з а ц и й
в е к т о р а н а б л ю д е н и й б ы л а бы м и н и м а л ь н а . Р е ш е н и е м о к а з а л а с ь
п р я м а я , п р о х о д я щ а я ч ерез к о н е ц в е к г о р а ср е д н и х (xlt ..., х р)
и т о ч к у (ап , ... , а 1Р), ко о р д и н а ты которой равны о ц е н к а м с о о т ­
в е т с т в у ю щ и х коэф ф и ц и ен тов перво й г л а в н о й ком поненты .
С л е д у е т з а м е т и т ь , ч то г л а в н ы е к ом п он ен ты д а ю т эконом ию
т о л ь к о в о п и с а н и и г р у п п ы п е р е м е н н ы х , т а к к а к д л я о пр ед ел ен и я
з н а ч е н и й г л а в н ы х к о м п о нент, с о о т в ет с т в у ю щ и х р е а л и з а ц и и х =
= (х и . . . , Хр) ' , н ео б х о д и м о и з м е р я т ь все р п р и з н а к о в . Вместе
с т е м п р о ц е д у р а п о ш а г о в о го д и с к р и м и н а н т н о г о а н а л и з а д е й с т в и ­
т е л ь н о у м е н ь ш а е т ч исло перем енны х, зн а ч е н и я котор ы х надо
определять.

П р и м е р 5 . 6 . 1 . В отделении ин тен си вной т е р а п и и были с о б р а н ы


д а н н ы е о 113 .п а ц и е н т а х в к р и т и ч е с к о м с о сто я н и и . И з м е р я л о с ь
5.6. Анализ главных компонент 359

Таблица 5.6.1
Коэффициенты первы х пяти главных компонент для примера 5.6. 1

Переменная 1 2 3 4 5

Возраст -0 .0 2 0 6 -0 .2 8 0 6 0.4211 ф 0.0267 0.1255


Систолическое давление -0 .1 0 1 3 0.4757 ® 0.3127 0.1050 0.0750
Среднее артериальное давление -0 .1 6 7 0 0.4988 ® 0.2168 0.1045 0.0835
Частота сердечных сокращений -0 .0 2 4 4 —0.0352 - 0 .4 0 0 0 © 0.5175 -0 .2 2 3 8
Диастолическое Ъавление -0 .2 2 2 9 (?) 0.4679 0.1269 0.1092 0.0764
Среднее венозное давление 0.0400 -0 .1 0 2 3 0.2286 0.5637 -0 .1 1 7 7
Логарифм сердечного индекса 0.3701 ® 0.1630 0.1378 -0.0681 -0 .2 9 4 5
Логарифм времени появления -0.3101 © -0 .2 6 8 6 © 0.3416® -0 .1 6 5 9 0.1506
Логарифм среднего времени -0 .3 7 0 8 -0 .2 7 4 5 © 0.1939 0.0061 0.1499
ц ирнуляции
Диурез 0.0767 0.1986 -0 .2 6 6 1 -0 .5 0 0 2 0 .2 1 1 1
Логарифм индекса оЬъема 0.3125 © -0 .0 3 3 3 0.3559® -0.1521 -0 .3 6 6 2
плазмы - 0 .6 9 5 8 ®
Логаритм эритроцитарного -0 .2 0 0 6 0.0205 0.1425 -0 .2 6 0 0
индекса -0 .0 5 8 7 -0 .2 3 0 5
Гемигт\оЬин -0 .4 4 6 7 (1 ) 0.0166 -0 .1 7 6 0
Гематокрит -0 .4423 (1 ) 0 .0 12 2 -0 .1 6 6 2 -0 .0 5 7 4 -0 .2 3 2 6

14 п е р е м е н н ы х : в о з р а с т , а р т е р и а л ь н о е и ве н о зн о е д а в л е н и я , к р о ­
в оток, ч а с т о т а с е р д е ч н ы х с о к р а щ е н и й , ... (табл. 5.6.1). Ч е т ы р н а д ­
ц ать г л а в н ы х к о м п о н е н т о п р е д е л я л и с ь п р о г р а м м о й , и с п о л ь з у ю ­
щ ей в к а ч е с т в е и схо д но й и н ф о р м а ц и и к о р р е л я ц и о н н у ю м а тр и ц у .
Б ы л и п о л у ч е н ы с л е д у ю щ и е с о б с т в е н н ы е зн а ч е н и я :
Компонента 1 2 3 4 5 6 7
Собственное значение 3.876 3.159 1.379 1.234 1.102 0.968 0.730
Компонента 8 9 10 11 12 13 14
Собственное зн ачен и е 0.535 0.486 0.270 0.141 0.079 0.022 0.018

П о с к о л ь к у о б щ а я д и с п е р с и я V р а в н а 14 (сум м е с о б с т в е н н ы х
зн а ч е н и й ), п е р в а я к о м п о н е н т а о б ъ я с н я е т 100 (3.876)/14 = 27.7 %
всей д и с п е р с и и , в т о р а я 1 0 0 (3 .1 5 9 )/1 4 = 2 2.6 % и т. д. Д о л я о б ­
щей д и с п е р с и и , н а к о п л е н н а я с о о т в ет с т в у ю щ и м ч ислом п е р в ы х
г л а в н ы х к о м п о н е н т , п р и в о д и т с я в с л е д у ю щ е й т абл иц е:
Число компонент 1 2 3 4 5 6 7
Н акоп ленн ая доля 0 .2 8 0.50 0.66 0.69 0.77 0.84 0.89
Число компонент 8 9 10 11 12 13 14
Н акоп ленн ая доля 0 .9 3 0.96 0.98 0.99 1.00 1.00 1.00

Д л я и л л ю с т р а ц и и п р е д п о л о ж и м , что 0 .7 7 — д о ст а т очн ая д о л я
д и с п е р си и д л я о п и с а н и я с т р у к т у р ы и сх од н ы х перем енн ы х. Т о г д а
п е р в ы е п я т ь г л а в н ы х ком п о н е н т д а ю т д о ст а т о ч н о хо р о ш ее п р е д с т а в ­
л ен и е об э т и х п е р е м е н н ы х . К о эф ф и ц и е н т ы ац, г = 1, 5,
/ = 1, ... , 14, п р и в е д е н ы в т а б л . 5 .6 .1 . С л е д о в а т е л ь н о , п е р в а я
к о м п о н ен т а и м е е т вид: = — 0.0206 (возраст) + ... — 0 .4 42 3
360 Гл. 5. Методы многомерного статистического анализа

(гем ато кр и т). А н алоги чн ы м образом можно запи сать и другие


компоненты.
Д л я в ы д ел е н и я информации, содерж ащ ейся в эти х компонентах,
м о ж н о в о с п о л ь з о в а т ь с я за м е ч а н и е м 5 . 6 .1.4 . П о с к о л ь к у к о р р е л я ­
ц и я м еж д у Х { и Уу в ы р а ж а е т с я ве л и ч и н о й

<*/* IV (У /)] 1 / 2М , ¿ = 1, Л ., 14, / = 1 .......... 5,

в ы б е р е м п е р е м е н н ы е , имею щ ие коэф ф и ц и ен ты к о р р е л я ц и и с г л а в ­
н ы м и к о м п о н е н т а м и по абсолю тн ой в е л и ч и н е ^ 0 . 4 . Н а п р и м е р ,
[V (З ^ ) ] 1 / 2 = ( 3 .8 7 6 ) 1/2 = 1.97 и п е р е м е н н а я , с о о т в етству ю щ ая
к о л и ч е с т в у г е м о г л о б и н а в кров и , имеет с п е р в о й г л а в н о й ком ­
п о н е н т о й У х к о э ф ф и ц и е н т к о р р е л я ц и и по модулю , р а в н ы й
| 1 . 9 7 (— 0 .4 4 6 7 ) | = 0.8 8. Семь п е рем енн ы х, пом еч енны е в пе р в о м
с т о л б ц е т а б л и ц ы н о м ерам и в к р у ж о ч к а х , у д о в л е т в о р я ю т п р а в и л у
о т б о р а . А н а л о г и ч н о , ш ес т ь п е р е м е н н ы х , пом е ч ен н ы е во в т о р о м
с т о л б ц е , им ею т к о э ф ф и ц и е н т ы к о р р е л я ц и и с У2, п р е в о с х о д я щ и е
0 .4 и т. д . Х а р а к т е р пом еченны х п е р е м е н н ы х п о д с к а зы в а е т ин те р ­
п р е т а ц и ю к а ж д о й ком поненты . Уъ н а п р и м е р , м о ж н о с ч и т а т ь
к о м п о н е н т о й , х а р а к т е р и з у ю щ е й с ос тав к р о в и , У., — д а в л е н и е
и к р о в о т о к , У3 — в о зр а с т , К 4 — д и у р е з , У 5 — э р и т р о ц и т а р н ы й
индекс.

5.7. Факторный анализ


В п р е д ы д у щ е м р а з д е л е бы л п ри в еден способ о п и с а н и я с т р у к т у р ы
з а в и с и м о с т и р и с х о д н ы х п е р е м е н н ы х К х, Х р, и м е ю щ и х со в­
м е с т н о е н о р м а л ь н о е р а с п р е д ел е н и е с в е к т о р о м с р е д н и х ^ =
= ( ( х г, . . . , ¡лр) ' и к о в а р и а ц и о н н о й м а т р и ц е й £ рХр = (о/;). Б ы л о
п о к а з а н о , ч т о г л а в н ы е к о м п о н е н т ы м о ж н о з а п и с а т ь в вид е л и н е й ­
н ы х к о м б и н а ц и й исхо д н ы х перем енн ы х :

^ 1 = 2 « ! / * / , • • ■, Ур = £ а Р1Х г (5.7.1)
/=1 у=1

Э ти п е р е м е н н ы е н е к о р р е л и р о в а н ы и у п о р я д о ч е н ы по уб ы ван ию
д и с п е р с и и V ( У ,), I = 1, . .. , р. К р о м е т о г о , о б щ а я д и с п е р с и я V
н е м е н я е т с я в р е з у л ь т а т е п е р е х о д а ог пер е м е н н ы х Х х......... Х р
к У 1 , .. . , Ур, т. е.

У= £ а ,,= £ V (У¡). (5.7.2)


/=1 1=1
5.7. Ф акторный анализ 361

П р е о б р азу е м т е п е р ь с и с т е м у ( 5 . 7 . 1 ) т а к , чтобы к а ж д а я из и с х о д ­
ных п е р ем е н н ы х б ы л а в ы р а ж е н а л и н е й н о й к о м б и н ац и е й г л а в н ы х
компонент:

= !■ Р-1 / К/ , . . . , * „ = £ (5.7.3а)
/=г /=1
г д е ( 5 , / — нек о тор ы е п о с т о я н н ы е , г, / = 1, ... , ¿7 . М о ж н о п о к а з а т ь ,
что р (/ = «/,- д л я г, / = 1 , . . . , р и

* 1 =
Г « л К / , ... , = £ а ,Л '. (5 .7 .ЗЬ)
/=1 /=1
И з этой системы, н а з ы в а е м о й м о д е л ь ю г л а в н ы х ком п онент, с л е ­
д у ет, ч то
р
= £ <*кУ (Ук) а * /, » '# /, (5.7.4)
к= 1

ст« £ сс1£К ( Г Л), г, / = 1 , . . . , р . (5.7.5)


А= 1
Эти д в е ф о р м у л ы о п р е д е л я ю т н о в у ю с т р у к т у р у и л и «ф а кт о р и за ц и ю »
дисперсий и к о в а р и а ц и й и сх о д н ы х переменных. Т аки м образом,
д и с п е р с и и и к о в а р и а ц и и п р е д с т а в л я ю т с я в в и д е ф у н к ц и й от < у, ц
и д и с п ер с и й г л а в н ы х к о м п о н е н т .
В н а с т о я щ е м р а з д е л е р а с с м а т р и в а е т с я более общ ий п о д х о д
к п р е о б р а з о в а н и я м и с х о д н ы х п е р е м е н н ы х . Д л я это го вв о д и т ся
факторная модель
/гг т
* 1 = Е V / + е 1, . . . , х р = У (5.7.6)
/= 1 1=1

где Я(.,- — п о с т о я н н ы е , а ш , к а к п р а в и л о , м еньш е р. П е р е м е н н ы е


/Г1, ..., рт н а з ы в а ю т с я общими ( первичными , или латентными)
факторами, п о с к о л ь к у они и с п о л ь з у ю т с я д л я п р е д с т а в л е н и я
в с е х р и с х о д н ы х п е р е м е н н ы х . П р е д п о л а г а е т с я , что об щ и е ф а к т о р ы
н е к о р р е л и р о в а н ы и имеют е д и н и ч н ы е д ис п е р с и и . П е р е м е н н ы е
............ ер н а з ы в а ю т с я специфическими (характерными) ф а к т о р а м и ,
п о с к о л ь к у д л я к а ж д о й и с х о д н о й п е р ем е н н о й Х 1 о п р е д е л я е т с я
своя переменная , / = 1, . . . , р. П р е д п о л а г а е т с я , что х а р а к т е р ­
ные ф а к т о р ы не к о р р е л и р о в а н ы и что
У (е;) = т 4- , ¿= 1 (5.7.7)

где т (- — т а к н а з ы в а е м а я специфическая дисперсия, и л и специ­


фичность 1 -й и с х о д н о й п е р е м е н н о й . П е р е м е н н ы е и е, п р е д п о ­
л а г а ю т с я н е к о р р е л и р о в а н н ы м и , I = 1, ..., от, / = 1, ..., р . П о ­
с т о я н н ы е Хц н а з ы в а ю т с я факт орными нагрузкамц.
362 Гл. 5. Методы многомерного статистического анализа

Т е п е р ь , м о ж н о за п и с а т ь ф а к т о р и з а ц и ю д и с п е р с и й и к о в а р и а ц и й
и с х о д н ы х пер е м е н н ы х в виде
Оц = * а Л д Н--------Ь КтК-т, i Ф /, (5.7.8)
°!t = ~h ' • • + X"im ~Ь т £. i, j = I , р . (5.7.9)
Эти ф о р м у л ы — а н а л о ги соотнош ений (5.7.4) и (5.7.5.). В е л и ч и н а

£ Xjf н а з ы в а е т с я общностью i -й исходной перем енной и “р а в н а


/=1
р а з н о с т и е е в а р и а ц и и и специ ф и чн ости, i = 1 , .. . , р.
Таким о б р аз о м , р ко м п о н е н т модели г л а в н ы х ко м п о н ен т
мож н о р а с с м а т р и в а т ь к а к р общих ф а к т о р о в , о п и с ы в а ю щ и х с т р у к ­
т у р у з а в и с и м о с т и р исходны х п е р е м е н н ы х , в то врем я к а к т <^р
общ их ф а к т о р о в ф а к т о р н о й модели о п и с ы в а ю т основную ч ас т ь
с т р у к т у р ы зависи мости, а специф ические ф а к т о р ы — о с тав ш у ю ся
часть. Д р у г и м и словам и, в модели г л а в н ы х ко м п о нент в с я д и с п е р ­
сия п р и п и с ы в а е т с я р о бщ и м ф акто р ам , то гд а к а к в ф акто р но м а н а ­
л и з е д и с п е р с и я к а ж д о й исх о д но й перем енн ой д е л и т с я на две части:
д и с п е р с и ю , о б у сл о в л е н н у ю нал и ч и ем об щ и х ф а к т о р о в (общность),
и д и с п е р с и ю , о б у сл о в л е н н у ю в а р и а ц и е й к а ж д о й исходной п е р е ­
м енной (с п е ц и ф и ч н о с т ь ).
Т е х н и к а ф а к т о р н о г о а н а л и з а н а п р а в л е н а на о ц е н ку ф а к т о р н ы х
н а г р у з о к Я ;/ и специфических д испер сий т,-, i = 1 , . . . , р, / =
= 1, т , а т а к ж е н а о п р е д е л ен и е д л я к а ж д о г о о б ъ е к т а з н а ч е ­
ний о б щ и х ф акто р о в с помощ ью зн а ч е н и й и с х о д н ы х переменных,
т. е. н а в ы ч и с л е н и е т а к н а зы в а е м ы х факторных значений. П о с л е
того к а к ф а к т о р н ы е н а г р у з к и най дены , о с т ае т с я ещ е з а д а ч а « наи­
лучш ей» и н т е р п р е т а ц и и общ их ф а к т о р о в . Д л я этого и сп о ль з у ется
м е то д в р а щ е н и я ф акто р о в , которы й из-за с у б ъ ек т и в н о с т и я в л я е т с я
н а и б о л е е с п о р н о й частью ф а к т о р н о г о а н а л и з а .
В с и л у то го что ф акто р н ы й а н а л и з у ж е в ы д ел и л с я в особую
н а у к у , д а н н ы й раздел не м о ж ет п р е те н д о в а ть н а его всестороннее
р а с с м о т р е н и е , кото р о е м о ж н о най ти в р а б о т а х H a r m a n (1967)
и T h u r s t o n e (1945). В р азд . 5.7.1 р а с с м а т р и в а е т с я метод г л а в н ы х
ф а к т о р о в д л я о п р е д е л е н и я ф а к т о р н ы х н а г р у з о к . Он часто и с п о л ь ­
з у е т с я в п р о г р а м м а х , н е с м о т р я н а то что п р и м ен е н и е метода н а и ­
б о л ь ш е г о п р а в д о п о д о б и я м о ж е т п о к а з а т ь с я более о пр а в д а н н ы м .
П о д р о б н ы й а н а л и з метода н а и б о л ь ш е го п р а в д о п о д о б и я приводится
В р а б о т е M o r r i s o n (1967). В разд. 5 .7 .2 р а с с м ат р и в а ю тс я н екоторы е
с п о с о б ы в р а щ е н и я ф а кт о р о в , а р а зд . 5 .7 .3 п о с в я щ е н о ц ен ке з н а ­
чений ф акторов.
З а м е ч а н и е 5 . 7 . 1 . ★ Модели, з а д ав а е м ы е в ы р а ж е н и я м и (5.7.3)
и (5 .7 .6 ), м о ж н о к о м п а к т н о з а п и с а т ь в м а тр и ч н ы х о б о зн а ч е н и я х .
Г л а в н ы е к о м п о н е н т ы я в л я ю т с я реш ен иям и у р а в н е н и я
У = АХ,
5.7. Факторный анализ 363

где
¥ рх1 = (Уи . . . , У Р)', Х р х 1 = ( Х г ......... Х р)', Архр = ( « , - , ) .
Т а к и м о б р а з о м , м о д е л ь г л а в н ы х к о м п о н е н т з а п и с ы в а е т с я в виде
X. = ВУ,
где Врхр = А~* = А ', п о с к о л ь к у м а т р и ц а А о р т о г о н а л ь н а . К о ­
вариационную м а т р и ц у представим как
Е = А'УА,
где

У(Уг) о О
\р*р — О У(Уг) о

о О ИЛ)]

Ф акторная модель принимает вид


X= АР + е ,
где
А рхт = ( ^ у ), Ртх1 = ( ^ , . . . , ^ ) ' и е р х 1 = {в\, . . ., ер)' .
Тогда ковари ац и он н ую м а т р и ц у з а п и ш е м в форме
2 = А Л ' + т,
где

Т1 0 ■ • о"
•р>* р _ 0 т2 ■ • 0
0 0 •• V
.

5 .7 .1 . О п р е д е л е н и е г л а в н ы х факторов

В о т л и ч и е о т п р е д ы д у щ е г о р а з д е л а , где з а д а ч а с н а ч а л а р а с с м а т р и ­
в а л а с ь в т е р м и н а х п а р а м е т р о в п о п у л я ц и й и т о л ь к о потом в в о д и ­
л и с ь в ы б о р о ч н ы е о ц е н к и , в э т о м р а з д е л е с р а з у п р е д п о л а г а ет с я
РХ 1
наличие с л у ч а й н о й в ы б о р к и х р из м но го м ер ного
нормального р а сп р ед ел ен и я с в е к т о р о м с р е д н и х ¡црх 1 = ( щ , ...
..., р с) ' и к о в а р и а ц и о н н о й м а т р и ц е й 2 рхр = (ст£у) . П у с т ь Зрхр =
= (в,-;) — в ы б о р о ч н а я к о в а р и а ц и о н н а я м а т р и ц а и = (гц) —
в ы б оро чн ая к о р р е л я ц и о н н а я м а т р и ц а , где г1;- =
/, / = 1, ..., р.
П е р в о й з а д а ч е й ф а к т о р н о г о а н а л и з а я в л я е т с я о п р е д е л е н и е по
м а тр и ц е 8 или К о ц е н о к ф а к т о р н ы х н а г р у з о к Х ц и о ц е н о к /,•
364 Гл. 5. Методы многомерного статистического анализа

с п е ц и ф и ч е с к и х д и с п е р с и й тг, г = 1, ..., р , j = 1, т. С л е д у е т
з а м е т и т ь , ч т о , к а к п р а в и л о , пр ед по ч тен ие о тдается м атри ц е R,
п о с к о л ь к у и с с л е д о в а т е л и п р е и м у щ е с т ве н н о р а б о т а ю т со с т а н д а р т и ­
зо в а н н ы м и п е р е м е н н ы м и (см. з а м е ч а н и е 5 .6 .1 .3 ).
К а з а л о с ь бы, ч то д л я о п р е д е л ен и я у п о м я н у т ы х о ц е н о к т е о р е ­
т и ч е с к и о п р а в д а н н о п р и м ен е н и е метода н а и б о л ь ш е го п р а в д о п о ­
д о б и я . О д н а к о эт о т метод с л о ж е н д л я р е а л и з а ц и и на Э В М и п о э ­
т о м у он не п о л у ч и л ш и р о к о г о р а с п р о с т р а н е н и я . С у щ е с т в у е т р я д
м е т о д о в , п р и м е н и м ы х на н а с т о л ь н ы х к а л ь к у л я т о р а х , самый и з ­
в е с т н ы й и з к о т о р ы х — центроидный метод. К р о м е т о го , имеется
групповой центроидный метод, множественный групповой метод,
мет од сокращ ения ранга, метод ортогонализации, методы типа
метода Я к о б и , методы сокращения порядка. И х о п и с ан и е м ож н о
н а й т и в р а б о т е H o r s t (1965).
С п о я в л е н и е м Э В М чащ е всего с тал и с п о л ь з о в а т ь с я метод оп­
ределения гл а вн ы х факторов, к отор ы й прим еним к а к к в ы борочны м
к о в а р и а ц и о н н ы м , т а к и к о р р е л я ц и о н н ы м м а т р и ц а м . В этом методе
п р е ж д е в с е г о о п р е д е л я ю т с я оценки р г л а в н ы х ком понент

Yi = £ au Xj, t = l ......... р. (5.7.10)


;=i
Н а п о м н и м , ч т о р г л а в н ы х к о м п о н е н т в за и м н о н е к о р р е л и р о в а н н ы
и: д и с п е р с и я V ( Y ¿) i -й к о м п оненты р а в н а г-му по вел и ч и н е соб­
с т в е н н о м у з н а ч е н и ю в ы б ор очно й к о в а р и а ц и о н н о й ил и к о р р е л я ­
ц и о н н о й м а т р и ц ы с со о тветств ую щ и м собственны м в е к т о р о м а, =
= (ап , . . . , a i / ,)', i — 1, . . . , р. И м еет место с л е д у ю щ а я система
у р а в н е н и й о т н о с и т е л ь н о исхо д ны х п ер ем енн ы х:

= t аи У,; i = l,...,p. (5.7.11)


/=1

С о г л а с н о м е т о д у о п р е д е л е н и я г л а в н ы х ф а к т о р о в , в ка ч е с тв е о б ­
щ и х ф а к т о р о в б ер ется т п е р в ы х г л а в н ы х компонент, в звеш ен ны х
следую щ им образом:

F: = ----- ——т- j , / = 1......... т. (5.7.12)


[И( К 7) ] 1/2 ’ ' v '

О ц е н к а м и ф а к т о р н ы х н а г р у з о к с л у ж а т вел ич ины
1ц = a. а [V (Y 7)]1/2, 1 = 1,...,р, j —I т , (5.7.13)

а о ц е н ки с п е ц и ф и ч е с к и х ф а к т о р о в з а д а ю т с я р а в е н с т в а м и
р
<?/ = 1 а - ц У I = 1, • • •, р. (5.7.14)
/=т-|-1
5.7. Ф акторный анализ 365

Т а к и м образом , п о л у ч а е т с я с л е д у ю щ а я оценка факторной модели:


т
Х 1= У /.-//-Н /, 1 = 1 , . . . , р. (5.7.15)
7=1
З д е с ь все общие ф а к т о р ы имеют е д и н и ч н ы е д и сп ерси и и в за и м н о
не к о р р е л и р о в а н ы . К р о м е т о го , о н и не к о р р е л и р о в а н ы и со с п е ц и ­
ф и ч е с к и м и ф а к т о р а м и . О д н а к о с л е д у е т за м е т и т ь , что

с о у (е,-, ек) = У а ц а 1кУ (У ¡), /, к, = 1 , . . . , р, ¿ ф к . (5.7.16)


/= т + 1
П о с к о л ь к у к о в а р и а ц и и с п е ц и ф и ч е с к и х п р и з н а к о в н е о б я за т е л ь н о
р а в н ы нулю , и м е ет м е с т о н а р у ш е н и е п е р в о н а ч а л ь н ы х п р е д п о л о ­
ж е н и й модели.
О ц е н к и о б щ н о с т е й Н\ и с п е ц и ф и ч н о с т и 1^ д л я X,-, I = 1, ...
р , имеют с о о т в е т с т в е н н о в и д
т т
* * = Г /?, = Г О/, V (У/), (5.7.17)
/=1 /=1

*< = У °иУ(У/). (5.7.18)


/ = т -Ы

Д л я р е ш е н и я этой з а д а ч и с у щ е с т в у ю т с п е ц и а л ь н ы е п рогр а м м ы .
В ка ч е с тв е и с хо д н ой и н ф о р м а ц и и и с п о л ь з у е т с я 1) ч и с л о о б щ и х
ф а к т о р о в , 2 ) вид м а т р и ц ы , к к о т о р о й с л е д у е т при м ен ить ф актор-
цый а н а л и з , 3) о ц е н к и о б щ н о с т е й и м а к с и м а л ь н о е ч и сл о и т е р а ц и й
д л я о п р е д е л е н и я о б щ н о с т е й . Д р у г и е в о зм о ж н о с т и з а д а н и я в х о д ­
ных п а р а м е т р о в р а с с м а т р и в а ю т с я в с л е дую щ ем р а зд ел е . Н и ж е
опи сываю тся н е к о т о р ы е п о д р о б н о с т и и с п о л ь з о в а н и я вх од но й и н ­
ф орм ац ии.
1) Ч и с л о о б щ и х факторов о п р е д е л я е т с я целым числ ом т
или п о с т о я н н о й с. В по сл ед нем с л у ч а е т п о л а г а е т с я р а в н ы м ч и с ­
лу с обств енн ы х з н а ч е н и й , п р е в о с х о д я щ и х с.
2) Ф а к т о р н ы й а н а л и з м о ж н о п р и м е н я т ь к а) к о в а р и а ц и о н н о й
м атр и ц е , Ь) к о в а р и а ц и о н н о й м а т р и ц е отно с и т е л ьн о н а ч а л а к о о р ­
д инат, с) к о р р е л я ц и о н н о й м а т р и ц е , с1 ) к о р р е л я ц и о н н о й м а тр и ц е
отно сител ьно н а ч а л а к о о р д и н а т и л и е) м а т р и ц е ф а к т о р н ы х н а г р у ­
зок .
3) Н а п о м н и м , ч т о в а н а л и з е г л а в н ы х ком п о нент с о х р а н я е т с я
д и с п е р с и я , с о д е р ж а щ а я с я в о б щ и х ф а к т о р а х (г л а в н ы х ко м п он ен ­
т ах). В ф ак т о р н о м а н а л и з е ч а с т о т р е б у е т с я п о л у ч и т ь оцен ки об-
р
щ и х ф ак т о р о в , с о х р а н я ю щ и е о б щ н о с т ь 2 ] Щ, ил и всю д и сперсию
¿=1
общ их факторов. Э т о н у ж н о , н а п р и м е р , д ля прилож ений в пси­
х о л о г и и и в з а д а ч а х , с в я з а н н ы х с оп ре д е л ен и е м к у л ь т у р н о г о
у р о в н я . Поэтому п о л ь з о в а т е л ь м о ж е т о п р е д е л и т ь н а ч а л ь н ы е оцен ки
общ н остей вс е х и с х о д н ы х п е р е м е н н ы х и м а к с и м а л ь н о допустим ое
366 Гл. 5. Методы многомерного статистического анализа

ч и с л о и т е р а ц и й , о б есп ечи в аю щ ее сходи м ость к с ум м ар н ой о б ­


щ н о с т и . Эти о ц е н к и п о д с т а в л я ю т с я вместо д и а г о н а л ь н ы х эл ем енто в
м а т р и ц ы , п о д л е ж а щ е й ф а к т о р н о м у а н а л и з у . И м и м о гут быть
а) к в а д р а т ы м н о ж е с т в е н н ы х коэф ф иц иентов к о р р е л я ц и и при и с ­
п о л ь з о в а н и и к о р р е л я ц и о н н о й м а тр и ц ы , и л и д и с п е р с и и , п о л у ч е н ­
ны е в р е з у л ь т а т е р е г р е с с и и д л я к о в а р и а ц и о н н о й м а т р и ц ы , Ь) н а ­
и б о л ь ш и е а б со л ю тн ы е з н а ч е н и я эл ем енто в по с т р о к а м , с) о ц е н к и ,
п о л у ч е н н ы е из п р е д в а р и т е л ь н о г о а н а л и з а . П о л у ч е н и е о цен ок
ф а к т о р н ы х н а г р у з о к и н о в ы х о бщ н остей с о с т а в л я е т ш а г и т е р а ц и и .
Н а с л е д у ю щ е м ш а г е д и а г о н а л ь н ы е эл ем ен ты м а т р и ц ы , п о д л е ж а щ е й
ф а к т о р н о м у а н а л и з у , з а м е н я ю т с я н а п о л у ч е н н ы е общ ности. З а т е м
з а н о в о о п р е д е л я ю т с я ф а к т о р н ы е н а г р у з к и и о б щ н ости. П р о ц е с с
п о в т о р я е т с я , п о к а не б у д е т п р ев ы ш ен о м а к с и м а л ь н о д о п у с ти м о е
ч и с л о и т е р а ц и й , и л и п о к а м а к с и м а л ь н а я р а з н о с т ь общ н остей,
п о л у ч е н н ы х н а соседних ш а г а х и т е р а ц и и , н е с т ан е г м е н ьш е з а д а н ­
н о го ч и с л а . П о л ь з о в а т е л ь м о ж е т о с т ав и ть д и а г о н а л ь н ы е элем енты
б ез и з м е н е н и й и з а д а т ь т о л ь к о д о п у с ти м о е ч и с л о и т е р а ц и й , обе­
с п е ч и в а ю щ е е сходи м ость к сум м арной общ н ости.

З а м е ч а н и я 5 .7 . 2 . 1. П р и о п р е д е л ен и и ч и с л а т общ их ф а к т о ­
р о в п о л ь з о в а т е л ь м о ж е т р у к о в о д с т в о в а т ь с я , н а п р и м е р , с л еду ю ­
щими кри тери ям и .
a) Ч и с л о с у щ е с т в е н н ы х ф а к т о р о в м о ж н о о ц е н и т ь из с о д е р ж а ­
тельны х соображ ений.
b) П р и и с п о л ь з о в а н и и о бы чной к о р р е л я ц и о н н о й м а т р и ц ы р е к о ­
м е н д у е т с я в ка ч е с тв е т б р а т ь ч и с л о собственн ы х зн а ч е н и й , б о л ь ­
ш и х л и б о р а в н ы х е ди ниц е.
c) К а к и в а н а л и з е г л а в н ы х ком п онент, м о ж н о в ы б р а т ь число
ф а к т о р о в , о б ъ я с н я ю щ и х о п р е д е л ен н у ю ч асть общей дисперсии ,
и л и с у м м а р н о й общности.
2 . С т а т и с т и ч е с к и е и с с л е д о в а н и я п о к а зы в а ю т , что д и а г о н а л ь ­
ны е э л е м е н т ы и сх од но й м а т р и ц ы м енять не р е к о м е н д у е т с я . О д н а к о
е сл и т р е б у е т с я о став и ть с у м м а р н у ю общ ность неи зм ен н о й , к а к
п р а в и л о , в к а ч е с т в е о ц е н о к д и а г о н а л ь н ы х эл е м е н т о в м а тр и ц ы и с ­
п о л ь з у ю т с я к в а д р а т ы м н о ж е с т в е н н ы х коэф ф иц иентов к о р р е л я ц и и ,
а д л я к о в а р и а ц и о н н о й м а т р и ц ы — д и с п ер с и и , по л у ч е н н ы е в р е ­
зу л ьтате регрессии.
3. С л е д у е т п о м н и г ь, ч т о в зав и си м о с т и от в ы б о р а исходной
м атрицы м о г у т получаться различны е факторы.
4. З а м :е т и м , что, есл и пе р е м ен н ы е Х г- с т а н д а р т и з о в а н ы (т. е,
и с п о л ь з у е т с я м а т р и ц а Я), вы борочны ми к о р р е л я ц и я м и м е ж д у Х 1
и будут
с о г г /=■/) = 1ф £ ] = 1.......... р, / =;1
С л е д о в а т е л ь н о , д л я и н т е р п р е т а ц и и к а ж д о г о ф а к т о р а имеет смысл
п о л ь з о в а т ь с я п е р е м е н н ы м и с о т н о си т е л ьн о б о л ь ш и м и по абсолю т-
Таблица 5.7.1

Корреляционная матрица для примера 5.7.1

МАР НЯ ОР МУР ЦП) Ь(А Т) 1_(МСТ) Ш ц р у 1) Ь(ЯС1) щь на


БР
Переменная 1 2 3 4 5 6 7 8 9 10 11 .12 13

Систолическое давление 1.00


Среднее артериальное давление 0.90 1.0 0
Частота сердечных сокращений - 0 .1 0 - 0 .0 7 1.0 0
Диастолическое давление 0.81 0.95 0.00 1.0 0
Среднее венозное давление - 0 .0 3 - 0 .0 7 0.05 - 0 .1 3 1.0 0
Логарифм сердечного индекса 0 .1 2 0.03 - 0 .0 5 - 0 .0 7 - 0 .0 5 1.0 0
Логарифм времени лоявлени5т - 0 .1 3 - 0 .1 1 - 0 .1 5 - 0 .0 4 - 0 .01 0.49 1.0 0
Логарифм среднего времени - 0 .1 7 - 0 .1 1 0 .0 2 - 0.00 0.14 0.68 0.84 1.00
циркуляции
Диурез 0.13 0.15 - 0 .1 2 0 .1 2 - 0 .2 3 0.09 - 0 .21 - 0 .1 8 1.00
Логарифм индекса обзема - 0 .0 8 - 0 .1 7 - 0 .1 3 - 0 .2 7 0.13 0.54 - 0 .1 6 - 0 .2 8 0.04 1.00
плазмы
Логарифм эритроцитарного 0.09 0 .1 1 - 0 .0 2 0.14 - 0 .0 6 0 .1 1 0 .20 0 .21 - 0 .0 5 0.04 1.00
индекса - 0 .0 7 - 0 .4 9 0.38 1.00
Гемоглобин 0.09 0 .21 0.09 0.33 - 0 .0 9 0.48 0.39 0.47
0.06 0.32 - 0 .0 8 0.48 0.40 0.49 - 0 .0 9 - 0 .5 0 0.39 0.97 1.00
Ге.матокрит 0.09 0 .21
368 Гл. 5. Методы многомерного статистического анализа

ной в е л и ч и н е н а г р у з к а м и , т а к к а к о н и б о л ь ш е в с е г о к о р р е л и р о в а н ы
с этим ф актором.

П р и м е р 5 . 7 . 1 . Б ы л и с обр ан ы д а н н ы е о р — 13 п о к а з а т е л я х
д л я 113 б о л ь н ы х п р и и х п о с т у п л е н и и в о т д е л е н и е ин тенсивной
т е р а п и и , н а х о д я щ и х с я в к р и т и ч е с к о м со с тоя н и и . В ч и с л о п о к а з а т е ­
л е й в х о д и л и п е р в о н а ч а л ь н ы е и зм е р е н и я а р т е р и а л ь н о г о и в е н о з ­
н о г о д а в л е н и й , к р о в о т о к а , ч асто ты с ер деч н ы х с о к р а щ е н и й и о б ъ е ­
м ов с о с т а в л я ю щ и х к р о в и (табл. 5 .7 .1 ). Д л я о п р е д е л е н и я гл а вн ы х
ф акто р о в про гр ам м а ф акторного анали за применялась к выбороч­
н о й к о р р е л я ц и о н н о й м а тр и ц е . Б ы л и р а с с м о тр е н ы сл е д у ю щ и е с л у ­
ч аи .

П р и м е р 5 . 7 . 1 а . Д и а г о н а л ь н ы е элем енты к о р р е л я ц и о н н о й м а ­
т р и ц ы бы ли о с т а в л е н ы б е з изм ен ен и й , а д о п у сти м о е ч и с л о и т е р а ­
ц и й з а д а в а л о с ь р а в н ы м еди ниц е. С оо тв е тс тв ен н о г л а в н ы м к о м п о ­
н е н т а м б ы л и п о л у ч е н ы с л е д у ю щ и е собственн ы е з н а ч е н и я :

К ом п онен та 1 2 3 4 5 6 7
С обственное значение 3.875 2.980 1.269 1.233 1.095 0.766 0.711
К ом п онен та 8 9 10 11 12 13
С обственное значение 0.507 0.290 0.150 0.084 0.023 0.019

Н а к о п л е н н ы е д о л и с у м м а р н о й д и с п е р с и и п о с о о т в ет с т в у ю щ и м к о м ­
п о н ен там имеют вид
К ом п онен та 1 2 3 4 5 6 7
Н ак о п л ен н а я д о л я 0.30 0.53 0.62 0.72 0.80 0.86 0.92
К ом п онен та 8 9 10 И 12 13
Н ак о п л ен н ая д о л я 0.96 0.98 0.99 0.99 1.00 1.00

П р е д п о л а г а л о с ь , ч т о ф а к т о р ы д о л ж н ы соо т вет с т в о в ать д а в л е н и я м ,


о б ъ е м а м и с о с т а в л я ю щ и м крп ви. П о э т о м у ч и с л о п б ы л о в з я т о
р а в н ы м 3. П о л у ч е н н ы е о ц е н к и ф а к т о р н ы х н а г р у з о к п р и в о д я т с я
в т а б л . А.
Т а к , н а г р у з к а / п = 0.21 есгь к о э ф ф и ц и е н т к о р р е л я ц и и м е ж д у
с и с т о л и ч е с к и м д а в л е н и е м и первы м ф а к т о р о м , 1и = 0 . 8 8 е с ть
к о э ф ф и ц и е н т к о р р е л я ц и и т о й ж е п ер ем енн о й со вторы м ф а к т о р о м
и т. д. Д л я и н т е р п р е т а ц и и ф а к т о р о в р ас с м о тр и м н а г р у з к и , б о л ь ­
ш и е н е к о т о р о г о п о р о г о в о г о з н а ч е н и я , н а п р и м ер г = 0 .4. В т а б л . А
эт и н а г р у з к и п о м е ч е н ы ц и ф р а м и в к р у ж о ч к а х . П е р в ы й ф а к т о р з а ­
в и с и т г л а в н ы м о б р а з о м о т во с ьм и и з 13 перем енны х; в т о р о й ф а к ­
т о р з а в и с и т с у щ е с т в е н н ы м о б р а з о м от а р т е р и а л ь н ы х д а в л е н и й
и к р о в о т о к а ; т р е т и й ф а к т о р в к л ю ч а е т в с е б я ч а с т о т у се р д е ч н ы х
с о к р а щ е н и й , в р е м я п о я в л е н и я и и н д е к с к о л и ч е с т в а п л а зм ы . Эти
ф а к т о р ы н е п о д д а ю т с я простой и н те р п р е т а ц и и . К а к б у д е т видно
и з с л е д у ю щ е г о р а з д е л а , з д е с ь м о ж е т пом очь метод в р а щ е н и я ф а к ­
торов.
5.7. Факторный анализ 369

Таблица А
Н агрузки для ф акторов 1— 3

Переменная 1 2 3

1 БР 0 .2 1 0 .8 3 ® - 0 .2 2
2 М АР 0.33 0 .9 0 ® - 0 .1 3
3 НЯ 0.05 -0 .0 3 0 .5 9 ®
4 ВР 0 .4 5 ® 0.83 :> -0 .0 4
5 М УР - 0 .0 7 —0.18 - 0 .3 5
6 Ь (С 1) -0 .7 0 © 0.33 -0 .1 0
7 Ь (А Х ) 0.6 1 ® -0 .4 4 (1 ) -0 .4 2 ®
8 Ь (М С Т ) 0.7 1 ® -0 .4 3 ® -0 .2 6
9 иО - 0 .1 3 0 .31 0.18
10 Ь(Р,/ 1 ) -0 .6 1 © -0 .0 3 - 0 .5 2 ®
п ь ( а с 1) 0 .4 0 ® 0.03 -0.32
12 ЩЬ 0.87® - 0 .0 0 0.15
13 На 0.88® -0.01 0.13

Пример 5 . 7 . 1Ь. В д а н н о м с л у ч а е , с о г л а с н о за м е ч а н и ю 5 .7 .2 .1 ,
в ы б и р а ю т с я о б щ и е ф а к т о р ы , с о о т в е т с т в у ю щ и е собственны м з н а ­
ч ен и я м , б о л ь ш и м л и б о р а в н ы м е д и н и ц е . И з а н а л и з а с о бств енн ы х
з н а ч е н и й , п р и в е д е н н ы х в п р и м е р е 5.7 .1 а, видно, что т = 5.
П е р в ы е т р и ф а к т о р а , т а к и е ж е , к а к и в преды дущ ем прим ере.
Н а г р у з к и 4 -г о и 5-го ф а к т о р о в п р и в о д я т с я в т а б л . В. Е с л и в з я т ь
в кач естве п о р о г а г = 0 .4 , то 4-й ф а к т о р б у д е т з а в и с е т ь г л а в н ы м

Таблица В
Н агрузки для факторов 4—5

Переменная 4 5

1 БР 0.15 -0 .0 9
2 МАР 0.14 -0 .0 9
3 НЯ 0 .4 8 ® 0.33
4 ЛЭР 0.13 -0 .0 7
5 МУР 0.71 ф -0 .0 3
6 Ь(С1) - 0 .0 6 0.34
7 Ь(АТ) - 0 .1 2 -0 .2 0
8 ММ СТ) 0.05 -0.21
9 ио - 0 .5 9 ® -0 .2 2
10 Ь(РУ1) - 0 .0 7 0.31
11 МЯС1) - 0 .2 3 0.69®
12 Н 8Ь - 0 .0 9 0.26
13 на - 0 .0 8 0.26
370 Гл. 5. Методы многомерного статистического анализа

о б р а з о м от частоты сердечны х с о к р а щ е н и й , в е н о зн о го д а в л е н и я
и д и у р е з а , а 5-й ф а к т о р — от эр и т р о ц и т а р н о г о и н д е к с а . З а и с к л ю ­
ч е н и е м п я т о г о ф а к т о р а все еще т р у д н о и н т е р п р е т и р о в а т ь п о л у ч е н ­
ны е р е з у л ь т а т ы .
О ц е н к и о бщ н остей д л я д в у х с л у ч а е в , при в еден н ы х вы ш е,
с о д е р ж а т с я в т а б л . С. З а м е т и м , что пр и т = 3 п ерем ен н ы е 5,
Таблица С
Оценки общностей

Переменная т= 3 тп — 5

1 БР 0.87 0.90
2 М АР 0.95 0.97
3 НЛ 0.37 0.71
4 ЮР 0.91 0.93
5 МУР 0.17 0.67
6 Ь(С1) 0.62 0.74
7 НАТ) 0.76 0.81
8 Ь(М СГ) 0.81 0 .8 6
9 ио 0.15 0.55
10 ЦРУ1) 0 .6 6 0.76
11 ьги а) 0.27 0.80
12 н вь 0.79 0.87
13 н а 0.80 0.87

9 и 11 им ею т об щ н ост и м еньш е 0.3, т о г д а к а к п р и т — 5 все


о б щ н о с т и б о л ь ш е 0 .5 . Э тот ф а к т п о д т в е р ж д а е т , что 1) общ н ости
( д и с п е р с и и , о б ъ я с н я е м ы е общ ими ф а к т о р а м и ) у в е л и ч и в а ю т с я
с р о с т о м т и 2 ) в л и я н и е о б щ и х ф а к т о р о в н а р а з н ы е и схо д н ы е п е ­
р е м е н н ы е различно.
П р и м е р 5 . 7 . 1 с . В этом при м ере д е м о н с тр и р у ет ся эф ф ек т и зм е ­
н е н и я д и а г о н а л ь н ы х эл е м е н т о в в ы б о ро чн о й к о р р е л я ц и о н н о й м а т ­
р и ц ы . Д и а г о н а л ь н ы й эл е м е н т с номером I з а м е н я л с я н а к в а д р а т
м н о ж е с т в е н н о го коэффициента ко р реляц и и Х ( с остальными п ер е­
м е н н ы м и . Ч и с л о и т е р а ц и й было в з я г о равны м еди н и ц е, а число
о б щ и х ф а к т о р о в т = 3. В с и л у т о го что м а т р и ц а И б ы л а и зм ен ен а,
с о б с т в е н н ы е з н а ч е н и я , н а к о п л е н н ы е доли д и с п ер с и и и ф ак т о р н ы е
н а г р у з к и п о л у ч и л и с ь о т л и ч н ы м и от д в у х п р е д ы д у щ и х сл у ч а е в.
В т а б л . Б п р и в о д я т с я ф а к т о р н ы е н а г р у з к и с со о т в ет с т ву ю щ и м и
к в а д р а т а м и м н о ж е с т в е н н ы х ко эф ф и ц и е н т ов к о р р е л я ц и и и о ц е н ­
к а м и о б щ н о с т е й . П р и т о м ж е пороговом зн а ч е н и и г = 0 . 4 первы й
ф а к т о р в з в е ш и в а е т с я п р е и м у щ е с т в е н н о по тем ж е в о с ьм и п е р е м е н ­
н ы м , ч т о и в п р е д ы д у щ и х п р и м е р а х ; в тор ой ф а к т о р с о д е р ж и т
а р т е р и а л ь н о е д а в л е н и е и к р о в о т о к ; т р е ти й ф актор с и л ь н е е всего
к о р р е л и р о в а н с к р о в о т о к о м . Д в а первы х ф а к т о р а п о л у ч и л и с ь по*
5.7. Факторный анализ 371

Таблица О
Общие результаты

Фактор
Множественный Оценки
Переменная 1 2 3 Я2 общностей

1 5Р 0.24 0 .8 5 © 0.23 0.85 0.84


2 М АР 0.37 0 .8 9 ® 0.17 0.96 0.98
3 НЯ 0.03 - 0 .0 6 - 0 .2 3 0 .2 2 0.06
4 ОР 0 .4 9 ® 0 .8 1 ® 0 .1 0 0.94 0.92
5 МУР - 0 .0 6 - 0 .1 3 0 .20 0.28 0.06
6 м сп - 0 .6 4 ® 0 .3 2 -.0 .0 8 0.63 0.53
7 ЦАТ) 0 .5 8 © - 0 .4 5 © 0 .4 8 ® 0.81 0.78
8 Ь(М С Г) 0 .6 8 © - 0 .5 0 ® 0 .4 0 © 0 .8 6 0.89
9 ио —0.09 0 .2 3 - 0 .0 8 0.18 0.07
10 Ь(РУ1) - 0 .5 5 © 0 .0 0 0 .2 2 0.50 0.36
11 Ь(ЯС1) 0 .4 3 ® 0 .0 0 - 0 .0 2 0.26 0 .1 1
12 Hgb 0 .8 8 ® - 0 .0 5 - 0 .3 6 0.96 0.93
13 На 0 .8 9 ф - 0 .0 6 - 0 .3 5 0.96 0.93

х о ж и м и на с о о т в е т с т в у ю щ и е ф а к т о р ы из р а с с м о т р е н н ы х р а н е е
с л у ч а е в , д л я т р е т ь е г о ф а к т о р а эт о неверно. О ц е н к и общ ностей
в целом м ен ьш е, чем при и с п о л ь з о в а н и и просто к о р р е л я ц и о н н о й
м а три ц ы .
5 .7 .2 . Вращ ения ф акторов

С ледую щ и м ш а г о м п о с л е о п р е д е л е н и я ф а к т о р н ы х н а г р у з о к я в л я ­
ется и н т е р п р е т а ц и я к а ж д о г о ф а к т о р а . Д л я этого м о ж н о в о с п о л ь ­
зо в а т ьс я неоднозначностью определения факторов. П о л у ч е н н ы е
ф акт о р ы р[П)......... м о ж н о зам енить их линейными ком бина­
циям и Р г, . . . , ^ т , к о т о р ы е в з а и м н о н е к о р р е л и р о в а н н ы и имеют
единичны е д и с п е р с и и . Т а к и м о б р а з о м , имеется бесконеч ное м но­
ж е с т в о н а б о р о в ф а к т о р о в , у д о в л е т в о р я ю щ и х д а н н о й модели.
П роцедура п олучения н о в о г о н аб о р а факторов назы вается ортого­
н ал ьн ы м в р а щ е н и е м ф а к т о р о в . П о с л е в р а щ е н и я м одель м о ж ет бы ть
з а п и с а н а в вид е
т
* 1 = 1 ¿ = 1 ........ Р, (5-7.19)
/=1

где п о с т о я н н ы е Сц р а в н ы н а г р у з к а м новых ф а к т о р о в . С л е д у е т
за м е ти ть , что в р е з у л ь т а т е о р т о г о н а л ь н о г о в р а щ е н и я ф а к т о р о в
общ ность к а ж д о й и с х о д н о й п е р е м е н н о й Х 1 ост ае т с я без и з м е н е н и я ,
т. е.
т т
}1\ = Г СЬ = I 1ф 1 = 1 , . . . , р. (5.7.20)
/=1 /=1
372 Гл. 5. Методы многомерного статистического анализа

Постоянные
/72

Сц = Ъ hkVkj, i = 1, • ■ Р, j = 1........ т, (5.7.21)

г д е qtij — п о с т о я н н ы е , k = \ , ..., т, / = 1, т. Д л я о б ­
л е г ч е н и я и н т е р п р е т а ц и и ф а к т о р о в эти п о с т о я н н ы е вы б и р а ю т с я
т а к , чтобы р е з у л ь т и р у ю щ и е н а г р у з к и им ели простую структуру.
Г р у б о г о в о р я , с т р у к т у р а ф а к т о р н ы х н а г р у з о к счи тается простой,
к о г д а б о л ь ш и н с т в о и з Сц не с л и ш к о м с и л ьн о о т л и ч а е т ся от н ул я
и л и ш ь н е к о т о р ы е из них им ею т о т н о с и т е л ьн о б о л ь ш и е зн а ч е н и я .
Ц е л ь ю проц едуры вращ ен ия является предсгавление каждой
и с х о д н о й п е р ем е н н о й одним и л и н е б о л ьш и м числом ф акто ров .
Н а г р у з к и о с т а л ь н ы х ф а к т о р о в б л и з к и к н у л ю (T h u r s to n e (1945)).
З а д а ч а и н т е р п р е т а ц и и ф а к т о р о в з н а ч и т е л ь н о о б л е г ч а ет с я п о л у ­
ч е н и е м п р о с т о й с т р у к т у р ы (напом н им , что, согл ас н о зам ечан ию
5 . 7 . 2 . 4 , к а ж д а я н а г р у з к а р а в н а к о эф ф и ц и ен ту к о р р е л я ц и и между
и с х о д н о й п е р е м е н н о й и соответствую щ им ф акто ро м ).
В ф а к т о р н о м а н а л и з е с у щ е с т в у е т м ного гр а ф и ч е с к и х и а н а л и ­
т и ч е с к и х м етодов в р а щ е н и я д л я п о л у ч е н и я пр осто й с т р у к т у р ы .
П р е в о с х о д н ы й обзор этих м етодов с о д е р ж и т с я в р аб о т е H a r m a n
(1 9 6 7 ). В а н а л и т и ч е с к и х м е т о д а х д л я п о л у ч е н и я п р осты х с т р у к ­
т у р ф а к т о р н ы х н а г р у з о к м и н и м и зи р у е т с я т а к н а з ы в а е м а я целе­
вая функция, з а в и с я щ а я от Сц Д л я о р т о г о н а л ь н о г о в р а щ е н и я о б ы ­
чно используется функция
т т р

° - 2 2 2
А= 1 /=1 Li=l
¡Фк

где 0 < у < 1.


При у = 0 в р а щ е н и е , п о л у ч а ем о е в р е з у л ь т а т е м и н и м и за ц и и
функции й, н а з ы в а е т с я «квартимакс». М о ж н о п о к а з а т ь , что м и н и ­
м изация С в этом с л у ч а е э к в и в а л е н т н а м а к с и м и за ц и и

т р
—'tn VУ VZ_i (c2
pm 1
if- c
х ч
2. ) 2
7
(5.7.23)
/=1 t=l

где
т р
(5.7.24)
/=1 i= i
5.7. Факторный анализ 373

В е л и ч и н а , о п р е д е л я е м а я в ы р а ж е н и е м (5 .7 .2 3 ), есть не что иное,


к а к дисперсия к в а д р а т о в всех ф а к т о р н ы х нагрузок. Таким о б р а­
зом, метод « к в а р т и м а к с » м а к с и м и з и р у е т д и с п е рс и ю к в а д р а т о в
ф а к т о р н ы х н а г р у з о к , т . е. в ы б и р а ю т с я ф а к т о р н ы е н а г р у з к и
с д о стато чн о б о л ь ш и м д и а п а з о н о м з н а ч е н и й . П р и этом б о л ь ш и е
з н а ч е н и я н а г р у з о к у в е л и ч и в а ю т с я , а м а л е н ь к и е с т ан о в я тс я ещ е
м е н ьш е , и в р е з у л ь т а т е к а ж д ы й в е к т о р с в я з ы в а е т с я с в о зм о ж н о
м еньш им числом и с х о д н ы х п е р е м е н н ы х .
П р и у = 1 м ето д в р а щ е н и я н о с и т н а з в а н и е м «варимакс ». Этот
м етод п р и м е н я е т с я о с о б е н н о ч а с т о . М о ж н о п о к а з а т ь , что в этом
с л у ч а е м и н и м и за ц и я О э к в и в а л е н т н а м а к с и м и з а ц и и

т р

- ^ 2 2 И / - сЬ )г- (5.7.25)
/=1 ¿=1

где

£ 4 - / = 1 .••••«. (5-7.26)

В ы р а ж е н и е (5.7.25) е с т ь с у м м а д и с п е р с и й к в а д р а т о в ф а к т о р н ы х
н а г р у з о к по к а ж д о м у с т о л б ц у . Т а к и м о б р а з о м , метод «варим акс»
м а к с и м и зи р у е т р а з б р о с к в а д р а т о в н а г р у з о к д л я к а ж д о г о ф а к т о р а ,
что п р и в о д и т к у в е л и ч е н и ю б о л ь ш и х и у м е н ь ш е н и ю м а л ы х з н а ч е ­
ний ф а к т о р н ы х н а г р у з о к . Н о в э т о м с л у ч а е про с т а я с т р у к т у р а п о ­
л у ч а е т с я д л я к а ж д о г о (ф ак то ра в о т д е л ь н о с т и , то гд а к а к в методе
«кв а р т и м а к с» п р о с т а я с т р у к т у р а о п р е д е л я е т с я д л я всех ф а к т о р о в
одноврем енно.
Д о сих пор р а с с м а т р и в а л и с ь т о л ь к о о р т о г о н а л ь н ы е в р а щ е н и я
об щ и х ф а к т о р о в . С у щ е с т в у е т м н е н и е , ч то в а ж н е е п о л у ч и т ь п р о ­
стую с т р у к т у р у ф а к т о р н ы х н а г р у з о к , чем с о х р а н и т ь о р т о г о н а л ь ­
ность ф а кт о р о в. П о э т о м у у с л о в и е н е к о р р е л и р о в а н н о с т и ф а к т о р о в
о с л а б л я е т с я и и щ у т ся к о р р е л и р о в а н н ы е ф а к т о р ы Р { ^ \ •••> Рт
с единичными д и с п е р с и я м и , я в л я ю щ и е с я ли н ей н ы м и к о м б и н а ­
ц и ям и ф а к т о р о в Р 1г . . . , Р т. Т а к о й н а б о р ф а к т о р о в не у д о в л е т в о ­
р я е т ф а к т о р н о й м о д е л и (5.7.6). П р о ц е д у р а п о л у ч е н и я т а к и х
ф а к т о р о в н а з ы в а е т с я к осоугол ьн ы м вращением. М о д ель, п о л у ч а ю ­
щ а я с я в р е з у л ь т а т е в р а щ е н и я , е щ е м о ж е т бы ть п р е д с т а в л е н а у р а в ­
н е н и я м и (5.7.19) с п о с т о я н н ы м и Сц, I = 1, . .. , р, / = 1, ..., т,
з а д а в а е м ы м и ф о р м у л о й (5 .7 .2 1 ). П о с к о л ь к у п о л у ч е н н ы е ф а к т о р ы
м о гут бы ть к о р р е л и р о в а н н ы м и , и м е е т с я более ш и р о к а я об л а с т ь
и зм е н ен и я п о с т о я н н ы х /г, / = 1 , ..., т, и в свою о ч еред ь
б о л ь ш и й выбор С ц .
374 Гл. 5. Методы многомерного статистического анализа

А н а л и т и ч е с к и е методы о п р е д е л ен и я просты х ф а к т о р н ы х н а г р у ­
з о к с помощ ью в р а щ е н и и , м и н и м и зи р у ю щ и х ф у н к ц и ю G (см.
( 5 . 7 . 2 2 ) ) , н а з ы в а ю т с я прямыми методами «облимин» (подробности
см. J e n n r i c h , S a m p so n (1966)). В р а б о т е H a r m a n ) (1967, с. 336)
п р е д л а г а е т с я и зм е н я т ь у от — оо до 0. Ч ем м еньш е у, тем более
к о р р е л и р о в а н н ы м и б у д у т п о л у ч е н н ы е ф а кто ры . П р и у = 0 п о л у ­
ч а е т с я прямой метод «кварт имию , п р е д с т а в л я ю щ и й собой к о с о ­
у г о л ь н ы й а н а л о г м етод а « ква р т и м а к с» . О д н ак о , п о с к о л ь к у не
т р е б у е т с я н е к о р р е л и р о в а н н о с т и ф акт о р о в , этот м ето д не с в о ­
д и т с я к м а к с и м и з а ц и и д и сп ерси й кв а д р а т о в ф а к т о р н ы х н а г р у з о к
(5 .7 .2 3 ).
П р я м ы е методы «облимин», од н а ко , не были первы м и методами
к о с о у г о л ь н о г о метода в р а щ е н и я ф а к т о р о в . Ч т о б ы д а т ь п р е д с т а в ­
л е н и е о т о м , к а к и с т о р и ч е с к и р а з в и в а л и с ь эти методы, введем
н е с к о л ь к о новых; понятий.
1) П у с т ь F[r \ . .. , F^m — р е з у л ь т а т ы в р а щ е н и я ф а к т о р о в ,
т о г д а р х m -м а три ц а к о р р е л я ц и й м еж д у ним и и исходны ми п е р е ­
м е н н ы м и Х 1, ..., Х р н а з ы в а е т с я ф а к т о р н о й с т р у к т у р о й . С ледует
з а м е т и т ь , ч то если ф а к т о р ы , пол у ч е н н ы е в р е з у л ь т а т е в р а щ е н и я ,
не к о р р е л и р о в а н ы , т о ф а к т о р н а я с т р у к т у р а и д е н т и ч н а м а тр и ц е
ф а к т о р н ы х нагрузок.
2 ) К аж дому ф а к т о р у FtR), i = 1 , .. . , т, м о ж н о п о с т а в и т ь
в с о о т в е т с т в и е ф актор Gt не к о р р е л и р о в а н н ы й с F/ R), / = 1, ..., т,
/ ф i . В е л и ч и н ы G b . . . , Gn н а зы в а ю т с я вторичными факторами
и г о в о р я т , что они биортогональны ф а к т о р а м F\R), ..., F iR)
( T h u r s t o n e (1945)). З а м е т и м , что е с л и ф а к т о р ы F[R), F [R)
н е к о р р е л и р о в а н ы , т о G, = F\r \ i = 1, ..., т.
3) М а т р и ц а р а з м е р а р X т, у кото рой эл ем енто м Ьц с л у ж и т
к о э ф ф и ц и е н т к о р р е л я ц и и м е ж д у исходной перем енной X t и в т о ­
р и ч н ы м ф а к т о р о м Gj, i = 1 , .. . , р , / = 1 ......... т, н а зы в а е т с я
с т р у к т у р о й вторичных, факторов (или просто вторичной ст рук­
т ур о й ) . Е с л и ф а к т о р ы , п о л у ч е н н ы е в р е з у л ь т а т е в р а щ е н и я , не
к о р р е л и р о в а н ы , то вторичная ф акторная структура совпадает
с ф а к т о р н о й структурой.
И с т о р и ч е с к и дело о б ст о я л о т а к , что посредством о р т о г о н а л ь ­
н ы х в р а щ е н и й п ы т а л и с ь н а й т и пр о с т у ю ф а к т о р н у ю с т р у к т у р у
( и н о г д а н а зы в а е м у ю п ро сто й с т р у к т у р о й ), тогда к а к с помощью
к о с о у г о л ь н ы х вр а щ е н и й и с к а л и п ро стую вт о р и ч н у ю с т р у к т у р у .
1 а к и м о б р а з о м , пр и к о с о у г о л ьн ы х в р а щ е н и я х м и н и м и зи р у е т с я
ц е л е в а я функция
5.7. Факторный а н а л и з 375

где Vjj = c o rr ( X h Gj) м е н я е т с я от 0 до 1. Аналитические


методы, в которых ищ ется простая вторичная структура,
н а зы в а ю тс я (непрям ы м и) методами «облимин ». Такие ме­
тоды м огу т быть с в я з а н ы с п р я м ы м и методами «облимин » р а ­
ве н с т в а м и Vij = djCij, где dj постоянные, i = 1 , .. . , р,
/ = 1 , . . . , т.
I ■ П р и у — 0 п о л у ч а е т с я ( непрямой) метод квартимин, п р и
у '= 1 / 2 — ( непрямой ) ч б иквартимину> и пр и у — 1 — ( непрямой )
«коваримин». К о о р д и н а т н ы е оси по с л е в р а щ е н и я н а и б о л е е с и л ь н о
отли ча ю тс я от п р я м о у г о л ь н ы х при у = 0 и б л и з к и к н и м п р и
у = 1 ( H a rm a n (1967, с. 326)).

З а м е ч а н и е 5 . 7 . 3 . 1. У с о в е р ш е н с т в о в а н н а я п р о г р а м м а ф а к т о р ­
ного а н а л и з а и з П С П п о з в о л я е т п о л ь зо в а т е л ю в ы б и р а т ь способ
в р а щ е н и я из с о в о к у п н о с т и с л е д у ю щ и х в о з м о ж н ы х м етодов:
а) в р а щ е н и е не т р е б у е т с я , Ь) о р т о г о н а л ь н ы е в р а щ е н и я , с) п р я ­
мые в р а щ е н и я « о б л и м и н » (к о с о у г о л ь н ы е в р а щ е н и я д л я п о л у ч е н и я
простой с т р у к т у р ы ф а к т о р н ы х н а г р у з о к ) , и л и d) (непр ям ы е)
в р а щ е н и я «облимин» ( к о с о у г о л ь н ы е в р а щ е н и я д л я у п р о щ е н и я
в то рич ной с т р у к т у р ы ) . К р о м е т о го , м о ж н о будет з а д а в а т ь з н а ч е ­
ние у д л я ц е л е в о й ф у н к ц и и G и м а к с и м а л ь н о е д о п у с ти м о е ч и с л о
в р а щ е н и й . В р а щ е н и я в ы п о л н я ю т с я з а д ан н о е ч и сл о р а з , и л и до
тех пор, пока о т н о ш е н и е и з м е н е н и я ф у н к ц и и G к ее н а ч а л ь н о м у
зн а ч е н и ю не с т ан ет м е н ь ш е н е к о т о р о й з а р а н е е з а д а н н о й в е л и ­
чины.
2. Д а л ь н е й ш е е у с о в е р ш е н с т в о в а н и е состои т в том, что ф а к т о р ­
ные н а г р у з к и Сц м о г у т б ы т ь «нор м и ро ван ы » зам ен о й их о т н о ш е н и ­
ями Cijlhi, i = 1, ... , р , j = 1, ..., т. Этот п р и е м н а з ы в а е т с я
нормировкой Кайзера. В этом случае к аж д ая переменная
бу дет вносить "вк л ад с о о т в е т с т в е н н о [своей об щ н ости (K a ise r
(1958)).

Пример 5.7 .1 ( продолжение ). Д л я о б л е гч е н и я и н т е р п р е т а ц и и


ф а к т о р о в , п о л у ч е н н ы х во в с е х т р е х с л у ч а я х , бы ли пр и м ен е н ы
методы в р а щ е н и я ф а к т о р о в . Ч и с л о в р а щ е н и й б ы ло о г р а н и ч е н о 50.
Результаты пр и во дятся ниже.

Пример 5 .7 .1 а , Т р и ф а к т о р а б ы ли п о д в е р г н у т ы в р а щ е н и ю
«варимакс». П о л у ч е н н ы е ф а к т о р н ы е н а г р у з к и п р и в о д я т с я в т а б ­
лице. И н т е р п р е т а ц и я ф а к т о р о в д е й с т в и т е л ь н о у п р о с т и л а с ь .В ч а с т ­
ности, ф актор F[R) в к л ю ч а е т в себя к р о в о т о к и п о с л е д н и е т р и
перем енные. О н м о ж е т б ы т ь н а з в а н ф а к т о р о м к р о в о т о к а и с о с т а в а
к р о в и . Второй ф а к т о р с и л ь н о к о р р е л и р о в а н с т р е м я п е р е м е н н ы м и ,
со ответствую щ им и а р т е р и а л ь н ы м д а в л е н и я м , и м о ж е т б ы ть н а з ­
376 Гл. 5. Методы многомерного статистического анализа

ван ф а к т о р о м артериального д авл ен и я. И наконец, м ож н о


и н т е р п р е т и р о в а т ь к а к ф акто р о б ъем а к р о в и .

Фактор

Переменная 1 г 3

1 ЭР - 0 .0 8 0 .9 3 © - 0 .0 8
2 МАР - 0 .0 4 0.97 ф 0.06
3 НЯ - 0 .22 - 0 .1 9 0 .5 3 ®
4 ОР 0.04 0 .9 3 ® 0 .2 1
5 МУР 0 .20 - 0 .1 2 - 0 .3 4
6 ЦС1) - 0 .6 3 ® 0.08 - 0 .4 8 ©
7 ЦАТ) 0 .8 6 ф - 0 .1 1 - 0 .0 2
8 ЦМ СТ) 0.88 ф - 0 .1 4 0.17
9 ио - 0 .3 2 0.21 0.08
10 Ь(РУ1) - 0.20 - 0 .1 3 - 0.78 (X)
11 Ь(ЯС1) 0 .4 6 © 0.23 - 0 .0 5
12 Н8Ь 0 .6 0 © 0.26 0 .6 0 ©
13 на 0.61 @ 0.26 0 .5 9 ®

П р и м е р 5 . 7 . 1Ь. Б ы л о п рои зве де н о в р ащ е н и е методом «вари-


макс» пяти полученных ранее ф акторов. П ервы е т р и столбца
ф а к т о р н ы х н а г р у з о к после в р а щ е н и й о тли чаю тся от с о о т в е т с т в у ­
ю щ и х н а г р у з о к из пр и м ер а 5 .7 .1 а . П о л у ч е н н ы е ф а к т о р н ы е н а г р у ­
зк и п р и в о д я т с я в таблице.

Фактор

Переменная 1 2 3 4 5

1 вР - 0 .1 1 0 .9 4 © - 0 .0 9 0 .0 2 0.03
2 М АР - 0.01 0.98 ф - 0.00 - 0 .0 4 0.04
3 НЯ - 0 .0 8 - 0 .10 0.81 ф 0.17 0.04
4 ОР 0 .1 0 0 .9 5 © 0.09 - 0 .0 8 0.09
5 М УР 0.03 - 0.00 - 0.00 0.81 ф - 0 .1 4
6 1ДС1) - 0 .8 5 © 0.02 - 0 .1 4 0.01 0.07
7 1ДАТ) 0 .7 8 © - 0.13 - 0 .3 6 0.14 0.19
8 1ДМ СТ) 0.88 ф - 0 .1 2 - 0 .1 4 0.21 0.14
9 иО - 0 .1 5 0.14 - 0 .1 9 -0 .6 7 © - 0 .1 4
10 Ь(РУ1) - 0 .6 1 © - 0 .2 1 - 0 .4 9 © 0.27 0.18
11 иЯ С 1) 0.08 0.01 - 0 .0 9 0.02 0 .8 8 ф
12 Нё Ь 0 .6 4 © 0 .2 1 0.32 - 0 .1 6 0 .5 4 ©
1 3 На 0.65 @ 0 .2 1 0.30 - 0 .1 5 0 .5 4 ®
5.7. Ф акторный анализ 377

П о л у ч е н н ы е факторы м о ж н о и н т е р п р е т и р о в а т ь с л е дую щ и м о б р а ­
зом: Т7 ! * 1 — к р о в о т о к , — а р т е р и а л ь н о е давление, —
ч а с т о т а сердечных с о к р а щ е н и й и п л а з м а , — д и у р е з и / Г5 К) —
состав кро ви .

П рим ер 5 .7 .1 с . Т р и ф а к т о р а б ы л и п о д в е р г н у т ы к о с о у г о л ь ­
ному вращ ен и ю с и с п о л ь з о в а н и е м м е т о д а «квартим и н». П о л у ч е н н ы е
факторные нагрузки приводятся в таблице.

Ф актор

П еременная 1 2 3

1 8Р — 0.13 0 .9 4 © 0.01
2 МАР 0.00 0 .9 9 ® - 0.01
3 ня 0.27 - 0 .1 7 - 0 .2 1
4 ОР 0.17 0.91 © - 0.01
5 МУР - 0 .2 4 - 0 .0 2 0.24
6 Ь (С 1 ) - 0 .3 6 0.06 - 0 .4 8 ©
7 ЦАТ) - 0 .0 8 0 .0 2 0.92 ф
8 ]_(МСТ) 0.07 - 0 .0 2 0.91 ©
9 ир 0.00 0.13 - 0 .2 2
10 Ы Р У 1) - 0 .5 9 ® - 0 .0 4 0.01
11 Ц К С 1) 0.25 0.09 0 .1 1
12 Н8Ь 0 .9 6 ® 0 .0 1 0 .01
13 Нс1 0.95 © 0 .0 1 0.03

В о з м о ж н а с л е д у ю щ а я и н т е р п р е т а ц и я э т и х ф акт о р о в: / 7 1 Л| — с о ­
с тав к р о в и , — артериальное д а в л е н и е , / 7з ^ ) — к р о в о т о к .
З а м е т и м , что и н т е р п р е т а ц и я эти х ф а к т о р о в прощ е, чем в п р е д ы ­
д у щ и х с л у ч а я х , п о с к о л ь к у н а в р а щ е н и я б ы ли н а л о ж е н ы менее
с т р о ги е о г р а н и ч е н и я . М а т р и ц а к о р р е л я ц и й м е ж д у ф а к т о р а м и
имеет вид

1 2 3
1 1.00 0 .2 2 0 .4 9
2 0.22 1 .00 -0.12
3 0 .4 9 - 0 .1 2 1 .0 0

П ервы й и трети й ф а к т о р ы н а и б о л е е с и л ь н о к о р р е л и р о в а н ы , а
второй и т р е ти й — к о р р е л и р о в а н ы о т р и ц а т е л ь н о и с л а б е е всего.
¡J78 Гл. 5. Методы многомерного статистического анализа

5 .7 .3 . З н а ч е н и я ф акторов
Во м н о г и х с л у ч а я х т р е б у е т с я о п р е д е л и т ь значения факторов
д л я д а н н о г о в е к т о р а х = (хх, ..., х у . Н а п р и м е р , в з а д а ч е об
о п р е д е л е н и и к у л ь т у р н о г о у р о в н я с у щ е с т в у ю т д в а об щ и х ф а к т о р а :
к а ч е с т в е н н ы й и ко л и ч е с т в ен н ы й , ко т о р ы е о п и с ы в а ю т умственные
с п о с о б н о с т и студента. П о д а н н о м у в е к т о р у (хь ..., хр) р е з у л ь т а ­
тов т е с т а т р е б у е т с я оц е н и ть з н а ч е н и я ф а к т о р о в д л я о п и с ан и я
у м с т в е н н ы х способностей сту де н та . С тан д ар т н о го метода о ценки
з н а ч е н и й ф а к т о р о в н е с у щ е с т в у е т. К а к п р а в и л о , д л я этой цели
и с п о л ь з у е т с я техника регрессионного анализа. Если рассматривать
ф а к т о р ы к а к з а в и с и м ы е пер ем енн ы е, а исходные пер ем енн ы е X it
i — 1, . . . , р, считать н е за в и с и м ы м и , то м о ж н о за п и с а т ь следую щ и е
уравнения:

F, = 1 : Ь ^ , ■ у = 1 ........ т, (5.7.28)
А t=i
где Fj — о ц е н к а з н а ч е н и я /- ф а к т о р а , 2г — сгандартизованная
о ц е н к а з н а ч е н и я i -й п е р е м е н н о й , т. е.
X; — X; .
Zi = — Г — » 1 = 1 , . . .,р,
*I
Ьц — о ц е н к и коэфф ициентов р е г р е с с и и , и н о гд а о н и ^'назы в аю тся
коэффициентами значений факторов. Н а п ом н и м , что Ьц я в л я е т с я
ф у н к ц и е й коэф ф ициентов к о р р е л я ц и и и с х о д н ы х пер ем ен н ы х д р у г
с д р у г о м и и х к о р р е л я ц и й с общими ф а к т о р а м и (см. з а м е ч а н и е
5 .7 .4 ) . К а к п р а в и л о , п р о г р а м м ы ф а к т о р н о г о а н а л и з а д аю т в о з ­
м о ж н о с т ь п о л у ч и т ь зн а ч е н и я ф а к т о р о в и их коэфф ициенты д л я
всех э л е м е н т о в выборки.

З а м е ч а н и е 5 . 7 . 4 . ★ К о эф ф и ц и ен ты Ьц м огут бы ть п о л у ч е н ы
с л е д у ю щ и м о б р а з о м . П о л о ж и м bj = (Ьц, ..., boJy , \) = ( /,;, ...,
... , Ipj)' и п у с т ь R — в ы б о р о ч н а я к о р р е л я ц и о н н а я м а т р и ц а .
Т о г д а b7- = R _1ly. Б о л е е под р обн о см. H a r m a n (1967). ★
П р и м е р 5 .7 . 2 . Ф а к т о р н ы й а н а л и з д ан н ы х , с о б р а н н ы х в основ­
но м у з д о р о в ы х с л у ж а щ и х (п = 388), п р и м е н я л с я д л я изуч ен и я
в з а и м о с в я з и п о к а з а т е л е й ф у н к ц и и л е г к и х , о п р е д е л ен н ы х с по­
м о щ ью к р и в ы х «поток— объем» и а зо т н о г о а н а л и за одного в д о х а —
в ы д о х а . И с п о л ь з о в а л и с ь с л ед у ю щ и е переменные: ф о р с и р о в а н н а я
ж и з н е н н а я е м к о с т ь л е г к и х (FV C), м а к с и м а л ь н а я в е н т и л я ц и я
л е г к и х (Ущах), в е н т и л я ц и я на у р о в н е 50 % FV C (V50), в е н т и л я ц и я
н а у р о в н е 25 % FVC (V25), о тно ш ен ие остаточной ем кости к п о л ­
ной е м к о с т и л е г к и х (CC/TLC) и отнош ен ие остаточного объема
к ж и з н е н н о й емкости л е г к и х (CV/VC). П од робн ос ти и зуч ен и я
эт о й п о п у л я ц и и , а т а к ж е методы сб о р а д а н н ы х п р е д с т а в л е н ы в р а ­
боте A z e n et al. (1978).
5.7. Факторный анализ 379

В п р и л а г а е м о й т а б л и ц е п р и во д я т с я р е з у л ь т а т ы ф а к т о р н о г о
анализа д а н н ы х , с о б р а н н ы х у с л у ж а щ и х м у ж с к о г о по л а .
П ерем енны е, о б ъ е д и н я е м ы е ф актором (для кот о р ы х н а г р у з к и
больш е 0,5), п о д ч е р к н у т ы . П ервы й ф ак т о р о к а з а л с я с и л ьн е е
всего к о р р е л и р о в а н н ы м с Р Е У ^ РУС, У тах, Уво. У 2 5 . вто рой ф а к ­
тор — с СС/ТЁС и с С У /У С . Эти д в а ф а к т о р а о б ъ я с н я ю т 75 %
д и спер сии . Д л я ж е н щ и н б ы ли по лучены а н а л о г и ч н ы е р е з у л ь т а т ы .

Переменная Фактор I Фактор R

FEV, 0.94 - 0 .3 0
FVC 0.72 - 0 .2 4
Нт „ 0.53 -0 .0 8
0.71 -0 .3 5
Уц 0.66 - 0 .4 0
CC/TLC -0 .2 8 0.84
CV/VC -0 .2 5 0.88

С огласн о п р о в е д е н н о м у а н а л и з у , д л я к а ж д о г о и н д и в и д у у м а
было определено д в а з н а ч е н и я ф ак т о р о в . П е р в ы м из н и х ( з н а ч е ­
ние (фактора « п о т о к — объем») бы ло сре д н ее с т а н д а р т и з о в а н н ы х
зн а ч е н и й F E V ^ F V C , V max, V 5o> У 25. вторы м (зн а ч е н и е ф а к т о р а
«остаточный объем») — средн ее стандартизованны х зн а ч е н и й
СС/ТСС и C V /V C .
С т а н д а р т и з а ц и я к а ж д о й переменной б ы л а п р о в е д е н а с и с п о л ь ­
зо вани ем Т-преобразования. Этот метод п о з в о л я е т п р е о б р а з о в ы ­
в а т ь переменные с с и л ь н о асимм етричны м ил и м у л ь т и м о д а л ь н ы м
распределен ием к н о р м а л ь н о р а с п р е д ел е н н ы м перем енны м.
Метод 7 - п р е о б р а з о в а н и я состоит в с л еду ю щ ем . Д л я за д а н н о й
п ерем енной, н а п р и м е р F E V b о б ъекты р а н ж и р у ю т с я от 1 до п
(объем выборки) с о г л а с н о ве л и ч и н е зн а ч е н и й F E V i - Д л я с о в п а д а ю ­
щ и х значений б е р е т с я у с р е д н е н н ы й р а н г . Т а к и м о б р азо м , к а ж д ы й
р а н г п р е в р а щ а е т с я в н а к о п л е н н у ю д о л ю ч и с л а п. П р е о б р а з о в а н н о е
зн а ч е н и е F E V ,, т а к н а з ы в а е м о е Т-значение, о п р е д е л я е т с я по ф о р ­
м уле
(Т-значение),- = 10 х Ф -1 (Fjri) + 50, i = 1, . , *v

где Filn — н а к о п л е н н а я д о л я , со о т ветств ую щ ая i -му р а н г у ,


а Ф -1 — ф у н к ц и я , о б р а т н а я к ф у н к ц и и р а с п р е д е л е н и я N (0, 1).
Т -з н а ч е н и я и м е ю т н о р м а л ь н о е р а с п р е д е л е н и е со средним 50
и стан дартны м о т к л о н е н и е м 10. Д л я изм ерен и й к а ж д о г о п р и з н а к а
б ы л и найдены с о о т в е т с т в у ю щ и е Т - з н а ч е н и я . Т а к а я п р о ц е д у р а
н а х о ж д е н и я з н а ч е н и й ф а к т о р о в п р е д с т а в л я е т собой а л ь т е р н а т и в у
регрессионного м е т о д а (5.7.28).
380 Гл. 5. Методы многомерного статистического анализа

5.8. Многомерный дясперсиониый анализ

П у с т ь д л я к а ж д о г о и з п о б ъ е к т о в и з м е р я ю т с я ^ п ерем ен н ы х . О б о з ­
начим их следую щ им образом:

И ндивиЬ уум

П ерем енн ая 1 г ■
■■ п

1 2 5’ln
У"

Р ñ.

П у с т ь в е к т о р Y"х = ( Г 1г-, . . . , Y ir) ' соо тветств ует п н е з а в и с и ­


мым и з м е р е н и я м i -я перем енн ой, г = 1, . . . , р. Д л я к а ж д о г о т а ­
к о г о в е к т о р а Y ¡ м о ж н о ра с с м отр е т ь одномерную л и н е й н у ю м одель.

Е ( Y/) = x 'ßf. « ж (Y,) = а и I. ( 5 .8 .1 )

З д е с ь ( Х ' ) ' !ХП1 — м а тр и ц а п л а н а р а н г а г < т < ^п, о н — д и с п е р ­


сия i -й п е р е м е н н о й и ß P xl = ( р г1......... ßim) ' — в е к т о р и з т н е ­
и з в е с т н ы х п а р а м е т р о в , с п е ц и ф и ч н ы х д л я к а ж д о й перем енн ой.
Д а л е е , р л и н е й н ы х моделей, за д а в а е м ы х ф о р м у л а м и (5 .8.1), в з я ­
тые в м есте, с о с т а в л я ю т многомерную обобщенную линейную модель.
З а м е т и м , ч т о м а т р и ц а п л а н а о д и н а к о в а д л я всех пе ре м е н н ы х , а
в е к т о р ы ßi м о г у т бы ть р а зл и ч н ы . З а в и с и м о с т ь пер ем енн ы х в ы р а ­
ж ается формулой

c o v (Y¿, Y ) = o¡jI , i, i = 1 ..........p , ( 5 .8 . 2 )

где o i} — к о в а р и а ц и я м еж д у ¿-й и /-й перем енн ы м и . И н а к о н е ц ,


п р е д п о л а г а е т с я , что р < п — г и т <1 п.
М о д е л ь , з а д а в а е м у ю с о о т н о ш е н и я м и (5.8.1) и (5.8.2), м о ж н о
п р е д с т а в и т ь в виде

Y = X 'ß + e, (5 . 8 . 3 )

гд е

Уц >21 • ■ V
Yпхр _ У}2 ■

Án УZn ■ Ут
5.8. Многомерный дисперсионный анализ 381

— м а тр и ц а з н а ч е н и й о т к л и к о в , ( X ' ) nxm— м а т р и ц а п л а н а р а н г а г и

ßu ßzi ßPl
ßl 2 ßl 2 ßPZ

ßl m ßz ßm
— м а т р и ц а н е и з в е с т н ы х п а р а м е т р о в . И н а к о н е ц , е " хр — м а т р и ц а ,
с т р о к и котор ой с о с т а в л я ю т с л у ч а й н у ю в ы б о р к у р а з м е р а п из
н е в ы р о ж д е н н о го о-м ер н о г о р а с п р е д е л е н и я N (0, 2 ) , где Е рхр —
к о в а р и а ц и о н н а я м а т р и ц а , а 0 рх1 — н у л е в о й ве к т о р . У р а в н е н и е
(5.8.3) я в л я е т с я ф о р м а л ь н о й з а п и с ь ю м ногом ерной обобщ енной
л и н е й н о й модели.
П ример 5 .8 .1 . Д а н н ы е д л я э т о г о п р и м е р а в з я т ы из и сследо­
в а н и я , п р о в е д е н н о го н а о с н о в е с п е ц и а л ь н ы х а н к е т, за п о л н е н н ы х
н а 461 судебного и с п о л н и т е л я м у ж с к о г о п о л а в о к р у г е Л о с - А н д ­
ж е л е с (подробности э т о г о и с с л е д о в а н и я см. B S n i b b e e i al. (1975)).
А н к е т а F orm А (Cattel! e t al. (1 970 )) о ц е н и в а е т 16 ф а к т о р о в , х а р а к ­
т е р и зу ю щ и х личность о п р а ш и в а е м о г о . Б ы л о и н тер есно к л а с с и ф и ­
ц и р о в а т ь су деб н ы х и с п о л н и т е л е й н а 3 г р у п п ы : л а т и н о а м е р и к а н ц ы ,
(пл = 33 )( н е г р о и д ы ( п 2 = 29) и е в р о п е о и д ы ( п3 = 399). В д анном
с л у ч а е л = 461, и = 16 и — в е к т о р и з 461 н а б л ю д е н и я ¿-го
ф а к т о р а , г = 1, . . . , 1 6 .
Д л я i-ro ф а к т о р а в п р и н я т ы х о б о з н а ч е н и я х м о д е л ь им е ет вид
У{/ = ц/ х 1 + а ц Х д +• cci2X /2 + ец, i = 1 , . . . , 16, / = 1 , . . . , 461.
З д е с ь ß ; = ( ц г, а г1’ «¿г)' — в е к т о р и з т = 3 п а р а м е т р о в , соо т в ет с т ­
в у ю щ и й i -му ф а к т о р у . С т р о к а с н о м е р о м } м а тр и ц ы X' им еет вид
(1, X n , Ä j2), j = 1, 4 6 1, г д е п е р е м е н н ы е Х п и X j2 о п р е д е л я ю т
г р у п п у , т. е. д л я j -го и н д и в и д у у м а
(1, 0), е с л и он л а т и н о а м е р и к а н е ц ,
(Х д , X j 2) = (0, 1), е с л и он негроид,
. ( — 1, — 1), е с л и он европеоид.
З а м е т и м , что г — tn = 3 и м о д е л ь в м а т р и ч н о й ф о рм е з а п и с ы в а ­
е т ся следую щ и м о б р а з о м :
'1 1 0‘ ßi Hz ßlb
■у.,1 ■' Пб.1 1
«И «21 «16. 1 + е.
. у 1 1 0 «12 «22 «16,2
Yi. зз • Г16, 33
^16. 34 1 0 1
У,.34 •

^1. «2 ^16. 62 1 0 1
1 -1 -1
*i. 63 • ‘ П6, 63

" ^16, 461 _ 1 -1 -1


^1, 461
382 Гл. 5. Методы многомерного статистического анализа

5 . 8 . 1 . О ц е н к и п а р а м ет р о в

М о ж н о п о к а з а т ь , что о ц е н к о й служ ит М Н К -оценка, исп ользу­


ю щ а я н а б л ю д е н и я т о л ь к о перем енной \ ¡ ( R a o (1965)). Т а к и м
о б р а з о м , а н а л о г и ч н о одном ерной л и н е й н о й м о дел и , о ц е н к а ß ;
п а р а м е т р а ßj п о л у ч а е т с я в р е з у л ь т а т е р еш ен ия системы н о р м а л ь ­
ных уравнени й
(XX)' h = XY¿, (5.8.4)
где i = 1, . . . , р.
Н е с м е щ е н н а я о ц е н к а a iU как и д л я одном ерного с л у ч а я , имеет
вид

ка. о
- Т = Г ~ - ------------------------- ’ (5 -8 -5 )
где г — р а н г м а тр и ц ы X '. Н есм ещ енн о й о ц ен к о й д л я a¡j будет
ъа. п r;Y (x'y;) ß
n - r --------------- ~¡í~ r ---------- * Í, / = (5.8.6)

В е л и ч и н а R 0 (i, i) н а з ы в а е т с я остаточной суммой квадратов ,


а Ro (*"» У) — остаточной суммой произведений. М а т р и ц а

R0( l , l ) ЛоО.р)'
Щ <р =
R 0(p, 1) ••• R0(P,P).

н а з ы в а е т с я матрицей остаточных сумм квадратов и произведений.

Пример 5 .8 .1 ( продолжение ). Д л я t -й пе р е м е н н о й , i = 1, ...,


16
461 33 62

Ai = 4бТ Y 4' = зз Y i> ~ 'й ‘ и 0, 2 = 29 Yi‘ ~ ^


/= 1 /= 1 /= 3 4
Н е с м е щ е н н ы е оценки для а п и суть соответственно сггг =
461 461
= 2 ( Г ^ - У „ ) * / ( 4 6 1 - 3 ) и&„ = S — YikY[Y¡k — Fy*)/(461 -
/=1 k=\
— 3). З д е с ь Y,J = |X¡ + а п Х п +- a¡tX н .

5.8.2. Проверка линейных гипотез

В р а б о т а х R a o (1965) и A n d e rso n (1958) оп и с ы в а е тся п р о в е р к а г и ­


п о т е з д л я обобщ енной многомерной л и н е й н о й м од е л и . М ы р а с ­
с м а т р и в а е м с п е ц и а л ь н ы й с л у ч а й од новр ем енно й п р о в е р к и н е­
5.8. М ногомерный дисперсионный анализ 383

с к о л ь к и х о д н о м е р н ы х г и п о т е з , к а ж д а я из к о т о р ы х д ел а е т с я о т ­
н о с и те л ьн о о т д е л ь н о й п е р е м е н н о й . С л е д о в а т е л ь н о , т р е б у е т с я о д ­
н ов ре м е н н о п р о в е р и т ь г и п о т е з ы
Я 0: H ' ß , = Sí , i = l,...,p, (5.8.7)

и л и , в более к о м п а к т н о й з а п и с и ,
H 'ß [SiS2 . . . SP1, (5.8.8)

г д е м а т р и ц а ( Н ' ) 5Хт и м е е т р а н г s < r и в е к т о р ы | í xl п р ед по л агаю тся


з а д ан н ы м и . Е с л и э т а г и п о т е з а в ы п о л н я е т с я , то п о л у ч а е т с я м о­
дель с ограничениями, н а о с н о в е к о т о р о й м о ж н о н ай ти о ц е н ки ß*
п а р а м е т р о в ß ; и м а т р и ц у R x о с т а т о ч н ы х су м м к в а д р а т о в и п р о и з ­
в еден ий. М а т р и ц а Rj^ — R0 н а з ы в а е т с я м а т р и ц е й сумм к в а д р а т о в
и п р о и зв е д е н и й , обусловленных отклонением от гипотезы. Р а з л о ­
ж е н и е R x в в и д е Ro - f ( R i — R 0) я в л я е т с я обобщ ением о д н о м е р ­
ного д и с п е р с и о н н о г о а н а л и з а . Т а к и м о б р а з о м , о т к л о н е н и е от
г и п о т е зы Н0 м о ж е т б ы т ь о п р е д е л е н о с р а в н е н и е м м а т р и ц R 0
Ri Ro •
В р а б о т е R a o (1965) п о к а з а н о , ч т о п р и в ы ч и с л е н и и с т ат и с т и к и
к р и т е р и я для п р о в е р к и ги п о т е зы (5.8.8) т р е б у е т с я о п р е д е л и т ь
,р к о р н е й ^j, Я2, . . . , К ’ р характеристического уравнения
I Ro — Ä.RX I = 0. (5.8.9)

Д л я п р о в е р к и г и п о т е з ы м о г у т б ы т ь и с п о л ь з о в а н ы р а зл и ч н ы е
ф ункции, зависящ ие о т Одним из кри тери ев может служ ить
п р о в е р к а м и н и м а л ь н о г о к о р н я ( m i n ^ ;), п о с к о л ь к у он о т р а ж а е т
м а кс и м а л ь н о е о т к л о н е н и е о т г и п о т е з ы Н 0. Д р у г и м к р и т е р и е м ,
ч асто и с п о л ь з у е м ы м в п р о г р а м м а х , я в л я е т с я A -критерий Уилкса
(W ilks (1932)):

A. (5.8.10)

П ример 5 . 8 . 1 ( продолж ение ). П у с т ь т р е б у е т с я одноврем енно


п р о в е р и т ь г и п о т е з у д л я об ы ч н о го о д н о ф а к т о р н о г о д и сперсио н ного
а н а л и з а , им е н н о Н 0 : схп = a i2 = а,13 = 0 д л я всех ш естнад цати
факторов. В это м с л у ч а е
' 0"
0 1 О
Н' и h = 0 , i = 1
.0 0 1
0

З а м е ч а н и я 5 .8 .1 . 1. П у с т ь SE = R0 — матрица о с т ат о ч ­
н ы х сум м к в а д р а т о в и п р о и з в е д е н и й , а S H = Rj — R0 — м а т р и ц а
с у м м к в а д р а т о в и п р о и з в е д е н и й , о б у с л о в л е н н ы х откл о н е н и е м от
г и п о т е зы . Т о г д а Л * к р и т е р и й У и л к с а м о ж н о п р е д с та в и ть в виде
3&4 Гл. 5. Методы многомерного статистического анализа

А = | S E| | S H 4 - SE | 1. С у щ е ст в у ю т ещ е д в а к р и т е р и я проверки
г и п о т е з ы Н 0:
с^тах (^Н^Е
[ I "Ь с^шах (®Н^Е : )]
где с и м в о л о м c h raax о б о зн а ч е н м а к с и м а л ь н ы й х а р а к т е р и с т и ч е с к и й
корень, и

и) tr ( S h S í "1),
где t r — с л е д м а т р и ц ы (сумма д и а г о н а л ь н ы х эл е м е н т о в). П р и
р = 1 о н и с о в п а д а ю т с Л -к р и т е р и е м . В р а б о т е S m i t h et al. (1962)
п р и в о д и т с я а н а л и з э т и х трех к р и т е р и е в н а п р и м е р е ч ет ы р е х г р у п п ,
р = 11 , и п р и д в у х с о п у т с тв у ю щ и х п е р е м е н н ы х .
2. В к а ч е с т в е ещ е одного к р и т е р и я часто и с п о л ь з у е т с я с т а т и ­
стика Р о я

5 .8 .3 . Проверка различий в средних значениях


дл я нескольких популяций.
Однофакторный многомерный дисперсиониый анализ

П у с т ь п и . . . , щ (п = 2 п г) — ч и сл о н а б л ю д е н и й , п о л у ч е н н ы х
и з & п о п у л я ц и й , и У1г, . . . , Ург — вы борочны е средн и е з н а ч е н и я р
п е р е м е н н ы х д л я г-й в ы б о р к и , п = 1, . . . , к. К р о м е того, пу с т ь
— м а т р и ц а остаточны х сум м к в а д р а т о в и п р о и зв е д е н и й д л я
г-й в ы б о р к и с пг — 1 с т еп е н я м и свободы . И н а к о н е ц , К , , . .. , У р —
о б щ и е с р е д н и е з н а ч е н и я , а (Бц) — н е с м е щ ен н а я о ц е н к а м а тр и ц ы
с у м м к в а д р а т о в и п р о и зв е д е н и й д л я вы б о р к и , п о л у ч е н н о й о б ъ е д и ­
н е н и е м в с е х и м е ю щ и х с я в ы б о р о к в о д н у . О б общ а я одном ерны й
д и с п е р с и о н н ы й а н а л и з , о п р ед ел и м
k
(5.8.11)

как сумму п р о и з в е д е н и й между популяциями и


k
(5.8.12)

к а к с у м м у п р о и з в е д е н и й внутри популяций, г, / = 1, ..., р.


Э т и в е л и ч и н ы п р е д с т а в л е н ы (см. ни ж е) в т а б л и ц е м ногом ерного
д и с п е р с и о н н о г о а н а л и з а (МА1ЧОУА-таблица). Д - к р и т е р и й п р о ­
в е р к и г и п о т е з о равенстве средних значений д л я к популяций
имеет в и д

(5.8.13)
5.8. Многомерный дисперсионный анализ 385

где I W I и I В + W I — со отв етств ен н о о п р е д е л и т ел и матриц


(Wi j ) и ( ß , j ) + (Wtj).

Источни к Ч исло М атрица сумм


дисперси и степеней произведений
свободы

М еж ду k— i (Вц)
В н утр и п— k (Щ)
П олная п — 1 (Si j)

С т а т и с т и к а Л им еет U - р а с п р е д е л е н и е с р, k — 1 и п — k степ е н я м и
свободы (A n de rso n ( 1 9 5 8 , с .191 и далее)). З а и с к л ю ч е н и е м с п е ц и ­
ал ьн ы х сл у ч а е в , п р о ц е н т и л и ¿ /- р а с п р е д е л е н и я б ы вает тр у д н о
вы числить и поэтому н а п р а к т и к е обы чно и с п о л ь з у е т с я одна из
двух а п п р о к с и м а ц и й . Т а к , в о п р о с о том, с л е д у е т л и о т в е р га т ь п р о ­
вер я е м у ю г и п о т е зу , м о ж н о р е ш и т ь с р а в н е н и е м вел и ч и н ы
Г2 = — (n — 1 — V i ( p + A ))'ln A (5.8.14)

с п р о ц е н т н ы м и ^ - р а с п р е д е л е н и я с р (k — 1) с т еп е н я м и свободы.
С д р у г о й стороны , м о ж н о и с п о л ь з о в а т ь F -а п п р о к с и м а ц и ю U ;

F= ) ( 1 ^ 1 ) , (5.8.15)

где
, 1 , . I/ р2 (k — I)2 — 4
ГП — П — 1 2- ( р + *), S у р2 (/е _ 1)2 _ 5 >

р (k - 1 )-2 „ p(k-\)
К = — ------- 4---------- И Г -------2-------•

Г и п о теза о т в е р г а е т с я , е с л и F > F x_a с 2г и (ms — 2^) с теп е н я м и


свободы. П о с к о л ь к у ч и с л а степ еней свободы н е о б я з а т е л ь н о целы е,
пр и п о л ь зо в а н и и т а б л и ц а м и м о ж е т п о т р е б о в а т ь с я пр овести и н т е р ­
п о л я ц и ю . А п п р о к с и м а ц и и т и п а у.2 п р е д л о ж и л B a r t l e t t (1947),
а т и п а F— R a o ( 1 9 5 1 ) .

П р им ер 5 .8 .1 (продолжение). В т абл . 5.8.1 п р и в о д я т с я средн и е


и с т ан дар тн ы е о т к л о н е н и я 16 ф а к т о р о в по т р е м г р у п п а м д л я
п = 461. Д л я п р о в е р к и г и п о т е з ы о р а з л и ч и я х с редн их зн а ч е н и й
э т и х ф актор ов д л я р а з л и ч н ы х г р у п п и с п о л ь з о в а л а с ь п р о г р а м м а
м ногом ерного д и с п е р с и о н н о г о и к о в а р и а ц и о н н о г о а н а л и з о в . П о ­
с к о л ь к у д л я р а б о т ы э т о й п р о г р а м м ы т р е б у е т с я , чтобы в ы б о рки
из в с е х п о п у л я ц и й и м е л и о д и н а к о в ы е р а з м е р ы , из к а ж д о й г р у п п ы
б ы л а в зя т а в ы б о р к а пх = n.¿ — п3 — 29 с л у ж а щ и х (п = 87).
(29 — число с л у ж а щ и х н ег р о и д н о й г р у п п ы в исходной в ы б о рке.)
13 А. Афифи, С. Эйзек
386 Гл. 5. Методы многомерного статистического анализа

Таблица 5.8.1
Средние и стандартные отклонения 16 личностных
факторов по группам

Группа

л, = 33 л 2 = 29 л3 = 399
Латино­
Фактор американцы Негроиды Европеоиды

П 5.0 ± 2.0 5.1 ±2.0 4.2 ± 2.0


П 6.6 ± 2.0 5.9 ±2.1 6.7 ± 1.8
Гг 5.6 ± 1.7 5.4 ±1.4 5.8 ± 1.8
у* 5.7 + 2.1 6.5 ±1.7 6.2 ± го
У5 5.5 ± 1.8 5.5 ±2.4 5.3 ± 2.1
У* 5.6 ± 2.1 6.4 ± 1.6 5.9 ± 1.9
У~т 5.7 ± 1.8 5.7 ± 2.2 5.1 ± 2.1
У» 5.0 ± 1.8 5.5 ± 2.1 4.2 ± 1.9
У9 5.3 ± 1.6 6.0 ± 1.8 5.4 ± 2.0
По 5.3 ± 2.0 5.0 ± 2 .1 5.0 ± 1.7
п. 5.5 ± 1.7 5 .7 + 1.9 5.7 ± 1.8
у г2 4.4 ± 1.7 5.3 ± 1.9 5 .1 + 1.8
У.э 4.7 ± 2.1 6.0 ± 1.9 5.0 ± 1.9
П4 5.4 ± 1.8 5.2 ± 2 .3 6.1 ± 2.2
Г, 5 6.2 ± 2 .» 6.0 ± 1.9 6.0 ± 1.9
У.б 4.4 ± 1.7 5.3 ± 1.5 5.4 £ 2.1

П р о г р а м м а в ы ч и с л я е т з н а ч е н и я с л е д у ю щ и х х а р а к г е р и с т и к : а) м а ­
т р и ц с у м м к в а д р а т о в и п р о и зв е д е н и й ( В ц ) и (УРц), Ь) г р у п п о в ы х
с р е д н и х к а ж д о г о и з 16 ф а к т о р о в , с) общ ей д и с п е р с и и , [ /- с т а т и ­
с т и к и и е е /'- а п п р о к с и м а ц и и . Р е з у л ь т а т ы р аб о т ы п р о г р а м м ы в ы ­
в о д я т с я в в и д е та бл и ц ы , п р и в е д ен н о й н и ж е .

/ <,-ап-
И сточник щ енной Число п рок- Ч исло
дисперсии д и сп ер ­ и степеней сим а- степеней
сии свободы ция свободы

М ежду 8 6 .8 1 7 0.541 16, 2, 8 4 1.55 3 2 , 138


В нутри 8 6 .2 0 3

Т а к и м о б р азо м , и = Л = 0.541 имеет ¿ /-р а с п р е д е л е н и е с 16, 2


и 84 с т е п е н я м и свободы. Д л я п р о в е р к и г ипотезы Н 0: «разл ич ие,
о б у с л о в л е н н о е п р и н а д л е ж н о с т ь ю к о п р е д е л ен н о й г р у п п е , о т с у т ­
ствует» м о ж н о в ы ч и с л и ть х 2 = — (87 — 1 — (У2) (16 + 3)) X
X 1п 0 . 5 4 1 = 47.0. Д а л е е сл едует с р а в н и т ь это число с процен-
т и л я м и р а с п р е д е л е н и я %2 с 1 6 (2 ) = 32 с т еп еням и свободы . П р о ­
и з в о д я и н т е р п о л я ц и ю в т а б л . 3, п р и л о ж е н и е I I , п о л у ч и м
5.8. Многомерный дисперсионный анализ 387

Хо.95 (32) *=» 4 6 .2 . Т а к и м о б р а з о м , г и п о т е з а Н 0 о т в е р га е т с я при


Р 0 .0 5 . Г и п о т е зу Я „ м о ж н о п р о в е р и т ь т а к ж е с пом ощ ью а п п р о ­
к с и м а ц и и F0 — 1.55 с 3 2 и 138 с т е п е н я м и свобод ы . В этом с л у ч а е
Р - з н а ч е н и е л е ж и т в и н т е р в а л е 0 . 0 5 <^р < ; 0 . 1 0 .

З а м е ч а н и я 5 . 8 . 2 . 1. О д н о ф а к т о р н ы й м н о го м е р н ы й д и с п е рс и он ­
ный а н а л и з м о ж н о п р о в е с т и с п о м о щ ь ю п р о г р а м м ы п р о в е р к и
общей м н о г о м е р н о й л и н е й н о й г и п о т е з ы . П р и з а д а н н о й м атри ц е
пл ан а эту п р ограм м у м о ж н о и с п о л ь з о в а т ь д л я проведения сба­
л а н с и р о в а н н о г о и л и н е с б а л а н с и р о в а н н о г о м ного м ер но го д и с п е р ­
сио н ного или к о р р е л я ц и о н н о г о а н а л и з о в . И т а к , с пом ощ ью этой
п р огр ам м ы р е ш а е т с я з а д а ч а ( 5 . 8 . 3 ) и п р о в е р я ю т с я гипотезы,
з а д а н н ы е в в и д е ( 5 . 8 .8 ) . Н а самом д е л е п р о в е р я е т с я д а ж е более
о б щ ая г и п о т е з а в и д а
H 'ß M = | ,
где, к а к и п р е ж д е , Н ' и м е е т р а з м е р s X т и р а н г s < т, а М —
р а зм е р р X и и р а н г и < р. М а т р и ц а Н ' с л у ж и т д л я ф о р м у л и ­
ро в к и гипотез «между г р у п п а м и и л и о б р аб о т к а м и » , а М — д л я
ги п о т е з «м еж д у п е р е м е н н ы м и и л и о т к л и к а м и » . В п р и м ер е, о п и с а н ­
ном выше, м а т р и ц а Н' о п р е д е л я л а с ь д л я п р о в е р к и г и п о т е з о т н о ­
сительно груп п , а в к а ч е с т в е м а т р и ц ы М бы ла в зя т а единичная.
М ожно определить м а т р и ц у М и д л я п роверки гипотез о линейных
к о м б и н а ц и я х 16 ф а к т о р о в .
2. Д л я проведения о д н о ф а к т о р н о г о многомерного дисперсион­
ного а н а л и з а м о ж н о т а к ж е п о л ь з о в а т ь с я п р о г р а м м а м и д и с к р и м и ­
н а н т н о го а н а л и з а . В р е з у л ь т а т е р а б о т ы т а к о й п р о г р а м м ы обычно
вы водится з н а ч е н и е ¿ / - с т а т и с т и к и и ее / - а п п р о к с и м а ц и и . К р о м е
того, п р о и з в о д и т с я у п о р я д о ч е н и е п е р е м е н н ы х , что д ае т в о з м о ж ­
ность о п р е д е л и т ь , к а к и е п е р е м е н н ы е в н о с я т зн а ч и м ы е р а зл и ч и я
(см. ра зд . 5 .5 и с л е д у ю щ и й д а л е е п р и м ер ).

Пример 5 . 8 . 1 ( продолжение ). В этом п р и м е р е бы ли и с п о л ь ­


зо в а н ы д а н н ы е о п = 4 6 1 с л у ж а щ е м . Д л я т о го чтобы о п р ед ел и ть,
к а к и е и з 16 ф а к т о р о в Y u Y 2, ..., Y 16 в н о с я т н а и б о л ь ш и й в к л а д
в р а з д е л е н и е н а k = 3 г р у п п ы , б ы л п р о в е д е н п о ш а го в ы й д и с к р и ­
м ин ан тн ы й а н а л и з . Н а к а ж д о м ш а г е н а п е ч а т ь в ы д а в а л а с ь д и с к р и ­
м и н а н т н а я ф у н к ц и я с о в м е с т н о с U -с та т и с т и к о й и ее / - а п п р о к с и ­
м ац и ей . Д и с к р и м и н а н т н а я ф у н к ц и я не им еет о тнош ен ия к д а н ­
ному с л у ч а ю , п о с к о л ь к у к л а с с и ф и ц и р о в а т ь индивидуум ов н а
основе зн а ч е н и й 16 л и ч н о с т н ы х ф а к т о р о в не т р е б у е т с я . О сновной
ин те р е с п р е д с т а в л я ю т с т а т и с т и к и U и F , т а к к а к с и х помощ ью
м о ж н о п р о в е р и т ь г и п о т е з у о с у щ е с т в о в а н и и р а з л и ч и й между
тр уп п ам и н а о с н о в а н и и 16 л и ч н о с т н ы х ф а к т о р о в .
В табл. 4 .8 .2 п р е д с т а в л е н ы р е з у л ь т а т ы п о ш а г о в о го д и с к р и м и ­
нантного а н а л и з а . И с п о л ь з о в а л о с ь п р а в и л о о ст ан о вки , приве-
13*
388 Гл. 5. Методы многомерного статистического анализа

Таблица 5.8.2
Пош аговы й дискриминантный анализ значений
16 личностных факторов для трех групп

Включенная Степени Аппроксимация Степени


Шаг переменная и свободы F свободы

1 г* 0.96 1,2, 458 8.34 2,458


2 у» 0.94 2 ,2 , .458 6.44 4,914
3 Ух6 0.93 3, 2, 458 5.36 6,912
4 Уз 0.92 4 , 2, 458 5.14 8,910
5 п 091 5 ,2 , 458 4.81 10.908

д е н н о е в з а м е ч а н и и 5 .5 .1 .1 . У р о в е н ь зн а ч и м о с т и а бы л в ы б р ан
р а в н ы м 0.1 0. И з т а б л и ц ы видно, что г р у п п ы л у ч ш е всего р а з д е ­
л я ю т с я по п е р е м е н н о й У 8. Н а в т о р о м и е с т е стоит У 13, затем
и т. д. П у с т ь , н а п р и м е р , н а п я т о м ш аге с пом ощ ью ¿/-статистики
п р о в е р я е т с я г и п о т е з а о том, что вектор с р е д н и х ¡и = (ц 3, }г6, ц8,
F i 3 > H-ieV п р и н и м а е т о д и н а к о в ы е зн а ч е н и я д л я всех т р е х г р у п п .
Э та г и п о т е з а о т в е р г а е т с я ( / = 4 .8 1 , vx = 10, v2 = 908, р < ,
< ¡ 0 . 0 0 1 ) . К р о м е п я т и п ер е м е н н ы х , при в еден н ы х в т аб л . 5 .8 .2 ,
н и о д н а п е р е м е н н а я не вноси т зн а ч и м о го в к л а д а в р а з д е л е н и е
н а т р и г р у п п ы (п р и а = 0.10).

З а м е ч а н и е 5 . 8 . 3 . П р о г р а м м а , в ы п о л н я ю щ а я м но гом ер ны й
д и с п е р с и о н н ы й а н а л и з , н а з ы в а е т с я M A N O V A ( P s y c h o m e tr ic L a b o ­
r a t o r y , U n i v e r s i t y of N o r t h C a ro lin a ). С п ом о щ ью этой п р о г р а м м ы
можно п р о в о д и т ь ещ е м ногом ерны й к о в а р и а ц и о н н ы й а н а л и з ,
а т а к ж е и регрессионны й ан али з. Д л я каж дой проверяемой
м о д ел и на п е ч а т ь в ы даю тся п о л у ч е н н ы е з н а ч е н и я о д ном ерны х
и м н о г о м е р н ы х к р и т е р и е в . В многомерном сл у ч ае и с п о л ь з у ет с я
A - к р и т е р и й У и л к с а с / - а п п р о к с и м а ц и е й Р а о . К р о м е того, н а п е ­
ч а т ь в ы в о д я т с я к а н о н и ч е с к и е к о р р е л я ц и и м е ж д у перем ен н ы м и и
и с к у с с т в е н н ы м и пер ем енн ы м и д и с п е р с и о н н о г о а н а л и з а . П о с л е
т а б л и ц ы м ного м ерно го д и с п е р с и о н н о г о а н а л и з а печ а та ю тс я о д н о ­
мерные /-к р и те р и и .

П р и м е р 5 .8 .1 ( продолжение ). Д л я п р о в е о к и р а з л и ч и й м е ж д у
т р е м я г р у п п а м и н а о с н о в е з н а ч е н и й 16 л и ч н о с т н ы х ф а к т о р о в
б ы ла п р и м е н е н а п рограм м а M A N O V A . И спользовались данны е
о п = 4 6 1 с л у ж а щ е м . В т абл . 5 .8 .3 при ведены р е з у л ь т а т ы м н о г о ­
м е р н о г о д и с п е р с и о н н о г о а н а л и з а и 16 з н а ч е н и й к р и т е р и я д л я
о д н о м е р н о г о д и с п е р с и о н н о г о а н а л и з а . Г и п о те за о р а в ен с т в е с р е д ­
н и х в т р е х р а с о в ы х г р у п п а х б ы ла о т в е р гн у т а ( / = 2 .1 6 , v x = 32,
5.8. Многомерный дисперсионный анализ 389

Таблица 5.8.3
Анализ зн а ч ен и й 16 личностны х факторов, проведенный
программой M ANO VA

Провер ка значимости с использованием лямбда—


критерия Уилкса
Число степеней Число степеней
Аппроксима­ свободы для свободы для Р меньше
ция F гипотезы ошибок чем
2 .1 6 0 32.000 886.000 0.001

Гипотетический
Переменная f ,= средний Р меньше
Г(2А 5 8 ) квадрат чем
1 4.805 13.627 0.009
2 2.249 7.652 0.107
3 0.681 2.161 0.507
4 1.670 6.422 0.189
5 0.201 0.864 0.818
6 1.614 5.652 0.200
7 1.936 8.422 0.145
8 8.342 30.047 0.001
9 1.305 4.985 0.272
Ю 0 .5 3 0 1.677 0.589
И 0 .078 0.260 0.925
12 2 .208 6.938 0.111
13 4 .563 16.209 0.011
14 4 .0 8 0 19.010 0.018
15 0 .1 3 6 0.482 0.873
16 3.595 15.686 0.028

л72 = 886, Р <5 0 .0 0 1 ) . И з а н а л и з а о д н ом е рн ого / - к р и т е р и я д л я


к а ж д о й из 16 п е р е м е н н ы х п о л у ч а е т с я , что п р и а = 0.10 з н а ч и ­
мыми я в л я ю т с я п е р е м е н н ы е в с л ед у ю щ е м п о р я д к е : У 8, У1г У13,
У | 4 , У 1в. М о ж н о с р а в н и т ь э т о т с п и сок с переменными из
табл. 5.8.2.

5 .8 .4 . М н о ж ест в ен н ы е ср а в н ен и я в однофакторном
м ногом ерном ди сп ер си он н ом анализе

Б р а зд . 2.4 .2 б ы л а р а с с м о т р е н а п р о ц е д у р а м н о ж ес т в е н н ы х с р а в н е ­
ний д л я о д н о м е р н о г о о д н о ф а к т о р н о г о д и с п е р си о н н о г о а н а л и за .
Эта п р оц едур а п р е д с т а в л я е т собой метод о п р е д е л е н и я к о н тр а с т а
в с р е д н и х з н а ч е н и я х , и з - з а к о т о р о г о о т в е р г а е т с я ги п о теза о р а ­
венстве с р е д н и х , е с л и о н а д е й с т в и т е л ь н о о т в е р г а е т с я . У к а з а н н а я
п р оц е д у р а о б л а д а е т т е м п р е и м у щ е с т в о м , ч то общ ий у р о в е н ь
значимости д л я в с е х п о л у ч а е м ы х д о в е р и т е л ь н ы х и н терв ал о в и з ­
390 Гл. 5. Методы многомерного статистического анализа

вестей и равен 1 — а. Для обобщения одномерного случая пред­


положим, что ..., ¡л* — средние значения для соответствующих
I ь \
популяций, п ъ ..., пк [ У п1 = п) — объемы выборок, х 11. >
1=1
х к. — групповые выборочные средние и — (остаточный, или
ошибочный) внутригрупповой средний квадрат. Тогда множе­
ственный 100 (1 — а) %-ный доверительный интервал Шеффе для
контраста 2 Ягцг- (при 2 Хг- = о') имеет вид
1=1 V г-=1 /
к
E M i± S , (5.8.16)
i=i
где
k
S = (k — \) MSw/ (i-a) (k — \, n - k ) J \ b \ l n t. (5.8.17)
i=l
В однофакторном многомерном дисперсионном анализе дове­
рительные интервалы для всех переменных одновременно могут
быть получены из одномерного интервала, заданного формулой
(5.8.16). П реж де всего для этого требуется знание верхней 100
(1 — а)-й процентили ¿/-распределения. Для больших п она
может быть приближена величиной

Uua ss ехр XI—сЛР (k - 0]


п — 1—(1/2) (p + k) (5.8.18)
Определим
= ( l / i / i _ a ) - 1. (5.8.19)
Тогда, если в выражении (5.8.16) считать t -м групповым средним
д л я любой из переменных Уг, ..., Ур величину x L, то соответству­
ющий многомерный совместный 100 (1 — а) %-ный доверитель­
ный интервал задается как
к
(5.8.20)
¿=1
где
к -2
02= ( п - й ) M S w ^ V - ^ . (5.8.21)
i—\

Совместный доверительный уровень эгих интервалов для всех


контрастов и д л я всех переменных равен 1 — а.
Имеется возможность одновременно проверять несколько одно­
мерных гипотез при заданном уровне значимости а. Особый ин­
5.8. Многомерный дисперсионный анализ 391

терес представляют одномерные критерии дисперсионного анализа,


соответствующие р переменным У и ..., Ур. Пусть — критерий
проверки гипотезы о то м , что среднее величин У1 одно и то же
для всех /г популяций, С = 1, ..., р. Т огда гипотеза отвергается при
(5.8.22)

где определяется выражением (5.8.19). Совместный уровень


значимости для всех э т и х критериев равен a , i = 1, ..., р.

Замечание 5.8.4. В доверительных интервалах, заданных


формулами (5.8.20)—(5.8.21), и критериях (5.8.22) используется
величина ^ a , основанная на Л-критерии Уилкса. Можно напи­
сать аналогичные процедуры, в которых основывается
на других критериях, например на критериях, приведенных
в замечании 5.8.1. Т е, кто заинтересуется этим вопросом, могут
ознакомиться с работой Gabriel (1968).

Пример 5.8.1 (продолжение). П оскольку гипотеза о равенстве


трех векторов средних отвергается, можно задаться вопросом,
какая переменная, и л и комбинация переменных, является тому
причиной. Итак, одновременно проверяются 16 одномерных г и ­
потез дисперсионного анализа. Одномерные критерии F; приво­
дятся в табл. 5.8.3 и остается лиш ь определить Полагая
а = 0.05, получим и з (5.8.18)
*¿.95 (32)
^0.95 — е Х Р 461 - 1 — 1/2 (16 + 3)

По формуле (5.8.19) имеем г|з0>95 = 1/0.9025 — 1 = 0.1080. Со­


гласно выражению <5.8.22), каждое значение сравнивается
с ((461 — 3)/2) (0.1080) = 24.73. Ни одно из значений Р{ из
табл. 5.8.3 не превосходит этого значения. Последнее означает,
что ни одна из одномерных гипотез дисперсионного анализа не
отвергается, хотя многомерная гипотеза отвергается. Это может
служить примером ч:асто встречающейся ситуации, когда нельзя
найти понятной причины непринятия общей гипотезы с помощью
процедуры множественных сравнений. Можно только сказать,
что существует линейная комбинация переменных, для которой
средние значения в разных популяциях сильно различаются.
Для обнаружения т а к и х контрастов, как правило, требуется
длительное исследование.
Для иллюстрации процедуры построения доверительных ин­
тервалов рассмотрим контраст У 8 (переменная с максимальным
392 Гл. 5. Методы многомерного статистического анализа

Ft), например —ц3. Согласно табл. 5.8.1, эту величину можно


оценить числом 5.5 — 4.2 = 1.3. Используя габл. 5.8.3, для Y s
имеем MSu/ = 30.047/8.342 = 3.602. Тогда из (5.8.21) G2 =
= (461 — 3) (3.602) (0.1080) [(1)2/29 + (— 1)2/399] = 6.59. Таким
образом, 95 %-ный совмесгный доверительный интервал (5.8.20)
имеет в и д 1.3 + {/ 6.59 = ( —1.27, 3.87).

У праж нения
З ам е чан ия .. 1. Буквой А обозначается набор данных из примера 1.4.1, табл. 1.4.1
и 1.4.2, бук в ой В — набор данных из примера 1.4.2, табл. 1.4.3 и 1.4.4.
2. В наборе А все непрерывные переменные могуг считаться нормально
распределенными, кроме CI, AI, ИСТ, PV1; для последних предполагается нор­
мальное распределение логарифмов. В наборе В все непрерывные переменные
также предполагаются нормально распределенными, за исключением систоличе­
ского и диастолического давлений (1950 и 1962), логарифмы которых также
могут считаться нормально распределенными.

Раздел 5 . 1
5.1.1 (для работы в аудитории). Соберите данные роста, веса и возраста
у всех студентов группы мужского пола и проведите анализ выбросов. Объясните
результаты.
5 .1 .2 . Выполните упр. 5.1.1 для всех студенток группы. Имейте в виду, что
выбросы м огут появиться в результате неверных ответов.

Раздел 5 . 2
5.2.1 (набор данных А), а) Используя данные в начале лечения для всех
больных, проверьте, равен ли выборочный вектор средних с координатами Х г =
= SP , Х г = H R , Х 3 = D P, X t = MVP вектору средних для здоровых лиц,
определяемому так:
Ь) И сп ол ь зуя многомерные доверительные интервалы, определите, для
каких переменных средние значения сильно отличаются от соответствующих
значений д л я здоровых людей.
5.2.2 (набор данных А). Выполните упр. 5.2.1, испп^муя данные, собранные
в конце л ечения у выживших больных.
5 .2 .3 (табор данных А). Выполните упр. 5.2.1, используя данные, собранные
перед смертью у больных.
5.2.4 (набор данных А). Объясните результаты упр. 5.2.1, 5.2.2, 5.2.3.
5.2.5 (набор данных А), а) Определяя Х г , . . . , Х 4, как в упр. 5.2.1, про­
верьте, равны ли начальные векторы средних выживших и умерших больных.
Ь) П остройте совместный 90 %-ный доверительный интервал для всех ком­
понент разностей средних значений.
5.2.6 (н абор данных А). Выполните упр. 5.2.5 для данных, собранных
в конце л ечения. Сравните результаты этого и предыдущего упражнений.

Раздел 5.3
5.3.1 (набор данных В). Обозначим символом \VX подпопуляцию те х , кто
жил после 1968 г ., а \У 2 — всех прочих больных из популяции.
а) Выпиш ите байесовскую процедуру классификации до переменным: Х% —
возраст, Х 2 — логарифм систолического давления, Х 3 — логарифм диастоличе­
ского давл ен и я, Х 4 — холестерин сыворотки (1950). Постройте оценки априор­
ных вероятностей на основе этих данных.
Упражнения 393

b) Вычислите величину О2.


c) Оцените двумя различными способами вероятность ошибочной клас­
сификации.
(1) Проверьте гипотезу о равенстве векторов средних для й?! и Й72-
5.3.2 (набор данных В). Выполните упр. 5.3.1 для прежних переменных
Х 1г Х 4 и Х 5 — логарифм систолического давления (1962), Х е — логарифм
диастолического давления (1962) и X , — холестерин сыворотки (1962).
е) Постройте график зависимости апостериорной вероятности того, что
пациент будет иметь после 1968 г . , от дискриминантной функции.
О Улучшают ли добавленные переменные разделение? [ У к а з а н и е : восполь­
зуйтесь замечанием 5 .5 .]

Раздел 5.4
5.4.1 (набор данных А). Используйте данные, собранные в начале лечения-
Определим 1^, . . . , №в так же, к а к и в примере 5.4.1. Переменными служат
Х г = МАР, Х2 = МУР, Х 3 = 1ё С 1, Х4 = иО , Х 5 = ^ РУ1, Х в = Н£Ь, Х 1 =
= ш*.
a) Воспользуйтесь программой из какого-нибудь ПСП для получения про­
цедуры классификации, предполагая равными априорные вероятности и стои­
мости ошибочной классификации.
b) К какой группе следует отнести пациента со следующими данными:
Х 1 = 70, Х 2 = 10, Х 3 = 0 .3 , Х 4 = 10, Х 5 = 1.5, Х в = 10, Х 7 = 30.
c) Оцените вероятности ошибочной классификации, которые могут пред­
ставлять интерес.
(1) Проверьте гипотезу о равенстве шести векторов средних,
е) Сравните результаты с примером 5.4.1.

Раздел 5.5
5.5.1 (набор данных А). Выполните упр. 5.4.1, используя программу поша­
гового дискриминантного анализа. Кроме того,
Г) Определите «наилучший» для классификации набор переменных.

Раздел 5.6
5.6.1 (набор данных А). В примере 5.6.1 были получены главные компоненты
по выборочной корреляционной матрице, построенной, согласно измерениям,
в начале лечения 14 переменных для всех пациентов. Проведите анализ главных
компонент следующих данных и сравните результаты.
a) Измерения в начале лечения тех ж е переменных у выживших больных.
b) Измерения в конце лечения тех ж е переменных у выживших больных.
Сравните также результаты анализа п. а) и Ь).
5.6.2 (набор данных В). Вы полните анализ главных компонент для пере­
менных: Х 1 — возраст, Х 2 — систолическое давление (1950), Х 3 — диастоличе­
ское давление (1950). Интерпретируйте главные компоненты, объясняющие при­
мерно 70 % общей дисперсии.

Раздел 5.7
Замечание. Формулировка упражнений, относящихся к этому разделу, за"
висит от того, какие именно программы факторного анализа имеются в распо­
ряжении читателя. Можно поставить много задач, в которых наборы данных А
и В используются целиком или частично. Здесь приводятся 2 упражнения, кото­
рые допускают ряд изменений.
5.7.1 (набор данных А). В примере 5.7.1 рассматриваются различные методы
факторного анализа данных п о 14 переменным, измеренным у всех больных
394 Гл. 5. Методы многомерного статистического анализа

в начале лечения. В ыполните аналогичные видьг анализа д л я данных, приведен­


н ы х ниж е и сравни те результаты.
a) Проведите ан ал и з данных, измеренных в начале лечения у выживших
больн ы х, к ак это сделано в примере 5.7.1 (а).
b) Проведите анализ данных, измеренных в начале лечения у умерших боль­
н ы х , к ак это сделано в примере 5.7.1.
c) Проведите ан ал и з данных, измеренных в конце лечения у выживших
больны х.
5.7.2 (набор данны х В). Переменные X lt . .., Х 10 определяются как в упр.
5 .6 .2 . В п. а)— f) используйте корреляционную матрицу и везде интерпретируйте
полученные ф акторы .
a) Выполните ан ал и з главных факторов без вращ ений при трех общих
ф акторах.
b) Выполните п . а), используя ортогональное вращение.
c) Выполните п . а), используя косоугольное вращение.
d) Выполните ан ализ главных факторов без вращ ений, число общих факто­
ров равно чи слу собственных значений, превосходящих 1.
e) Выполните п. d) с использованием ортогонального вращ ения.
f) Выполните п. d) с использованием косоугольного вращения.
Р а з д е л 5 . 8

5.8.1 (набор данны х А). И спользуя переменные и группы , определенные


в у п р . 5.4.1, вы полните однофакторный многомерный дисперсионный анализ.
К ром е того, проверьте одновременно семь одномерных гипотез дисперсионного
ан ал и за с помощью процедур, упомянутых в замечании 5.8.4.
Приложение I

О б зо р о с н о в н ы х понятий

В настоящем приложении приводится обзор некоторых наиболее


важных понятий теории вероятностей и статистики. Мы прибегли
к неформальной описательной м анере, истолковывая понятия
и методы с точки зрен ия их приложений. При этом мы старались
сохранить точность изложения, н е претендуя на математическую
строгость.
Это приложение никоим образом нельзя считать полным. Пол­
ный текст содержал бы доказательства всех утверждений, большее
количество теоретических примеров и дополнительных деталей.
Нашей же целью было только д ать краткий перечень сведений,
необходимых для понимания основного материала книги. Кроме
того, мы введем обозначения, используемые в книге, и опишем
распределения, принятые в статистических приложениях. Будут
также определены некоторые понятия, относящиеся к многомер­
ным распределениям.
Читатели, интересующиеся более подробными сведениями,
могут обратиться к следующей литературе (список включает не­
сколько элементарных: учебников и ни в коей мере не претендует
на полноту). Элементарное изложение статистики, не требующее
знания математического анализа, приведено в работах Dixon,
Massey (1969), Dunn (1977) и Snedecor, Cochran (1967). Для более
серьезного изучения предмета, требующего знания математиче­
ского анализа, см. к н и ги Brownlee (1965), Hoel (1963), Hogg,
Craig (1970), L indgren (1968) и .Mood, Graybill (1963). Серьезным
курсом статистической теории, включающим многомерный анализ,
могут служить к н и ги Anderson (1958), Cramer (1946), Dempster
(1969), Kendall, S tu a rt (1967, 1968, 1969), Morrison (1967), Rao
(1965). Подробными к урсам и теории вероятностей являются книги
Feller (1966, 1968), F i sz (1963), Loeve (1963), Parzen (1960). Изло;
жение статистики с точки зрен ия теории принятия решений
дано в монографиях Ferguson (1967) и Lehmann (1959) *).

х) См. также список литературы, добавленной при переводе. — Прим. ред.


396 Приложение I. Обзор основных понятий

В этом приложении, в разд. 1.1 обсуждаются основные понятия


теории вероятностей; в разд. 1.2 приведены наиболее часто встре­
чающиеся одномерные распределения; в разд. 1.3 обсуждаются
выборки и выборочные распределения; в разд. 1.4—5 обсуждается
теория статистических выводов. В разд. 1.6 определены векторные
наблюдения и введено многомерное нормальное распределение.

1.1. О с н о в н ы е понятия тео р и и вероятносгей


Существует много подходов к изучению теории вероятностей.
Теория вероятностей представляет собой раздел математики,
в котором случайные явления изучаются с аксиоматической точки
зрения (см., например, Feller (1966, 1968)). Вместе с тем статистик
заинтересован в теории вероятностей как в средстве построения
статистической теории и методологии. Ниже мы вводим идеи и
п онятия теории вероятностей на интуитивном уровне, сохраняя
точность, но не математическую строгость и придавая большое
значение примерам х).
В р азд . 1.1.1 определены понятия генеральной совокупности
(или популяции), в разд. 1.1.2 введены случайные величины,
а в р а зд . 1.1.3 — понятие вероятности, пригодное для изучения
случайных величин. В разд. 1.1.4 определено распределение
случайной величины, а в разд. 1.1.5 введено понятие математи­
ческого ожидания случайной величины или функции от случайной
величины. В разд. 1.1.6 эти идеи обобщены на отучай нескольких
случайных величин.

1.1.1. Генеральная совокупность


Генеральную совокупность (популяцию) W можно рассматривать
как полный набор объектов w, с которыми связана данная проб­
лема. Э ти объекты могут быть людьми, животными, изделиями,
земельными участками и т. д. Каждый объект называется эле­
ментом { или индивидуумом) генеральной совокупности, а соответ-

х) З д е с ь авторы ставят перед собой трудно выполнимую задачу, так как


точность и зл о ж е н и я тесно связана с математической строгостью, а изложение
на и нтуи тивн ом уровне не может быгь точным. О собенно это относится к разд. 1.1.2
и 1.1.3, м а х е р и а л которых начинающий читатель должен проштудировать по д р у ­
гим у ч еб н и к ам (см ., например, Смирнов, Д укин-Барковскш г (1965)*, Румшиский
(1976) *), а подготовленному читателю рекомендуем прочитать гл. Н и з книги
К рам ера (1975). Тем не менее это приложение в целом, несомненно, является
полезным, поскольку в нем определены все основные понягия и вводятся обо­
значения, используем ы е в книге. — Прим. ред.
1.1. Основные понятия теории вероятностей 397

ствующее измерение, произведенное на каждом элементе, назы­


вается наблюдением. Ч асто при решении задачи ставится экспе­
римент, в ходе которого каждый элемент подвергается некоторому
воздействию. В этом случае элемент называется эксперименталь­
ной единицей.

Пример 1.1.1. Создано новое лекарство для лечения гипер­


тонии, т. е. повышенного артериального кровяного давления.
Врач заинтересован в оценке эффекта действия этого лекарства
на пациентов с гипертонией. Его эксперимент состоит в измерении
диастолического кровяного давления (в мм рт. ст.) до приема
лекарства, применении лекарства, измерении диастолического
кровяного давления ( в мм рт. ст.) спустя двухнедельный период,
и в последующем подсчете изменения давления. Цель врача со­
стоит в том, чтобы решить на основе этой разницы, эффективно ли
это лекарство снижает артериальное давление крови.
В этой экспериментальной ситуации генеральную совокуп­
ность составляют все люди с гипертонией, принимающие предло­
женное лекарство. Воздействие состоит в приеме лекарства,
экспериментальной единицей является пациент, а наблюдение
представляет собой изменение диастолического давления крови
в течение двухнедельного периода для данного пациента.

Пример 1.1.2. Исследователь интересуется оценками 1(3 (коэф­


фициент умственного развития) для шестилетних в генеральной
совокупности детей, родившихся с пониженным весом (<1500 г)
в данной клинике в течение 1972— 1973 гг. Это пример длитель­
ного исследования.

Пример 1.1.3. Исследователь интересуется воздействием куре­


ния на дыхательную функцию легких среди популяции служащих
мужского пола. Кроме того, исследователь интересуется долей
страдающих хроническим бронхитом в этой популяции.

В примере 1.1.1 м ы имеем дело с гипотетической генеральной


совокупностью, так к ак не существует способа выделить каждый
ее элемент в момент эксперимента. Более того, эта совокупность
теоретически бесконечна, так как она включает всех возможных
индивидуумов, которые когда-либо примут лекарство. Популя­
ция же примера 1.1.2, напротив, конкретна и конечна, поскольку
можно перечислить всех детей, удовлетворяющих условиям ис­
следования. П опуляция примера 1.1.3 может быть либо гипоте­
тической, либо конкретной. Если исследователь ограничит свою
популяцию взрослыми мужчинами, работающими в страховых
компаниях в данном году, тогда популяция будет конкретной.
В противном случае она будет гипотетической. Так как генераль-
398 Приложение I. Обзор основных понятий

ную совокупность не всегда просто определить, исследователь


обязан тщательно продумывать этот вопрос, чтобы не придать
слишком общий смысл результатам своего исследования.
Большинство задач нашей книги относится к типу, для кото­
рого генеральная совокупность является гипотетической. Задачи,
оперирующие конкретными популяциями, относятся к области
статистики, называемой выборочными обследованиями, которая
обсуждается, например, в книге Cochran (1953).

1.1.2. Случайные величины


Случайная величина X есть функция, принимающая численное
значение X (до) на каждом элементе до генеральной совокупности W.
В этой книге случайные величины обычно обозначаются заглав­
ными буквами X , Y , Z, ... . Конкретное значением, принимаемое
случайной величиной X для данного элемента до, называется
реализацией X и представляет собой наше наблюдение. Реализа­
ции обозначаются малыми буквами х, у, г, ... . Иногда случайную
величину будем называть просто переменной.
В примере 1.1.1 случайная величина X (до) соответствует
изменению диастолического кровяного давления (в мм рт. ст.)
у пациента до за двухнедельный срок лечения. В примере 1.1.2
Y (до) — оценки IQ для шестилетних, а в примере 1.1.3 случай­
ную величину можно определить равенством:
1, если у индивидуума есть хронический бронхит,
0, если у индивидуума нет хронического бронхита.

Функции X (до), К (до), 1 (до) определяют соответственно случай­


ные величины X , У, I . Выбор 0 и 1 для 1 (до) является произволь­
ным и вместо них можно подставить два любых различных числа.
Множество всех возможных различных реализаций случайной
величины называется выборочным пространством Б. В примерах
1.1.1—1.1.3 выборочные пространства представляют собой соот­
ветственно действительную прямую, множество неотрицательных
целых чисел и множество 5 = {0, 1}.
Любое подмножество Е выборочного пространства 5 назы­
вается событием. Для обозначения событий будем использовать
символы Е , Е ъ Е 2, Е3, . . . . В примере 1.1.3 возможны четыре
события: Е 1 = {0}, Е» = {1 }, = {0, 1} и £ 4 = 0 . Событие
Е 1 — это подмножество индивидуумов без хронического брон­
хита, Е — подмножество индивидуумов с хроническим бронхи­
том, Е 9 — подмножество всех рассматриваемых индивидуумов,
а Ец — «пустое» подмножество (не содержащее ни одного инди­
видуума). В примере 1.1.2 событие Е = {85, 115} означает
подмножество детей, у которых целочисленный показатель 1<3
1.1. Основные понятия теории вероятностей 399

в шестилетнем возрасте заключен между 85 и 115. В примере


1.1.1 событие Е = {л: 119 < х < 48} (читается «множество х,
таких, что х н е меньш е 19 и не больше 48») означает подмножество
пациентов с изменением диастолического давления (в мм рт. ст.)
в интервале 19 < х 48.
Понятия генеральной совокупности, случайной величины и
пространства вы борок графически представлены на рис. 1.1.1
для примера 1.1.1.

Рис. 1.1.1. П редставлен и е генеральной совокупности (№), случайной величины


(X — изменение ди асто л и ч еско го дав л ен и я) и выборочного пространства (5 —
действительная ось; — о о < х < оо) д л я примера 1.1.1.

Если выборочное пространство 5 состоит из конечного числа


значений, оно называется дискрет ны м*). Случайная величина
с дискретным выборочным пространством называется дискретной
случайной величиной. Случайная величина 1 примера 1 . 1 . 3 яв­
ляется дискретной, так как ее выборочное пространство состоит
только из двух значений. Т ак ая дискретная случайная величина
называется двоичной.. Случайная величина У примера 1 . 1 . 2 также
является д и скретн о й 2). Случайная величина X примера 1 . 1 . 1
является не дискретной, а непрерывной.

1.1.3. Вероятность
В основе большей части статистической теории лежит понятие
вероятности, связанное со случайной величиной. В случае дис­
кретной случайной величины ?<. вероятность того, что X прини­
мает значение х, е с т ь доля рх индивидуумов в генеральной сово­
купности, обладающих значением х. Запишем это отношение в виде
Рг (Л- = к) = рх. [В некоторых работах используется обозна­
1) Дискретные вы борочны е п ространства вклю чаю т такж е бесконечные счет­
ные множества.
2) Множество н еотриц ательны х ц е л ы х чисел является бесконечно счетным.
400 Приложение I. Обзор основных понятий

чение Р (X = х) или Р (я).] Для двоичной случайной величины


примера 1.1.3 имеем Рг {£ — 1) = р и Рг (г = 0) = 1 — р,
где р — доля индивидуумов с хроническим бронхитом в генераль­
ной совокупности. Пусть для дискретной случайной величины
примера 1.1.2 величина р г есть доля детей с высоким риском, име­
ющих в шестилетием возрасте показатель 1(3, равный г. Тогда
Рг (У = г) = р и I = а, а + 1, Ь, где а и Ь — соответственно
минимальное и максимальное значения показателя 1(3. Очевидно,
что Рг ( V = г) = 0, если 1 <5 а или I > Ь. ;
Д ля дискретной случайной величины X введем Е = {хъ ...
..., х п) — событие из выборочного пространства 5. Тогда вероят­
ность т о го , что величина X принимает некоторое значение хг из Е,
есть сум м а вероятностей рх., связанных с каждым х 1, 1 = 1, ...
п. Символически можно записать

Рг ( Х £ Е ) = £ р = 2 р !). (1.1.1)
¿=1 ‘ Х1 £ Е ‘

[В д р у г и х работах левая часть этого равенства записывается


в виде Рг ( X в Е) или Рг (£ ).] Очевидно, что
Рг(А £5) = I: р =1. (1.1.2)

В прим ере 1.1.2 положим Е = {85, 115}. Тогда вероятность


Рг (У £ Е ) того, что показатель КЗ ^ 85 и 1(3 с 115, имеет вид
115
Рг (85 ^ У ^ 115) = Г р(.
(=85
Аналогично, вероятность Рг (К Ф Е) того, что показатель 1(3 >
> 1 1 5 и л и 1(3 <^85, запишется в виде
84 Ь
Рг (К < 8 5 или У >> 115) = Л р(- + У
;=а 116

Так как Р г (а < У < Ь) = 1, можно также написать


115
Рг (У < 85 или У > 115) - 1 — £ р,.
¿=85
Д ля лю бой случайной величины X вероятность того, что X
принимает значение из данного события Е, равна доле индиви­
дуумов в генеральной совокупности, для которых значения X (ш)
лежат в Е. Следовательно, в примере 1.1.1 Рг (X £ Е), где Е =
= {л:р9 с л: с 48}, или Рг (19 < X < 48), означает долю ин­
дивидуумов в генеральной совокупности с изменением диастоли­
ческого давления в интервале 19 < х < 48.
*) Это обозначение читается «сумма рХ1 по всем Х{, принадлежащим Е».
1.1. Основные п о н я т и я теории вероятностей 401

Д ля любой случайной величины можно написать полезное


соотношение для непер екрывающихся (несовместных) событий
Е 1г Еч, Ек. Вероятность того, что величина X принадлежит
какому-либо из этих событий (объединению Е у, Е■>, Ек) есть
сумма вероятностей событий Ег, г = 1, £. В символической
записи имеем
к
Р г ( Х е ( £ 1 и 5 2и . . . и ^ ) ) = £ Р г (£<), (1.1.3)
¿=1
где £, несовместны, г = 1 Символ и соответствует объеди­
нению событий, а вы раж ение^Х £ (Е\ II и ••• и читается
«X принадлежит £ , или Е.г, или или Ек».

1.1.4. Распределение случайной величины


Распределение случайной величины X служит средством опи­
сания вероятностной структуры генеральной совокупности в тер­
минах реализаций величины X . Распределение дискретной слу­
чайной величины называется дискретным распределением, и его
можно задать перечислением значений рх = Рг (X = х) для каж ­
дого х в выборочном пространстве 5. Во многих случаях можно
задать математическую функцию р (х ), связывающую рх с х.
Функция р (х) называется законом распределения (или вероятност­
ной функцией) дискретной случайной величины X. Законы рас­
пределения характеризуются константами, которые называются
параметрами. Параметром может служить любая характеристика
генеральной совокупности.
Д ля примера 1.1.3 дискретное распределение можно задать
с помощью таблицы
г | 0 1

рг | 1 — Р Р
где р — доля индивидуумов с хроническим бронхитом в генераль­
ной совокупности. Э ту таблицу распределения вероятностей
дискретной случайной величины г можно также задать с помощью
закона распределения
р г (1 — р)1-* Д Л Я 2 = 0,1,
0 в остальных случаях.

Этот закон распределения характеризуется единственным пара­


метром р. Для примера 1.1.2 таблица распределения вероятностей
имеет вид
у I а а + 1 . . . Ь
Р у I Ра Ра+1 • • • РЬ
402 Приложение I. Обзор основных понятий

где ру — доля детей, у которых в шестилетием возрасте показа­


тель 1<э равен у.
Д л я произвольной случайной величины X функция распреде­
ления Р (х), часто обозначаемая аббревиатурой ФР, определяется
равенством
^ (я) = Рг (X ^ х). (1-1.4)
Д ля дискретной случайной величины X с закоио51 распределения
р (х) и з равенства (1.1.1) получим, что
Р(х)=£р(и). (1.1.5)
И<X
Д ля примера 1.1.3 функция распределения имеет вид
0, если 2 < 0 ,
/? (г )= 1 — р, если 0 ^ г < 1 ,
1, если 1;
она изображ ена на рис. 1.1.2, а. Функция распределения для
примера 1.1.2 имеет вид
0, если у <с а,
у
Р {у) — 2 Рь если а « у<СУ, У = а, а -|- 1, . . . , Ь — 1,
I £=а
^ 1, если у ^ Ь \

она изображена на рис. 1.1.2, Ь.


Отметим, что на обоих рисунках функция распределения имеет
«скачки» или «ступеньки» при некоторых значениях случайной
величины. Если функция Т7 (х) непрерывна *) но х, т. е. график
^ (х) н е имеет скачков, то случайная величина X называется
непрерывной случайной величиной, а ее распределение называется
непрерывным распределением.
Важным понятием, относящимся к непрерывным случайным
величинам, является понятие плотности, распределения вероят­
ностей (или частотной функции). Плотность2) / (х) непрерывной
случайной величины X есть неотрицательная функция, определен­
ная т а к , что Р (х) равна площади под графиком { (х) слева от
точки х. Это — непрерывный аналог равенства (1.1.5). График
/ (х ) называется графиком плотности распределения (иногда —
-1) Точное определение непрерывности функции дано, например, в книге
ИисНп (1964).
2) С точки зрения дифференциального исчисления плотность / (л:) является
г- ^ г, ч с1Р (х)
про изводнои от г (х) по х, т. е. ! (х) = — .
1.1. Основные понятия теории вероятностей 403

кривой частот). Плотности распределения (а следовательно,


и функции распределения) можно также характеризовать их
параметрами.

Г (г)

I --------------- --------

1-/> -----------
°1 _________
О 1
а

F( z )

I -

Ра* Ра.1+Ра.2 - -----


Ра* Ра. 1 - --------

^ 0 1~. ! ■ I_________ I__ 1_____ у


0 1 2 3 •** Т-1 Т
ь
Рис. 1.1.2. а — ф ункция р асп р едел ен и я п р и м е р а 1.1.3; Ь — функция распределе­
ния прим ера 1.1.2.

Рис. 1.1.3 иллюстрирует плотность и функцию распределения


непрерывной случайной величины. На этом рисунке площадь
заштрихованной области под графиком / (х) слева от точки х 0
есть вероятность того, что X < х 0. Она равна F (%0) на верхнем
графике. Из этого графшка видно также, что площадь под графи­
ком f (х) между и и v м ож но вы разить через функцию распреде­
ления F:
Рг (и -< X с v) = F (v )— F (и). (1.1.6)
Некоторые из употребительных дискретных и непрерывных рас­
пределений обсуждаются в р азд . 1.2.
404 Приложение I. Обзор основных понятий

Зам ечание 1.1.1. 1. Закон распределения р (х ) дискретной


случайной величины обладает следующими свойствами:
a) 0 < р ( х ) < 1 для всех х ;
оо

b) 2 Р (х) — 1, т. е. сумма р ( х) по всем возможным значениям х


Х=— оо
равн а единице;
V
c) Рг (и < х < у) = 21 р (•*);
х= и
(1) У7 ( х ) = 1! р (и).

Рис. 1 .1 .3 . а — функция распределения и Ь — плотность распределения непре­


рывной случайной величины.

★ 2 . Плотность распределения / (х) непрерывной случайной ве­


личин ы обладает следующими свойствами:
a) Т (*) ^ 0 для всех х;
оо
b) ¡{(х)<1х = 1;
1.1. Основные п о н я т и я теории вероятностей 405

с) Рг (и < X С V) = | / (*) йх\


и
X
с!) Р (х) = | / ( и) ¿ и . Следовательно, = / (■*:)• ★
-----ОО

3. Для произвольной случайной величины X функция рас­


пределения /*■ (х) обладает следующими свойствами:
a) Р (— оо) = О, Р ( о о) = 1;
b) Р (х) — неубывающая функция х;
c) Рт (и С X < и) = Р (V) — Р (и).
4. Для непрерывной случайной величины X справедливо
следующее соотношение:
Рг (X < х) = Рг (X < х).

1.1.5. М атематическое ожидание


Математическое ожидание Е (X) случайной величины X можно
интуитивно сч итать средним значением реализаций X (до) по всем до
из популяции 1V. Для обоснования общего определения матема­
тического ожидания мы сначала ограничимся конечной популя­
цией. Пронумеруем последовательно индивидуумы в этой попу­
ляции так, чтобы до = 1, 2, ..., N. Математическое ожидание
(среднее) случайной величины X (обозначаемое также буквой ц)
выражается формулой
N

И= £(Х) = 4 - £ Х ( 0 . (1-1.7)
¿=1
Если мы обозначим различные элементы выборочного простран­
ства 5 через х 1, ..., хк (К < М), то можно записать ¡л. в виде
к
2] хкпк
ц. = £ ( * ) = ^ ---- , (1.1.8)

где пк — число элементов из № со значениями хк. Но по определе­


нию (пкШ ) — р Х/1, и, следовательно, можно записать

\ 1 = % х крх (1.1.9)
к=\ *
Это определение применимо к дискретным случайным величи­
нам как в случае конечной популяции, так и в случае счетной.
Однако если IV счета а , то не существует стандартного способа
406 Приложение I. Обзор основных понятий

эмпирического получения вероятностей рХк иначе, как с помощью


соответствующего закона распределения. В этом случае имеем
к
(-1= Е хкр (хк),
к=1
где К может быть бесконечным.
В примере 1.1.2 получим

а в примере 1 .1.3 —
Е(2) 0(1 — Р) + 1 (р) = р.
Равенство (1.1.10) можно обобщить на случай непрерывной
случайной величины X, заменяя суммирование интегрированием,
а зак о н распределения р (х ) — на функцию плотности распределе­
ния / (х) (см. замечание 1.1.2.1).
П онятие математического ожидания распространяется на про­
извольную функцию g (X) от X . Математическое ожидание
Е (^ (ЛТ)) ф ункции £ (X) от случайной величины X есть среднее
значение g (X (ш)) для всех в> из №. Таким образом, для дискрет­
ной случайной величины из равенства (1.1.9) получим
к
£ (£ (* )) = И £(■**) Р** (1.1.11)
й=1 я
и аналогичное соотношение для непрерывного случая.
Особый случай составляют функции £ (Л") вида Х ‘ и
[ X — Е ( X ) ] 1 для / ^ 1 . Математические ожидания Е ( X е) и
Е [ X — Е ( Х) ] с называются соответственно г-ж моментом от­
носительно н у л я (или 1-м начальным моментом) и г-м моментом
относительно среднего (или 1-м центральным моментом). Второй
центральный момент называется дисперсией и обозначается через а2
или V ( X ) . Положительный квадратный корень из дисперсии
называется стандартным отклонением ст или [V (X) ]‘/2.
Заметим, что V (X) можно выразить в виде
V (X) = Е [X - Е (X)]2 = Е (X2) - [Е (X)]2. (
Таким образом, в примере 1.1.2 дисперсия равна
г ь
17(К) = Ц и ~ Е ( У ) Г Р1 = Е

а в примере 1.1 .3
у(г) = ( о - Р) Ц \ - р ) + ( \ - р г р = р { \ - р ) ,

так к а к Е (7.) = р.
1.1. Основные п о н я ти я теории вероятностей 407

Замечания 1.1.2. -Лг 1. Д ля непрерывной случайной вели­


чины X с плотностью распределения ! (х ) математическое ожида­
ние имеет вид
оо

£ (Х ) = | x f { x) dx.
-00
Математическое ожидание функции £ (X) есть
оо

£(ёЧХ)) = | £(х)Цх)с1х.
— оо

Дисперсия выражается формулой


00
о'2= Е {X - Е (X))2 = ( ( х - Е (х))2[ (х ) йх. *
— оо

2. Среднее ¡л. является характеристикой положения центра


распределения (мерой центральной тенденции). В физическом
смысле ц. есть центр тяж ести граф ика закона распределения или
плотности. Другими аналогичными характеристиками являются
медиана и яода распределения случайной величины. Медиана —
это такое значение М , что
Р г (Х < М ) 1/2 и Р т ( Х ^ Л 4 ) ^ 1/2.
Медиана не обязана бы ть единственной. Например, рассмотрим
следующее распределение:
х | О 1 2 3
Рх | Х/8 3,8 3/8 V8
Медианой будет произвольное значение 7И, такое, что 1 < М < 2,
так как при М = • 1
Рг (X < М ) = 1/2, Р г (X ^ М) = 7/8,
при М = 2
Рг (X < М ) = 7/8, Р г (X > М) = 1/2,
и для 1 М 2
Рг (X с М) = 1/2== Рг (X > М).
Так как в этом случае медиана н е единственна, условимся вы­
бирать в качестве медианы срединное значение М = (1 + 2)/2 =
= 3/2. С другой стороны, в распределении
х [О 1 2
Рх |1и V 2 74
408 Приложение I. Обзор основных понятий

имеется единственная медиана М = 1, так как только это зна­


чение удовлетворяет определению. Если X — непрерывная слу­
чайная величина, то М выбирается гак, чтобы
Рг (X < М ) = Рг (X ^ М) = 1/2.

Модой распределения является то значение (или значения) X ,


при котором закон или плотность распределения имеет макси­
мум. Т аким образом, для последнего из приведенных выше при­
меров мода равна 1. Такое распределение называется унимо­
дальным. Д ля первого из приведенных выше примеров суще­
ствуют две моды: 1 и 2. Такое распределение называется бимо­
дальным..
П ри сравнении этих трех мер положения центра распределе­
ния можно заметить, что все они совпадают для симметричных
унимодальных распределений. Среднее обладает наиболее привле­
кательными свойствами с точки зрения теории. Медиану иногда
бывает затруднительно вычислять, особенно если требуется упо­
рядочение реализаций. Однако она может оказаться более значи­
мой мерой положения центра для асимметричного (или скошен­
ного) распределения, например, как в примере 1.1.2. Мода осо­
бенно полезна для приложений к теории игр и принятия решений.
3. Дисперсия с2 = V (х) является мерой рассеяния (или из-
мемивости) распределения. Стандартное отклонение ст = ]/У(х)
изм еряет ширину распределения в тех же единицах, которые
используются для измерения реализаций случайной величины.
Д ругой мерой рассеяния является среднее абсолютное отклоне­
ние, определяемое как математическое ожидание абсолютной
величины разности между случайной величиной X и ее средним.
Иногда в этом определении вместо среднего используется медиана.
Среднее абсолютное отклонение интуитивно привлекательно, так
как о н о измеряет «среднее отклонение». Однако дисперсия легче
трактуется математически и поэтому в большинстве приложений
используется именно эта характеристика.
4. Следующие соотношения справедливы для математического
ожидания и дисперсии:
a) Е (а + ЬХ) = а + ЬЕ (X), где а и Ь — константы. Умно­
жение случайной величины на константу Ь (т. е. изменение ее
шкалы) меняет шкалу среднего в то же число раз. Аналогично
прибавление константы а к случайной величине X (т. е. изменение
начала координат) соответственно смещает среднее на ту же
величину.
b) V (а + ЬХ) — Ь2У (X), где а и Ъ — константы. Умножение
случайной величины X на константу Ь увеличивает дисперсию
в Ь2 р а з (т. е. увеличивает стандартное отклонение в \Ь\ раз).
Однако добавление константы а не изменяет дисперсии.
1.1. Основные по ня ти я теории вероятностей 409

5. Среднее, медиана, мода, дисперсия и высшие моменты


являются характеристиками распределения и, следовательно,
его параметрами. Некоторые из эти х параметров (или функций
от них) могут входить в закон или плотность распределения.

1.1.6. Несколько случайны х величин


Во многих случаях приходится измерять несколько характери­
стик элемента да из популяции У/. Это приводит к необходимости
определить несколько случайных величин Х1( Х г........ Х к (1 <
< к •< о с ). Любая случайная величина Х ( есть функция, ставя­
щая в соответствие каждому элементу т из № число Х( (да), 1 = 1, ...
..., Конкретное значение которое принимает Х г для дан­
ного да, есть реализация Х г, £ = 1, ..., й.

Пример 1.1.1а. В рач измеряет у каждого пациента как систо­


лическое, так и диастолическое давление. Пусть Х х (да) — изме­
нение диастолического давления (в мм рт. ст.), а Х 2 (да) —• изме­
нение систолического давления крови (в мм рт. ст.), причем
оба показателя измерены у пациента т. Эти функции определяют
соответственно случайные величины Х х и Х2.

Пример 1.1.2а. В исследовании 10 определяются Ух (ни) —


показатель 10 в шестилетнем возрасте у ребенка да, У2 (ш) — вес
при рождении (в граммах), и У3 (да) — возраст матери (в годах)
в момент рождения ребенка. Эти функции определяют соответ­
ственно случайные величины У1 , У2, У3.

Пример 1.1.3а. П усть 7 Х (да) = 1 или 0 в зависимости от того,


имеет ли данный индивидуум хронический бронхит, 1 2 (да) есть
жизненная емкость л е гк и х (в литрах) у данного индивидуума.
Эти функции определяют соответственно случайные величины
и Ъ2.

Мы можем также рассматривать измерение одной и той же


характеристики у к индивидуумов из № как ^ случайных величин.
Пусть щ , да2, ..., да* с у т ь ^ индивидуумов из и пусть X — слу­
чайная величина. Т огда мы определим й случайных величин
Х г, Х 2....... Х к следующим образом:

Х1(ии1, . . ., « » *)= Х К ) ,
Х 2(дах, . . . . ьик) = X(да2),
410 Приложение I. Обзор основных понягий

Пример 1.1.1Ь. Врач измеряет изменения систолического


кровяного давления (в мм рт. сг.) у & пациентов. Следовательно,
хв)к) = X (да,) равно изменению диастолического кро­
вяного давления у пациента шг, г = 1, к.

Пример 1.1.2Ь. Исследователь определяет показатель 1(3


у ^ детей шести лег. Следовательно, У ..., №&) = У (даг)
равно оценке 1(3 индивидуума ш*, г = 1, к.

Пример 1.1. ЗЬ. Исследователь определяет, кто из к индиви­


дуумов болен хроническим бронхитом. Следовательно, 2 г (тх,
..., гмк) =5= Z (даг) = 1 или 0 в зависимости от наличия хронического
бронхита у индивидуума ауг, г = 1, ...,

Теперь мы обсудим понятия, лежащие в основе вероятностной


структуры популяции в терминах реализаций нескольких слу­
чайных величин, а именно понятие совместного распределения
нескольких случайных величин. При любом определении Х г, ...
..., Х к можно представить к реализаций хи ..., хк как вектор,
т. е. упорядоченный набор {хъ ..., хк) из к чисел. Выборочным
пространством 5 в эгом случае является множество всех возмож­
ных векторов (хх, ..., х к). Для Х 1г Х 2 в примере 1.1.1а простран­
ство 5 есть обычная плоскость; для У1у У%и У3 в примере 1.1.2а
5 есть всевозможные тройки неотрицательных целых чисел,
а для в примере 1.1.3а 5 есть всевозможные пары (гъ г2),
где гх = 1 или 0, а г2 — положительное целое число. Для примера
1.1.1Ь 5 есть множества всех векторов (хи ..., хк) с вещественными
хг, т. е. 5 есть ^-мерное евклидово пространство. Д ля примера
1.1.2Ь 5 есть множество всех векторов (у1....... ук), где — неот­
рицательные целые числа. В примере 1.1.ЗЬ пространство 5 есть
всевозможные последовательности длины к, состоящие из нулей
и единиц.
Как и ранее, любое подмножество Е из пространства 5 назы­
вается событием,. Например, в примере 1.1.1а подмножество Е
есть первый квадрант, т. е. Е = \х ъ х г \ хх ^ 0 и х2 ^ 0} означает
подмножество неотрицательных изменений систолического и диа­
столического давлений. В примере 1.1.2а имеем Е = \уъ у2,
¿/з I ¿/а = Ю00. Уз = 24}, что означает подмножество значений по­
казател я 1(3 для детей, родившихся с весом 1000 г у 24-летних
матерей. В примере 1.1.3а подмножество Е = \гх, г2 | = 1|
означает жизненную емкость легких у индивидуумов с хрони­
ческим бронхитом.
Ч тобы дать определение вероятности события Рг (Е), проведем
различие между этими двумя способами определения & случайных
величин. Если величины Х ъ ..., Х к представляют А: характеристик
одного индивидуума, то Рг (Е ) есть доля индивидуумов в попу­
1.1. Основные понятия теории вероятностей 411

ляции, наборы значений (хх, ..., л;А) которых принадлежат собы­


тию Е. Если Х х, ..., Х .к являю тся значениями одной и той же
характеристики у А индивидуумов, нужно построить новую попу­
ляцию (3 = шь) | т}1 из 1Е7, г = 1, ..., к\. Тогда Рг (Е )
есть доля элементов С, наборы значений (хх, ..., хк) которых при­
надлежат Е. П ри любом из этих определений мы можем обобщить
понятие одномерной функции распределения одной случайной
величины X н а совместную функцию распределения к случайных
величин Х х, ..., Х к, полагая
/■(*!, . . х к) = Рг(Х х -С хх, . . ., Х к < х к). (1.1.13)
Здесь совместная ф ункция распределения есть вероятность собы­
тия Е = с хх и Х 2 < х2 и . .. и Х к < хк\. Если все Х 1
дискретны, может оказаться возможным выразить вероятность
события Е = = х х , ..., Х к — хк \ как совместный закон
распределения р (хх........ хк). Если все Х г- непрерывны, то можно
распространить понятие плотности распределения одной случай­
ной величины на случай совместной плотности распределения
/ [хх, ..., хк) к случайных величин. Вероятности событий можно
тогда получить интегрированием (см. замечание 1.1.3.2). Вместо
соотношения (1.1.6) в многомерном случае справедливо равенство,
которое мы приведем д л я к = 2:
Рг (их < Х у у х, и2 < Х 2 < у2) =
= / г (1>1, v2) — Е (иъ и2) — Р (иг, ь2)-\-Е (и х, и2). (1.1.14)
Рассмотрение А: случайных величин, одни из которых непрерывны,
а другие дискретны, выходит з а пределы настоящей работы.
Ссылки на литературу можно найти в книге АПН, Е1аэЬоГГ (1969).
Рассмотрим другие распределения, связанные с совместным
распределением величин Х х, ..., Х к. Распределение случайной
величины Х1 назы вается частным (или маргинальным) распре­
делением величины X i, I = 1, ..., /г. Это то же самое, что распреде­
ление Х г, рассматриваемое отдельно. Соответствующий закон
(или плотность) распределения называется частным законом
распределения (или частной плотностью распределения). Совмест­
ное распределение подмножества т случайных величин, 1 < т <С
■< 6, при фиксированных значениях остальных /г — т случайных
величин, называется условным распределением и выводится сле­
дующим образом. Переставим случайные величины так, чтобы
были фиксированы значения Х т+х, ..., Х к (Хт+1 = хт+1 , ...,
Х к = хк). Тогда распределение Х х, ..., Х т в подпопуляции,
для которой Х т+х, . . . , Х к фиксированы, называется условным
распределением X ,, . . . , Х т при условии Хт+1 = хт+х, ..., Х к =
= хк. Как и прежде, условное распределение может быть дискрет­
ным и непрерывным, и соответствующий закон (или плотность)
412 Приложение I. Обзор основных понятий

распределения называется условным законом (или условной плот­


ностью) распределения.
Д л я примера 1.1.3а существуют два частных распределения —
частное распределение определяющее распределение инди­
видуумов с хроническим бронхитом и без него, и частное распре­
деление Z2, определяющее распределение жизненной емкости
легких. Если мы интересуемся распределением жизненной ем­
кости л егки х у индивидуумов с хроническим бронхитом, то фикси­
руем = 1 и исследуем распределение для полученной под-
популяции. Это будет условное распределение Ъ2 при условии
г х = 1.
Теперь определим статистическую независимость двух слу­
чайных величин и Х 2. Говорят, что случайные величины
и Х 2 статистически независимы, если реализация Х х не влияет на
реализацию Х2 и обратно. Иными словами, распределение Х х
при заданном значении Х 2 = х2 одинаково для всех значений х г
и обратно. Поэтому величины Хх и Хг статистически независимы,
если условное распределение величины Х г при условии Х2 = х 2
совпадает с частным распределением величины Х г для всех зна­
чений х 2. Аналогично Х х и Х 2 статистически независимы, если
условное распределение случайной величины Х2 при условии
Х х = хх совпадает с частным распределением Х 2 при всех значе­
ниях хь. Можно показать, что следующие определения статисти­
ческой независимости случайных величин Х г и Х 2 эквива­
лентны.
a) Д л я дискретных случайных величин р (хх, х2) =
= Р1 (ху.) Ръ (х 2) при любых X], х 2, в случае непрерывных слу­
чайных величин / (хг, х2) = (х±) / 2 (х2) при любых х1 и х2. Сле­
довательно, совместный закон (плотность) распределения есть
произведение двух частных законов (плотностей) распределения.
b) Е (хг, х 2) = ^ (л:,) F, (х2) для любых х Ли х2. Это определе­
ние справедливо как для дискретных, так и для непрерывных
случайных величин, Следовагельно, совместная функция распре­
деления равна произведению двух частных функций распреде­
ления.
c) Р г (Хх <Е Е х и Х2 6 Е2) = Рг (X, £ Е!> Рг (Х2 € Е,) для
всех событий Е 1 и Е2.

Обычно будем называть статистическую независимость слу­


чайных величин просто независимостью случайных величин.
Две случайны е величины, не являющиеся независимыми, назы­
ваются зависимыми.
Д а л е е , £ случайных величин Х х, ..., Х к взаимно (статисти­
чески) независимы тогда и только тогда, когда F (хг, ..., хк) =
= ? ' (хЛ) /*2 (х2) ... (хК) для всех значений хг, ..., хк. Это
определение справедливо как для дискретных, так и для непре­
1.1. Основные понятия теории вероятностей 413

рывных случайных величин. Равенства а) и с) также можно


распространить на случай & случайных величин.
Для приведенных выш е примеров можно показать, что в при­
мере 1.1.1Ь случайные величины Х х, ..., Х к взаимно независимы.
То же самое верно для и 2*-, I = 1, соответственно в при­
мерах 1.1.2Ьи Ы .ЗЬ. В примере 1.1.1а изменения систолического
и диастолического давлений должны быть зависимыми, так как
диастолическое давление обязательно меньше систолического,
т. е. значение систолического давления является верхним преде­
лом для диастолического. В примере 1.1.2а следовало бы также
ожидать зависимости между возрастом матери и весом ребенка
при рождении и, может быть, между весом при .рождении и пока­
зателем 1(3. Вообще говоря, предполагать независимость случай­
ных величин, определенных для одного и того же индивидуума,
небезопасно. С другой стороны, измерения, выполненные на раз­
личных элементах популяции, вероятнее всего, независимы.
Замечания 1.1.3. 1. Совместный закон распределения р (хъ ...
..., х/г) дискретных случайных величин Х х, ..., Х к обладает сле­
дующими свойствами:
a) 0 < р (х1г ..., х,г) < 1 для всех хъ ..., хк,
b) £ Е Р (*1> • *к) = 1 х);
Х1 хк
и1 °к
c) Рг (% < Х х < их........ ик < Х к < ьк) = Е Е р (*1.
х1~и1 хк~ик

а) р (хг, ..., хк) = Е


••• Е р («1. •••. «*);
ик<хк
е) р (хг) = Е ••• ЕЗ £ Е р (х 1, .... хк) есть частный закон
Х1 х1^1 х1+1 хк
распределения для хг .
■к 2. Совместная плотность распределения / (хх, ..., хк) для
непрерывных случайных величин Х ъ ..., Х к обладает следующими
свойствами:
a) / (хх, ..., хк) ^ О для всех хъ ..., хк\
оо со

b) | ... } { (хъ . . . , хк) йхх ... ¿Хь = 1;


— сю —оо
c) Рг (их < Х х < . . . , ик < Х к < о*) =
11* и1
= | . . . ]7 (*!, . . ., ХЛ) ^Хх ... С1хк\

*) Символ о зн ач а ет суммирование по всем возможным значениям я,-.


414 Приложение I. Обзор основных понятий

Хк Х1

(1) Т7 (х1у ..., хк) = | ... | / («!, .... ик) ... <1ик\
—оо —оо
ОО 00
е) / |
О г ) =
_[ М*1 > •••, Хк) дхх ... йхихйх1+1 ... йхк есть
—оо —оо
частная плотность распределения х г.+

.2. Н а и б о л е е у п о тр еб и тельн ы е одном ерны е


распределения
В настоящем разделе обсудим некоторые наиболее употребитель­
ные одномерные распределения, т. е. распределения одной слу­
чайной величины. В частности, обсудим распределения, исполь­
зованные в этой книге. Для каждого распределения приводятся
его закон распределения или плотность, а также обсуждаются
возможные приложения. Итоговая таблица (табл. 1.2.1) в конце
раздела содержит перечень распределений с указанием закона
распределения, среднего и дисперсии.

1.2.1. Биномиальное распределение


Пусть К г, X,, суть п независимых двоичных случайных вели­
чин, каж д ая из которых принимает значение 1 с вероятностью р
или значение 0 с вероятностью 1 — р. Пусть

Х = £ 1 Х1. (1.2.1)
£=1
Тогда А ’ — случайная величина с выборочным пространством
5 = {О, 1, ..., п\. Распределение случайной величины X назы­
вается биномиальным распределением. Его закон распределения
р (г) = Р г (X = г) обозначается через Ьп (г, р) и задается фор­
мулами
М г'> Р) = ( " ) Р*{1 ~ Р ) п~ 1, » = 0. 1. • ■ (1-2.2)
где

{") = » ( „ - 0 1 ■ (12' 3)
к\ = 1-2-3- ...-{к — 1)6, 0! = 1. (1.2.4)
Величина «£!» читается «& факториал», величина называется
«биномиальный коэффициент» и читается «число сочетаний из п
1.2. Наиболее употребительные одномерные распределения 415

по г». Таблицы факториалов можно найти в математических спра­


вочниках, например, B urington (1965), Большев, Смирнов (1965)*.
В табл. 1 приложения II приведены значения вероятностей
биномиального распределения для п < 10 и различных значе­
ний р. Например, по эт о й таблице вероятность того, что X = 3
при п = 10 и р = 0.5 равна Ь10 (3, 0.5) = 0.1172. Это можно
проверить и непосредственно с помощью (1.2.2) — (1.2.4). Здесь
( п\ — 11 0 \ — 101 10 9 8 1 ПП
W \ 3 ) ~ 317! — 3-2-1 Z ’
р' = (1/2)3 = 1/8, (1 —/с»)"-1 = (1/2)7 = 1/128.
Поэтому Ьм (3, 0.5) = 120 (1/8) (1/128) = 0.1172.
Интерпретацией Ьл (г, р) служит вероятность появления г еди­
ниц при п независимых испытаниях, причем вероятность получе­
ния единицы при каждом испытании равна р. Таким образом,
если в примере 1.1.3 вероятность р того, что некоторый пациент
страдает хроническим бронхитом, равна 1/2, то вероятность
наличия в точности 3 больны х хроническим бронхитом из 10 па­
циентов равна Ь10 (3, 0 .5 ) = 0.1172. Таблицу 1 в приложении II
можно также использовать для вычисления закона распределе­
ния. Например, если К имеет биномиальное распределение с р =
= 0.5 и п = 10, то вероятность того, что имеется не более трех
з
единиц, равна Рг (X - с 3) = £ ¿"но (¿. 0.5) = 0.0010 + 0.0098 +
i=0
+ 0.0439 -I- 0.1172 = 0 .1719. Для значений п и р, не включенных
в эту таблицу, для вычисления биномиальных вероятностей
очень полезна ЭВМ.
Иногда удобнее рассматривать долю единиц, а не их число.
Для этого введем новую случайную величину

i= 1
с законом распределения
Рг ( y = - ^ - ) = м » , Р)> ¿ = 0, . . ., п. (1.2.6)
Ее среднее и дисперсия равны соответственно р и р (1 — р)/п.

1.2.2. Расгределение П уассон а


Пусть X — случайная величина с выборочным пространством
5 = {0, 1, 2, ...}. Величина X обладает распределением Пуассона
с параметром Я, если
Р (0 = Рг (X = i) = — , i = 0, 1.......... (1.2.7)
416 Приложение I. Обзор основных понятий

где Л вычисляется до формулам (1.2.4), а е — константа, приблизи­


тельно равная 2.7183. Таблицы е~%можно найти в математических
справочниках, например, В игш ^оп (1965), Болынев, Смирнов
(1965) * .
Распределение Пуассона описывает события, происхоящие
в случайные моменты времени. Например, число частиц, вылетев­
ших из радиоактивного источника в единицу времени, число теле­
фонных вызовов в минуту в телефонной сети при сгационарном
реж име с удовлетворительной точностью можно описать распре­
делением Пуассона. Во всех этих примерах средняя интенсив­
ность в единицу времени равна параметру к, а вероятность г
событий в единицу времени задается равенством (1.2.7). Более
того, распределение отрезков времени между такими последова­
тельными событиями подчиняется экспоненциальному распределе­
нию, обсуждающемуся в разд. 1.2.4.
Например, предположим, что для телефонной станции в интер­
вале о т 10 до 11 часов дня средняя интенсивность поступающих
вы зовов в стационарном режиме равна 4 вызовам в минуту. Тогда
вероятность поступления не более чем 3 вызовов между 10 : 00
и 10: 0 1 равна
Рг (X < 3) = Рг (X = 0) Н------ 4- Рг (X = 3) =
з _4 .
= 2 ' £7 Г (1 /1 -1 -4 /1 + 16/2 + 32/3) = 0,433.
<=о

1.2.3. Равномерное распределение


Простейшее непрерывное распределение называется равномерным
(или прямоугольным) распределением. Случайная переменная X
называется равномерно распределенной на интервале [а, Ь],
если е е плотность распределения есгь
1 а< х и —
' —а
/М = (1.2.8)
о; в остальных случаях.
Ф ункция распределения имеег вид
О, х<д,
х — а
Р(х) = Ъ— а
а *сх < Ь, (1.2.9)
1, х~>Ъ.

Это распределение иногда обозначается и (а, Ь). Если х — реа­


л изац ии X , то говорят, что л случайно выбрано из интервала
[а , Ь ].
1.2. Наиболее употребительные одномерные распределения 417

Замечания 1.2.1. 1 . Если X есть V (а, Ь), то случайная вели-


чииа I — равномерно распределена на интервале [0, 1 ],
т. €. 1 есть 1У (0, 1). Э то распределение называется стандартизо­
ванным равномерным распределением.
2. Существуют программы д ля ЭВМ, выбирающие случайные
числа г из интервала [0, 1 ]. Д л я выбора случайного числа х из
инчервала [а, Ь] программа выбирает случайное число г из ин­
тервала [0, 1 ], а затем вычисляет х — (Ь — а) г + а. Ссылки на
описания методов получения г можно найти в библиографии
к книге МагИп (1968), а также В усленко и др. (1962) *, Соболь
(1968) *, Кляйнен (1978) *.
3. Одно из важ ны х дискретных распределений имеет закон
распределения
р (г ) = Рг ( X = /) = > 1 = 1 ,

где — целое положительное число. Это распределение назы­


вается дискретным равномерным (или равновероятным). Если х —
реализация случайной величины X , распределенной по этому за­
кону, то говорят, что х выбрано случайно из целых чисел 1, 2...
..., Для выполнения этой операции удобно использовать
ЭВМ — сначала вы брать значение 2 из и (0, 1), затем вычислить
у = -Ь 1 и, наконец, найти х , равное наибольшему целому,
не превосходящему у. Например, если й = 10, а случайное число
оказалось г = 0.561, то гд а у = 6.61 и х = 6. Следовательно, из
набора целых чисел 1, 2, ..., 10 будет случайно выбрано число 6.
4. Случайные числа, выбранные из интервала [0, 1], можно
использовать для выбора случайных реализаций случайной ве­
личины с заданным известным распределением. Эта процедура
обсуждается в разд. 1.6.

1.2.4. Экспоненциальное распределение


Непрерывная случайная величина X называется экспоненци­
ально распределенной с параметром 0, если она имеет плотность
распределения
/ (х) = 0г-о*, х > 0 , 0 > 0, (1.2.10)
и функцию распределения
^(х ) = 1 — е~вх. (1.2.11)
Если распределение ч и сл а событий в единицу времени для не­
которого явления подчиняется пуассоновскому закону с пара­
метром к, то распределение длин отрезков времени между после­
довательными событиями будет экспоненциальным с параметром
0 . = Я.
V? 14 А. Афифи, С. Эйзеи
418 Приложение I. 05зор основных понятий

¡.2.5. Нормальное распределение


В приложениях статистики чаще всего используется нормальное
(гауссовское) распределение. Непрерывная случайная величина X
называется распределенной яо нормальному закону с параметрами
(1 и сг2, если ее плотность распределения есть

, м = 7 § Г 7 ю ,р - т ( ^ У ’
— о о -< л :< ;о о , а > 0 , — о о < {_ 1 < о о . (1.2.12)

Как отмечено в табл. 1.2.1, среднее значение К равно ¡л, а диспер­


сия равн а а2 (стандартное отклонение о).
Ясс)

Ри с. 1 .2 .1 . П лотность нормального распределения при ц = 0 и трех значе­


ниях ст2.

П оскольку функция распределения не представима в замкну­


том ви де, накопленные вероятности можно находить численным
интегрированием (см. ИаЫоп, (1960)). Нормальное распреде­
ление обычно обозначается N (ц,, а2).
Замечания 1.2.2. 1. Плотность, заданная соотношением (1.2.12),
симметрична относительно ¡л, имеет колоколообразную форму
(рис. 1.2.1) и обладает следующими свойствами:
а) площ адь под функцией: плотносги в пределах [х ± о равна
приблизительно 0.68 (т. е. около 68 % индивидуумов в популяции
1.2. Наиболее употребительные одномерные распределения 419

имеют значения X в пределах одного стандартного отклонения от


среднего);
b) площадь под функцией плотности в пределах р ± 2а равна
приблизительно 0.95 (т. е. около 95 % индивидуумов в популяции
имеют значения X в пределах удвоенного стандартного отклонения
от среднего);
c) третий центральный момент равен нулю, а четвертый За4.
Параметр ц определяет положение центра распределения, а пара­
метр о — форму. С уменьшением а распределение становится
круче, а максимум — выше. С увеличением а график плотности
распределения становится более плоским, с меньшей высотой
максимума (рис. 1.2.1).
2. Пусть случайная величина X подчиняется закону распреде­
ления N ((-t, о 2). Преобразованная величина Z, определяемая
соотношением Z = , имеет распределение N (0, 1), т. е.
Z обладает средним р = 0 и стандартным отклонением а = 1.
Плотность распределения Z есть

f (г) = - ¡ т ^ г ехр ( - i r ) ’

Это распределение называется стандартным нормальным распре­


делением. Если Z распределена по закону N (0, 1), то Pr (Z < z)
часто обозначают через Ф (г). Плотность случайной величины Z
обозначается через ср (г). Значения Ф (г) приведены в табл. 2,
приложение I I . Например,
P r(z < - 1.0) = 0.1587,
Рг (г > 1 .0) = 1 - P r ( z < 1 .0 )= 1 — 0.8413 = 0.1587,
P r(— 1 с z < 2) = Рг (z < 2) — Рг (г < — 1) =
= 0.9773 — 0.1587 = 0.8186.
3. Если случайная величина X имеет распределение N (р., а2),
то площади слева от заданного значения х можно получить, пре­
образуя X в Z , а затем воспользовавшись табл. 2, приложение II.
Например, если р = 30, а а = 20, то, чтобы вычислить Рг (X с
< 25), можно воспользоваться преобразованиями:
Pr (X < 25) = Р г ( z < 25¡~030-) = P r ( Z < - 0.25) = 0.4013.

Вычисляя Рг (X ^ 51), получим


Pr (X с 51) = P r ( z ^ 51 ~ 3° ) = P r ( Z ^ 1.05) =
= 1.0 -0 .8 5 3 1 = 0.1469.
420 Приложение I. Обзор основных понятий

Окончательно,
Рг (25 < Х < 5 1 ) = Рг(Х < 51) — Рг (X с 25) =
= Р г ( 2 < 1.05) — Рг (г с - 0 .2 5 ) =
= 0.8531 - 0.4013 = 0.4518.
4. Если X распределена как N (р, а 2), то при постоянных а и Ь
случайная величина ¥ = а + ЬХ имеет распределение N (а +
+ Ь\и, Ь2а2).
5. Если Х г распределена как N ([%, а2), Х 2 — как N (ц2.
о1), ..., Х к — как N ((.I*, о!) и Х ь ..., X* взаимно независимы,
ь.
то случайная величина V = а 4- 2 6г-Хг (где а , Ь х....... Ьк — кон-
¡=1
станты) также распределена по нормальному закону со средним
к. к
а+ и дисперсией 2] Ь\о]. Следовательно, линейная ком-
1=1 ¿=1
бинация независимых нормально распределенных случайных ве­
личин — тоже нормально распределенная величина. Более общий
результат приведен в разд. 1.6.
6. Многие наблюдаемые явления подчиняются приблизительно
нормальному закону распределения. По этой причине основная
часть классической статисгической теории предполагает нормаль­
ность рассматриваемой случайной величины. Как будет показано
далее, другое основание для поддержания предположения о нор­
мальности дает нам центральная предельная теорема, а третье —
то, что некоторые полезные статистические теории не слишком
сильно зависят от этого предположения.
Пример 1.1.1 (продолжение). Чтобы сформулировать вероят­
ностные утверждения относительно величины X, равной измене­
нию диастолического давления вследствие приема лекарства,
врач предполагает, что X распределена нормально со средним
(.1 = 30 мм рт. ст. и стандартным отклонением а = 20 мм рт. ст.
Воспользовавшись замечанием 1.2.2.3, он может вычислить инте­
ресующие его вероятности. Поскольку значения ц и сг совпадают
с использованными в этом замечании, он может сделать выводы,
что (в предположении нормальности):
a) 40.13 % его пациентов, принимающих это лекарство, пока­
жут снижение систолического кровяного давления не более
25 мм рт. ст.;
b) 14.69 % его пациентов покажут снижение большее или
равное 51 мм рт. ст.;
c) 45.18 % его пациентов покажут снижение в диапазоне от
25 до 51 мм рт. ст.
Заметим, что, поскольку эти три возможности исчерпывают
все выборочное пространство, суммарный процент равен 100 %.
1.2. Н аиболее употребительные одномерные распределения 421

1.2.6. Распределение хи-квадрат (х2)


Если 1 Ъ ..., — взаимно независимые случайные величины
с распределениями 1\Г (0, 1), где -V— положительное целое число,
то переменная II, определяемая равенством
V
(1.2.13)
«=1
т г)

Рве. 1.2.2. Плотность распределения хи-квадрат с тремя вариантами значений


числа степеней свободы V .

обладает распределением хи-квадрат (%2) с параметром V. Этот


параметр называется числом степеней свободы. Плотность рас­
пределения I/ имеет вид
(Л>/2> - 1 -и*/2
/( “ ) = -2у/2
. . г -.; 1.. « > 0 , V = 1, 2............ (1.2.14)
[ т - 'Ф ’
Функция распределения не представима в замкнутом виде, и закон
распределения и обозначается х2^ ) -
Замечания 1.2.3. 1. Плотность f (и), зависящая от одного па­
раметра V, обладает п р и малых V длинным правым хвостом, а при
больших V становится почти симметричной (рис. 1.2.2).
2. Определим теперь ироцентиль произвольного распределе­
ния. Для любой случайной величины X значение х?/мо. опреде­
ляемое равенством
Рг (X < хч/ш) = 9/ 100 ,
служит ц-й процентг/лью распределения X . Избранные процен-
тили распределения у 2 для некоторого диапазона степеней сво­
14 А. Афифи, С. Эйзен
422 Приложение I. Обзор основных понятий

боды V приведены в табл. 3, приложение II. Например, 90-я про-


центиль для распределения х~ при V = 9 равна Хо.эо (9) = 14.7.
Из этого следует, что 90 пэ индивидуумов в популяции имеют
значение этой случайной переменной <14.7. Аналогично, 5-я про-
центиль от распределения % при V = 15 равна Хо.об (15) = 7.26.
1.2.7. Распределение Стьюдента
Если случайная величина 7 имеет распределение N (0, 1), а и —
распределение (V) и величины 7 и I/ независимы, то случайная
величина Т, определяемая равенством

г - - ш - (Г2Л5а)
имеет распределение Стьюдгнта с параметром V. Параметр V
представляет собой число степеней свободы. Плотность распределе­
ния Т им еет вид

/40 =
Р
\ 2 Ч
I !

( V - (■у+! )/2
V Л'Я |

+
ф
V 2
- о о ’< ; £ < оо, V = 1, 2 , (1.2.15в)
{( *)

Функция распределения не представима в замкнутом виде. Закон


распределения Т обозначается 1(у).
1.2. Наиболее употребительные одномерные распределения

Замечания 1.2.4. 1. Плотность этого распределения имеет


симметричную форму, более плоскую и более широкую по сравне­
нию с нормальным распределением (рис. 1.2.3). При V оо плот­
ность распределения Стьюдента приближается к плотности рас­
пределения N (0, 1).
2. Верхние процентили ¿-распределения приведены в табл. 5,
приложение II. Например, 95-я процентиль ¿-распределения при
V = 10 равна ¿0.95 (Ю) = 1.812. Вследствие симметрии, нижние
процентилн можно получить из соотношения tq/ш (у) =
= —¿1_(?/ 1 со) (V). Следовательно, 5-я процентиль от ¿ при V = 10
равна ¿0 05 (Ю) = — 1.812.

1.2.8. /•'-распределение
Если случайная величина и имеет распределение х2 Ю> а У —-
распределение %2 (у^) и величины и и V независимы, то случайная
величина
и/^ (1.2.16)
V/*,. ' ;
f(ш)

Рис. 1.2.4. Плотность /•'-распределения с тремя вариантами значений чисел сте­


пеней свободы VI, у2.

обладает / -распределением с параметрами и га. Параметры V!


и v2 называются соответственно числами степеней свободы числи­
теля и знаменателя. П лотность распределения ’К7 имеет вид
( + уз ~ ?Л I (VI—2)/2
I 2 ) • / VI у « /8 ю________________
^ ^1 — 2 ^ I ^ У2 — 2 ^ I и г ) ^ I уга) )/2 ’

“ »>* 0» V, = 1, 2, . . (1.2.17)
14*
Таблица 1.2.1
Наиболее распространенные одномерные распределения

Таблица
Р аспределение Тип Закон или плотность распреЬе СреЪнее Д и спер сия в приложении П

Б ином иальное Д искрет ное р'(1 пр пр( \ - р ) I


С)
Луассоновсков Д искрет ное Я

Равномерное Непрерывное а+Ь (Ь-а)2


( пр ям о уго льно е) Ь-а 12
ЗкспонЬ нциат ное Н епрерывное в (
I
в
И орм ольлое Непрерывное 1
- ехр - I -1 2
/ 2п а I2
'ехр( —х2/2)
хЧу) Н е пре ры вн ое IV
* Н !

-)!
/(.) Н е пр е р ы вн о е 5
/2](»+1)/2 V—2
1+ “
^ № 1 1 V

(г г
/г0'„1'2) Н епреры вное
уг-2 ^,(1>2-2)2(у2-4)
г ) ! ( ■ ♦ ¥ ) .............
1.3. Выборки из генеральной совокупности 425

Функция распределения н е представима в замкнутом виде. Закон


распределения величины № обозначается / (ух, у2).

Замечания 1.2.5. 1. П лотность /"-распределения имеет длин­


ный правый хвост и. асимметрия его уменьшается с увеличением
л»! и у2 (рис. 1.2.4).
2. Верхние процентили /-распределения приведены в табл. 6,
приложение И. Н апример, 97.5-я процентиль /-распределения
при = 5 и у2 = 19 р ав н а /о.я75 (5. 19) = 3.33. Нижние процен-
тили можно получить и з соотношения

/<7/100 С'Ч5 ^ 2) ~р 77; V \ •


М — (-7/100) ( 2* У1)

Следовательно, 5-я процентиль распределения / при = 4 и


V, = 15 равна / 0.05 (4, 15) = ^ ‘(15|4) = = 0Л71'

1.2.9. Резюме
В 'табл. 1.2.1 собраны в с е восемь распределений, рассмотренных
в этом разделе. Д ля каж дого распределения приведены: его тип,
закон или плотность распределения, среднее, дисперсия и ссылка
на соответствующую таблицу в приложении II.

1.3. В ы борки из г е н е р а л ь н о й совокуп ности


Основной целью статистического анализа является выяснение
некоторых свойств рассматриваемой генеральной совокупности.
Если генеральная совокупность конечна, то наилучшая проце­
д у р а — рассмотрение каж д о го ее элемента (если это возможно).
Однако в большинстве интересных задач используются либо бес­
конечные генеральные совокупности, либо конечные, но трудно
обозримые. В этой ситуации наилучш ая процедура состоит в том,
чтобы тщательно отобрать из генеральной совокупности подмно­
жество из п элементов, называемое выборкой объема п, исследовать
его свойства, а затем обобщить эти результаты на всю гене­
ральную совокупность. Это обобщение результатов на генераль­
ную совокупность назы вается статистическим выводом. В на­
стоящем разделе вн ачале обсудим вопрос об извлечении выборки
объема л, по которой обобщение на всю генеральную совокуп­
ность допустимо, а затем расш ирим смысл понятия статистиче­
ского вывода и обсудим понятие выборочных распределений.
426 Приложение I. Обзор основных понятий

1.3.1. Случайные выборки

Основное требование к выборке — хорошо представлять (быть ре­


презентативной, представительной) генеральную совокупность.
Хотя трудно определить, что подразумевается под словом «пред­
ставительная», обычный жетод состоит в получении случайной
выборки. Простая случайная выборка объема п — это выборка,
извлеченная так, что любая возможная выборка объема п имеет
такую же вероятность извлечения из генеральной совокупности.
Ч тобы удовлетворить этожу определению, каждый элемент вы­
борки следует возвращать в генеральную совокупность перед
извлечением следующего элемента. Это называется выборкой с воз-
вращемием. Другой тип случайной выборки (не простая) полу­
чается , если выбранные элементы не возвращаются в генеральную
совокупность и, следовательно, могут появиться в выборке не бо­
лее, чем однажды. Эго называется выборкой без возвращения. Если
генеральная совокупность бесконечна, то процедуры выбора как
с возвращением, гак и без него, дают простую случайную выборку.
Если генеральная совокупность конечна и велика по сравнению
с разм ером выборки, то процедура извлечения без возвращения
дает приблизительно простую случайную выборку. Если гене­
р а л ь н а я совокупность конечна и объем выборки составляет замет­
ную долю от размера генеральной совокупности, то различие
между этими двумя методажи становится заметным.
Формально выборка объема п есть набор реализаций п неза­
висимых, одинаково распределенных случайных величин. Эти
случайные величины представляют измерения одних и тех же
характеристик у п элементов, как было определено в разд. 1.1.6.
Интуитивно это можно понимать так, что каждый элемент, вхо­
дящий в генеральную совокупность, имеет одинаковую вероятность
попадания в выборку и что выбор некиюршо члена выборки не
за в и с и т от выбора остальных. Главное преимущество процедуры
случайного извлечения выборки состоит в том, что можно исклю­
чить воздействие неконтролируемых факторов, и в том, что многие
теоретические результаты гораздо легче получить в предположе­
нии случайного извлечения. Другие методы извлечения выборок
обсуждаются в книге Cochran (1953).
Стандартные процедуры получения случайной выборки из ко­
нечной генеральной совокупности обсуждаются в большинстве
элементарных учебников, например, Dixon, Massey 4 (1969).
В р азд . 1.2.3 говорилось о машинных методах получения случай­
ных выборок. Практически не существует сгандартного метода
получения простой случайной выборки из бесконечной генераль­
ной совокупности. Поэтому исследователь вынужден ограничи­
ваться конечными подмножествами генеральной совокупности.
Бесконечные генеральные совокупности возникают в эксперимен­
1.3. Выборки из генеральной совокупности 42?

тальных ситуациях, аналогичных ситуации примера 1.1.1. Врач


по необходимости должен сузить свою гипотетическую бесконеч­
ную популяцию до реальной конечной популяции пациентов,
принимавших лекарство в о время исследования. Более того, ради
удобства, он ограничивается подпопуляцией пациентов, живущих
вблизи его клиники. Из это й подпопуляции он фактически может
извлечь случайную выборку объема п.

1.3.2. Выборочные распределения


Обсудим в этом разделе понятие выборочного распределения. Для
его обоснования вначале рассмотрим компоненты статистиче­
скою вывода. Статистический вывод можно рассматривать как
Генеральная совокупность №

I I

И сходное р а сп р еЪ влен и е В ы б о р о ч но е р а сп р еЬ елен и е д

Рис. 1.3.1. С хематическое п р едставлен и е выборочного распределения.

метод получения утверждений относительно неизвестных параме­


тров изучаемой генеральной совокупности. Эти утверждения можно
разбить на два основных раздела — оценивание и проверка гипотез.
Первый раздел имеет д ел о с получением оценок, заданных либо
а) посредством вычисления по выборке единственной оценки (на­
зываемой точечной оценкой), либо Ь) посредством вычисления
интервала, предполож ительно включающего истинное значение
параметра (назы ваем ого доверительным интервалом). Эти
методы оценивания — точечные и интервальные — обсуждаются
428 Приложение I. Обзор основных понятий

в р азд. 1.4. Второй раздел статистического вывода имеет дело с про­


веркой справедливости утверждений, называемых статистиче­
ским и гипотезами относигельно параметра (ов) распределений, и
обсуждается в разд. 1.5.
Д л я целей статистического вывода предположим, что у нас
есть случайная выборка х х, ..., х п, в которой л:г — реализации
независимых, одинаково распределенных случайных величин Х г.
З атем мы вычислим некоторую функцию ц (хг, ..., х„) от случай­
ной выборки, называемую статистикой. Повторяя эту процедуру
для всех возможных выборок объема п, мы получим выборочную
популяцию g. Распределение этой популяции называется выбороч­
ным распределением статистики £(рис. 1.3.1). Примеры выбо­
рочных распределений будут обсуждены в последующих раз­
д ел ах .

Пример 1.1.1 (продолжение). Врач знает, что случайная вели­


чина X , определенная как X (ш), равная изменению диастоличе­
ского давления у пациента ш, является непрерывной. Более того,
он предполагает, что X распределена по нормальному закону со
средним ¡л и дисперсией а2. Затем он извлекает случайную выборку
объема 9 пациентов поблизости от своей клиники и лечит их дан­
ным лекарством . На основании наблюдений х ь ..., хв он хочет
оценить параметр ¡д, или проверить гипотезы относительно него.

1.4. О ц е н к а п а р а м е т р о в ген еральной совокупности


Пусть имеется случайная выборка х и ..., хп реализаций слу­
чайны х величин Х г, ..., Х п из генеральной совокупности с плот­
ностью (или законом распределения) вида / (х\ 0!, ..., 0^). «Функ­
ция записана здесь в новой форме, позволяющейпредставить либо
плотность, либо закон распределения и указать на зависимость от
& параметров 0Г, ..., 0*, часть из которых может быть известна.
Ж елательно оценить один или несколько параметров 07- по нашей
выборке. К аж д ая функция ^ (Х ъ ..., Х п), которую мы выберем
для оценки данного параметра, называется (точечной) оценкой,
а численное значение g (хь ..., х п), которое она принимает на
нашей выборке, называется значением (точечной) оценки. Так как
к аж д ая оценка сама является случайной величиной, мы можем
и зуч ать ее выборочное распределение, чтобы узнать ее свойства.
Ж елательные свойства оценок обсуждаются в разд. 1.4.1, а методы
их получения — в разд. 1.4.2. Доверительные интервалы рассмо­
трены в разд. 1.4.3. Теоретическое изложение и примеры можно
найти, например , в книге 1лпс1£геп (1968).
1.4. Оценка парам етров генеральной совокупности 429

1.4,1. Свойства точечных оценок


Далее в этом разделе будем обозначать параметр, который пред­
стоит оценить, через 9 , а его оценку — через д = g ( Хх, ..., Х п).
Одним из ж елательны х свойств оценки является несмещенность.
Оценка 0 называется несмещенной, если
^ ( 9 ) = 0 д л я всех 0.
Отсюда следует, что выборочное распределение 0 имеет в ¡<ачестве
центра параметр 0, т. е . несмещенная оценка 0 параметра 0 в сред­
нем равна 0.
Для некоторых зад ач может оказаться возможным найти не­
сколько несмещенных; оценок. Интуитивно предпочитают ту из
них, которая обладает наименьшим рассеянием. Несмещенная
оценка 9 параметра 0, обладающая минимальной дисперсией среди
всех несмещенных оценок для 9 , называется эффективной. Если
V (9) — минимальная дисперсия, а V фа) — дисперсия любой
другой несмещенной оценки 0,г параметра 0, то эффективность
оценки 0„ равна по определению
(1.4.2)
У(ёа)
Эта величина заклю чена между О и 1. Эффективная оценка иногда
называется несмещенной оценкой с минимальной дисперсией.
Иногда оценка становится эффективной с увеличением объема
п выборки. П редельная эффективность оценки при бесконечном
увеличении объема вы борки называется асимптотической эффек­
тивностью. Если асимптотическая эффективность равна 1, оценка
называется асимптотически эффективной.^
Другим ж елательны м свойством оценки 0 является состоятель­
ность. Формально о ц ен ка 0 называется состоятельной, если для
любого положительного р.
Рг {| 0 — 0 1<С е} —> 1 при п- ±оо. (1.4.3)
Интуитивно отсюда следует, что при увеличении объема п выборки
наша оценка приближ ается к истинному значению параметра.

1.4.2. Методы оценивания


Поскольку не сущ ествует единственной, наилучшей процедуры
оценивания интересующих нас параметров 01( 02, ..., 0*, предста­
вим в этом разделе некоторы е стандартные теоретические методы
оценивания. Старейшим из современных методов получения то­
чечных оценок явл яется метод моментов. Вкратце, чтобы оценить
к. параметров 0Х, ..., 0/, этим методом, приравниваем к первых
моментов генеральной совокупности первым к выборочным момен­
430 Приложение 1. Обзор основных понятий

там (выборочные моменты определяются в разд. 2.2.1). Решение к


уравнений дает оценки параметров. Как правило, эти оценки со­
стоятельны.
Самый распространенный метод оценивания — метод макси­
мального правдоподобия. Чтобы ввести этот метод, определим ф унк­
цию правдоподобия
П
£ = П/ Чад 0 ! , 0 * ) , (1.4.4)
1=1
где еимвол П означает произведение сомножителей / (хг; 9г, ...
..., 0*). .Метод максимального правдоподобия состоит в опреде­
лении значений 01, ..., 0*, максимизирующих I. по отношению
к 0Х, ..., 0£. Полученные оценки 0Х, ..., 0А называются оценками
максимального правдоподобия (МП-оценками) и являются состоя­
тельными , асимптотически нормальными, асимптотически эффек­
тивными при некоторых достаточно общих условиях. Однако они
часто оказываю тся смещенными. Для нахождения численных
значений оценок для данной выборки чрезвычайно полезно ис­
пользовать ЭВМ.
Т ретий метод — метод оценивания по минимуму у \ Д ля этого
метода предположим, что выборочное пространство разделено на
с взаим но непересекающихся классов, в совокупности исчерпы­
вающих в с е пространство. Пусть п1 — наблюдаемое число выбо-
С

рочных значений в 1-м классе, / = 1, ..., с. Следовательно, ^ я, =


— 1- ¡=
= п. Д ал ее , пусть (0Х, ..., 0/г) — вероятность попадания в ¿-й
класс, ¿ = 1, ..., с. Эти вероятности получаются из гипотетиче­
ского зак о н а распределения (или плотности) и являются функ­
циями парам етров. Метод оценивания по минимуму %2 состоит
в определении значений , 0*, минимизирующих
„2 _ V» [«, — ПР1(в!......... 6б)Р ,т . ,ч
Х п Р1 (0,......... 0*) •
¿'= 1
Для получения численных решений также полезно применить
ЭВМ.
Н аконец, распространенным методом оценивания является
метод наименьш их квадрате«. Этот метод и его свойства подробно
излагаю тся в гл. 3 и 4.

1.4.3. Доверительный интервал для параметра


После т о г о как получена точечная оценка 0 параметра 9, ж ела­
тельно получить данные относительно надежности этой оценки.
Это можно сделать, вычислив стандартное отклонение выборочного
1.4. О ценка параметров генеральной совокупности 431

распределения оценки 0. Эта величина называется стандартной


ошибкой оценки и служит мерой ее разброса. Другой подход со­
стоит в построении доверительного интервала. Для этого интер­
вала определяется вероятность того, что в нем находится неизвест­
ное истинное значение параметра 0. Эта вероятность есть мера
нашего доверия к тому, ч то интервал содержит истинное значение
параметра, откуда и происходит название интервала.
Точнее говоря, мы заранее^ выбираем число а, 0 < ; « < 1, и
находим два других числа а (0) и Ь (0), зависящих от оценки 0,
так что
Рг |а ( 0 ) < 0 < 6 (0)} = 1 - а. (1.4.6)
Интервал [а (0), Ь (0)] называется 100 (1 — а)-процентным дове­
рительным интервалом д л я 0 1). Вероятность того, что этот интер­
вал содержит истинное значение 0 равна 1 — а (доверительный
уровень). Значения а (0) и Ь (0) зависят от выборочного распреде­
ления для 0 и называются доверительными границами для 0. Эти
границы являются случайными величинами, изменяющимися от
выборки к выборке. От доверительных интервалов, основанных
на всех возможных выборках объема п, мы ожидаем, что 100 (1 —-
— а) % их содержит истинное значение 0. Обычные значения для
а: 0.1, 0.05, 0.01 соответствуют 90 %- 95 %- и 99 %-ным довери­
тельным интервалам. П ри фиксированном п чем выше доверитель­
ный уровень, тем шире доверительный интервал. Кроме того, при
фиксированном а с увеличением п длина доверительного интер­
вала убывает.
Замечания 1.4.1. 1. Е сл и случайная величина X распределена
по закону N (ц, о2), то М П-оценки для параметров ц и а 2 соответ-
/X
ственно равны ц = ^ хЛ = х , т. е. выборочному среднему, и
/ ¿=1
П
а2 = ~ ^ — х)2. О ценка х является несмещенной, состоятель-
¿=1
ной и эффективной. Ее выборочное распределение тоже нормаль­
ное со средним }1 и дисперсией о2/п, т. е. х имеет распределение
N (\х, а2/п). Оценка а2 — смещенная, но состоятельная. Выбо­
рочное распределение величины па2/о2 есть распределение %2
с а — 1 степенями свободы. Следовательно, среднее для о2 есть
( п — 1) о2/п, а дисперсия равна 2 (п — 1) а 4/п2.

*) Д оверительн ы е и н тер в ал ы имеют разные формы записи. Например, а (0) с


< 0 < Ь (0). А н ал о ги ч н о , е с л и 6 (0) = 0 с и а (0) = .0 — с приА некотором
постоянном с, т о мож но за п и с а т ь доверительный интервал в виде 0 ± с.
432 Приложение I. Обзор о сн о м ы х понятий

Несмещ енная форма МП-оценки для сг2 такова:

¿=1

Э т о — выборочная дисперсия. Выборочное распределение вели­


чины (п — 1) s2/ a 2 есть %2 (п — 1).
Величина s является обычной оценкой стандартного отклоне­
ния а. Это смещенная оценка. Стандартная ошибка среднего х
р а в н а а Ц / п и, следовательно, оценивается величиной s iy h .
2. На протяжении всей книги используется важное понятие
числа степеней свободы для суммы квадратов. В общем случае,
если s2 — такая несмещенная оценка для о2, что величина vs2/o2
имеет распределение у? (v), то говорят, что s2 обладает v степенями
свободы.
3. Важным теоретическим результатом относительно выбо­
рочных распределений является центральная предельная теорема.
Различны е формы этой теоремы даны в книге Feilet (1968); здесь
мы приведем одну из ее простейших формулировок.
Е сли Х х, Х п — независимые, одинаково распределенные
случайные величины со средним р и конечной дисперсией о2, то
при /-г-*-оо распределение случайной величины

V п (~Х ~ |Ц ) есть N (О, 1), где X = -L ^ X t.


1=1
Вот одно из важных применений этой теоремы: если мы получаем
случайную выборку объема п из генеральной совокупности с ко­
нечной дисперсией, то независимо от распределения нашей слу­
чайной величины X , распределение выборочного среднею X при
больш их п будет приблизительно N (|л, а21п). Другие теоретиче­
ские следствия из этой теоремы приведены в гл. 2.
4. Если случайная величина X распределена по биномиаль­
ному закону с параметрами п и р, то МП-оценкой параметра р
будет

р = je = — V *
« ¿тЛ
1= 1
Э то— несмещенная оценка. Из центральной предельной теоремы
следует, что при больших п выборочное распределение р является
приблизительно нормальнымсо средним р и дисперсией р (1— р)/п,
т. е. р имеет приблизительно распределение N (р, р (1 — р)/п)
для больш их п.
1.4. Оценка парам етров генеральной совокупности 433

5. 100 (1 — а ) %-ным доверительным интервалом для среднего


(.1 нормального распределения с известным а будет
а _ . а
X — Zi_(a./2) Г7=> г1-(« / 2) VГ п^ где Zi_(a/ 2) есть 100 (1
Vп
— (а/2))-я ироцентиль распределения N (0, 1).
6. Существуют численные методы получения оценок макси­
мального вравдоподобия. П риложение таких методов к одной из
задач клинической биохимии мож но найти в работе Azen, Reed
(1973).
Пример 1.1.1 (продолжение) . Врач зарегистрировал 9 выбо­
рочных реализаций (в мм рт. ст.): •— 10, —5, 0, 25, 30, 35, 45, 50 и
55. Оценка я максимального правдоподобия для среднего ц. равна
(1/9) (—1 0 — 5 Ч------- Ь 55) = 2 5 , а для дисперсии а 2 имеем а 2 =
= (1/9) '( —10 — 25)2 - + . . . + (5 5 — 25)2) = 4800/9 = 533.3. Н е­
смещенная оценка s2 дисперсии а 2 равна 4800/8 = 600, а обычная
оценка s для среднеквадратичного отклонения равна ]/ 600 = 24.5.
Наконец, оценка для стандартной ошибки среднего х есть s l y п =
= 24.5/3 = 8.17.
Предполагая, что дисперсия а известна и равна о = 20 мм
рт. ст. (см. пример после разд. 1.2.5), получим 95 %-ный довери­
тельный интервал д л я р: 25 — 1.96 [ 77=), 25 + 1,96
’ U9
= (11.9, 38.1). Следов ательно, истинное значение [х попадает в этот
интервал с вероятностью 0.95.

1 . 5 . П р о в е р к а г и п о т е з

Во многих научных исследованиях задачу можно сформулиро­


вать в виде гипотезы, которую предстоит подтвердить или отверг­
нуть. Таким образом, исследуемая теория оказывается основой
для статистической гипотезы. Статистическая гипотеза — это
утверждение относительно значений одного или более параметров
данного распределения или о самой форме распределения. Следо­
вательно, статистическая гипотеза является утверждением отно­
сительно генеральной совокупности, описываемой этим распре­
делением .
В примере 1.1.1 в р а ч ж ел ает определить, уменьшает ли пред­
лагаемое лекарство ар тер и ал ьн о е давление у пациентов с гиперто­
нией. Тогда он формулирует гипотезу «среднее снижение давления
крови больше нуля», т. е. лекарство оказывает положительное
воздействие на снижение давления. Он узнает из статистической
434 Приложение I. 05зор основных понятий

теории, что для проверки этой гипотезы надо сначала сформулиро­


вать другую гипотезу: «вследствие приема лекарства никакого из­
менения давления в среднем не происходит». Если он положит ^
равным среднему распределения двухнедельного снижения диа­
столического давления по генеральной совокупности, то сможет
за п и с а т ь • последнюю гипотезу в виде Н 0: ¡я = 0. Однако врача
интересует гипотеза [л > 0. Тогда его задача — получить ре­
шение, основанное на некоторой выборке пациентов и подтвер­
ждающ ее либо либо Нг. Гипотеза Н0 называется нулевой гипо­
тезой', э т о «гипотеза отсутствия изменений». Интересующая врача
гипотеза Н± называется альтернативной гипотезой. Большинство
задач проверки статистических гипотез можно сформулировать
так, чтобы нулевая и альтернативная гипотезы были определены
аналогично.
Статистическая проверка гипотезы — это процедура выясне­
ния, следует ли принять нулевую гипотезу или отвергнуть ее.
П ричина выделения нулевой гипотезы состоит в том, что Н 0 обычно
рассматривается как утверждение, которое более важно, если оно
отвергнуто. Это основано на общем принципе, гласящем, что тео­
рия долж на быть отвергнута, если есть противоречащий пример,
но не обязательно должна быть принята, если такого примера
найти н ельзя.
Без какого-либо теоретического обоснования в пользу той или
иной гипотезы врач рассматривает выборочное среднее изменения
систолического давления. Он решает, что если х превосходит опре­
деленное значение, называемое критическим, го отвергнет Н0 и
примет Н х, если же х не превосходят критического значения, то
он не мож ет отвергнуть Н 0. (Позже будет показано, что эта проце­
дура теоретически обоснована.) Ради простоты записи будем упо­
треблять вместо «не отвергая # 0» более простое «принимая # 0».
Следует иметь в виду, что его решение, т е, отклонение или приня­
тие Н 0, основано на его выборочных наблюдениях и поэтому может
оказаться ошибочным.
В общем случае существуют два типа ошибок, связанных с ре­
шением. Если в действительности гипотеза Н 0 верна, а принято
решение отвергнуть И 0, то допущена ошибка, называемая ошибкой
первого рода. С другой стороны, если в действительности верна
гипотеза Н ъ а принято решение принять Я 0, то допущена ошибка
второго рода. Эти ошибки описаны вгабл. 1.5.1 вместе с вероятно­
стями принятия каждого из решении при заданной истинной си­
туации. Вероятность ошибки первого рода обозначена через а, аве-
роятность ошибки второго рода обозначена через р. Эти вероятно­
сти м ож но представить в виде
а = Рг { отвергнуть Н0 \Н0 верна}, (1.5.1)
|3 = Р г { п р и н я т ь Я 0 1 Я 0 л о ж н а }.
1.5. Проверка гипотез 435

(Черта «|» читается «при условии, что».) Статистическая задача


состоит в том, чтобы найти решающую процедуру, некоторым об­
разом минимизирующую вероятность совершения любой из этих
ошибок, т. е. минимизирующую а и р .
Таблица 1 .5 .1
Д ва т и п а о ш и б о к , д о п у с к а е м ы х п р и с т а т и с т и ч е с к о й
проверке г и п о т е з

# 0 верна Н 0 не верна

Ош ибка Верное
Отвергнуть Н 0 первого рода, решение,
вероятность а вероятность I- ■Р
Верное Ошибка
П ринять / / „ решение, второго рода,
вероятность 1— а вероятность р
В примере 1.1.1 обозначим через хс критическое значение х.
Д ля вычисления вероятностей а и р , связанных с этим решением,
врач изучает выборочное распределение х при условии, что верна
//„, а также выборочное распределение х. при условии, что верна Н х.
Н у л е в о е р а с п р ед е лен и е Альтернативное распред елен ие

С верна Н0) (верна Н,)

/*“0 г ь
Область принятия Критическая область

Ри с. 1.5.1. В ероятн ости, связанны е с проверкой гипотезы Н0: = 0 против Н х


М- = 14 > 0.
Так как Н х включает каждое значение и > 0 и все они входят
в Ни то он ограничивается некоторым частным значением, н а­
пример II = щ > О. Эти распределения показаны на рис. 1.5.1.
Нулевое и альтернативное распределения — выборочные распре­
деления х соответственно при условиях Я 0 и Н х. Так как задача
исследователя — минимизировать а и р, то он ищет х с, достигаю­
щее этой цели. И зучение рис. 1.5.1 показывает, что при движении
х с вправо а убывает, но р растет. Аналогично, если х с движется
влево, то р убывает, а а растет. Обычное решение этой дилеммы
состоит в том что фиксируют некоторое малое значение а и на­
деются, что р будет такж е мало. Фиксированное значение а назы­
вается уровнем значимости. Обычные значения для а : а == 0.10,
0.05, 0.01. При фиксированном а «качество» критерия для про-
436 Приложение I. Обзор основных понятий

верки гипотезы измеряется вероятностью отвергнуть Н0, когда


верна Н 1. Эта вероятность, называемая мощностью критерия,
обычно обозначается через л и выражается соотношением
зх = 1 — р = Рг { отвергнуть Н0\ Н1 верна } ==
= Рг { принять Н1\Н 1 верна}. (1.5.2)
Следует отметить, что в нашем примере мощность является функ­
цией выбранного альтернативного значения параметра «Хо­
рошим» критерием при фиксированном а является критерий, об­
ладающий большей мощностью. Иногда удается найти «наилучший»
критерий в том смысле, что он обеспечивает минимум (5 среди всех
критериев, обладающих уровнем значимости а. Другими словами,
наилучший критерий — это критерий, обладающий максималь­
ной мощностью я среди всех критериев с уровнем значимости а.
Ф иксация а задает критическое значение х с. Критической об­
ластью для Н0 называется подмножество выборочного простран­
ства, соответствующее'отклонению гипотезы Н0. Дополнительная
область, соответствующая принятию называется областью
принятия Н 0. Д ля примера 1.1.1 критическая область есть х ^ х с,
а область принятия х < ^хс (рис. 1.5.1).

1.5.1. Процедура построения критерия


для проверки гипотезы
Вообще говоря, проверка статистической гипотезы эквивалентна
указанию критической области выборочного пространства при
фиксированном уровне значимости а. Может существовать много
критериев, достигающих одного итого же значения а, но цель со­
стоит в отыскании критерия, максимизирующего мощность. Хотя
стандартной процедуры определения наиболее мощного критерия
не существует, часто оказывается полезной процедура, основанная
на отношении правдоподобия. Обсудим эту процедуру.
Пусть х ц ..., х п — случайная выборка из генеральной сово­
купности с плотностью (или законом распределения) / (х\ 0Х, ...
..., 0/,,). Отношение правдоподобия К определяется выражением
тах Ь (01, . . ., 0^)
К = н ° , -------------------------- ¡ р г - . ( 1 . 5 . 3 )
тах Ь (01, . . ., 0д.) ' '
Знаменатель представляет собой максимальное значение функции
правдоподобия Ь (0Х, ..., 0/г), заданной равенством (1.4.4), по
всем возможным значениям параметров 0!, ..., 0А. Числитель
представляет собой максимальное значение Ь (02, ..., 0*) при всех
значениях параметров, которые допускаются гипотезой Н0. З а ­
метим, что К — случайная величина, так как она является функ­
цией от Х г, . . . , Х п. Так как Н 0 налагает ограничения на значения
1.5. Проверка гипотез 437

параметров, то отношение X должно удовлетворять неравенству


О< X < 1. Интуитивно ясно, что, если % окажется близко к 1,
мы должны склониться к принятию Н0. Таким образом, процедура
проверки отношения правдоподобия состоит в отклонении Н0 при
О с X < ХС1 где Хс выбирается так, чтобы
Р г ( Д .< ? ^ |Я 0) а. (1.5.4)
Следовательно, критическое значение Хс определяется из распре­
деления величины X при условии Я 0 так, чтобы при выполнении
гипотезы f í 0 критическая область имела вероятность а. Полезно
отметить, что
ш ахL, (0л, . . ., 0 /í) = L (01, . . ., 0*), (1.5.5)
где 0г — сценка максимального правдоподобия параметра 0¿,
1=1, k. А налогично,
шах L (01, . . ., 0*) = L (01О>, . . ., 0Jto)), (1.5.5)
Но
где 0Í"’ — либо значение 0Ь заданное гипотезой Я 0, либо МП-
оценка параметра 0¿ при условии Я 0, i = 1, ..., k. Т ак как зн а­
чение Хс невозможно определить, если неизвестно распределение X
при условии правильности нулевой гипотезы, иногда оказывается
необходимым воспользоваться асимптотическим распределением
для X. При выполнении Я 0 и п —>- сю распределение —21n X при­
ближается к распределению х 2 (v)- Число степеней свободы v
равно числу независимых параметров при справедливости гипо­
тезы Я 0.
Замечания 1.5.1. 1. Предположим, что X распределена по
закону N (¡i, о2) с известной дисперсией а 2, и значения х ъ ..., хп—
случайная выборка и з этого распределения. Рассмотрим проверку
гипотезы Н0: ¡л = ¡а0 против односторонней альтернативы Н х:
ц > fx0 с уровнем значимости а.. Критическая область для наи­
лучшего критерия определяется условием х ^ х и, где х = (Un) X
П
X 2 j * í — выборочное среднее, а х„ выбрано так, что Рг(я;э=
í= l
5г х и | Яп) = а . П оскольку иззам ечания 1.4.1.1 мы уже знаем, что
при выполнении Я 0 величина к имеет распределение N (ц.0, а2/п),
то х и = ^ 0 + zx_a {о/ l / п), где 2гх_а есть 100 (1 — а)-я процентиль
распределения N ( 0 , 1). Следовательно, критической областью
будет правый хвост ( х ^ х и) (рис. 1.5.2, а).
Аналогично для проверки гипотезы Я 0: ¡j, = [хв против другой
односторонней альтернативы Н х\ ц, <" н-0 наилучший критерий
дает в качестве критической области левый хвост, а именно х. с
< x¡ = [х0 4- za ( а ! / п) (рис. 1.5.2, Ь). Эти критерии называются
односторонними.
438 Приложение I. Обзор основных понятии

Н аконец, для проверки гипотезы Я 0: м. = }х0 против двусторон­


ней альтернативы Н х: ц Ф ^ критерий отношения правдоподо­
бия дает в качестве критической области оба хвоста одновременно:
X < ха ;== ¡Xq -f" Za/2 ./— И (сс/2) ./—
Vп Vп
(рис. 1.5.2, с). Этот критерий называется двусторонним. Отметим,
что оба односторонних критерия обладают тем свойством, что их
мощность против любого значения ¡л, которое возможно при вы­
полнении И 1, максимальна. Критерий, наилучший для всех аль­
тернатив, называется равномерно наиболее мощным.
я = P r ( Z с zg - f у-п ) ,

Рис. 1.5.2. К р и ти ч ес к и е области для проверки гипотезы Н 0: (.1 = р 0 при задан­


ной д и с п е р с и и о2, а — альтернатива !ЧХ\ р, > р 0; 6 — альтернатива Нх. ц < ц0;
с — а л ь т е р н а т и в а Н х. ¡х^= р0.

2. Л е г к о вычислить мощность каждого из критериев в замеча­


нии 1.5.1.1 . Д ля альтернативы Н х: ц = м-1 > к> получим
где 7 распределена как N (0, 1); для альтернативы Нх\ [I =
1.5. Проверка гипотез 439

= И-х <4 И-о получим


Я = Pr (Z « z 'a - п ),
и, наконец, д л я альтернативы H x: ц. = ^ Ф ¡х0 —
Л = Pr ( Z с Zan - (fXl~ M V п ) + Рг ( z < Za,2 + ^ ~ Ы ■У'п ) .
3. Каждая из [альтернатив, фигурирующих в замечании
1.5.1.2, указывает одно значение ц, т. е. ц = ц,х. Гипотеза, одно­
значно указывающая значенйя каждого параметра, называется
простой. Если гипотеза не конкретизирует значения некоторых
параметров, она называется сложной. Каждая из альтернатив
в замечании 1.5.1.1 — слож ная.
4. Следует иметь в виду, что заключение, получаемое при лю­
бой статистической проверке гипотезы, может быть ошибочным.
В частности, принятие нулевой гипотезы Я 0 не должно приводить
к выводу, что # „ действительно верна. В любом случае результат
статистической проверки следует рассматривать только как один
из факторов, влияющих: на окончательное решение. Другими
факторами должны быть опы т и интуиция исследователя.
1.5.2. Понятие о Р-значении
В большинстве случаев критические области критериев выра­
жаются через некоторую статистику g , называемую статистикой
критерия. Статистика критерия выбирается обычно так, чтобы
при условии правильности нулевой гипотезы можно было полу­
чить ее распределение в табулированном виде. Например, g может
иметь распределение N (О, 1), %2, t или F. Затем критическую об­
ласть критерия можно выразить через его статистику g . В зависи­
мости от вида # 0 и Н ь критическая область, выраженная через
значения статистики g , принимает одну из форм: а) g < g h b) g s *
C) g < g a H g ^ £ g b - Здесь g , , g u , g a , g b — значения, выбран­
ные по таблице распределения g так, что при выполнении Я 0
справедливо соответственно одно из соотношений
Рг Ш < Si) a, Pr {g gu) - ce, Pr (g С ga) =
= Pr (g > gb) = a/2. (1.5.7)
Случаи а) и b) представляют односторонние критические области,
а случай с) — двустороннюю критическую область.
Процедура применения критерия состоит в вычислении стати­
стики g по выборке и в проверке, попадает ли вычисленное зн а ­
чение в подходящую критическую область для g. Если попадает,
то мы отвергаем Я„; если нет — принимаем Я 0.
Пусть g0 — вычисленное по выборке значение статистики g.
Эквивалентная процедура (ее мы и используем в этой книге) со­
440 Приложение I. 05зор основных понятий

стоит в вычислении вероятности того, что при выполнении //„


статистика критерия принимает зн ачен и е^ или даже более экстре­
мальное, чем ¿'о. (Экстремальные значения определяются крити­
ческой областью.) Эта вероятность называется Р-значением и в на­
шей книге обозначается буквой Р. Если Р меньше, чем ос, то гипо­
теза И 0 отвергается с уровнем значимости а, в противном случае
# 0 принимается. Д ля случаев а), Ь) и с) при выполнении # 0 спра­
ведливо соответственно одно из соотношений
Р = Рг (г < £о), Р = Рг (В Во),
Р = 2 пип [Рг (£ > £ „ ). Рг-(б < £о)]- (1-5-8)
В последней формуле удваивается меньшая из величин Рг (^ ^
5 - £о) и Рг (§ < £ 0).
Замечание 1.5.2. 1. Как и в замечании 1.5.1.1, рассмотрим
случайную величину X , распределенную по закону N (н-, ст2) с из.

ЛЧО,1)

Рис. 1.5 .3 . Р -зн ач ен и я для проверки гипотезы Н0: ц, = ,и,0 прн известной диспер­
сии ст2. а — альтернатива Я х: u > и0; b — альтернатива Д : |х < [х0; с — аль­
терн ати в а H i. ¡х =£ ц0 .

вестной дисперсией а 2. Тогда статистика г0 1*0 У п при


выполнении Н 0 обладает распределением N (0, 1); она исполь­
зуется для проверки гипотезы Я„: ¡л, = (д, против одно- или дву­
сторонней альтернативы. Если альтернатива имеет вид Ну. ц > ^0,
то критической областью для г будет г ^ ги а . /-значение будет
равно площади под кривой плотности распределения N (0, 1)
1.5. П роверка гипотез 441

вправо от г0 (рис. 1.5.3, а). Если альтернатива имеет вид Ну.


(х < р 0, то критической областью будет г < га, а Я-значение равно
площади под кривой плотности распределения N (0, 1) влево от г0
(рис. 1.5.3, Ь). Н аконец, если Ях: р Ф р0, то критическими обла­
стями будут 2 < г а/2 и _(а/ 2), так что Р-значение равно
удвоенной площади вправо от абсолютного значения 20 под кривой
плотности (0, 1 ) (рис. 1.5.3, с). В о всех трех случаях если Р-зна-
чение меньше ет, т о Я 0 отвергается с уровнем значимости а (или,
иными словами, критерий является статистически значимым
при уровней). Е сли Я 0 принимается, то критерий считается стати­
стически незначилшм.
2. Можно использовать 100 (1 — ос) %-ный доверительный ин­
тервал для 0 для проверки гипотезы Я 0: 0 = 0О против двусто­
ронней альтернативы Ну. 0 ф 0О с уровнем значимости а. В этом
случае мы принимаем Я 0, если интервал включает значение 0О,
в противоположном случае мы отвергаем Я 0.
3. 100 (1 — а) %-ный доверительный интервал для р при из­
вестной дисперси и о2 был у казан в замечании 1.4.1.5 в виде
а - . а
X — 7Т= ,
^ 1 — ( а /2 )X . Этот интервал можно исполь­
2 1 — (< х/2) - ¡ 7 =
V п I' г г
зовать для проверки гипотезы Я0: р р0 против альтернативы Ну.
р. Ф р0 при уровне значимости а . Если интервал включает р„, мы
принимаем Я 0, в противоположном случае мы отвергаем Я 0.

Пример 1.1.1 ( продолжение). П о выборке из 9 пациентов врач


вычислил х = 2 5 . Предположим; для наглядности, что ст = 20.
Тогда он может проверить гипотезу Я 0: р = р0 = 0 против Ну.
р > 0 суровнем значимости а = 0 .0 5 . Критическое значение равно
х и = О -Ь 20.95 (2 0 /// 9 ) = 1.645 (6.67) = 10.97 (см. замечание
1.5.1.1). Так как 25, > 10.97, то И 0 отвергается и врач утверждает
с уровнем значимости а = 0.05, ч то есть значимое положительное
изменение систолического кровяного давления вследствие приме­
нения данного л екарства. Если Ну. р = рх = 30, то мощность
этого критерия (см . замечание 1.5. 1.2) есть я = Рг (1 < ; — 1.645 +
^ - ^ - ^ - 1 ' 9 ) = Рг (1 <<2.86) > 0 .9 9 8 . Следовательно, вероят­
ность того, что н у л ев ая гипотеза отвергнута правильно, превы­
шает 0.99, если р. действительно равно 30. В качестве еще одного
метода проверки гипотезы Я 0 можем использовать статистику кри­
терия из замечания 1.5.2.1. При этом г0 = ^25^ ~ ¡ /9 = 3.75. Так
как критическая область г > г0-95 = 1.645, то Я 0 отвергается.
В качестве третьей возможности рассчитаем по табл. 2 (при­
ложение II) значение Р = Рг (г > 3.75) < 0.0001. Так как это
Р-значение меньше, чем а = 0.05, то отвергаем гипотезу Я 0.
Наконец, мож но проверить гипотезу Я 0 против двусторонней
442 Приложение I. Обзор основных понятий

альтернативы Нг\ ¡1 ф 0 при а = 0.05, используя 95 %-ный дове­


рительный интервал для ¡а. Так как интервал 25 ± 1.96 (20/3) =
= (11.9, 38.1) не включает 0, то гипотезу Н0 отвергаем.

1.6. М н о го м ер н о е норм альное р асп р ед ел ен и е


В этом разделе опишем схематически теоретические основы много­
мерных измерений, т. е. теорию нескольких случайных величин,
определяемых на одном объекте из генеральной совокупности.
Для этого м ы определим понятия вектора и матрицы случайных
величин, а т а к ж е вектор средних и матрицу ковариаций. Далее
мы введем совместное распределение, чаще всего используе­
мое в приложениях статистики, •— многомерное нормальное рас­
пределение. Приложения этого распределения описаны в гл. 3—5.
1.6.1. Случайные векторы и матрицы
Определения векторов и матриц, приведенные в этом разделе, от­
носятся к особому случаю, когда компонентами служат слу­
чайные величины или реализации случайных величин.
Во м ноги х приложениях статистики исследователь измеряет
к > 1 характеристик каждого объекта да генеральной совокуп­
ности Ц7. К а к говорилось в разд. 1.1.6, мы вводим й случайных
величин Х ъ ..., Х к так, чтобы они соответствовали этим харак­
теристикам. Полезно рассматривать эти ^ случайных величин как
случайный вектор, т. е. как упорядоченный набор из й чисел,
расположенных в виде столбца

X = (1.6.1)

Каждый элемент X* называется компонентой случайного вектора.


Мы обычно обозначаем векторы жирными заглавными буквами X,
у, г , .
Р еализация случайного вектора X обозначается вектором
наблюдений
(1.6.2)
где компоненты вектора х являются реализациями хъ ..., х/е
случайных величин Х ь ..., Х к соответственно. Такая реализация
х называется многомерным наблюдением, а при А = 2 — двумер­
ным наблюдением. Векторы наблюдений будут обозначаться жир­
ными малыми буквами х, у, г, .....
*) Д ал ее б у д е м использовать обозначение X =? (Хх , ..., Х к) ', где ' означает
т р ан сп о н и р о в ан и е. — Прим. ред.
1.6. Многомерное нормальное распределение 443

Иногда случайный вектор снабжают индексами: Х к х 1 , чтобы


подчеркнуть, что £ компонент расположены в 1 столбец. Если число
компонент очевидно, то верхний индекс можно опустить. Анало­
гичный верхний индекс может иметь и вектор наблюдений.
Пусть у нас есть п объектов, у каждого из которых мы измеряем
& характеристик. П усть х17-, х2/ , ..., суть к реализаций для
/-го объекта, / = 1, .. ., п. Мы можем представить каждый набор к
реализаций вектором Х/х1 = (х1), х2 •••, хк])', / - 1, ..., п,
и можем объединить п векторов в двумерный массив, называемый
матрицей

=Ы (1.6.3)

Здесь верхний индекс указывает, что в матрице й строк и п столб­


цов, а каждая компонента Х ц является элементом матрицы. Вто­
рое равенство показывает, что типичный элемент на пересечении
/-и строки н /-го столбца есть Хц. Каждый элемент хг} этой матрицы
есть реализация одномерной случайной величины Х ц , г = 1, ..., к,
/ = 1, ..., п. Эти к X п случайных переменных можно предста­
вить в виде случайной матрицы

Г *п Хц ■ ■ х 1п-
Х ‘ *" = X» X 22 ■ ■ X 2п
(1.6.4)
.Хи X к2 ■ х 'ь ,.

1.6.2. Вектор средних значений и матрица ковариаций


случайного вектора
Пусть X — случайный векторе компонентами Х ъ ..., Х к и сов­
местной функцией распределения
Р(х) = Р ( х у........... хк) = Р г(Х х < хх............Х к < хк). (1.6.5)
Моменты каждой из компонент Х г можно получить из частных
распределений величин Х г. Например, мы можем найти математи­
ческое ожидание [хг = Е (Хг) величины Х г, г = 1, ..., Эти й
математических ожиданий можно представить в виде вектора (л
средних значений
|ы = £ ‘(Х) = ( и 1, ц2, (х*)'. (1.6.6)
Аналогично, дисперсии а? величин Х г можно также получить из
частных распределений для Хг, С = 1, ..., Однако, из совмест­
ного распределения и Х^ можно вычислить новую меру измен-
444 Приложение 1. Обзор основных понятий

чивести, называемую ковариацией о и величин Х г и Х ;-. Эта мера


определяется равенством
оч = соу (Хг, X/) = Е ((X, - щ) (X, - н,-)), (1-6.7)
{', / = 1, ..., А. Заметим, что <г0- = сгл и с г-г = о|. Если = О,
то величины X i и Х;- называются некоррелированными; если Оц >
> 0, то Х^- и в среднем изменяются согласованно (одновременно
растут и л и убывают); если ои < 0, то в среднем Хг увеличивается
одновременно с уменьшением K j.
Дисперсии и ковариации образуют вместе ковариационную
матрицу Б
<^12 *•* «1к
°22 ■■■ °2 к
= СОУ(Х) = <Т?1
_<*к1 ... ак 2

Ковариационная матрица является обобщением понятия диспер­


сии одномерной случайной величины.

1.6.3. М ногомерное нормальное распределение


Как было отмечено в разд. 1.1.6, если все компоненты Х 1 вектора X
являются непрерывными случайными величинами, то (многомер­
ное) распределение Х ь ..., Х^ можно задать совместной плот­
ностью / ..., хк). Из многомерных распределений в статисти­
ческих приложениях чаще всего используется многомерное (&-мер­
ное) нормальное распределение. Оно задается вектором а средних
значений и матрицей ковариаций 2 , а его совместная плотность
распределения приведена в замечании 16 1 1 . Если величина X
имеет многомерное нормальное распределение с вектором средних
ц и матрицей ковариаций 2, мы говорим, что X распределена как
М (|ы, 2). Вот некоторые из важнейших свойств этого распределе­
ния:
1) Ч астное распределение величины Хг есть N (цг, а|), где
есть г'-я компонента вектора |и, а о| — элемент на пересечении г-й
строки и г'-го столбца (т. е. г-й диагональный элемент) матрицы
2, г = 1, ..., к .
2) В более общем случае можно определить частное распре­
деление подмножества I случайных величин из Х ъ ..., Х к, 1 <
< I < к . Перенумеруем случайные величины так, чтобы это под­
множество составляли первые I переменных. Переставим компо­
ненты вектора средних и матрицы ковариаций соответствующим
образом. ТГогда, если определить вектор Х[х1 равенством
X I х1 = (Хг, . . Х ,у, (1 .6 .9 )
1.6. Многомерное нормальное распределение 445

то частное распределение X! будет многомерным нормальным рас­


пределением с вектором средних
К * 1 = ([¿г, ■ • И-/)'. (1.6.10)
и матрицей ковариаций
<*12
_ 2
-/ х/ _ (1.6.11)
-11 —
^12
3) (Обобщение замечания 1.2. 2.5) Для постоянных а, Ьъ ..., Ьк
к
распределение случайной величины ¥ = а + 5] 6гХг является
¿=1
& £
нормальным со средним а + 2 и дисперсией 2 Ь\о\ +
г=1 (=1

4- Ц 2 ЬгЬ,о1}.
¡Ф]' / —1
4) Если Оц = 0 д л я всех г /, т. е. если 2 •— диагональная
матрица, то Х ь ..., X* взаимно независимы. В частности, если
Х г и Х ;- ( ¿ ^ у) не коррелированы , то они также и независимы.
Другие распределения могут и не обладать этим свойством.
5) Пусть Х1 = < Х 1) X ,) ', Х2 = (Х|+1, ..., Х кУ■ Тогда
условное распределение величины Х1 при условии, что X, =
— х2 = (х/+1, ..., хк)' , также явл яется многомерным нормаль­
ным распределением. Компоненты вектора средних этого услов­
ного распределения являются линейными комбинациями компо­
нент х 2, тогда как матрица ковариаций этого условного распреде­
ления не зависит от х 2 (см. замечание 1.6.1.4). Это распределение
играет важную роль в линейной регрессии (гл. 3).

★ Замечания 1 .6 .1 . 1. Д адим формальное определение много­


мерного нормального распределения. Пусть 1 Х, ..., 1к — взаимно
независимые случайные величины, распределенные по закону
IV (0, 1). Тогда ¿ /гХ1 = (2Ъ ..., 2 к)' обладает стандартным сфе­
рическим нормальным распределением с плотностью [ (г) - -
— (2зх)-*/2е-<1/2)2'2, г д е г (г1у ..., гк) ' . Обозначим распределе­
ние Ъ через N (О, I), где 0 — нулевой вектор, а I — единичная
матрица. Если А/(ХАг — произвольная невырожденная матрица
констант, а |и,гх1 — вектор констант, то Х/гХ1 = А2 + ц обла­
дает многомерным (и ли к-мерн-ым) невырожденным нормальным
распределением. Его плотность им еет вид / (х) = (2л)-*/212 1-1 /2 X
Х ехр [---- -- (х — ц .) '2 _1(х — ¡и.)^ , где х = (хъ ..., хк)', 2 =
= АА', | 2 | — определитель м атрицы 2 , а 2 "1 — матрица, об-
446 Приложение I. 05зор основных понятий

ратная 23. Вектор средних эгого распределения равен ¡л, а матрица


ковариаций равна 2. В этом случае мы говорим, что случайный
вектор X. распределен по закону N (ц, 2).
2. Е сли Х*х1 имеет распределение N (¡и, 2), а ВтХ* — ма_
трица р ан га т, то У™*1 = ВХ обладает т-мерным нормальным
распределением.
3. О бласть ¿-мерного евклидова пространства, определяемая
уравнением / (х) = с, где с — константа, является эллипсоидом,
называемым эллипсоидом концентрации.
4. П усть Х*х1 имеет распределение N (/л, I), Хг = (Хх, ...
X/)' и Х2 = (Хг+1, ..., Х к)' . Кроме того, положим
Ц! ц,У, ц2- ( а ‘1+1......
• <Тц с 1+\
ГТ} 2 '
"

2 ; „ = , “ 22 =
ь*

- Ъ 2 .
.*11 - а к. 1+- 1
4

'

_а 1, )+ 1 <?(*

Тогда Х 1 имеет распределение N (}%, 2 Х1), а Х2 — распределение


М (ц2, 2 32). Условным распределением Хх при условии Х2 = х2 =
(х,+1, . . . , хку будет N (щ ■2^222* (Х2-

Пример 1.1.1 (продолжение). Как и в примере 1.1.1а, врач


измеряет величины К г (ш) — изменение диастолического давления
(в мм р т . ст.) и Х 2 (да) — изменение систолического давления
(в мм рт. ст.) для каждого пациента ни. Эти функции определяют
соответственно случайные величины Х г и Х г. Последние можно
записать в виде случайного вектора размера 2X1: X = (Хц, Х 2) \
Врач предполагает, что вектор X обладает (двумерным) нормаль­
ным распределением с вектором средних ¡л и матрицей ковариа-
ций 2:
>1 У °12~
и2 > — -&21

Плотность» этого распределения определяется формулой


/(*1. * 2) = - ------- 71 7 = = X
2ясг1сг2 V 1 — р2
XI ~ И1 (У1 - Мч) (хг - Ц2)
X ехр ) 2 - 2 р
2(1 — Р2) [(' 01

+
(-V -)*]}-
1.6. Многомерное нормальное распределение 447

где р = а 1а/(ст1а 2) — коэффициент корреляции генеральной сово­


купности (подробно р обсуждается в разд. 3.1). Эта плотность
в трехмерном пространстве с координатными осями хи хг и
/ (*ъ хг) имеет колоколообразную форму. Вероятности событий
представляют собой объемы, ограниченные снизу двумерными обла­
стями в плоскости (хъ .г2) , а сверху — поверхностью / (хъ х2).
Частное распределение Х ь есть N (|хг, а?), г = 1, 2, и если р =
= 0 (т. е. Х ъ Х 2 не коррелированы) то / (хъ х2) = (хг) / 2 (х2),
где /г (*г)— плотность Х г, г' = 1, 2. Это подтверждает, что две
некоррелированные нормальные случайные величины также и не­
зависимы.
Наконец, условное распределение величины ' Х1 при условии
Хг = х2 будет нормальным со средним [Х] + (счг/ог) — ¡¿г) и
дисперсией о\ — о2п1о\. Это условное распределение приводит
к простой линейной регрессии (см. разд. 3.1).
П риложение II

С татистические таблицы

Таблица I

Биномиальные вероятности (разд. 1.2.1)

\ Р .01 .19 .20 .25 .">0 .33 .40 .50


и
\
2 0 .9801 .8190 .6400 .5625 .4900 *4444 .3600 .2500
1 .0198 .1890 .3200 .3750 .4200 .4444 .4800 .5000
2 .0001 .0190 .0400 .0625 .0900 ли .1600 .2500

3 0 •9703 .7290 .5120 .4219 .3430 .2963 .2160 .1250


1 .0294 .2430 .3840 .4219 .4410 4444 .4320 .3750
2 .0003 .0270 .0960 .1406 .1890 .2222 .2880 .3750
3 .0000 .0010 .0080 .0156 .0270 .0370 .0640 .1250

4 0 .9606 .6561 .4096 .3164 .2401 .1975 .1296 .0625


1 .0388 .2916 .4096 .4219 .4116 .3951 .3456 .2500
2 .0006 .0486 .1536 .2109 .2646 .2963 .3456 .3750
3 .0000 .0036 .0256 .0469 .0756 .0988 .1536 .2500
4 .0000 .0001 .0016 .0039 .0081 .0123 .0256 .0625

5 0 .9510 .5905 .3277 .2373 .1681 .1317 .0778 .0312


1 .0480 .3280 .4096 .3955 .3602 .3292 .2592 .1562
2 .0010 .0729 .2048 .2637 .3087 .3292 .3456 .3125
3 .0000 .0081 .0512 .0879 .1323 .1646 .2304 .3125
4 .0000 .0004 .0064 .0146 .0284 .0412 .0768 .1562
5 .0000 .0000 .0003 .0010 .0024 .0041 .0102 .0312
Приложение I I . Статистические таблицы 449

Продолженце т а б л . 1

.01 .10 .20 .25 .33 .40 .50

О
\/ \р
п
6 0 .9415 .53 14 .2621 .1780 .1 176 .0878 .0467 .0156
1 .0571 .3543 .3932 .3560 .3025 .2634 .1866 .0938
2 .0014 .09 84 .2458 .2966 .3241 .3292 .3110 .2344
3 .0000 .0146 .0819 .1318 .1852 .2195 .2765 .3125
4 .0000 .0012 .0154 .0330 .0595 .0823 .1382 .2344
5 .0000 .0001 .0015 .0044 .0102 .0165 .0369 .0938
6 .0000 .0000 .0001 .0002 .0007 .0014 .0041 .0156
7 0 •.932.1 .47 83 .2097 .1335 .0824 .0585 .0280 .0078
I .0659 .37 20 .3670 .3115 .2471 .2048 .1306 .0547
2 .0020 .1240 .2753 .3115 .3177 .3073 .2613 .1641
3 .0000 .0230 .1 147 .1730 .2269 .2561 .2903 .2734
4 .0000 .0026 .0287 .0577 .0972 .1280 .1935 .2734
5 .0000 .0002 .0043 .0115 .0250 .0384 .0774 .1641
6 .0000 .0000 .0004 .0013 .0036 .0064 .0172 .0547
7 .0000 .0000 .0000 .0001 .0002 .0005 .0016 .0078
8 0 .9227 .4305 .1678 .1001 .0576 .0390 .0168 .0039
1 .0746 .38 26 .3355 .2670 .1977 .1561 .0896 .0312
2 .0026 .1488 .2936 .3115 .2965 .2731 .2090 .1094
3 .0001 03 3! .1468 .2076 .2541 .2731 .2787 .2188
4 .0000 .0046 .0459 .0865 .1361 .1707 .2322 .2734
5 .0000 .0004 .0092 .0231 .0467 .0683 .1239 .2188
6 .0000 .0000 .0011 .0038 .0100 .0171 .0413 .1094
7 .0000 .0000 .0001 .0004 .0012 .0024 .0079 .0312
8 .0000 .0000 .0000 .0000 .0001 .0002 .0007 .0039
9 0 .9135 .38 74 .1342 .0751 .0404 .0260 .0101 .0020
1 .0830 .38 74 .3020 .2253 .1556 .1171 .0605 .0176
2 .0034 .17 22 .3020 .3003 .2668 .2341 .1612 .0703
3 .0001 .0446 .1762 .2336 .2668 .2731 .2508 .1641
4 .0000 .0074 .0661 .1 168 .1715 .2048 .2508 .2461
5 .0000 .0008 .0165 .0389 .0735 .1024 .1672 .2461
6 .0000 0001 .0028 .0087 .0210 .0341 .0743 . .1641
7 .0000 .0000 .0003 .0012 .0039 .0073 .0212 .0703
8 .0000 .0000 .0000 .0001 .0004 .0009 .0035 .0176
9 .0000 .0000 .0000 .0000 .0000 .0001 .0003 .0020
450 Приложение II. Статистические таблицы

Продолжение т а б л . 1

\ р .01 .1 0 .20 .25 .30 .33 .40 .50


п i\

10 0 .9044 .3487 .1074 .0563 .0282 .0173 .0060 .0010


1 .0914 .3874 .2684 .1877 .1211 .0867 .0403 .0098
2 .0042 .1937 .3020 .2816 .2335 .1951 .1209 .0439
3 .0001 .0574 ,20В .2503 .2668 .2601 .2150 .1172
4 .0000 .0112 .0881 .1460 .2001 .2276 .2508 .2051
5 .0000 .0015 .0264 .0584 .1029 .1366 .2007 .2461

6 .0000 .0001 .0055 .0162 .0368 .0569 .1115 ,2051


7 .0000 .0000 .0008 .0031 .0090 .0163 .0425 .1172
8 .0000 .0000 .0001 .0004 .0014 .0030 .0106 .0439
9 .0000 .0000 .ООО) .0000 .0001 .0003 .0016 .0098
10 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0010

*) Так как Ьп (£, р) = bn (n — I, I р), приведены только р < 0.5.


Приложение 1!. Статистические таблицы 451

Таблица 2
Ф у н к ц и я р асп р ед ел ен и я N ( 0 , 1) ( р а з д . 1 . 2 . 5 ) А)

•со 01 •0 2 03 04 05 •об •0 7 08 09

— 0 •5 0 0 0 •4 9 6 0 4920 4880 •4 8 4 0 •4 8 0 1 •4 76 1 4721 4681 •4 6 4 1


— I •4 6 ) 2 '45*>2 45* 2 4483 4443 4404 4364 4325 •4 2 8 6 •4 2 4 7
— 2 •4 2 0 7 •4 16 8 •4 12 9 •4 0 9 0 4052 4 0 13 3974 393Ь 3897 3859
- 3 3«21 3783 •3745 •3707 3669 3632 3594 3557 3520 3483
- 4 34)6 3409 337 * 3336 3300 3264 •3 2 2 8 3»92 3156 3121

- 5 3085 •3 0 50 30 г 5 •2 9 8 1 2946 2 9 12 •2 8 7 7 2843 •2 8 10 2776


— 6 *743 2709 •2 6 7 6 2643 •2 6 11 •2 5 7 8 2546 2 514 2483 2451
- 7 ■2420 2389 2 358 2327 2297 •2 2 6 6 •2 2 3 6 22 о6 •2177 ■2148
- 8 -2 119 -2 0 9 0 2оЬх 2033 •2 0 0 5 •19 7 7 •19 4 9 •19 2 2 18 94 •18 6 7
- 9 •1 8 4 1 •18 14 •17 8 8 ■ 17 6 2 •17 3 6 1711 •16 8 5 ■
1 бб0 *Ьз5 •16 11

—х о 15 8 7 15 6 2 1539 15 15 14 9 2 •14 6 9 14 4 6 423 •14 0 1 *379


—II •»357 х335 *3*4 •12 9 2 12 71 12 5 1 12 3 0 12 10 •I 1 9 0 •1170
— 1-2 •115 1 113 1 11 2 2 •10 9 3 10 7 5 10 5 6 ■Ю3 8 10 2 0 •10 0 3 09853
-13 •0 9 6 8 0 •0 9 5 10 09342 •0 9 17 6 •0 9 0 12 •0 8 8 5 1 О8 6 9 1 08534 •0 8 3 7 9 •0 8 2 2 6
-14 •0 8 0 7 6 07927 0 778 0 •0 7 6 3 6 07493 07353 •0 7215 07078 06944 •0 6 8 1 г
-15 •0 6 6 8 1 06552 0 6 .4 2 6 •0 6 3 0 1 •0 6 17 8 •0 6 0 5 7 ■ 05938 0582 I 05705 05592
—I 6 •0 5 4 8 0 05370 О5 2 6 2 •0 5 15 5 •0 50 50 •0 4 9 4 7 О4 8 4 6 О4 7 4 6 04648 04551
-17 04457 04363 •04272 •0 4 18 2 04093 •0 4 0 0 6 •03920 О3 8 3 6 03754 0 3673
— 1-8 03593 03515 03438 03362 •0 3 2 8 8 •0 3 216 •0344 •03074 03005 •0 2 9 3 8
- 19 •0 2 8 7 2 •0 2 8 0 7 0 2 743 •0 2 6 8 0 ■ 0 2 6 19 •0 2 5 5 9 ■02500 О2 4 4 2 02385 02330

—2 0 02275 02222 •0 2 1 6 9 •0 2 1 18 02068 •0 2 0 18 •0 19 7 0 •01923 •0 18 7 6 •0 18 3 1


—2 1 •0 17 8 6 01743 •0 1 7 0 0 •0 1 6 5 9 ■ 0 16 18 ■ 0 15 78 01539 0 15 0 0 0 14 6 3 •0 14 2 6
—2 2 •0 13 9 0 01355 •0 13 2 1 •0 12 8 7 0 12 55 -0 12 2 2 •0 119 1 •0 1 1 б0 •0 113 0 ■ОНО!
-2 3 •0 10 72 •ОЮ44 •0 10 17 •о2 9 9 0 3 •о2 9 6 4 2 о‘ 9 3 8 7 •о* 9 4 7 •о2 8 8 9 4 •о2 8 6 5 6 ■о2 8 4 2 4
- 2 4 -0 * 8 1 9 8 •о2 7 9 7 6 ог 7760 •о2 7 5 4 9 •о2 7344 ■°! 7ЧЗ ■ог6 9 4 7 •о2 6 7 5 6 •о2 6 5 6 9 •о2 6 3 З7
-*5 •с* 6 2 1 0 •о2 6 0 3 7 •о* 5868 о2 5 7 0 3 ог 5543 ■ог5 3 8 6 ог5234 "О2 5 0 8 5 •о2 4 9 4 0 о2 4 7 9 9
- 2 -6 -о2 4 6 6 1 ■ Ог 4527 0' 4396 •о2 4 2 6 9 о2 4 4 5 •о2 4 0 2 5 о2 3 9 0 7 О23793 •о2 3 6 8 1 о23573
-а? -с23 4 6 7 ■ ог 3 3 ^ 4 ■ог 3264 •О2 3 1 6 7 о2 3 0 7 2 •о2 2 9 8 0 •ог 2 8 9 0 •о* 2 8 0 3 о2 2 7 1 8 0 ^2 6 3 5
—2 8 •о2 2555 ° г 2477 •ог 2401 •о2 2 3 2 7 о2 2 2 5 6 •о2 2 1 8 6 •о2 2 1 1 8 •о2 2 0 5 2 •о2 1 9 8 8 •о2 1 9 2 6
-2 9 ч>г 1 8 6 6 •о2 1 8 0 7 о* 1750 •о2 1 6 9 5 ■о2 1 6 4 1 о2 1 5 8 9 ог 1 5 3 8 •о2 1 4 8 9 •о2 1 4 4 1 •ог 1 3 9 5
-3 0 -о* 1 3 5 0 •о2 1 3 0 6 •ог 1 2 6 4 •о2 1 2 2 3 •о2 1 1 8 3 •о2 1 1 4 4 •о2 1 1 0 7 •о2 1 0 7 0 •о2 1 0 3 5 •о2 1 0 0 1
-3 * -с39 6 7 6 •о39354 0 * 9043 •о5 8 7 4 0 ■ 0 18 4 4 7 •о3 8 1 6 4 •о3 7 8 8 8 -о: 7 6 2 2 О1 7 3 6 4 •о3 7 1 1 4
-3 2 •о3 6 8 7 1 •о3 6 6 3 7 •о3 6 4 1 0 •о3 6 1 9 0 о>5 9 7 6 •о3 5 7 7 0 •о3 5 5 7 1 •о35377 •о-’ 5 1 9 0 •о3 5 0 0 9
-3 3 -0 = 4 8 3 4 •о3 4 6 6 5 •о3 4 5 0 1 О34342 •о3 4 1 8 9 •о3 4 0 4 1 о3 3 8 9 7 ■°33758 о3 3 6 2 4 о 3 3495
-3 4 -0 13 3 6 9 •о3 3 2 4 8 о» 3 1 3 1 •о3 3 0 1 8 •о3 2 9 0 9 •о3 2 8 0 3 •о3 2 7 0 1 •о- 2 6 0 2 о3 2 5 0 7 •о3 2 4 1 5
-3 5 -о3 2 3 2 6 о3 2 2 4 1 о3 2 15 8 -о3 2 0 7 8 •о3 2 0 0 1 •05 1 9 2 6 •о3 1 8 5 4 •О3 1 7 8 5 •о3 1 7 1 8 0 116 53
-3 6 •о3 1 5 9 1 ■о3 1 5 3 1 О^ 1473 ■о3 1 4 1 7 о3 13 6 3 •о3 1 3 1 1 О3 I 2 6 I •о* 1 2 1 3 •о’ 1 1 6 6 •о3 1 1 2 1
-3 7 •о3 1 0 7 8 •о3 1 0 3 6 о*» 9 9 6 1 0*9574 •о4 9 2 0 1 ■ о«8 8 4 2 •о4 8 4 9 6 0 4 8 1 б2 0 *7 8 4 1 0*7532
-3-8 ■0*7235 •0 + 6 9 4 8 о« 6 6 7 3 0*640 7 0 *6152 о4 5 9 0 6 •о4 5 6 6 9 0*5442 0*5223 •о* 5 0 1 2
-3 9 •0 * 4 8 1 0 •0 * 4 6 1 5 0*4427 •0 * 4 2 4 7 О* 4 0 7 4 •о4 3 9 0 8 •°43747 о<3594 0*3446 0*3304
452 Приложение II. Статистические таблицы

П родолж ение т а б л. 2

2 •00 •01 02 03 •04 05 •06 07 •o8 09


•o •5000 5040 5080 ■5 I2O ■5160 ■5199 5239 5279 53*9 5359
I 539» 5438 5478 55*7 5557 5596 5636 •5675 •57*4 •5753
•2 5793 •5832 ■5871 •59IG 5948 ■5987 ■6026 ■6064 •6103 •6141
3 6 17 9 •6217 ■6255 6293 •6331 6368 •6406 •6443 •6480 6517
4 6554 6591 •6628 •6664 •6700 •6736 •6772 6808 •6844 ■6879
•5 6 9 15 6950 6985 •7019 7054 •7О88 •7123 7 ‘57 •7190 ■7224
•6 •7257 7291 7422 7486 •75*7
•7324 •7357 •7389 '7454 ■7549
7 7580 •7611 7642 •7673 7703 •7734 •7764 ■7794 ■7823 ■7852
•8 •788 E •7910 7967 7995 ■8023 •8051 •8078 8106 ■виз
7939
9 8X5* •8186 •8212 8238 8264 ■8289 8315 8340 8365 ■8389
i-o 8413 8438 •846I 8485 8508 8531 8554 ■8577 8599 •8621
XI •8643 8665 ■8686 •8708 8729 ■8749 ■8770 8790 88(0 ■8830
1-2 8849 •8869 8888 8907 8925 ■8944 •8962 898О ■8997 '9OI47
*3 •90320 90490 •90658 •90824 90988 •91149 •91309 ■9I466 -9 I62I 9*774
14 9 X9 2 4 •92073 •92220 92364 92507 92647 92785 92922 93056 ■93189
*5 9331 9 •93448 93574 93699 •93822 •93943 -94062 94179 94295 •94408
i -6 94520 94630 ■94738 94845 94950 ■95053 95*54 95254 95352 95449
i-7 9554 3 ■95637 95728 ■95818 95907 95994 •96080 •96164 -96246 96327
i -8 96407 96485 ■96562 96638 ■96712 96784 •96856 •96926 96995 •97062
19 9 7 12 8 •97320 97381 97500 ■97558 97615 97670
97193 97257 ■97441
20 •9772 5 ■97778 97831 ■97882 ■97932 97982 •98030 •98077 98124 •98169
2*1 98 214 98257 •98300 ■98382 98422 98461 -985ОО 98574
98341 ■98537
2-2 •98610 •98645 98679 9*7 >3 98745 98778 ■98809 -9884О •9887О 98899
23 98928 ■98956 98983 9'0097 9*0358 •920613 •92o86j 921106 9* *344 9* 1576
24 •92180 2 •922024 *922240 9*2451 ■g22656 9 *28579*3053 9*3244 9*3431 9*3613
25 '9* 379° '9г39б3 9J4i3* 9*4297 '9* 4457 9*4614 ■9 *4766 '9‘49*5 •925060 9*5201
2-6 '9*5339 *925473 9*5604 •9!573i 9*5855 9г5975 ■9*6093 -9*6207 9263x9 ■9*6427
27 9*6 5 3 3 *926636 9*6736 96833 ■926928 927020 927110 •9*7197 •92 7282 9*7365
2-8 9*7445 •9s 7523 ■9‘ 7599 •9*7673 9г7744 9*7814 ■927882 9*7948 •928012 9*8074
29 •928 i34 •9*8193 ■9*8250 ■9*8305 9*8359 9*8411 •92 8462 9*854 9*8559 •92 8605
30 ' 9*8 650 -928694 '9' 8736 •9*8777 ■9*8817 ■gz8856 •9 *889} -9*8930 9*8965 ■9*8999
31 93 03 2 4 •q30646 930957 93I2бО 93<553 •931836 •932112 9‘J378 •932636 ■912886
32 933229 9333&3 ■93359» 9;38 io •914024 934230 '934429 ■914623 •934810 9 499'
33 ■935 i €>6 '935335 •93549, •935658 •9J 58 л 935959 •9 З6103 '936242 916376 9-6505
34 •9- 6 6 3 1 916752 •916869 •9-6982 ■917091 '937*97 93 729^ ■937398 93 7493 •937585
35 93 7 6 7 4 '937759 •91784! •957922 9 i 7999 •93 8074 •938i 46 918215 •938282 •93 8347
3-6 9*8409 938469 ■918527 ■918583 ■918637 938689 918739 918787 9J 8834 -938879
37 •938922 •9^8964 •9«0039 ■9«0426 9«0799 9*1158 9 *‘ 504 9*1838 9*2159 9«2468
38 9 *2765 9*3052 9*3327 '9*3593 ■9*3848 9M094 ■9*433> ■ 9*4558 9*4777 ‘9* 4988
39 9*5 1 9 ° 9‘ 5385 ■9*5573 9*5753 9*5926 9«6092 ■ 9*6253 •9«6406 9*6554 •9«6696

•) Сокращ енны й вариант таблицы II из книги H ald A. «Statistical Tables and F o r-


ulas», 1952, W iley, New York.
Приложение II. С татистические таблицы 453

Таблица 3

П р оц ен ти ли р а с п р е д е л е н и я %2 ( р а з д . 1 . 2 . 6 ) 1)

0.4 0
X 0.005 0.010 0 .0 2 5 0.05 0.10 0.20 0.30

1 0.0*393 0 . 0 3 157 0 . 0 39 8 2 0.0 *3 9 3 0.0158 0.0 6 4 2 0.148 0.275


2 0.0100 0.0201 0.0506 0.103 0.211 0.446 0.713 1.02
3 0.0717 0.11 5 0 .2 1 6 0.352 0.584 1.00 1.42 1.87
4 0 . 207 0.297 0.4 8 4 0.711 1.С6 1 .6 5 2.19 2.75
5 0.412 0.554 0.831 1.15 1.61 2.34 3.00 3.66

6 0.676 0.872 1.24 1.64 2 .20 3 .07 3.83 4.57


7 0.989 1.24 1.69 2.17 2.83 3.82 4.67 5.49
8 1.34 1. 65 2 .18 2 .7 3 3.49 4.59 5.53 6.42
9 1.7 3 2.09 2.70 3.33 4.17 5.38 6.39 7.36
10 2 .16 2.56 3.25 3. 94 4 .87 6 .18 7.27 8.30

11 2.60 3.05 3.82 4.57 5.58 6.99 8.15 9.2 4


12 3 .07 3.57 4 .40 5. 23 6.30 7. 81 9.03 1 0.2
13 3.57 4.11 5.01 5.89 7.04 8.63 9.93 11.1
14 4.07 4.66 5.63 6.57 7.79 9.47 10.8 12. 1
15 4.60 5.23 6.2 6 7.26 8.55 10 .3 11. 7 13.0

16 5.14 5.81 6.91 7.96 9.31 11.2 12.6 14.0


17 5 .70 6.41 7.56 8.67 10.1 12.0 13. 5 14.9
18 6.26 7 .0 1 8.23 9.39 10.9 12.9 14.4 15.9
19 6.84 7.63 8.91 10.1 11.7 13 .7 15.4 16.9
20 7 .43 8.26 9 .5 9 10.9 12.4 14.6 16. 3 17.8

21 8.03 8.90 1 0.3 11.6 13.2 15.4 17.2 18.8


22 8.64 9.54' 11.0 12.3 14.0 16. 3 18.1 19.7
23 9.26 10.2 11 .7 13.1 14.8 17 .2 19.0 20.7
24 9.89 10.9 1 2 .4 13 .8 15.7 18.1 19 .9 21.7
25 10.5 11.5 13.1 14 .6 16.5 18.9 20.9 22.6

26 11 .2 12.2 13.8 15. 4 17.3 19.8 21.8 23.6


27 11 .8 12.9 14.6 16. 2 18 .1 20.7 22 7 24.5
28 12.5 13 .6 15.3 16. 9 18.9 21.6 23.6 2 5! 5
29 13.1 14 .3 16.0 17. 7 19.8 22.5 24.6 26.5
13.8 15.0 16.8 18.5 2 0.6 23.4 25.5 27.4
30

17.2 18 .5 2 0.6' 2 2.5 2 4.8 27.8 30.2 32.3


35
20.7 2 2.2 2 4.4 26.5 29.1 32.3 34.9 37.1
40
24.3 25.9 2 8 .4 30.6 33.4 36.9 39.6 42 .0
45
29.7 3 2.4 34.8 37.7 41.4 44.3 46.9
50 28.0
47.2 49.5 5 2 .9 56.1 59.8 64.5 68.1 71.3
75
67.3 70 .1 7 4.2 77.9 82.4 8 7.9 92.1 95.8
100
454 Приложение II. Статистические таблицы

П родолж ение т а б л. 3

0.990 0.995 0.9 9 9


X 0.5 0 0.6 0 0.70 0.8 0 0. 90 0.95 0.975

7.8 8 10.8
1 0 .4 5 5 0.708 1 .0 7 1.64 2.71 3.84 5.02 6.63
2 1.39 1.83 2.41 3.2 2 4.61 5.99 7.38 9.21 10.6 13.8
3 2.37 2.95 3.67 4.6 4 6.25 7.81 9.35 1 1.3 12.8 16.3
4 3.36 4.0 4 4.88 5.99 7.78 9.49 11.1 13.3 14.9 18.5
5 4.35 5.13 6.06 7.29 9.24 11.1 1 2 .8 1 5 .1 16.7 20.5

6 5.35 6.21 7.23 8.56 10.6 12.6 14.4 16.8 18.5 22.5
7 6.35 7.2 8 8.38 9.8 0 12.0 14 .1 16.0 18.5 20.3 24.3
8 7.34 8.35 9.52 11.0 13.4 15.5 17 .5 20.1 22.0 26.1
9 8.34 9.41 10.7 12.2 14.7 16.9 19.0 21.7 23.6 27.9
10 9.3 4 10.5 11.8 13.4 16.0 18.3 20.5 23.2 25.2 29.6

11 10.3 1.1.5 12.9 14.6 17.3 19.7 21.9 24.7 26.8 31.3
12 11.3 12.6 14.0 15.8 18.5 21.0 23.3 26.2 28.3 3 2.9
13 12.3 13.6 1 5 .1 17.0 1 9 .8 2 2 .4 24.7 27.7 29.8 34.5
14 13.3 14.7 16.2 18.2 21.1 23.7 26.1 29.1 31.3 36.1
15 14.3 15.7 17.3 19.3 22.3 25.0 27.5 30.6 32.8 37.7

16 15.3 16.8 18.4 20.5 23.5 26.3 28.8 32.0 34.3 39.3
17 16.3 17.8 19.5 21.6 24.8 27.6 30.2 33.4 35.7 40.8
18 17.3 18.9 20.6 22.8 26.0 28.9 31.5 34.8 37.2 42.3
19 18.3 19.9 21.7 23.9 27.2 30.1 32.9 36.2 38.6 43.8
20 1 9.3 21.0 22.8 25.0 28.4 31.4 34.2 37.6 40.0 45.3

21 20 .3 22 .0 23.9 26.9 29.6 32.7 35.5 38.9 41.4 46.8


22 24.9 27.3 30.8 33.9 3 6.8 40.3 42.8 48.3
21.3 23.0
28.4 32.0 35.2 3 8. 1 41.6 44.2 49 .7
23 22.3 24.1 26.0
24 27.1 29.6 33.2 36.4 39.4 43.0 45.6 51.2
23.3 25.1
25 28.2 30.7 34.4 37.7 40.6 44.3 46.9 52.6
24.3 26.1

41.9 45.6 48.3 5 4 .1


26 25.3 27.2 29.2 31.8 35.6 38.9
43.2 47.0 49.6 55.5
V 26.3 28.2 30.3 32.9 36.7 40.1
48.3 51.0 56.9
28 27.3 29.2 31.4 34.0 37.9 41.3 44.5
29 45.7 49.6 52.3 58.3
28.3 30.3 32.5 35.1 39.1 42.6
50.9 53.7 59.7
30 29.3 31.3 33.5 36.3 40.3 43.8 47.0

35 34.3 36.5 38.9 41.8 46.1 49.8 53.2 57.3 60.3 66.6
40 39.3 41.6 44 .2 47.3 51.8 55.8 59.3 63.7 66.8 73.4
45 44 .3 46.8 49.5 52.7 57.5 61.7 65.4 70.0 73.2 80.1
71.4 76.2 79.5 86.7
50 49.3 51.9 54.7 58.2 63.2 67.5
75 74.3 77.5 80.9 85.1 91.1 96.2 100.8 106.4 110.3 118.6
135.6 140.2 149.4
100 99.3 102.9 106.9 111.7 118.5 124.3 129.6

') Сокращ енны й вариант таблицы V из книги Hald A. «Statistical Tables and For­
mulas», 1952, "Wiley, New York
Приложение 11 . С татисти ческие таблицы 455

Т аблица 4
Критические з н а ч е н и я дл я критери я согласия К олм огорова—
Смирнова (р а з д . 2 . 2 . 2 ) х)

Объем Ур эвен ь зн ачимосп пи


выборки ( п) .2 0 15 .1 0 .05 .0 1

1 900 925 950 975 .995


2 .684 726 776 .842 929
3 565 597 .642 708 829
4 494 525 564 624 734
5 446 474 510 563 669

6 410 436 470 521 618


7 381 405 438 486 577
8 358 381 411 457 543
9 339 360 388 432 514
10 322 342 368 .409 486

11 307 326 352 391 468


12 295 313 338 375 450
13 284 302 325 361 433
14 274 292 314 349 418
15 .266 .283 .304 338 .404

16 .258 274 295 328 391


17 250 266 286 318 380
18 244 259 278 309 370
19 237 252 272 301 361
20 .231 .246 264 294 352

25 21 2 2 .24 264 32
30 19 2 0 22 242 29
35 .18 .19 21 23 27
40 .2 1 .25
50 .19 .23

60 .17 .2 1
70 16 19
80 .15 .18
90 .14
100 .14

1.07 1 . 14 1 .2 2 1.36 1.63


3 II
<1

лА у / п V П V»

г) Воспроизведено из с та ть и Massey F. J . Jr. (1951) «The Kolmogorov—Smirnov


Test for Goodness-of-Fit», JA S A , 46 , 6 8 —71, и B irn b au m Z. W. (1952) «Numerical T abu­
latio n of the D istribution of K o lm o g o ro v ' s S ta tis tic for F inite Sam ple Size», JASA, 4 7 ,
*425—441, с любезного р азр еш ен и я авторов и издателя. ^
456 Приложение II. Статистические таблицы

Таблица 5

Процентили распределения Стьюдента (разд. 1.2,7) *)

60 75 90 95 97.5 99 99.5 99. 95


X 1 .325 1.000 3.078 6.314 12.706 31 .821 63.657 6 3 6 619
2 .289 .816 1.886 2 920 4.303 6.965 9.925 31.598
3 .277 .765 1 638 2 353 3.182 4 541 5.841 12.941
4 .271 .741 1.533 2.132 2.776 3.747 4 604 8.610
5 .267 .727 1.476 2.015 2 571 3.365 4.032 6.859

6 .265 .718 1.440 1 943 2 447 3.143 3.707 5.959


7 .263 .711 1.415 1.895 2 365 2.998 3 499 5.405
8 .262 .706 1.397 1.860 2.306 2.896 3 355 5 .041
9 .261 .703 1.383 1.833 2 262 2.821 3 250 4.781
10 .260 .700 1.372 1 812 2 228 2.764 3 169 4.587

11 .260 .697 1.363 1 796 2 201 2.718 3 106 4.437


12 .259 .695 1.356 1 782 2 179 2 681 3 055 4 318
13 .259 .694 1.350 1.771 2.160 2.650 3 012 4.221
14 .258 .692 1.345 1 761 2.145 2.624 2 977 4.140
15 .258 691 1.341 1 753 2.131 2.602 2 947 4 073

16 .258 .690 1.337 1 746 г 120 2 583 2 921 4.015


17 .257 .№ 1.333 1 .740 г но 2.567 2 898 3 965
18 .257 688 1.330 1 734 2 .101 2 552 2 878 3.922
19 .257 .688 1.328 1 729 2 .093 2.539 2 861 3.883
20 .257 .687 1.325 I 725 2 .086 2.528 2 845 3.850

21 .257 .686 1 323 1 721 2 .080 2 518 2 831 3.819


22 .256 .686 1.321 1 717 2 .074 2.508 2.819 3.792
23 .256 .685 1 319 1 .714 2 .069 2.500 2 807 3 767
24 .256 .685 1.318 1 .711 2.064 2 492 2 797 3 .7 4 5
25 .256 .684 1 316 1 .708 2.060 2 485 2.787 3 .7 2 5

26 .256 684 1.315 1 .706 2.056 2.479 2.779 3.707


27 .256 684 1 314 1 703 2 05? 2 473 2 771 3 690
28 . 256 .683 1 313 1 .701 2. 048 2 467 2 763 3 .6 7 4
29 . 256 .683 1.311 1 .699 2. 045 2.462 2.756 3.659
30 . 256 .683 1 310 1 .697 2. 042 2 457 2.750 3.646

40 . 255 .681 1.303 1 .684 2.021 2.423 2.704 3 551


во 254 .679 1.296 1 .671 2.000 2 390 2.660 3 .4 6 0
120 254 .677 1.289 1.658 1.980 2 358 2.617 3.373
. 253 .674 1 282 1.645 1.960 2.326 2.576 3. 29.1

1 ) Таблица 5 взята из табл. III книги Fisher R. A., Yates F. (1963): «Statistical
Tables fo r Biological, Agricultural and Medical Research», опубликованной издатель­
ством O liver and Boyd, Edinburg, и использованной с любезного разрешения авторов
и издателей.
Т абли ц а 6

15
П роцентили Р-распределения (разд. 1.2.8) ] )

А* Афифи, С. Энзеи
90-я процентиль

1 2 3 4 5 6 7 8 9 10 12
Ж 15 20 24 30 40 60 120 00

1 39 86 49 50 53 59 55 83 57-24 58-20 58 91 59-44 5986 60 19 60-71 61 22 61-74 62 00 62 26 62 53 62-79 63-06 63 33


2 8 53 9-00 9 16 9 24 9 29 9 33 9-35 9 37 9 38 9-39 9-41 9-42 9 44 9-45 9 46 9 47 9-47 9-48 9-4»
3 554 5 46 5 39 5 34 5 31 6 28 5-27 525 б 24 5 23 5 22 5 20 5 18 5 18 517 516 5 15 5 14 5 13
4 4-54 432 419 411 405 401 398 305 304 302 300 м» 384 383 3-82 380 3-70 3-78 376
5 406 3-78 3 62 3 52 3 45 3 40 3-37 3 34 3 32 3 30 3-27 3 24 321 319 317, 316 3 14 3 12 310
6 3-78 3 46 3 29 3 18 3 11 3 05 3 01 2 98 2 96 2-94 2 90 2-87 2-84 2 82 2 80 2-78 2 76 2-74 2-72
7 3 59 3 26 307 2-96 2-88 2 83 2 78 2 75 2 72 2-70 2 67 2 63 2 59 2 58 * 56 2-54 2-51 2-49 2 47
8 3 46 3 11 2 92 2 81 2 73 2 67 2 62 2 59 2 56 2 54 2-50 2 46 2 42 2 40 2 38 2 36 2 34 2-32 2-29
9 3-36 301 2 81 2 69 261 2 55 2-51 2-47 2 44 2 42 2-38 2-34 2 30 2-28 2-25 2 23 2-21 210 2 16
10 3-29 2-92 2 73 2 61 2 52 2 46 2-41 2 38 2 35 2 32 2-28 2 24 2-20 2-18 2 16 2 13 2 11 2 08 2-с:
11 3 23 2-86 2 66 2 54 2 45 2 39 2 34 2 30 2 27 2 25 2 21 2 17 2-12 2-10 2-08 2 05 2 03 200 1-9';
12 3 18 2 81 2 61 2 48 2 39 2 33 2-28 2 24 2 21 2 19 2 15 2 10 2 06 2 04 2 01 1 99 1 96 1-93 1-90
13 314 2 76 2 56 2 43 2 35 2-28 2 23 2 20 216 2 14 2 10 2 05 2 01 1 98 1 96 1 93 1-90 1-88 1-85
14 3 10 2-73 2 52 2 39 2 31 2-24 2 19 2 15 212 2 10 205 2 01 1 96 1 94 1 91 1 89 1 86 1 83 1-80
15 3 07 2-70 2-49 2 36 2-27 2 21 2 16 2 12 2 09 2 06 2 02 1 97 1 92 1 90 1-87 1 85 1-82 1-79 1-76
16 3-05 261 2 46 2 33 2 24 218 2 13 2 09 2 06 2 03 1 99 1 94 1 89 1 87 1 84 1-81 1-78 1-75 1-72
17 3 03 2 64 2 44 2 31 2-22 2 15 2 10 2 06 203 2 00 1-96 1-91 1-86 1-84 1-81 1-78 1-75 1 72 1 69
18 3 01 2 62 2 42 2 29 2 20 2-13 2 08 2 04 2 00 1-98 1 93 1-89 1-84 1-81 1-78 1-75 1-72 1 69 1 66
19 2 99 2 6) 2 40 2 27 2 18 2 11 206 2 02 1-98 1 96 1-91 1-86 1 81 1-79 1 76 1-73 1-70 1 67 1-63
20 2-97 2-59 2 38 2 25 2 16 2 09 2 04 2 00 1-96 1 94 1 89 1-84 1 79 1-77 1-74 1-71 168 1 64 1 61
21 2 96 2 57 2 36 2 23 2 14 2 08 2-02 1-98 1 95 1*92 1-87 1 83 1-78 1 75 1-72 1 69 1 66 1 62 1-59
22 2 95 2 56 2 35 2 22 2 13 206 2 01 1 97 1 93 1 90 1 86 1-81 1-76 1 73 1-70 1 67 1 64 1 60 1-57
23 2 94 2-55 2 34 2 21 2 11 205 1 99 1-95 1-92 1 89 1-84 1-80 1-74 1-72 1-69 1-66 1 62 1 59 1 55
24 2 93 2-54 2 33 2 19 210 2-04 1 98 1 94 1 91 1 88 1-83 1-78 1 73 1 70 1-67 1 64 1 61 1-57 1-53
25 2 92 2-53 2 32 2 18 209 202 1 97 1 93 1 89 1 87 1 82 1-77 1-72 1 69 1 66 1 63 1 59 1-56 1-52
26 2 91 2-52 2 31 2 17 2 08 2 01 1 96 1 92 1 88. 1 86 1-81 1-76 1-71 168 1 65 1-61 1 58 1 54 1-50
27 2 90 2-51 2 30 2-17 2 07 2 00 1 95 191 1 87 1-85 1 80 1-75 1-70 1 67 1 64 1-60 1-57 1-53 1-49
28 2-89 2-50 2 29 2 16 2 06 2 00 1 94 1-90 1 87 1 84 1-79 1-74 1 69 1 66 1 63 1-59 1-56 1 52 1-48
29 2-89 2-50 2-28 2 15 2-06 1 99 1 93 1-89 1-86 1 83 1-78 1-73 1-68 1 65 1 62 1-58 1-55 1 51 1 47
30 2-88 2-49 2-28 2-14 2 05 1-98 1 93 1-88 1 85 1-82 1 77 1 72 1 67 1-64 1 61 1*57 154 1-50 1-46
40 2-84 2-44 2-23 2-09 2 00 1 93 1 87 1 83 1-79 1 76 1-71 1 66 1 61 1-57 1 54 151 1-47 1 42 1-38
60 2 79 2-39 2 18 2 04 1 95 1 87 1 82 1-77 1-74 1-71 1 06 1 60 1 54 1 51 1-48 1-44 1-40 1 35 1-29
120 2 75 2 35 2-13 1 99 1 90 1-32 1 77 1-72 1 68 1 65 1 60 1 55 1 48 1 45 1 41 1 37 132 1-26 1-19
00 2 71 239 2 08 1 94 1-85 1*77 1-72 1 67 1 63 1-60 1 55 1-49 1 42 1 38 1-34 1 30 1-24 1-17 1-00
П родолж ение т а б л . 6

95-я процентиль

1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 00
\ \
1 161-4 199 5 215 7 224 6 230 2 234 0 236 8 238-9 240 5 241-9 243 9 245 9 248 0 249 1 250-1 251-1 252 2 253 3 254 3
2 18-51 1900 19 16 19-25 19 30 19 33 19 35 19 37 19 38 19-40 19-41 19-43 19-45 19 45 19-46 19 47 19 48 19 49 19 50
3 1013 9-55 9 28 9 12 9 01 8-94 8 89 8-85 8 81 8-79 8-74 8-70 8 66 8 64 8-62 8-59 8-57 8 55 8-53
4 7-71 6 94 6 59 6 39 6 26 6 16 6 09 6-04 6 00 6 96 5 91 5 86 5-80 5-77 5 75 5-72 5 69 5-66 5 63
5 6 6 1 5 -7 9 Я 41 5 1 9 5 05 4 95 4 88 4 -8 2 4 77 4 - 7 -» 4 -6 8 4 -0 2 4 60 •4 0 3 4 0 0 4 40 4 43 4 40 4 30
6 5-99 514 4 76 4 53 4 39 4-28 4 21 4-15 4 10 4-06 4 00 3 94 3 87 3 84 3-81 3-77 3 74 3 70 3-67
7 5-59 4-74 4-35 4-12 3-97 3-87 3 79 3 73 3 68 3 64 3 57 3 51 3 44 3 41 3 38 3 34 3 30 3 27 3 23
8 5-32 4 46 407 3 84 369 3 58 3 50 3-44 3 39 3 35 3 28 3 22 3 15 3-12 3 08 304 3 01 2 97 2-93
9 512 4-26 3 86 3 63 3 48 3 37 3-29 3-23 3-18 3 14 3-07 3 01 2 94 2 90 2 86 2 83 2 79 2 75 2-71
10 4-96 4-10 3 71 3-48 3 33 3 22 3 14 3 07 3 02 2 98 2 91 2 85 2-77 2 74 2-70 2 66 2-62 2 58 254
11 4 84 3-98 3 59 3 36 3-20 3-09 3 01 2 95 2 90 2 85 2-79 2-72 2 65 2 61 2-57 2 53 2 49 2 45 2 40
12 4 75 3 89 3 49 3-26 3 11 3 00 2 91 2-85 2 80 2 75 2 69 2-62 2-54 2 51 2-47 2 43 2 38 2 34 2 30
13 4 67 3 81 3 41 3 18 3-03 2 92 2 83 2-77 2 71 2 67 2 60 2 53 2 46 2 42 2 38 2 34 2 30 2-25 2 21
14 4 60 3 74, 3 -3 4 3 -1 1 2 96 2 85 2 76 2 70 2 6 5 2 60 2 53 2 46 2 39 2 3 5 2 31 2 27 2 22 2 18 2 13

15 4 54 3 68 3 29 3 06 2-90 2 79 2-71 2 64 2 59 2-54 2 48 2-40 2 33 2-29 2 25 2-20 2-16 2 11 2-07


16 4 49 3 63 3 24 3-01 2-85 2 74 2 66 2 59 254 2-49 2-42 2-35 2-28 2 24 2 19 2 15 211 206 2 01
17 4-45 3-59 3-20 2-96 2 81 2 70 2 61 2 55 2 49 2 45 2 38 2 31 2 23 2 19 2 15 2 10 2-06 2 01 1-96
18 4 41 3 55 3 16 2-93 2-77 2-66 2 58 2-61 2 46 2 41 2 34 2 27 2 19 2 15 2 11 2 06 202 1 97 1-9Г
19 4 38 3 52 3 13 2-90 2-74 2 63 2 54 2-48 2 42 2-38 2 31 2 23 2 16 2 11 2 07 2 03 1 98 1-93 1 -8С
20 4 35 3 49 3 1 0 2 -8 7 2 -7 1 2 60 2 51 2 4 5 2 39 2 35 2 -2 8 2 20 2 12 2 -0 8 2 04 1 99 1 -9 5 1 -9 0 1 -8 4
21 4 32 3-47 3 07 2-84 268 2 57 249 2-42 237 2-32 225 218 2 10 205 2 01 1-96 1 92 1-87 1-81
22 4 30 3 44 3 05 2-82 2 66 2 55 2 46 2-40 2 34 2 30 2 23 2 15 2 07 2 03 1 98 1 94 1 89 1-84 1-78
23 4-28 3 42 3 03 2 80 2 64 2-53 2 44 2 37 2 32 2 27 2 20 213 2 05 2 01 1 96 191 1 86 1-81 1*76
24 4-26 3-40 301 2 78 2 62 2 51 242 2 36 2 30 2-25 2 18 2 11 2 03 1 98 1 94 1 89 1-84 1*79 1-73
25 4 24 3-39 2 99 2 76 2 60 2 49 2 40 2 34 2 28 2 24 2 16 2 09 2 01 1-96 1 92 1*87 1*82 1-77 1*71
26 4-23 3 37 2-98 2-74 2 59 2 47 2 39 2-32 2 27 2 22 2*15 207 1 99 1 95 1 90 1 85 1 80 1 75 1 69
27 4-21 3 35 2 96 2 73 2 57 2 46 2 37 2-31 2 25 2 20 2 13 2 06 1-97 1 93 1*88 1 84 1 79 1 73 1-67
28 4 20 3 34 2 95 2 71 2 56 2 45 2 36 2-29 2 24 2 19 2 12 2-04 1 96 191 1-87 1 82 1-77 1*71 1-65
29 418 3 33 2 93 2 70 255 2-43 2 35 2 28 2 22 2 18 2*10 203 1 94 1 90 1-85 181 1*75 1-70 1*64
ЗС 417 3-32 2-92 2 69 2 53 2 42 2 33 2 27 2 21 2-16 2 09 2 01 1 93 1 89 1-84 1 79 1-74 1 68 1 62
40 408 3-23 2 84 261 2-45 2 34 2 25 2-18 2 12 2-08 200 1 92 1 84 1 79 1 74 1 69 1 64 1 58 1*61
60 4 00 3 15 2 76 2 53 2 37 2 25 2 17 2-10 2 04 1 99 1 92 1 84 175 1 70 1*65 1 59 153 1 47 1 39
120 3 92 307 2 68 2 45 2 29 2 17 2 09 202 1 96 1 91 1 83 1 75 1 66 1 61 1-55 1-50 1 43 1 35 1-25
со 3-84 3 00 2 60 2 37 2 21 2-10 2 01 1 94 \88 1 83 1-75 1 67 1 57 1 52 1-46 1 39 1 32 1 22 1-00
Л
П родолж ен ие т абл . 6

97.5-я процентиль

1 2 3 4 5 6 7 8 9 15 24 30
X 10 12 20 40 60 120 00

1 в47 а 7Ô0 5 де4 2 900 А Q01.fi 037 1 94Я-2 956-7 963 3 968-6 976 7 984 9 993 1 997-2 1001 1006 1010 1014 1018
2 38-51 39-00 39 17 39 25 39 30 39 33 39 36 39-37 39 39 39-40 39-41 3943 39-43 39 46 30-46 30-47 39 4ß 30-40 90 50
3 17-44 16 04 15 44 15 10 14-88 14 73 14 62 14-54 14 47 14-42 14 34 14-25 14-17 14 12 14-08 14-04 13-99 13 95 13 90
4 12-22 10-65 9-98 9 60 9 36 9-20 9 07 8 98 8 90 8-84 8-75 8 66 8-56 8 51 8 46 8-41 8 36 8 31 8 26

5 1001 8 43 7-76 7 39 7-15 6 98 6 85 6-76 6 68 6-62 6-52 643 6-33 6-28 623 6 18 6 12 607 602
6 8 81 7 26 6-60 6 23 5 99 5-82 5-70 560 5 52 5-46 5-37 5-27 517 5-12 507 5-01 4-96 4-90 4-85
7 807 6-54 5 89 5 52 5 29 5 12 4 99 4 90 4 82 4-76 4-67 4 67 4-47 4-42 4 36 4 31 4-25 4-20 414
8 7 57 606 5*42 505 482 465 443 4'3б 4*30 4*20 410 100 3 95 3 89 3-84 3-78 3 73 3-67
453
9 7-21 571 508 4-72 4-48 4 32 4-20 4 10 4 03 3 96 3-87 3 77 3 67 361 356 351 3'4б 339 333
10 6 94 5 46 4 83 4-47 4-24 4-07 3 95 3 85 3-78 3-72 3-62 3-52 3-42 3-37 331 3-26 3-20 314 308
11 6-72 5-26 4-63 4-28 4 04 3-88 3-76 3-66 3-59 3-53 3 43 3 33 3 23 3 17 3-12 3-06 3 00 2-94 2-88
12 6-55 510 4-47 4 12 3-89 3 73 3 61 3-51 3 44 3-37 3-28 3-18 3 07 3-02 2-96 291 2-85 2-79 2-72
13 6 41 4-97 4-35 4-00 3-77 3 60 3-48 3 39 331 3-25 315 305 2-95 2-89 2 84 2-78 2-72 2 66 2 60
14 6-30 4-86 4-24 3-89 3-66 3-50 3-38 3-29 3 21 315 305 2-95 2-84 2-79 2-73 2 67 2 61 265 2-49
15 6-20 477 416 3 80 3 58 341 3 29 3-20 3-12 3-06 2 96 2-86 2 76 2-70 2-64 2 59 2-52 2 46 2 40
16 6 12 4-69 4-08 373 3 50 334 3 22 3-12 305 299 289 2-79 2-68 2*63 257 2-51 2 45 2-38 2-32
17 6-04 4-62 4 01 3 66 3 44 3 28 3-16 3 06 2-98 2-92 2-82 2-72 2 62 2-56 2-50 2-44 2 38 2-32 2-25
18 5-98 4 56 3-95 3 61 3 38 3 22 3-10 3 01 2 93 2-87 2-77 2 67 2 56 2-50 2-44 2 38 2-32 2-26 2 19
3-90 3 56 3-33 3 17 2 96 2-82 2-72 2 62 2 51 2 45 2 39 2 33 2-27 2-20 2-13
• 19 5-92 4 51 3 05 2-88

20 5-87 4 46 3-86 3-51 3 29 3 13 3-01 2-91 2-84 2-77 2-68 2-57 2-46 2-41 2-35 2-29 2-22 2-16 2-09
21 5 83 4-42 3-82 3 48 3 25 3 09 2-97 2-87 2-80 2-73 2 64 2-53 2 42 2-37 2-31 2 25 2-18 2-11 2-04
22 5-79 4 38 3-78 3 44 3-22 3 05 2-93 2-84 2 76 2-70 2-60 2-50 2 39 2 33 2-27 2 21 2-14 2-08 2 00
23 5-75 4 35 3 75 3 41 3 18 302 2-90 2-81 2-73 2-67 2-57 2 47 2-36 2-30 2-24 2-18 2 11 2-04 1 97
24 5-72 4-32 3 72 3 38 3 15 2 99 2 87 2-78 2-70 2 64 2 54 2 44 2 33 2-27 2-21 2 15 2-08 201 1-94
25 5 69 4-29 3 69 3 35 3 13 297 2-85 2-75 2-68 261 2 51 2 41 2 30 2-24 218 2-12 2-05 1-98 1-91
26 5 66 4-27 3 67 3 33 310 2-94 2-82 2-73 2 65 2 59 2-49 2-39 2-28 2-22 2-16 2-09 2-03 1 95 1-88
27 563 4 24 365 3 31 3-08 2-92 2-80 2-71 2-63 2-57 2 47 2 36 2 25 2 19 2 13 2 07 2-00 1 93 1-85
28 5 61 4-22 3 63 3-29 3-06 2-90 2-78 2 69 2 61 2 55 2-45 2 34 2 23 2 17 2 11 2-05 1-98 1 91 1-83
29 5 59 4 20 3 61 3 27 3-04 2-88 2-76 2 67 2-59 2-53 2 43 2-32 2 21 2-15 2-09 2-03 1-96 1-89 1-81
30 5-57 4-18 3-59 3-25 3-03 2 87 2 75 2-65 2-57 2 51 2-41 2 31 2-20 2-14 2-07 2-01 1 94 1-87 1-79
40 5-42 4-05 3 46 3 13 2 90 2-74 2 62 2 53 2-45 2-39 2-29 2-18 2-07 2-01 1-94 1-88 1-80 1-72 1-64
60 5-29 3 93 3 34 3 01 2-79 2 63 2 51 2 41 2 33 2-27 2-17 2-06 1-94 1-88 1 82 1-74 1-67 1 58 1*48
120 515 3-80 3 23 2-89 2 67 2-52 2-39 2-30 2-22 2-16 2 05 1-94 1-82 1-76 1 69 1-61 1 53 1-43 1-31
со 502 3 69 312 2 79 2-57 241 2-29 2 19 2 11 гё-05 1-94 1-83 1*71 1-64 1-57 1-48 1-39 1-27 1-00
П родолж ен ие т абл. 6

9 9 -я процент иль

\ У
\ 1 1 2 3 4 5 6 7 6 9 10 12 15 20 24 30 40 60 120 оо
V 4
i 4052 4999-5 5403 5625 5764 5859 5928 5981 6022 6056 6106 6157 6209 6235 6261 6287 6313 6339 6366
2 98 50 99 00 99-17 99 25 99 30 99 33 99 36 99 37 99 39 9940 99-42 99-43 99-45 99-46 99-47 99-47 99 48 99-49 99 50
3 34 12 3082 29-46 28 71 28-24 27-91 27-67 27 49 27 35 27-23 27-05 26 87 26 69 26-60 26 50 26-41 26 32 26-22 26-13
4 21 20 1800 16 69 15-98 15-52 15-21 14-98 14 80 14 66 14-55 14-37 14-20 14 02 13 93 19 84 13-75 13 00 1Э 60 13 40
5 1626 1327 12 Об 11 39 1007 1067 10 46 10 29 10-16 10 05 9 89 9-72 9 55 9-47 9 38 9 29 9 20 9-11 9-02
6 13 75 10-92 9 78 9-15 8-75 8 47 8-26 8 10 7-98 7-87 7-72 7-56 7*40 7 31 7-23 714 706 6-97 6-88
7 12 25 9-55 8-45 7 85 7-46 719 6-99 684 6-72 662 647 631 6-16 607 5-99 5 91 5-82 5-74 5-65
8 11 26 865 7-59 7 01 6 63 637 6 18 6 03 5-91 5-81 5 67 5-52 536 5-28 5-20 512 503 4-95 4-86
9 1056 802 699 642 606 5-80 561 547 5-35 5 26 511 4 96 4 81 4 73 4 65 4-57 4-48 4-40 4 31
10 1004 7-56 6 55 599 564 5-39 5-20 5 06 4-94 4-85 4-71 4 56 4-41 4 33 4 25 4-17 4 08 4 00 3-91
11 9 65 7*21 6 22 5 67 532 5 07 4 89 4 74 4 03 494 4-40 4*25 4-10 402 3-04 386 3 78 3 69 3-60
12 9*33 6*93 5-95 541 508 4-82 4-64 4-50 4-39 4-30 4 16 4-01 3-86 3-78 3-70 3-62 3-54 3-45 3-36
13 907 6-70 5-74 5 21 4 86 4 62 4-44 4 30 4 19 4-10 3 96 3 82 3-66 3 59 3-51 3 43 3 34 .3-25 3-17
14 8 86 6-51 5-56 5 04 4 69 4 46 4-28 4 14 403 Î-94 3-80 3-66 3*51 343 3 35 3-27 318 3 09 3-00
15 8-68 6 36 5 42 4 89 4-56 4 32 414 400 3-89 3-80 367 352 3-37 3 29 3-21 3 13 305 2 96 2-87
16 8-53 623 5-29 4-77 4-44 4-20 4-03 3 89 3-78 3 69 3-55 3 41 3 26 3-18 3-10 3-02 2-93 2-84 2-75
17 8 40 6-11 518 4-67 4-34 4-10 3 93 3-79 3 68 3-30 9 40 3 31 3 10 3 08 3 00 2-92 2*83 275 2-65
18 8 20 0 01 OQ9 4 08 4*25 401 3-84 371 360 3-51 3 37 3 23 3-08 300 2-92 2-84 2-75 2-66 2-57
19 8 18 593 501 4 50 4-17 3-94 3-77 363 3-52 3-43 3 30 3 15 3 00 2-92 2-84 2-76 2-67 2-58 2-49
20 8 10 585 4 94 4-43 410 3-87 3-70 3-56 3-46 3 37 3 23 3 09 2 94 2 86 2-78 2-69 2-61 2 52 2-42
21 8 02 5-78 4-87 4 37 4-04 3-81 3 64 3 51 3 40 331 3 17 303 2-88 2-80 2-72 2 64 2-55 2 46 2-36
22 7 95 5-72 4 82 4 31 3-99 3-76 3 59 3-45 3 35 3 26 3-12 2 98 2 83 2-75 2 67 2-58 2-50 2 40 2-31
23 7-88 5 66 4 76 4 26 3 94 3-71 3-54 341 3 30 3 21 3-07 2 93 2-78 2 70 2 62 2 54 2-45 2 35 2-26
24 7-82 561 4-72 4-22 3 90 3-67 3 50 3-36 3-26 3-17 3 03 2 -8» 2 74 2 00 2 08 2-49 2-40 2*31 2*21
25 7-77 5 57 4 68 4 18 3 85 3 63 3 46 3 32 3-22 3 13 2 99 2-85 2-70 2 62 2-54 2-45 2-36 2 27 2-17
26 7-72 5 53 4 64 4 14 3 82 3-59 3 42 3 29 3 18 3 09 2 96 2 81 2-66 2-58 2 50 2-42 2-33 2-23 213
27 7-68 549 4 60 4 11 3 78 3-56 339 3 26 315 3 06 293 2-78 2 63 2-55 2 47 2-38 2-29 2 20 2-10
28 7-64 545 4 57 4 07 3-75 3-53 3 36 3 23 3 12 3 03 2 90 2-75 2-60 2-52 2-44 2 35 2-26 2 17 2 06
29 7-60 5-42 4 54 4 04 373 3-50 3 33 3-20 3 09 3 00 2 87 2 73 2-57 2 49 2 41 2-33 2-23 2-14 2-03
5 39 4 51 4 02 3 70 3 47 3 30 3 17 307 2 98 2-84 2-70 255 2 47 2 39 2-30 2 21 2 11 2-01
30 7-56 1-92 1-80
40 7-31 518 4 31 3 83 3 51 3-29 3 12 2 99 ‘ 2-89 2 80 2 66 2-52 2-37 2-29 2-20 2-11 2 02
60 708 4-98 4 13 3 65 3 34 3 12 2-95 2 82 2-72 2 63 2 50 2 35 2 20 2 12 2 03 1-94 1-84 1-73 1-60
120 6 85 4 79 3 95 3 48 3 17 2 96 2 79 2 66 2 56 2 47 2 34 2 19 2-03 1-95 1-86 1-76 1 66 1-53 1-38
со 663 4 61 3 78 332 302 • 280 264 2-51 2 41 2 32 2 18 2 04 1-88 1-79 1-70 1-59 1 47 1 32 1-00
П родолж ен ие т абл. 6

99.5-я проценгпиль

V ' 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 оо
• к
1 16211 20000 21615 22500 23056 23437 23715 23925 24091 24224 24426 24630 24836 24940 25044 25148 25253 25359 25465
2 198 3 199 0 199 2 199-2 199 3 199 3 199 4 199 4 199 4 199 4 199 4 199 4 199 4 199 5 199 5 199 5 199 5 199-5 199 5
1 3 55*55 4980 47 47 •4619 45 39 44 84 44 43 44 13 43 88 43 69 43 39 43 08 42-78 42 62 42 47 42 31 42-15 41 99 41 83
4 31 33 26 28 24 26 23 15 22 46 21-97 2162 21 35 21 14 20 97 20 70 2044 20*17 2003 19 88 1975 1961 1947 19 32
5 22-78 18 31 16 53 15 56 14 94 14 51 14 20 13 96 13 77 13 62 13 38 3-15 12-90 12 78 12 66 12 53 12 40 12 27 12 14
6 1863 14 54 12-92 12 03 11 46 11-07 1079 1057 1039 10 25 1003 9 81 9 59 9 47 9 36 9 24 9 12 9 00 8 88
7 16 24 12 40 10 88 10 05 9 52 9 16 8 89 8 68 8 51 8 38 8 18 7-97 7-75 7-65 7-53 7-42 7-31 7 19 708
8 14 69 11 04 9 60 8 81 8-30 7-95 7 69 7-50 7-34 7-21 7 01 681 6 61 в 50 6 40 6 29 6 18 6 06 5 95
9 13 61 10 11 8-72 7-96 7-47 7-13 688 6 69 6 54 6 42 623 603 5 83 5 73 5 62 5 52 541 5 30 5 19
10 1283 943 808 734 в 87 6-54 630 6 12 5 97 5 85 5 66 б 47 б 27 б 17 5 07 4 97 48в 4 76 4 04
И 12 23 8 91 7 60 688 в-42 6 10 5-86 5 68 554 542 524 505 4-86 . 4 76 465 4 55 444 4 34 4 23
12 11 75 8 51 7-23 6-52 6-07 5-76 5 52 5 35 5 20 509 4 91 4-72 4 53 4 43 4 33 4 23 4 12 401 390
13 11-37 8 19 6 93 6 23 5-79 5 48 5 25 5 08 4 94 4 82 4 64 4-46 4-27 4-17 4 07 3 97 3 87 3 76 3 65
14 11 06 7-92 668 600 5 56 5 26 5 03 4 86 4 72 4 60 4 43 4 25 4 06 3 96 3 86 3 76 3 66 3 55 3 44
15 1080 7-70 6-48 5-80 5 37 5-07 4 85 4 67 4-54 442 4 25 407 3-88 3-79 3 69 3 58 3 48 3-37 3-26
16 10 58 7 51 630 5 64 5-21 4 91 4 69 4 52 4-38 4-27 4-10 3-92 3 73 3 64 3 54 3 44 3 33 3 22 3 11
17 10 38 7 36 6 16 5-50 5-07 4-78 4 56 4 39 4 25 4 14 3 97 3-79 3 61 3 51 3-41 3 31 3 21 3 10 2-98
18 10 22 7-21 603 5-37 4 96 4 66 4 44 4 28 4 14 4-03 3 86 368 3 50 3 40 3 30 3 20 3-10 2-99 2-87
1» 1007 709 5 92 5-27 4-85 4 56 4 34 4 18 4 04 3 93 3 76 3-59 3 40 3 31 3 21 3 11 3 00 2 89 2-78
20 9 94 6 99 5-82 5-17 4-76 4-47 4-26 4-09 3-96 3 85 3-68 3 50 3 32 3 22 3 12 302 2-92 2-81 2-69
21 9-83 6 89 5-73 5 09 4-68 4 39 4 18 4-01 3 88 3 77 3-60 343 3 24 3 15 3 05 2 95 2-84 2-73 2-61
2:\ 9-73 681 5 65 5 02 4 61 4 32 4 11 3 94 3 81 3 70 3-54 3 36 3 18 3 08 2-98 2 88 2-77 2 66 2 55
23 9 63 6 73 5 58 4 95 4 54 4 26 4 05 3-88 3 75 3 64 3 47 3 30 312 302 2 92 2 82 2-71 2 60 2 48
24 955 6 66 5-52 4 89 4-49 4 20 3-99 3 83 3 69 3-59 3-42 3 25 3 06 2 97 2-87 2-77 2-66 2 55 2 43
25 9-48 6 60 546 4 84 4 43 4 15 3 94 3-78 3 64 3 54 3-37 3-20 3 01 2-92 2-82 2 72 261 2 50 2 38
26 9 41 6 54 541 4-79 4 38 4-10 3 89 3 73 3 60 3 49 3 33 3 16 2 97 2 87 2 77 2 67 2-56 2 45 2 33
27 9 34 6 49 5-36 4-74 4 34 4 06 3 85 3 69 3-56 3 45 3 28 3 11 2 93 2 83 2 73 2 63 2-52 2 41 2 29
24 928 6 44 5 32 4 70 4 30 4 02 3 81 3 65 3-52 3 41 3 25 3 07 2-89 2-79 2 69 2-59 2-48 2 37 2 25
29 9 23 6 40 5 28 4 66 4-26 3 98 3-77 3 61 3-48 3 38 3 21 3 04 2 86 2-76 2 66 2 56 2-45 2 33 2-21

зэ 9 18 6 35 5 24 4 62 4-23 3 95 3-74 3-58 3 45 3 34 318 301 2 82 2 73 2 63 2-52 2-42 2 30 2 18


40 8 83 6 07 4 98 4 37 3 99 3 71 3 51 3 35 3-22 3 12 2 95 2-78 2 60 2 50 2 40 2 30 2-!8 2 06 1 93
60 8 49 5-79 4-73 4-14 3 76 3 49 3 29 3 13 3 01 2"-90 2-74 2 57 2 39 2 29 2-19 2 08 1 96 1 83 1 69
120 8 18 5 54 4 50 3 92 3 55 3 28 3-09 2 93 2 81 ,2-71 2 54 2 37 2 19 2 09 1 98 1-87 1 75 1 61 1 43
00 7-88 5 30 4-28 3-72 335 309 2 90 2-74 2 62 2 52 2 36 2 19 2-00 1 90 1 79 1 67 1 53 1 36 1-00
П р о д о л о /с е н и е т абл. 6

99.9-я процентиль

1 2 3 4 5 6 7 8 12
X 15 20 24 30 40 60 120 00

1 4053* 5000* 5404* 5625* 57G4* 5859* 5929* 6981* 6023* 6056* 6107* 6158* 6209* 6235* 6261* 6287* 6313* 6340* 6366*
2 998-5 999-0 999-2 999-2 999-3 999 3 999 4 999 4 999 4 999 4 999 4 999 4 999 4 999-5 999 5 999 5 999 5 999-5
3 167-0 148 5 1411 137 1 134-6 132-8 131 6 999 5
130 6 129-9 129 2 128 3 127 4 126-4 125-9 125 4 125 0 124 5 124-0 123 5
4 7414 6126 56 18 53 44 51*71 50 53 49-66 49 00 48-47 48 05 47-41 46-76 46 10 45-77 45 43 45 09 44 75 44 40 44 05
5 47 18 37 12 33 20 31 09 29 75 28 84 28 16 27 64 27 24 26 92 26 42 25 91 25 39 25 14 24 87
6 35-51 27-00 23 70 21 92 20 81 20 03 24 60 24 33 24 06 23 79
7 29-25 18-77
19 46 19 03 18 69 18-41 17 99 17 56 17 12 16-89 16 67 16 44 16-21 15 99 15 75
21-69 17-19 16 21 15 52 15 02 14 63 14 33 14 08 13 71 13 32 12 93 12 73 12 53 12 33 12 12 11 91 11-70
8 25 42 18-49 15-83 14 39 13 49 12 86 12 40 12 04 И 77 11 54 11 19 10 84 10 48 10 30
9 22-86 16-39 13-90 1171 10-11 9 92 9-73 9-53 9-33
12-56 1113 10 70 10 37 10 11 9 89 9 57 9 24 8 90 8 72 8 55 8 37 8-19 8-00 7-81
10 21-04 14 91 12 55 11-28 10 48 9 92 9 52 9 20 8 96 8-75 8 45 8 13 7-80 7 64 7 47 7 30 7-12
11 19 69 13 81 11-56 6 94 6 76
10 35 9 58 9 05 8 66 8 35 8 12 7 92 7 63 7 32 701 6'85 6 6Я 6-52 6 3." 6 17 в оо
12 1»64 12 07 10«О У03 » »У Ö39 Ö00 7 71 7-4» 7-2У 700 6 71 640 625 609 593 5 76 5 59 5 42
13 17 81 12 31 1021 9 07 8 35 7-86 7-49 7 21 6 98 6 80 6 52 6 23 5 93 5-78
14 5 63 5 47 5 30 5 14 4-97
17 14 11-78 9 73 8 62 7 92 7 43 7 08 6 80 6 58 640 6 13 5 85 5 56 5 41 5 25 5 10 4 94 4-77 4 60
15 16-59 11 34 9-34 8-25 7-57 7 09 6 74 6 47 6 26 6 08 5 81 5 54 5 25 5 10
16 16 12 10 97 9-00 7-94 4-95 4 80 4 64 4-47 4 31
7-27 6 81 6 46 6 19 5 98 5 81 5 55 5 27 4 99 4 85 4 70 4 54 4-39 4 23 4 06
17 15-72 10 66 8-73 7-68 7-02 6 56 6 22 5 96 5-75 5 58 5 32 5 05 4-7« 4 63 4-4Й 4 33 4 18 4 02 3 85
18 15-38 10 ЗУ 6-19 7 40 ÖÖ1 6 35 602 5 70 5 56 5 39 5 13
19 4 87 4-59 4 45 4 30 4 15 4 00 3 84 3 67
15-08 10 16 8-28 7-26 6-62 6 18 5 85 5 59 5 39 5 22 4 97 4 70 4 43 4 29 4 14 3 99 3 84 3 68 3-51
20 14-82 9-95 8 10 7 10 6 46 602 5-69 5 44 524 5 08 4 82 4-56 4-29 4-16 4 00 3 86
21 14-59 9-77 7-94 6 95 6-32 5 88 5 56 5 31 5 11 4 95 4 70 4 44 •417 4 03 3-88 3 74
3-70 3 54 3 38
22 14 38 9 61 7-80 6 81 6*19 5 76 5 44 5 10 4 99 4 83 4-58 4 33 4 06 3 92 3 78 3 63
3 58
3 48
3-42
3 32
3 26
3 15
23 14-19 9-47 7 67 6 69 6-08 5-65 5 33 5 09 4 89 4 73 4-48 4 23 3-96 3 82
24 1403 9 34 7-55 в 59 5-98 3 68 3 53 3 38 3 22 3 05
5 55 5 23 4 99 4 80 4 64 4 39 4 14 3-87 3 74 3 59 3 45 3 29 3 14 2 97
25 13 88 0 22 7 40 0 49 о-в» 0 40 5 15 4 91 4 71 4 56 4 31 4 06
26 3-79 366 3 52 3 37 3 22 3 06 2 89
13 74 912 7-36 6 41 5-80 5 38 5-07 4 83 4 64 4 48 4 24 3 99 3 72 3 59 3 44 3 30 3 15
27 13 61 9 02 7-27 6 33 5 73 5 31 5 00 4 76 4 57 2 99 2 82
4 41 4'17 3 92 3-66 3 52 3 38 3 23 3 08 2 92 2-75
28 13 50 8 93 719 6 25 5-66 5 24 4 93 4 69 4 50 4 35 4-11 3-86 3-60 3 46 3 32 3 18 3 02
29 13 39 8 85 7-12 6 19 5 59 5 18 4 87 4 64 2 86 2 69
4 45 4 29 4-05 3-80 3 54 3 41 3 27 3 12 2 97 2 81 2 64
30 13-29 8-77 705 6 12 5 53 5 12 4 82 4 58 4 39 4 24 4 00 3-75 3-49 3 36 3 22 3-07
40 12-61 8-25 6-60 5-70 5 13 4-73 4 44 4 21 2 92 2 76 2 59
4 02 3 87 3 64 3 40 3 15 3 01 2 87 2 73 2 57 2 41 2 23
60 .1-97 7-76 6 17 5-31 4 76 4-3"’ 4-09 3 87 3 69 3 54 3 31 3 08 2 83 2 69 2 55 2 41 2 25 2 08 1 89
120 11-38 7-32 5-79 4 95 4 42 4 04 3 77 3 55 3-38 3 24 302 2 78 2 53 2-40 2 26
со 10-83 6 91 5-42 4 62 4 10 3 74 3 47 3 27 3 10
2 11 1 95 1-76 1 54
2 96 2-74 2 51 2 27 2 13 1 99 1 84 1 66 1 45 1 00

it • , )п П е Р епге ч а т к а т а б л . 1 8 и з к н и г и P e a r s o n Е . S . , H a r t l e y М. О. ( 1 9 6 6 ) « B i o m e t r i k a T a b l e s f o r S t a t i s t i c i a n s » т. I, 3-е изд., Cambridge


Press, Londo n and New Y ork, с л ю б ез н о го р азр еш ен и я П ирсона. ’
* ) Эти ч и с л а с л е д у е т у м н о ж и т ь на 100. ^
Таблица 7
Процентили распределения стьюдентизованного размаха (разд. 2 .4 .2 )1)
_________________
90-я процентиль

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X
1 8-93 13-44 16-36 1849 20-15 2151 22-64 23 62 24 48 25 24 25-92 26-54 2710 27-62 28-10 28 54 2896 29 35 29-71
2 413 5 73 6-77 7*64 8*14 863 905 0-41 9-12 10-01 10-26 1049 10-70 108У 11 07 1124 11-39 11 54 11 68
3 3 33 4-47 6-20 5-74 61в 6 51 6-81 7-06 7-29 7-49 7-67 7-83 7-98 8-12 8-25 837 8-48 858 8-68
4 301 3-98 4-59 503 5-39 5-68 5 93 614 6 33 6 49 6-65 6-78 6 91 7-02 7-13 7 23 7 33 7-41 7-50
5 Ч-85 3 72 4-26 4-66 4-98 5-24 546 5 65 5-82 6-97 6-10 6-22 634 6-44 6-54 6 63 6-71 6-79 6-86
6 •76 3 56 4-07 4 44 4-73 497 5 17 5-34 5-50 5-64 5-76 5-87 5-98 6-07 6-16 6-25 6-32 6-40 6-47
7 •08 3 45 393 4-28 4 55 4-78 4-97 514 6 28 6 41 6 53 6 64 6-74 5-83 5-91 5-99 6 06 6 13 6 19
8 2 63 3 37 3 83 4 17 4 43 4-65 4-83 4 09 5 13 б25 6-36 5-46 6-56 5-64 5-72 5-80 5-87 5-93 600
9 2-59 3 32 3-76 408 4-34 4-54 4-72 4-87 501 513 5 23 5 33 5 42 5-51 5-58 5 66 5-72 5 79 5-85
10 2-56 3-27 3-70 4 02 4-28 4 47 4-64 4-78 4 91 603 513 523 5 32 5*40 5-47 5-54 561 5-67 5-75
п 2-54 3-23 3-66 3-96 4-20 4-40 4-57 4-71 4-84 4-95 6-05 615 6-23 5 31 5-38 5 45 5-51 6-57 5-63
12 2-62 3-20 3-62 3-92 416 4-35 4-51 4-65 4-78 4 89 4-99 5-08 5-16 5 24 5 31 5-37 5-44 5-49 5-5Л
13 2-60 318 3-59 3-88 4 12 4 30 4-46 4-60 4-72 4-83 4-93 5-02 5-10 518 5-25 5-31 5 37 5 43 5 48
14 2-49 316 3-56 3-85 4-08 4-27 4 42 4-56 4-68 4 79 4-88 4-97 5-05 512 519 5 26 5-32 5 37 5-43
15 2-48 314 354 3-83 4 05 4-23 4-39 4-52 4-64 4-75 4-84 4 93 5-01 5-08 515 5-21 5-27 6-32 5-38
16 2-47 312 3-52 3-80 4-03 4-21 4-36 4-49 4 61 4-71 4-81 4-89 4-97 5-04 6! 1 617 5-23 5-28 5-33
17 2 40 311 3-50 3-78 4-00 4 18 4 33 4 46 4-58 4-68 4-77 4-86 4 93 5-01 6-07 513 5-19 5-24 5-30
18 2-45 310 3-49 3-77 3-98 4-16 4 31 4 44 4 55 4 65 4-75 4-83 490 4-98 5-04 5-10 5-16 5-21 5 26
!9 2-45 3-09 347 3-75 3-97 414 4-29 4-42 463 4-63 4-72 4-80 4-88 4-95 5-01 5-07 5-13 5-18 6 23
20 2-44 308 3-46 3-74 3-95 412 4-27 4-40 4 61 461 4-70 4-78 4-85 4-92 4-99 5-05 5-10 516 5 20
24 2-42 306 3-42 3-69 3-90 4-07 421 4-34 4 44 4-64 4-63 4-71 4-78 4-85 4-91 4-97 5-02 507 512
30 2-40 3-02 3-39 3-65 3-85 4-02 4-16 4-28 4-38 4-47 4-56 4-64 4-71 4-77 4-83 4-89 4-94 4 99 5-03
40 2-38 2-99 3-35 3-60 3-80 3-96 4 10 4-21 432 4 41 4-49 4-56 4-63 4-69 4-75 4 81 4-86. 4 90 4-95
ЬО 2-36 2-96 3 31 3-56 3-75 3-91 4-04 4 16 425 4 34 4 42 4-49 4 56 4 62 4-67 4-73 4-78 4-82 4-86
120 2-34 2-93 3 28 3-52 3-71 3-86 3-У9 410 4-19 4-28 4-35 4-42 4-48 4-64 4-60 4-65 4-69 4-74 4-78
оо ( 2-33 2-90 3-24 3-48 3-66 3-81 3-93 4-04 > 4-13 421 4-28 4-35 4-41 4-47 4-52 4-67 4-61 4-65 4-69
П родолж ение т абл. 7

95-я процентиль

X 1
2
2

17-97
608
3

26-98
8-33
4

32-82
9-80
5

37-08
10-88
6

40-41
11-74
7

43 12
1244
8

45-40
13-03
9

47-36
13-54
10

49-07
13-99
11

50-59
14-39
12 13

51-96 53-20
14-75 15-08
14

54 33
15-38
15

55-36
15-65
16

56-32
15-91
17

57-22
16-14
18

58-04
16-37
19

58-83
16-57
20

59 56
16-77
3 4-50 5-01 6-82 7-50 8-04 8-48 8-85 9-18 9-46 9-72 9-95 10-15 10-35 10-52 10-69 10-84 10-98 Ul i 11-24
4 3-93 504 5-76 6-29 в-71 7-05 7-35 7-вО 7-аз в-оэ 0-21 Ö-37 8*02 8-66 8-79 891 9-03 013 9-23
5 3*64 4-60 5-22 5-в7 воз в33 в-58 6-80 6-99 7-17 7-32 7-47 7-60 7-72 7-83 7-93 8-03 8-12 8-21
6 3-46 4-34 4-90 530 5-63 5-90 6-12 в32 6-49 0-65 6-79 в92 7-03 7-14 7-24 7-34 7-43 7-51 7-59
7 3-34 416 4-68 5-06 5-36 5-61 5-82 6-00 616 6-30 6-43 6-55 6-66 6-76 6-85 6-94 7-02 7-10 7-17
8 3-26 4-04 4-53 4-89 5-17 5-40 5-60 5-77 5-92 6-05 6-18 6-29 6-39 6-48 6-57 6-65 6-73 6-80 6-87
9 3-20 3-95 4-41 4-76 5-02 6-24 5-43 5-59 5-74 5-87 5-98 6-09 6-19 6-28 в-зв в-44 в-51 в-58 в-64
10 315 3-88 4-33 4-65 4-9! 5-12 5-30 б-4в 5-00 5 72 0 09 Ö-83 оиз 6-11 6*19 6-27 в-34 6-40 6-47
И 311 3-82 4-26 4-57 4-82 5-03 5-20 5-35 5-49 561 5-71 5-81 5-90 5-98 6-06 6-13 6-20 6-27 в33
12 308 3-77 4-20 4-51 4-75 4 95 5 12 5-27 5-39 551 5-61 5-71 5-80 588 6-95 6-02 6-09 615 6-21
13 306 3-73 4 15 4-45 4-69 4 S8 5-05 519 5-32 5 43 5-53 563 6-71 5-79 5-86 5-93 5-99 6-05 6-11
14 303 3-70 4 11 441 4-64 4 КЗ 4-99 5-13 5-25 5 36 5-46 5-55 5-64 5-71 5-79 5-85 5-91 5-97 6-03
15 301 3-67 4-08 4-37 4-59 4-78 4-94 5-08 5-20 5 31 5-40 5-49 5-57 5-65 5-72 5-78 5-85 5-90 5-96
16 300 3-65 405 4 33 4-56 4-74 4-90 5-03 515 5 26 5-35 5-44 5-52 5-59 5-66 5-73 5-79 5-84 5-90
17 2-98 3-63 402 4 30 4-52 4-70 4-86 4-99 5-11 5 21 5-31 5 39 5-47 5-54 5-61 5в7 5-73 5-79 5-84
18 207 3-61 4 00 4-28 4-40 4 67 4-82 4-90 Ö07 017 ÖZ7 3*35 6-43 5-50 5-57 563 5-69 5-74 5-79
i 20
IV 2*96 3-59 3-98 4-25 4-47 4-65 4-79 4-92 5-04 5-14 5-23 5-31 5-39 546 5-53 5-59 5-65 5-70 5-75
2-95 3-58 396 4-23 4-45 4(2 4-77 4-90 5-01 5 11 5-20 5-28 б-Зв 5-43 5-49 5-55 5 61 5-66 5-71
24 2-92 3-53 390 4-17* 4-37 4-54 4-ев 4-81 4-92 501 5-10 5-18 6-25 5-32 5-38 5-44 5-49 5-55 5-69
30 2-89 3-49 3 85 4-10 4-30 4 46 4-60 4-72 4-82 4-92 500 5-08 5-15 5-21 5-27 5-33 5-38 5-43 5-47
40 2-86 3-44 3-79 4-04 4-23 4-39 4-52 4-63 4-73 4-82 4-90 4-98 504 5-11 5-16 5-22 5-27 5-31 5-36
60 2-83 3-40 3-74 3-98 4-16 4-31 4 44 4-55 4-05 4-73 4-81 \ 4-88 4-94 5-00 5-06 5-11 5-15 5-20 5-24
120 2-80 з-зв 368 3-92 4-10 4-24 4-36 4-47 4-56 4-64 4-71 4-78 4-84 -Î-90 4-96 500 5-04 5-09 5-13
00 , 2-77 3-31 3 63 3-86 4-03 4-17 4-29 4-39 4-47 4-55 4-62 4-68 4-74 4-80 4 86 4-69 4-93 V07 5*01
П родолж ен ие т абл. 7

99-я процентиль

X 1
2
2

90 03
1404
3

1350
1902
4

164-3
22-29
5

185 6 202-2
24-72 26-63
6 7

215-8
28-20
8

227-2 237 0
29-53 30-68
9 10

245-6 253-2
31-69 32 59
11 12

260-0
33-40
13

266-2
34-13
14

271-8
34-81
277-0
35-43
16

281*8
36-00
17

286-3
36-53
.8

290*4
37-03
19

294 3
37 50
20

298-0
37 95
3 8-26 1062 1217 13-33 14-24 15-00 15-64 16-20 16-69 17-13 17-53 17-89 18-22 18-52 18-81 19-07 19*32 19-55 19-77
4 6 51 812 917 9-96 10-58 1110 11-55 11-93 12-27 1257 12-84 13-09 13-32 13-53 13-73 13-91 14-08 14 1!4 14-40
5 5-70 6-98 7-80 8-42 8-91 9-32 9-67 9-97 10-24 10-48 10-70 10-89 11-08 И 24 11-40 11 55 11-68 И 81 11-93
6 5-24 6-33 7-03 7 56 7-97 8-32 8-61 8-87 9-10 9 30 9-48 9-65 9-81 9 95 10-08 10-21 10-32 10-43 10-54
7 4-95 5-92 6-54 701. 7-37 7-68 7-94 817 8-37 8-55 8 71 8-86 9 00 9-12 9-24 9-35 9-46 9-55 9-05
4-75 564 6 20 6-62 6-96 7 24 7-47 7-68 7-86 8-03 818 8-31 8 44 8-55 8-66 8 76 8 85 8-94 9-03
9 4 60 5-43 5-96 6 35 6-66 6-91 7-13 7-33 7-49 7-65 7-78 7-91 8-03 8-13 8-23 8 33 8-41 8-49 8-57
10 4-48 5-27 5-77 6-14 6-43 6-67 6-87 7-05 7-21 7 36 7 49 7-60 7-71 7-81 7-9» 7-99 8-08 8-15 8-23
11 4-39 515 562 5-97 6-25 6 48 6-67’ 6-84 6-99 7-13 7-25 7-36 7 46 7-56 7-65 7-73 7-81 7-88 7-95
12 4 32 505 5-50 5-84 6 10 6-32 6-51 6-67 6 81 6-94 7-06 7-17 7-26 7-36 7-44 7 52 7-59 7-66 7-73
13 4-26 4-96 5-40 5-73 5-98 6-19 6-37 6 53 6 67 6 79 6-90 7-01 7 10 7 19 7 27 7 35 7 42 7-48 7-55
14 4 21 4-89 5-32 5-63 5-88 6-08 6-26 6-41 6-54 6 66 6-77 6-87 6 96 7-05 7-13 7 20 7-27 7-33 7-39
15 417 4-84 5-25 5-56 5-80 5-99 6 16 6 31 644 6-55 6 66 6 76 6-84 6 93 700 7-07 7 14 7-20 7-26
16 413 4 79 5-19 5-49 5-72 5-92 6-08 6-22 6-35 6-46 6-56 6-66 6-74 6-82 6-90 6-97 7-03 7-09 7-15
410 4-74 514 543 5-66 5-85 6-01 615 6-27 6 38 6-48 6-57 6-66 6-73 6-81 6-87 6-94 700 705
18 407 4-70 5 09 5-38 5-60 5-79 5 94 6-08 6 20 6-31 6 41 6-50 6 58 6 65 6-73 6-79 6-85 6 91 6-97
19 4 05 4-67 505 5-33 5-55 5-73 5-89 6-02 6-14 6-25 6-34 6 43 6-51 6-58 6-65 6-72 6*78 6-84 6-89
20 402 4-64 502 5-29 5-51 5-69 5-84 5-97 609 6-19 6-28 6 37 6-45 6-52 6-59 6-65 6*71 6-77 6-82
24 3-96 4 55 4-91 517 5-37 5-54 5-69 5-81 5-92 6-02 611 6 19 6-26 6-33 6-39 6-45 6-51 6-56 6-61
30 3-89 4-45 4-80 5-05 5-24 5-40 5-54 5-65 5-76 5-85 5-93 6-01 6-08 6-14 6-20 6-26 6-31 6 36 6-41
40 3-82 437 4-70 4-93 511 5-26 5-39 5 50 5-60 5-69 5-76 5-83 5-90 5-96 6-02 6-07 6-12 6-16 6-21
60 3-76 4-28 4-59 4 82 4-99 5-13 5-25 5 36 5-45 5-53 5-60 5-67 5-73 5-78 5-84 5-89 5-93 5-97 601
120 3-70 4-20 ' 4-50 4-71 4-87 5-01 5-12 5-21 5-30 5-37 5-44 5-50 5-56 5-61 5-66 5-71 5-75 5-79 5 83
00 3-64 4-40 4 60 4-76 4 88 4-99 508 516 5-23 5-29 5-35 5-40 5-45 5-49 5-54 5-57 5-61 5-65

') П ер е п е ч ат ка табл . 29 и з книги P e arso n Е . S . , H a r tle y Н. О. ( 1 9 6 6 ) « B io m e t r ik a T a b le s for S t a t i s t ic ia n s » , т. I, 3 - е и зд ., C am brid ge U niv.


P r e s - ' , L o n d o n ^ nd N e w Y o r k , с л ю б е з н о г о р а з р е ш е н и я E . П и р с о н а .
Т абли ц а 8
Значения критерия Фишера V (разд. 3 .1 ,4 ) х)

О
г .00 .09 '

оо
.0 1 .0 2 .0 3 .0 4 .0 5 .0 6 .0 7

.0 .0 0 0 0 0 .0 1 0 0 0 .0 2 0 0 0 .0 3 0 0 1 .0 4 0 0 2 .0 5 0 0 4 .0 6 0 0 7 .0 7 0 1 2 .08017 .09024
.1 .1 0 0 3 4 . 11045 .1 2 0 5 8 .1 3 0 7 4 .1 4 0 9 3 .1 5 1 1 4 .1 6 1 3 9 .1 7 1 6 7 .1 8 1 9 8 .19234
.2 .2 0 2 7 3 .2 1 3 1 7 .2 2 3 6 6 .2 3 4 1 9 .2 4 4 7 7 .2 5 5 4 1 .2 6 6 1 1 .2 7 6 8 6 .2 8 7 6 8 .2 9 8 5 7
.3 .3 0 9 5 2 . 32055 .3 3 1 6 5 .3 4 2 8 3 .3 5 4 0 ? .3 6 5 4 4 .3 7 6 8 9 .3 8 8 4 2 .4 0 0 0 6 .41180
.4 .4 2 3 6 5 .4 3 5 6 1 .4 4 7 6 9 .4 5 9 9 0 .4 7 2 2 3 .4 8 4 7 0 .4 9 7 3 1 .5 1 0 0 7 .5 2 2 9 8 .5 3 6 0 6

.5 .5 4 9 3 1 .5 6 2 7 3 .5 7 6 3 4 .5 9 0 1 4 .6 0 4 1 5 .6 1 8 3 8 .6 3 2 8 3 .6 4 7 5 2 .6 6 2 4 6 .6 7 7 6 7
.6 .6 9 3 1 5 .7 0 8 9 2 .7 2 5 0 0 '. 7 4 1 4 2 .7 5 8 1 7 .7 7 5 3 0 .7 9 2 8 1 .8 1 0 7 4 .8 2 9 1 1 .8 4 7 9 5
.7 :8 6 7 3 0 .8 8 7 1 8 .9 0 7 6 4 .9 2 8 7 3 .9 5 0 4 8 .9 7 2 9 5 .9 9 6 2 1 1 .0 2 0 3 3 1 .0 4 5 3 7 1 .0 7 1 4 3
.8 1 .0 9 8 6 1 1. I 2703 1 .1 5 6 8 2 1 .1 8 8 1 3 1 .2 2 1 1 7 1 .2 5 6 1 5 1 .2 9 3 3 4 1 .3 3 3 0 8 1 .3 7 5 7 7 1 .4 2 1 9 2
.9 1 1 .4 7 2 2 2 1.5 2 7 5 2 1 .5 8 9 0 2 1 .6 5 8 3 9 1 .7 3 8 0 5 1 .8 3 1 7 8 1 .9 4 5 9 1 2 .0 9 2 2 9 2 .2 9 7 5 6 2 .6 4 6 6 5

х) При отрицательных г значения V также отрицательны.


Таблица 9
Графики доверительных интервалов для коэффициентов корреляции (разд. З.Т .4)1)
Доверительный у р о в е н ь 0.95
Приложение I I . С татисти ческие таблицы

Д о в е р и т е л ь н ы й у р о в е н ь 0 .9 9

*) Перепечатка табл. 15 и з книги Pearson Е. S., Hartley Н. О. (1966) «Biometrika


fables for Statisticians», т. I, 3-е изд., Cambridge Univ. Press, London and New York,
с любезного разрешения Пирсона и Дейвида (David F. N.). Числа на кривых указывают
объем выборки. Ордината — р (коэффициент корреляции в генеральной совокупности);
абсцисса — г (выборочный коэффициент корреляции).
Л и т е р а т у р а *)

Б у к в ы сл е в а ук азы в аю т, к к а к о й к а тего р и и отн оси тся д ан н ая р аб о та, р —


с т а т ь я , § — н е тр е б у е тся о сн о в а тел ьн ая м атем ати ч еская п одготовка; г — тр е­
б у е тс я з н а н и е м атем ати ч еского ан ализа; х — то л ь к о д л я т е х , кто зн ак ом с м ате­
м а т и ч е ск о й стати сти к о й .

g Abr a hamsk, A. F., and K isch, A. I. (1975). Health Status Age: An Age Predictive Health Status
Index, Rand Corp. Report, R-162&-OEO, Rand Corp., Santa Monica, California.
p A f if i, A. A., and E lashoff, R. M. (1966). Missing Observations in Multivariate Statistics I.
Review of the Literature, Journal ofthe American Statistical Association 61, 595-604.
p A fif i, A, A., and E lash o ff, R. M. (1969) Multivariate Two Sample Tests with Dichotomous and
C ontinuous Variables I: The Location Model, Annals ofMathematical Statistics 40,290-298.
p A f if i, A. A., and E lash o ff, R. M. (1969a). Missing Observations in Multivariate Statistics III.
L a rg e Sample Analysis of Simple Linear Regression, Journal of the American Statistical
Association 64, 337-358.
p A fifi, A. A., and E la sh o ff. R. M. (1969b). Missing Observations in Multivariate Statistics IV.
A N ote on Simple Linear Regression, Journal of the American Statistical Association 64.
35 9-365.
P A fifi, A. A., R a n d . W VI, P a lle y , N. \.. Shubin, H., and W eil, M. H. (1971a). A Method for
E valuating Changes in Sets of Computer Monitored Physiological Variables, Computers and
Biomedical Research 4, 329-339.
p A fifi, A. A., Sacks, S. T., Liu, V Y„ W eil, M. H. and Shubin, H. (1971b). Accumulative
P rognostic Index for Patients with Barbiturate, Gluetethemide and Meprobamate Intoxica-.
tio n . New England Journal of Medicine 285. 1497-1502.
x* A n o e rs o n , T. W. (1958). "An Introduction to Multivariate Statistical Analysis,” Wiley, New
Y o rk
jc A n d r e w s , D. F., Bickel, P. J., H ampel, F. R„ H uber, P. J., Rogers, W. H., and T ukey, J. W.
, (1972). “ Robust Estimates of L ocation: Survey and Advances,” Princeton Univ. Press, Prin-
1 c e to n . New Jersey.
f A nscom be, F J. (1961) Examination of Residuals, Proceedings of the Fourth Berkeley Sympo­
sium on Mathematical Statistics and Probability, pp. 1-36. Univ. of California Press, Berkeley.

*) Р а б о т ы , п о м е ч е н н ы е з н а к о м « * » , и м е ю т с я н а р у с с к о м язы ке. См . сп и сок


на стр . 4 7 4 — 475. — П ри м . р ед .
Л итература 469

p A nscombe , F. J., and Tukey, J . W. (1963) The E xam ination and Analysis of Residuals, Tech­
nometrics 5, 141 160.
p A tk in so n , A C., and P earce. M C. (1976) T he Computer Generation of Beta, Gamma and
Norm al Random Variables. Journal of Royal Statistical Society, Series A 139, 431-451.
P A z e n , S. P (1969). Classification of Tim e-Dependent Observations, Rand Corp. Report,
R-471-PR, Rand Corp.. S a n ta M onica, California.
p A z e n , S. P. and A fifi, A A. (1972a) Two M odels for Assessing Prognosis on the Basis of
Successive Observations, Mathematical Biosciences 14, 169176.
p A z e n , S. P., and A fifi , A A. (1972b). Asym ptotic and Small-Sample Behavior of Estimated
Bayes Rules for Classifying Time-Dependent Observations, Biometrics 28, 989 998.
P A ze n , S. P., and D err . J. I ( 1968) On the D istribution of the Most Significant Hexadecimal
Digit, Rand Corp. Report, RM-5496-PR. R and Corp., Santa Monica, California.
p A z e n , S. P., and R eed , A H (1973). Maximum Likelihood Estimation of Correlation between
Variates Having Equal Coefficients of V ariation, Technometrics 15, 457 462.
p A z e n , S. P., G arcia - P ena , J a n d A fifi, A. A. (1972). Estimation of Missing Values for Com­
puter Prognosis, Computers and Biomedical Research 5, 613-20.
p Az e n , S. P., G arcia - P ena . J . . and A fifi, A. A ( 1975) Classification of Time-Dependent Obser­
vations: The Exponential Model and the R obustness of the Linear Model, Biometrische
Zeitschrift 17, 203-212. w
p Az e n , S. P., L in n , W., J ones, M. P., H ackney, J., and Sc h o f n t g e n . S. (1977a). A Comparison
of Eight Lung Function In d ice s in Sm oking and Nonsmoking Officeworkers, Lung 154,
213-221.
p Az e n , S. P., M a rgolick . J. B , and S herwiini, R P (1977b). An Experimental Model and
Automated Methodology fo r the Analysis o f the Effects of Ambient Levels of Air Pollutants
on the Lung, Applied Mathematics and Computation 3, 95-102.
p Az e n , S P., Lin n , W S., H ackney , J. D., and J ones , M. P (1978). A Factor Analytic
Approach to an Effective L ung Function Screening Protocol, American Journal of Public
Health. 6 8 . 49-53.
p A z e n , S P , K ammerman .L . , and T eberg , A. (1979). A Bayesian Approach to the Prediction of
Development Outcome i n the Infant of L ow Birthweight, To be published,
p B artlett , M. S. (1937). A nalysis of C ovariance to Missing Values, Journal ofthe Royal Statisti­
cal Society, Suppi 4, 151.
g B artlett, M. S. (1947). M u ltivariate Analysis. Journal of the Royal Statistical Society, Suppl.
9B, 176 197.
g B ayley. N. (1969). “ Bayley Scales of Infant dev elo p m en t,” Psychological Services, New York,
p B endel , R. B. and A fifi, A A (1976). A C riterion for Stepwise Regression, American Statisti­
cian 30. 85 87.
p B endel , R. B„ and A fifi, A . A. (1977). C om parison of Stopping Rules in Forward Stepwise
Regression. Journal of th e American Statistical Association 72, 46-53.
g B ennett , C. A., and F r a n k l in . N. L. (1954). "Statistical Analysis in Chemistry and the
Chemistry Industry," W iley, New York.
p B ergm \ n , R. N., and A ze im , S. P. (1974). M easurem ent Error Interest in the Determination of
Hepatic Glucose Balancc, Journal Applied Physiology 36, 269-273.
g B eyer . W. H. (Ed.) (1968). "H andbook of Tables for Probability and Statistics" (2nd ed.),
Chemical Rubber Co , C lev elan d , Ohio.
p B ir n b h ’m, Z. W. (1952). N u m e ric al T abulation of the Distribution of Kolmogorov’s Statistic
for Finite Sample Size, Journal of the American Statistical Association 47, 425 441.
g B liss, C. W. (1967). "S ta tistic s in Biology,” Vol. 1, McGraw-Hill, New York.
p Boone , D. C., A z e n , S. P . , L in , C., S p e n c e , C , B aron , C , and L ee, L. (1978). Reliability in
Goriometric M easurem ents, Physical Therapy 58, 1093 1099.
p Box, G. E. P.. and Ml e l l e r . M. E. (1958). A Note on the Generation of Random Normal
Deviates, Annals of Mathematical Statistics 29, 610 611.
470 Литература

p Box, G . E. P., and W atson , G. S. (1962). Robustness to Non-Normality of Regression Tests,


Biometrika 49, 99-106.
p B r o o k s , H L., A zen , S. P., G erberg , E., Brooks , R , and C h a n , L. (1975). Scoliosis: A
Prospective Epidemiological Study, Journal of Bone and Joint Surgery 57A, 968-972.
r* B r o w n l e e , K. A. (1965). “ Statistical Theory and Methodology in Science and Engineering,”
W iley, New York.
g B u r in o t o n , R. S. (1965) "H andbook of Mathematical Tables and Form ulas” (4th ed.),
M cG raw -H ill, New York.
g B ij r in g t o n , R. S. (1970). “ Handbook of Probability and Statistics with Tables” (2nd ed ),
M cG raw -H ill, New York.
g C a t t e l l , R. B., E ber, H. W„ and T atsijoka , M. M. (1970). “ Handbook For the Sixteen
Personality Factor Questionnaire,” Inst, for Personality and Ability Testing, Champaign,
Illinois.
p C h e n , E . H. (1971). A Random Normal Number Generator for 32-Bit-Word Computers,
Journal of the American Statistical Association 6 6 , 400-403.
g C h u r c h m a n , C. W., and Ratoosh . P. (1959). “ Measurement Definitions and Theory," Wiley,
New York.
p Cissik, J . H., Johnson, R. E., and Rokosch, D. K. (1972). Production of Gaseous Nitrogen in
H u m a n Steady-State Conditions. Journal of Applied Physiology 32, 155-159.
g* C o c h r a n , W. G. (1953). “ Sampling Techniques,” Wiley, New York.
p C o c h r a N, W. G. (1954). Some Methods of Strengthening the Common Tests, Biometrics 10,
417-451.
p C o r n f ie l d , J., and T ukey . J. W. (1956). Average Values of Mean Squares in Factorials, Annals
of Mathematical Statistics 2 7 , 907-949.
r* Cox. D R and L ewis , P. A W . (1966). “ The Statistical Analysis of Series of Events," Methuen,
London.
x* C ram er , H. (1946). “ Mathematical Methods of Statistics," Pnnceton Univ. Press, Princeton,
New Jersey.
g D a v id , F \ N. (1938). “ Table of the Correlation Coefficient," Biometrika Office, University
C ollege, London.
r D avies, O . L. (Ed.) (1954). “ Design and Analysis of Industrial Experiments,” Oliver & Boyd,
E dinburgh.
x D e m p s t e r , A. P. (1969). “ Elements of Continuous Multivariate Analysis,” Addison-Wesley.
R e ad in g , Massachusetts.
g D ix o n , W . J, (Ed.) (1977) ' BM D P: Biomedical Computer Programs.” Univ. of California
Press, L os Angeles, California
g D ix o n , W . J., and M assey, F. J (1969). “ Introduction to Statistical Analysis” (3rd ed ).
M cG raw -H ill, New York,
p D ix o n , W . J., and T ukey , J W. (1968). Approximate Behavior of the Distribution of Win-
sorized t, Technometrics 10, 83-98.
r D o r n , W . S., and G reenberg, S. N. (1967). “ Mathematics and Computing,” Wiley, New York.
r* D r a per , N . R., and S m ith , H. (1968). "Applied Regression Analysis,” Wiley, New York.
g D u n n , O- J. (1977) “ Basic Statistics: A Primer for the Biomedical Sciences,” (2nd ed.), Wiley,
New Y o rk
p E b erle, E ., B rink, J., Azen, S. P., and W hite, D. (1975). Early Predictors of Incomplete
R ecovery in Children with Guillain-Barre Polyneuritis, Journal of Pediatrics 8 6 , 356-359.
P Eipper, D . S., and Azen, S. P. (1978). A Comparison of Two Developmental Instruments in
D ow n’s Syndrom e Children,Physical Therapy 58. 1066-1069.
X* F e l le r , W . (1966). “An Introduction to Probability Theory and Its Applications ” Vol II
Wiley, N ew York.
r* F eller, W . (1968) “An Introduction to Probability Theory and Its Applications," Vol. I
(3rd ed,), Wiley, New York.
Л итература 471

r Fergu son, T. S. (1967). “ Mathematical Statistics A Decision Theoretic Approach,”


Academic Press, New York.
r' FlNNEY. D. J. (1971). “ Probit Analysis" (3rd ed ), Cambridge Univ. Press, Cambridge.
p F s h e r , R. A. (1918). The Correlation between Relatives on the Supposition of Mendelian
Inheritance. Transactions of the Royal Societ y of Edinburgh 52. 399 433.
r* F i s h e r . R. A. (1925). "Statistical Methods for Research Workers" (1st ed ). Oliver & Boyd,.
Edinburgh.
r F i s h e r . R. A. (1935). "The Design of Experiments." Oliver & Boyd. Edinburgh.
P F i s h e r . R. A. (1936). The Use of Multiple Measurements in Taxonomic Problems, Annals of
Eugenics7. 179 188.
g FlSHER. R A., and Y a t e s . F. (1 963). " Statistical Tables for Biological, Agricultural, and Medical
Research" (6th ed ), Oliver & Boyd, Edinburgh,
r Fisz. M ( 1963)." Probability Theory and Mathematical Statistics." (3rd ed.). Wiley. New York.
p F i x . E. and H o d g e s , J. L. ( 1951). Non-Parametric Discrimination: Consistency Properties,
USAF School of Aviation Medicine, Project Report 2M9-004, No. 4, Randolph AFB, San
Antonio, Texas.
p Fix. E.. and H od ges , J L. (19 52). Non-Parametric Discrimination: Small Sample Performance,
USAF School of Aviation Medicine, Project Report 21-49-004, No 11. Randolph AFB. San
Antonio, Texas.
y F leiss, J. L. (1973). "Statistical Methods for Kates and Proportions," Wiley, New York.
y F l e t c h e r . C., P eto , R , Ti c k e r, C., and S p e iz e r , F. (1976). "The National History of Chronic
Bronchitis and Emphysema,” Oxford Mcdical Pub!, Oxford
g F r a n c is , I.. H e ib e rg e r. R and V e lle m a n .P . (1974). " Report and Proposal of the Committee
on Evaluation of Program Packages to the Section on Statistical Computing." American
Statistical Association. Washington. D.C.
p G a b r ie l, K.. R. (1968). Simultaneous Test Procedures in Multivariate Analysis of Variance,
Biometrika 55, 489 504.
r G ib b o n s. J. D. (1971). " Non parametric Statistical Inference," McGraw-Hill, New York
p G o o d m an , L. A., and K. k i s k a l. W. H . (1954). Measures of Association for Cross
Classifications, Journal o f the American Statistical Association 49. 732 764.
p G o o d m an , L A., and FC r i s k a l. W. H . (1959). Measures of Association for Cross
Classifications, II: Further Discussion and Reference, Journal of the American Statistical
Association 58, 123 163.
p Goodman. L A . and K. ri skal. W H. (1963). Measures of Association for Cross
Classifications, III: Approximate Sampling Theory, Journal of the American Statistical Asso­
ciation 58. 310 364.
p Goodm an, L. A., and K.RUSKAL, W. H . (1972). Measures of Association for Cross
Classifications. IV: Simplification of Asymptotic Variances, Journal of the American Statisti­
cal Association 67, 415-4-21.
p G riz z le , J. E. (1967). Continuity Correction in the / 2-Test for 2 x 2 Tables, American Statisti­
cian 21. 28-32.
y H ai. d , A. (1952). "Statistical Tables and Formulas,” Wiley, New York.
r H ammersley, J. M. and H a n dsc om b , D. C. (1964). "Monte Carlo Methods," Methuen,
London.
d “ Handbook of Mathematical Tables” (1952). Chemical Rubber Publishing Co., Cleveland.
Ohio.
r *■ H arman , H . H. (1967). “M odern Factor Analysis" (2nd ed.), Univ. of Chicago Press, Chicago,
Illinois.
j H a rtle y , A O. (f 961). Modified Gauss Newton Method for Fitting on Nonlinear Regression
Functions, Technometric:s 3, 269-280.
r H astings, C, Jr. (1955). “Approximations for Digital Computers,” Princeton Univ. Press,
Princeton, New Jersey.
472 Л итература

p H e c h t e r , O ., T e r a d a , S., N a k a h a r a , T., T. F l o u r e t, T., and B erg m an , R. (1978). Neur-


opypohyseal Horm one (NH H) Responsive Renal Adenylate Cyclase, II. Relationship be­
tw een Hormonal Occupances of N H H Receptor Sites and Adenylate Cyclase Activation,
Journal of Biological Chemistry 253, 3219-3229.
g H i l l , FvS. A., and Adam s, D . (1974). Side Inch II, Health Sciences C om puting Facility, Publ.
A3-23 1, Univ. of California, Los Angeles, California.
g H ills , IVI (1966). Allocation Rules and Their Error Rates, Journal of the Royal Statistical
Society, Series B 28, 1-20.
r H oel , P . G. (1963). “ Introduction to M athem atical Statistics,” Wiley, New York,
p H o g g , R . V. (1974). Adaptive Robust Procedures: A Partial Review and Some Suggestions for
F u tu r e Applications and Theory, Journal of the American Statistical Association 69,909-923.
r H o g g , R . V., and C r a ig , A. T. (1970). “ Introduction to Mathematical Statistics” (3rd ed.)
M acm illan, New York.
g H orst , P . (1965). “ Factor Analysis of Data Matrices,” Holt, New York.
p H o t e l l in g , H. (1931). The Generalization of Student’s Ratio, Annals of Mathematical Statistics
2, 360-378.
p H uber, P . J. (1964). Robust Estimation of a Location Parameter, Annals of Mathematical
Statistics 35, 73-101.
p J e n n r i c h , R. I., and Sampson , P. F. (1966). Rotation for Simple Loadings, Psychometrika 31,
313-323.
p K ac , M ., K iefer , J., and W o lfow itz , J . (1955). On Tests of Normality and Other Tests of Fit
Based o n Distance Methods, American Mathematical Society 25, 189-198.
p K aiser , H . F. (1958). The Varimax Criterion for Analytic Rotation in Factor Analysis, Psy­
chometrika 23, 187-200.
p K a t z , D . , Baptista , J., A zen , S. P., and P ike, M. C. (1?78). Obtaining Confidence Intervals for
the R is k Ratio in Cohort Studies, Biometrics 34, 469-474.
r* K e n d a l l , M. G. (1962). “ Rank Correlation Methods,” GrifTen and Co., L ondon.
r* K e n d a l l , M. G., and St u a r t , A. (1967). “ The Advanced Theory of Statistics, Vol. II: Infer­
ence a n d Relationship,” Hafner, New York,
r* K e n d a l l , M. G., and St u a r t , A. (1968). “ The Advanced Theory of Statistics, Vol. Ill: Design
and A nalysis, and Time Series," H aher, New York,
r* K e n d a l l , M. G., and Stu a r t , A. (1969). “ The Advanced Theory of Statistics, Vol. I (3rd ed ):
D istrib u tio n Theory," Hafner, New York,
p L a c h e n b r u c h , P. A (1967). An Almost Unbiased Method o f O btaining Confidence Intervals
for the Probability of Misclassiticatior in Discriminant Analysis, Biometrics 23, 639-646,
r L a c h e n b r u c h , P. A. (1975). “ Discriminant Analysis," Hafner Press, New York,
p L a c h e n b r u c h , P. A., and M ickey , M R. (1968). Estimation of Error Rates in D iscrim inant
A nalysis, Technometrics 10, 1-11.
r* L e h m a n n , E. L. (1959) “ Testing Statistical Hypotheses,” Wiley, New York,
p L ewis, P. A. W„ G oodm an , A. S., and M iller , J. M. (1969). A Pseudo-Random Number
G e n e ra to r for the System/360, IBM Systems Journal S, 136-146.
p L il l ie f o r s , H. W. (1967). On the Kolmogorov Smirnov Test for Normality with Mean and
V a rian c e Unknown, Journal of the American Statistical Association 62, 399-402.
r L i n d g r e n , B W. (1968) “ Statistical Theory” (2nd ed), Macmillan, New York,
x* L oeve, M. (1963). “ Probability Theory” (3rd ed.), Van Nostrand, Pnnceton, N ew Jersey,
p L o n g ley , J . W. (1967). An Appraisal of Least Squares Programs for the Electronic Computer
from t h e Point of View of the User, Journal of the American Statistical Association 62,
819-82?.
g L u ste d , L . B. (1968). “ Introduction to Medical Decision Making,” Charles C. Thomas,
Springfield, Illinois.
r* M cC r a c k e n , D. M., and D o r n , W. S. (1964). "N um erical Methods and Fortran Program­
ming.” W iley, New York.
Литература 473

p M ahalanobis, P. C. (1936). On t h e Generalized Distance in Statistics, Proceedings of the


National Institute of Sciences of India 12, 49-55.
p M antel, N. (1974). Comment and a Suggestion, Journal ofthe American Statistical Association
69, 378-380.
p M a n te l, N., and H a e n s z e l, W. (1959). Statistical Aspects of the Analysis of Data from Retro­
spective Studies of Disease. Journal of the National Cancer Institute 22. 719-748.
p M a rq u a rd t, D. W . (1963). An A lgorithm for Least-Squares Estimation of Nonlinear Pa­
rameters, Journal of the Society for Industrial and Applied Mathematics 2, 431-441.
p M a rsh , D. J., and M a r tin , C. M. (1977). Origin of Electrical PD's in Hamster Thin Ascending
Limbs of Henle’s Loop. American Journal of Physiology 232, F348-F357.
g* M a rtin , F. F. (1968). “ Com puter M odeling and Simulation,” Wiley, New York.
p Massey, F. J. (1951). The K olm ogorov-Sm irnov Test for Goodness-of-Fit, Journal of the
American Statistical Association 46, 68-78.
r M a x w e ll, A. E. (1961). “Analysing Q ualitative Data,” Methuen, London.
r M ood, A. M., and G r a y b ill, F. A. (1963). “ Introduction to the Theory of Statistics ” (2nd ed.),
McGraw-Hill, N e w York,
r M o rriso n , D. F. (1967). “ M ultivariate Statistical Methods,” McGraw-Hill, New York.
g INelder, J. A. (1976) General Linear Interactive Modelling (GLIM) Manual, Numerical Algor­
ithms Group, O xford.
p ISemenyi, P. (1969). Variances: An Elementary Proof and a Nearly Distribution-Free-Test,
American Statistician 23, 35-37.
g Mie, N. H., H u l l , C , Jenkins, J., S t e in b r e n n e r , K., and B ent, D. (1975). “ SPSS: Statistical
Package for the Social Sciences” (2 n d ed ), McGraw-Hill, New York,
r TNoether, G. E. (1967). “ Elements o f Nonparam etric Statistics,” Wiley, New York.
g IN'oviCK, M. R .,an d Jackson, P. H. (1974). “ Statistical Methods for Educational and Psycholo­
gical Research,” McGraw-Hill, N e w York.
p O 'N eill, R., and W e t h e r i l l , G. B (1971). The Present State of Multiple Comparison Methods,
Journal Royal Statistical Association, Series B 33, 218-250.
p P a lle y , N. A., E fb e c k , D. H., and T r o t t e r , J. A., Jr. (1970). Programming in Medical Real
Time Environm ent, AFIPS Conf. Proc. 37, 589-598.
p Palmersheim, J. J. (1970) Nearest N e ig h b o r Classification Rules: Small Sample Performance
and Com parison with Linear D iscrim inant Function and Optimum Rule. PhD. Dissertation,
Univ. of California, Los Angeles,
r P a rz en , E. (I960). "M odern Probability Theory and Its Applications,” Wiley, New York.
g Pearson, E. S., a n d H a r tle y , H. O . (1966). “ Biometrika Tables for Statisticians,” Vol. 1
(3rd ed.), Cam bridge Univ. Press, Cambridge.
p Pearson, K. (1901). O n Lines and P la n e s of Closest Fit to Systems of Points in Space, Philoso­
phical Magazine, Series 6 2, 559-572.
r R a lsto n , A., and W ilf, H. S. (1960). “ M athematical Methods for Digital Computers,” Wiley,
New York.
p Fao, C. R (1951). An Asymptotic E xpansion of the Distribution of Wilk’s Criterion, Bulletin of
the International Statistical Institute 33, 177-180.
x* Fao, C. R. (1965). “ Linear Statistical Inference and Its Application,” Wiley, New York,
r* K udin, W. (1964) “ Principles of M athem atical Analysis” (2nd ed.), McGraw-Hill, New York.
p Ryan, T. A., Jr., and Jo in e r, B. L . (1973). Minitab: A Statistical Computing System for
Students and Researchers, American Statistician 27, 222-225.
g Ryan, T. A., Jr., Jo in e r, B. L., a n d R yan, B. F. (1976) “ MINITAB: Student Handbook,”
Duxbury Press, W adsworth P ubl.. Belmont, California.
p . ScHEFFi, H. (1953). A M ethod for Ju d g in g All Contrasts in the Analysis of Variance, Biometrika-
40. 87-104.
p ScHEFFi, H. (1956). Alternative M odels for the Analysis of Variance, Annals of Mathematical
Statistics 27,251-271.
474 Л итература

г* S cheffe, Н. (1959). “ The Analysis of Variance,” Wiley, New York.


p S c h u c a n y , A., S h a n n o n , B., and M inton, C. (1972). A Survey of Statistical Packages, Com­
puting Surveys 4, 2-30.
p S h u b in , H., Afifi, A . A., R and, W. Vi., and W eil, М. H. (1968). Objective Index of Haemody-
namic Status for Q uantitation of Severity and Prognosis of Shock Complicating Myocardian
Infarction, Cardiovascular Research 2, 329-337.
3 S ie g e l, S. (1956). “ Non-Param etric Statistics for the Behavioral Sciences,” McGraw-Hill, New
York.
p S m ith , H., G n a n a d e sik a n , R., and H ughes, J. B. (1962). The Multivariate Analysis of Var­
iance (M A N O V A ), Biometrics 18, 22-41.
r S n e d e c o r, G. М., a n d C o c h ra n , W. G. (1967). “ Statistical Methods," Iowa State Univ. Press,
mes, Iowa.
p Snibbe, H. М., F a b ric a to r e , J., and Azen, S. P. (1975). Personality Patterns of White, Black
and M exican-Am erican Patrolmen as Measured by the Sixteen Personality Factor
Questionnaire, American Journal of Community Psychology 3, 221-227.
p Som ers, R. H. (1962). A New Asymmetric Measure of Association for Ordinal Variables,
American Sociological Review 27,799-811.
p S t e w a r t, D. H., E rbeck, D. H., and Shubin, H (1968). Computer System for Real Time
Monitoring and Management of the Critically III, AFIPS Conf. Proc. 33, 797-807.
g T h u r s to n e , L. L. (1945). “ Multiple Factor Analysis,” Univ. of Chicago Press, Chicago, Illinois.
r T o rg e r s o n , W. S. (1958). “ Theoryand Methods of Scaling,” Wiley,New York,
p T r u e t t , J., C o r n f ie ld , J., and K a sjn e ll, W. (1967). A Multivariate Analysis of the Risk of
Coronary Heart Disease in Framingham, Journal of Chronic Diseases 20, 511-524.
p T ukey, J. W. (1949), One Degree of Freedom for Non-Additivity, Biometrics 5, 232-242.
p T u k ey , J. W. (1949). Comparing Individual Means in Analysis of Variance, Biometrics 5, 99.
p T u k ey , J. W. (1962). The Future of D ata Analysis, Annals of Mathematical Statistics 33,1-67.
g V e lle m an , P. F., Seam an, J., and A llen , I. E. (1977). Evaluating Package Regression Routines,
Technical R e p rin t 877/008-010. New York State School of Industrial and Labor Relations,
Cornell Univ., Ithaca, New York.
g W a ls h , J. E. (1965). “ Handbook ofMonparametric Statistics," Van Nostrand, Princeton, New
Jersey.
p W eil, М. H., and Afifi, A. A. (1970). Experimental and Clinical Studies on Lactate and
Pyruvate as Indicators of the Severity of Acute Circulatory Failure (Shock), Circulation XLI,
989-1001.
g W eil, М. H., and S h u b in , H. (1967). “ The Diagnosis and Treatment of Shock,” Williams &
Wilkins, Baltim ore, Maryland,
p W e lc h , В. C. (1937). The Significance of the Difference between Two Weans When the Popula­
tion Variances A re Unequal, Biometrika 29, 350-362.
p W ilks, S. S. (1932). Certain Generalizations in th e Analysis of Variance. Biometrika 24,
471-494.
p Z aw ac k i, B„ A z e n , S. P., C h a n g ,C „ and Imbus, S. (1979). Multifactorial Probit Analysis of
Burn M ortality, A n n a l s o f Surgery (in press). ,

Л И ТЕ РА ТУРА , ИМ ЕЮ Щ АЯСЯ НА РУССКОМ ЯЗЫ КЕ

А н д е р с о н Т . В в е д е н и е в м н о го м ер н ы й стати сти ч е ск и й а н а л и з . П е р . с а н гл . —
М .: Ф и зм атги з, 1963.
Б р а у н л и К . А . С т а ти ст и ч е с к а я теор и я и м етодологи я в н а у к е и тех н и к е. П ер .
с а н г л . — М .: Н а у к а , 1 9 7 7 .
Д р е й п е р Н . , С м и т Г . П р и к л а д н о й р е г р е с с и о н н ы й а н а л и з . П е р . с а н г л . — М .:
С та ти ст и к а , 1973.
Кендал М. Д. Ранговые корреляции. Пер. с англ. — М.: Статистика, 1975.
Л итература 475

Кендал М. Д ., Стьюарт А. Теория распределений. Пер. с англ. — М.: Наука,


1966.
Кендал М. Д., Стьюарт А. Статистические выводы и связи. Пер. с англ. —
¿4.: Наука, 1973.
Кендал М. Д ., Стьюарт А. Многомерный статистический анализ и временные
ряды. Пер. с англ. —'М.: Н а у к а , 1976.
Кокрен У. Методы выборочного исследования. Пер. с англ. — М.: Статистика,
1976.
Кокс Д. Р., Льюис П. Статистический анализ последовательности событий.
Еер. с англ.— М.: Мир, 1969.
Крамер Г. Математические методы статистики. Пер. с англ. — 2-е изд. — М.:
Лир, 1975.
Леман Э. А. Проверка статистических гипотез. Пер. с англ. — 2-е изд. — М.:
Наука, 1979.
Лоэв М. Теория вероятностей. Пер. с а н г л .— М.: ИЛ, 1962.
Мак Кракен Д., Дорн У. Численные методы и программирование на Фортране.
Лер. с англ. — 2-е изд. — М .: Мир, 1977.
Мартин Ф. Ф. Моделирование на вычислительных машинах. Пер. с англ. — М.:
Советское радио, 1972.
Pao К. Р. Линейные статистические методы и их применение. Пер. с англ. —
А.: Наука, 1968.
Рудин У. Основы математического анализа. Пер. с англ. — 2-е изд. — М.: Мир,
1976.
Феллер В. Введение в теорию вероятностей и ее приложения, т. 1. Пер. с англ. —
Ж.: Мир, 1964.
Феллер В. Введение в теорию вероятностей и ее приложения, т. 2. Пер. с англ. —
М.: Мир, 1967.
Фишер Р. Статистические ме-годы для исследователей. Пер. с англ. — М.: Гос-
статгиз, 1958.
Харман Г. Г. Современный факторный анализ. Пер. с англ. — М.: Статистика,
1972.
Шеффе X. Дисперсионный анализ. Пер. с англ.-— 2-е и зд .— М.: Наука, 1980.

ЛИТЕРАТУРА, ДОБАВЛЕННАЯ РЕДАКТОРОМ ПЕРЕВОДА *)


А . П акет ы с т а т и с т и ч е с к и х п р о гр а м м

Айвазян С. А., Енюков И. С. , Мешалкиы Л. Д. О структуре и содержании па­


кета программ по прикладному статистическому анализу. В сб. «Алгоритми­
ческое и программное обеспечение статистического анализа». Уч. записки
по статистике, т. 36, ЦЭМН АН СССР. — М.: Наука, 1980.
Айвазян С. А., Енюков И. С ., Мешалкин Л. Д. Прикладная статистика, т.1. —
М.: Финансы и статистика, 1982.
Дайтбегов Д. М., Калмыкова О. В., Черепанов А. И. Математическое обеспече­
ние статистической обработки данных. Учебное пособие. — М.: МЭСИ, 1978.
Конаков В. Д. О структуре и содержании библиотеки программ по разделу
«Статистическое исследование зависимостей». В сб. «Алгоритмическое и про­
граммное обеспечение статистического анализа». Уч. записки по статистике,
т. 36, ЦЭМИ А Н СССР. — М.: Н ау ка, 1980.
Математическое обеспечение ЕС ЭВМ. Вып. 25, ч. 1 ,2 . Пакет прикладных
программ по статистической обработке биомедицинской информации. Ин-т
математики АН БССР. — М инск: Б Г У , 1980.
Программно-алгоритмическое обеспечение прикладного многомерного статисти­
ческого анализа. Тезисы докладов Всесоюзной школы. — Ереван, 1979.
1) Ссылки н а э т у л и т е р а т у р у пом ечен ы знаком « * » . — П рим . ред.
476 Л итература

Б. Учебники и учебные пособия по теории вероятностей


и математической с та т и с ти ке

Б о л ы ц е в Л . Н . , С м и р н о в Н . В . Т а б л и ц ы м а т е м а т и ч е с к о й с т а т и с т и к и . — М .:
Н а у к а , 1965.
В е н т ц е л ь Е . С . Т е о р и я в е р о я т н о с т е й . — М .: Н а у к а , 1 9 7 1 .
Г н е д е н к о Б . В . К у р с т е о р и и в е р о я т н о с т е й . — М .: Н а у к а , 196 9 .
Д ж о н с о н Н ., Л и о н Ф . С тати сти к а и п л ан и рован и е эксп ер и м ен та в тех н и к е и
н а у к е . М е т о д ы о б р а б о т к и д а н н ы х . П е р е в . с а н г л . — М .: М и р , 198 0 .
П у г а ч е в В . С . Т е о р и я в е р о я т н о с т е й и м а т е м а т и ч е ск а я с т а т и с т и к а . — - М .: Н а у к а ,
1979 .
Р у м ш н с к и й Л . 3 . Э л е м е н т ы т е о р и и в е р о я т н о с т е й . — М .: Н а у к а , 1 9 7 6 .
С м и р н о в Н . В . , Д у н и н -Б а р к о в с к и й И . В . К у р с теории в ер о я тн о стей и м ате­
м а т и ч е с к о й с т а т и с т и к и .— М .: Н а у к а , 1955.
Тернер Д . В е р о я т н о с т ь , ст а т и сти к а , и ссл ед о ван и е оп ерац и й . П ер . с ан гл . —
М .: С т а т и с т и к а , 1 9 7 6 .
Т ь ю к и Д ж . О б р а б о т к а р е з у л ь т а т о в н а б л ю д е н и й . П е р . с а н гл . — М .:,М и р , 19 8 1.
Х альд А . М а т е м а т и ч е с к а я ст а т и сти к а с техн и чески м и п р и л ож ен и ям и . П ер .
с а н г л . — М .: И Л , 19 5 6 .

В. С татистический анализ

А й в а з я н С . А . , Б е ж а е в а 3 . И ., С т а р о в е р о в О . В . К л а сс и ф и к а ц и я м н о го м ер н ы х
н а б л ю д е н и й . — М . : С т а т и ст и к а , 1974.
Б рандт 3. С т а т и с т и ч е с к и е м етоды ан ал и за набл ю ден и й . П е р . с а н г л . — М .:
М ир, 1975.
Гаек Я - , Ш идак 3 . Т еори я р ан говы х критериев. П ерев. с а н г л . — М .: Н аука,
1971.
Д ем иденко Е . 3 . Л иней ная и нелиней ная р е г р е с с и я .— М .: Ф ин ансы и стати ­
с т и к а , 198 1.
Д у б р о в А . М . О б р а б о т к а ст а т и сти ч еск и х д ан н ы х м етодом гл а в н ы х ком п он ен т. —
М .: С т а т и с т и к а , 19 7 8 .
Д ю ран Б . , О д е л л П . К л а с т е р н ы й а н а л и з . П е р е в . с а н г л . — М .: С т а т и с т и к а ,
1971.
Е л и с е е в а И . И ., Р у к а в и ш н и к о в В . О . Г р уп п и р о в к а , к о р р ел яц и я , распозн аван и е
о б р а з о в . — М .: С т а т и с т и к а , 19 7 Т.
З а г о р у й к о Н . Г . М е т о д ы р а с п о з н а в а н и я и и х п р и л о ж е н и я . — М .: .С о в е т с к о е
р а д и о , 1972.
Л ы с е н к о в А . Н . М а т е м а т и ч е с к и е м етоды п л а н и р о в а н и я м н о го ф ак тор н ы х^ м ед и к о -
б и о л о т и ч е с к и х э к с п е р и м е н т о в . — М .: М е д и ц и н а , 1 9 7 9 . ,А
С е б е р Д ж . Л и н е й н ы й р е г р е с с и о н н ы й а н а л и з . П е р е в ._ ,с а н г л . — М . : М и р , 198 0 .

Г. Имитационное Моделирование
Б у с л е н к о Н . П . и д р . М е т о д с т а т и с т и ч е с к и х и с п ы т а н и й (м ето д М о н т е -К а р л о ). —
М .: Ф и з м а т г и з , 1 9 6 2 .
К л я й н е н Д ж . С т а т и с т и ч е с к и е м е т о д ы в и м и т а д и о н н о м м о д е л и р о в а н и и .В ы п . 1 , 2.
П ер. с а н г л . — Д .: С тати сти к а, 1978.
Соболь И. Н. М етод М о н т е - К а р л о . — М .: Ф и зм атги з, 1968.
Список используемых латинских аббревиатур

ASE .A sym p to tic S ta n d a rt E rro r (асимптотическая стандартная


ош ибка) 114
AT .A p p e a r a n c e T im e (в р ем я появления) 30
BSA Body S u rfa c e A rea (п л о щ а д ь п овер хн ости тел а) 30
СА C h ro n o lo g ic a l A ge (х р о н о л о ги ч е ск и й возраст) 219
C C /T LC r a tio o f C l o s i n g C a p a c ity to T o ta l L u n g C a p a c ity (о тн о ш ен и е
остаточ н ой ем кости к полной ем кости л егки х) 378
Cl C a r d ia c In d ex (се р д еч н ы й и н декс) 30
CS C lin ic a l S ta tu s (к л и н и ч е ск о е состоян и е) 38
C V /V C r a t io of C lo s in g V o lu m e to V ita l C a p a c ity (о тн о ш е н и е оста­
то ч н о го объем а к ж изненной ем кости легки х) 378
df D egrees of F reed o m (ч и с л о степ ен ей свободы )
D IA Q i s h e m ic h eart d is e a s e D I A G n o s is (стад и я иш ем ической бо­
лезни сер д ц а) 38
D IA S T D I A S T o lic p ressu re (д и асто л и ч еск о е давление) 38
DP D ia s t o lic P ressu re (д и а с то л и ч е ск о е давление) 30
DTH year of D eaTH (го д см ер ти ) 38
EKG E le c tr o c a r d io g r a m (эл ек тр о к а р д и о гр ам м а) 38
EM S E x p e c te d M ean S q u are (о ж и д а н и е ср едн его квадрата) 49
FEV F o rced E s p ir a to r y V o lu m e (ф о р м и р о в а н н ы й объем вы доха) 115
FVC F o rced V ita l C a p a c ity (ф о р си р о ван н ая ж и зненная ем кость) 378
H C1 F y d r o C lo r ic aci d (со л я н ая ки сл ота) 99
H ct F e m a to c r it (гем а то к р и т) 30
H gb F e m a g lo b in (ге м а гл о б и н ) 30
HR F eart R a te (ч а сто та сердечны х сок р ащ ен и й ) 30
ID ID e n tific a to r (н о м ер и стории болезни ) 29
IQ I n te llig e n c e Q u o tie n t (к о эф ф и ц и ен т у м ст в е н н о го р а з в и ти я ) 89
L (**) L o g a r ith m of v a r ia b le ** (л о га р и ф м перем енной)
M AP .M ean A r te r ia l P ressu re (ср е д н е е ар тери альное давление) 30
M CT M ean C ir c u la tio n T im e (ср е д н е е врем я циркуляции) 30
MDL .M e n ta l D e v e lo p m e n t Lag (з а д е р ж к а ум ствен н ого разви тия) 219
MS M ea n S q u are (ср е д н и й квадрат) 10 0
M VP .M ean V enous P ressu re (ср е д н е е венозное давление) 30
NHGB N et H e p a t i c G l u c o s e B a l a n c e ( ч и с т ы й б а л а н с г л ю к о з ы в п е ч е н и ) 49
NS Ко S ig n ific a n t (н е зн ач и м о)
PD1 P s ic h o m o to r D e v e l o p m e n t In d ex (и н д ек с п с и х о м о то р н о го раз­
ви ти я) 30
PV1 P la s m a V o lu m e In d ex (и н д е к с объем а п лазм ы ) 30
RCI R ed C e ll In d ex (эр и тр о ц и та р н ы й и н декс) 30
s e (b ) S ta n d a rt E rror of c o e ffic ie n t b (ст а н д а р тн а я ош и бка коэф ф и­
ц и ен та) 169
478 Список используемых латинских аббревиатур

SE S o c ia l- E c o n o m ic sta tu s (со ц и а л ь н о -э к о н о м и ч е с к о е полож ение) 38


S E R -C H SERum C H o le s te r o l (хол естер и н сы воротки крови) 38
SP S y s to lic P ressu re (си сто л и ч е ск о е давление) 30
SS Sum of S q u ares (су м м а квадратов) 101
SYST S Y S T o lic p ressu re (си ст о л и ч е ск о е давление) 38
U M SE U n c o n d itio n a l M ea n S q u a re E rro r (б езу сл о в н а я ср ед н ек в ад р а­
ти чн ая ош и бка) 10 0
UO U r in a r y O u tp u t (д и ур ез) 30
V m ax P e a k e s p ira to ry flo w r a te (м а к с и м а л ь н а я л е г о ч н а я в е н т и л я ц и я ) 378
Vbo ( V 26) F lo w ra te w ith 50 % (2 5 ) Yo F V C r e m a in in g to be e x p ir e d
(в е н т и л я ц и я н а у р о в н е 50 % ( 2 5 % ) ф о р м и р о в а н н о й ж и з н е н н о й
ем к ости ) 378
50D R D o c to R , e x a m in in g in 1950 (1 9 6 2 ) (д о к то р , п р о в о д и в ш и й об-
(6 2 D R ) сл ед о ван и е в 1 9 5 0 (1 9 6 2 ) г .) 38
Список
некоторых общеупотребительных обозначений
Этот с п и с о к с о д е р ж и т обозначения, введенны е в П р и л о ж е н и и I
Символ О писание Раздел
Ьп { 1 , р ) б и н о м и а л ь н о е ра спре д е ле ние 1.2.1
ФР ( к у м у л я т и в н а я ) ф у н кц и я распределения 1.1.4
Е (X ) ожидаемое зн а ч е н и е (среднее) сл уч ай но й величины X 1.1.5
/ (х) плотность р а сп ре д е л е ни я непреры вной сл учай но й ве- 1.1.4
личины X
Р (х) ( к у м у л я т и в н а я ) ф ун кц и я распределения случай ной ве- 1,1.4
личины X
Р (V I, у 2) /•'-р а сп р е де ле ние с ч и с л о м степеней свободы и v2 1.2.8
/<7/100 Суъ ''’г) 9-я п р о ц е н т и л ь ^ -р а с п р е д е л е н и я с числом степеней 1.2.8
свободы V! и
Н0 нулевая ги п о теза 1 .5
Нл ал ьтер н ати в н ая ги п отеза 1 .5
N (0 , 1 ) стан дар тн ое норм альное распределени е 1 .2 .5
N ([х, о 2) норм альное распределен и е 1 .2 .5
N (¡.1 , 2 ) м н огом ер н ое н орм альное расп ределен и е 1 .6 .3
Р Я -з н а ч е н и е 1 .5 .2
р (х ) ф ункция вероятн ости ди скр етн ой сл уч ай н ой вели­
чины X 1 .1 .4
Р г (£ ) вероятн ость собы ти я Е 1 .1 .3
5 вы борочное стан д ар тн ое отклон ен ие 1 .4 .2
я2 вы бороч н ая ди сп ер си я 1 .4 .2
/(V ) / -р а с п р е д е л е н и е С т ы о д е н т а с V степ ен я м и свободы 1 .2 .7
/<7/100 (у ) 9 я п р о ц е н т и л ь /-р асп р ед ел ен и я С тью д ен та с V степ е­
нями св о б о д ы 1 .2 .7
Ь' ( а , Ь ) р а в н о м е р н о е р а с п р е д е л е н и е н а [а , 6 ] 1 .2 .3
V (X ) ди сп ер си я сл уч ай н ой вел и ч и н ы X 1 .1 .5
ш и н д и ви д уум или эк сп ер и м ен тал ьн ы й объект в популяции 1 . 1.1
№ популяция или ген ерал ьн ая совокупн ость 1 . 1 .1
х р е а л и з а ц и я , н аблю дение и ли изм ерен и е 1 . 1.2
X сл уч ай н ая величина 1 . 1 .2
Х р><1 сл уч ай н ы й вектор 1 .6 .1
ХРХт сл уч ай н ая м атрица 1 . 6 .1
х вы борочное ср ед н ее 1 .4 .2
X вы борочны й ср едн и й вектор 1 . 6 .2
г ч /ш Ч- я проц ен ти ль распределени я N (0 , 1) 1 .2 .6
а. уровен ь зн ач и м ости 1 .5
1— а довер и тельн ы й уровен ь 1 .5
Р вер оя тн ость ош ибки вто р о го рода 1 .5
[I ге н е р а л ь н о е средн ее 1 .1 .5
|.1 г е н е р а л ь н ы й ср едн и й в е к т о р 1 .6 .3
V ч и сл о с т е п е н е й свободы 1 . 2 .6
я м ощ н ость 1 .5
а ге н е р а л ь н о е стан дар тн ое о тк л о н ен и е 1 .1 .5
о2 г е н е р а л ь н а я ди сп ер си я 1 .1 .5
а ;1 ковар и ац и я м еж ду Х [ и X / 1 . 6.2
2 ковари аци он ная м атри ца 1 .6 .3
0 парам етр 1 .4 .2
0 1 оценка п ар ам етр а 1 .4 .2
Ф (г) ф у н к ц и я р а с п р е д е л е н и я д л я р а с п р е д е л е н и я N (0 , 1) 1 .2 .5
Ф (г) пл отн ость вероятн ости д л я р аспределен и я N ( 0 , 1) 1 .2 .5
X2 (V) р а с п р е д е л е н и е х и - к в а д р а т с V степ ен я м и своб о ды 1 .2 .6
Х17/100 (у ) Ч~я п р о ц е н т и л ь д л я р а с п р е д е л е н и я х и -к в а д р а т с V сте- 1 . 2 .6
пенями свобод ы
П редм етны й у к а з а т е л ь ')

Анализ главны х компонент (principal Выборочное пространство ( s a m p le s p a ­


com p on en t analysis) 354 ce) 399
— дисперсионный см. Дисперсионный ---------д исперсия ( v a r i a n c e ) 7 5
анализ — — м е д и а н а ( m e d ia n ) 7 5
— ковариационный (analysis of co­ ср ед н ее (m ean ) 75
variance) 2984- -------- с т а н д а р т н о е отклонение (sta n ­
dard d e v ia tio n ) 75
Б айесовская процедура классифика­ В ы б р о с ы ( o u t l i e r s ) 50
ции (B a y es procedure for classifi­ — а н а л и з 3 1 4 -} -
cation) 3 2 5 В ы равиивание по п р а во м у кр а ю ( r i g h t
------------н а популяции'с биномиальным ju s t i f i e d ) 25
распределен и ем (in b in o m ia l popu­ В ы числительная апп ар а тур а ( h a r d w a r e )
la tio n s ) 34 0 14
------- ---------- k >■ 2 популяций 334 В ы числительны й центр ( c o m p u t e r c e n ­
Б ином иальное распределен и е (B in o ­ te r) 1 9
m ia l d is tr ib u tio n ) 6 6
Бланк дл я к о д и р о в а н и я ( c o d i n g s h e e t) Г ен ер ал ьн ая со в о к у п н о сть (п о п ул я ц и я )
( u n iv e r s e ) 3 9 6
Г ен ер аго р в се в д о о т у ч а й н ы х ч и сел (ra n ­
В е д у щ и е н у л и ( le a d in g zero es) 2 5 d o m n u m b e rs g e n e ra to r) 4 7
В е р о я т н о с т ь ( p r o b a b ility ) а п о сте р и о р ­ Гетероскедасти ч н ость ( h e t e r o s c e d a s t i-
ная ( a p o s t e r i o r i ) 3 2 5 , 3 3 2 —|- c ity ) 163
— а п р и о р н а я (a p r i o r i ) 3 5 2 Г и п о т е з а ( h y p o t h e s i s ) альтернативная
— о ш и б о к к л а с с и ф и к а ц и и ( o f m is c l a s - ( a lt e r n a t iv e ) 433
s if ic a t io n ) 325 — н у л е в а я ( n u ll ) 4 3 3
— собы ти я (of e v e n t ) 3 9 9 , 4 1 1 — проверка см. П р о в е р ка гипотезы
В з а и м о д е й с т в и е ( in te r a c tio n ) 2 4 7 , 253 — ст а т и с ти ч е ск а я (s ta tis tic a l) 433
В ращ ени е ф а к т о р о в ( fa c t o r r o ta tio n ) Г и с т о г р а м м а ( h is to g r a m ) ч а с т о т ( f r e -
371 + guency) 5 5
--------- м е т о д « б и к в а р т и м и н » ( b i - q u a r t i - -------- в п р о ц е н т а х ( p e r c e n t f r e q u e n c y )
m in ) 3 7 5 71
-------------- « в а р и м а к с » ( v a r i r n a x ) 3 7 3 -------- о т н о с и т е л ь н ы х ( r e l a t i v e f r e q u e n -
-------------- « к в а р т и м а к с » ( q u a r t i m a x ) 3 7 2 с у ) 71
-------------- « к о в а р и м и н » ( c o v a r i m i n ) 3 7 5 Грубые о ш и б ки ( b l u n d e r s ) 50
-------------- « н е п р я м о й о б л и м и н » ( i n d i r e c t
o b lim in ) 374 Данные ( d a t a ) 15
-------- - — • « п р я м о й о б л и м и н » ( d i r e c t o b ­ Д и а г р а м м а р а с с е я н и я ( s c a t t e r g r a m ) 14 3
lim in ) 3 75 Д и с к р е т н ы е н а б л ю д е н и я (d is c r e te o b se -
Вы борка ( s a m p le ) 4 2 5 -}- v a tio n s ) 17

х) З н а к «-}-» после номера страницы следует читать: «и далее». — П ри м . ред.


П редметны й указатель 481

Д и с к р и м и н а н т н а я ф у н к ц и я ( d is c r im i­ Д овери тельн ы е ин тервалы дл я д в у х


n a n t f u n c t io n ) 3 2 3 I«* средни х в н езависим ы х вы б о р к ах
-------- з н а ч е н и я д л я двух популяции ( fo r t w o m e a n s o f in d e p e n d e d sam ­
(s co re fo r 2 p o p u la t io n s ) 324 p le ) 9 2 , 1 0 1
------------- д л я k >■ 2 п о п у л я ц и й ( s c o r e ------------- д о л е й ( f o r p r o p o r t i o n s ) 6 8
fo rfe > 2 p o p u la tio n s ) 3 3 5 , 339 --------------к о э ф ф и ц и е н т а к о р р е л я ц и и ( f o r
Д и ск р и м и н а н тн ы й а н а л и з ( d is c r im in a n t c o r r e l a t i o n c o e f f i c i e n t ) 160
a n a ly s is ) с м . К л асси ф и кац и я -------------- л и н е й н о й к о м б и н а ц и и с р е д ­
Д и с п е р с и я в ы б о р о ч н а я ( s a m p le ) 7 5 -/ -, н и х (fo r lin e a r c o m b in a tio n o f m e a n s )
9 6 , 432 99
-------- о б ъ е д и н е н н а я ( p o o l e d s a m p l e ) 9 2 --------------о д н о г о ср едн его (fo r s in g le
— ге н е р а л ьн а я ( p o p u la tio n ) 406 m ean ) при и звестн ой д и сп ер си и
— сп ец и ф и ч еск ая с м . С п ец и ф и ч н ость ( k n o w n v a r ia n c e ) 440
Д исперсионны й анализ ( a n a ly s is of ------------------------ п р и н е и з в е с т н о й д и с п е р ­
v a r i a n c e ) 2 2 7 -} - си и (u n k n o w n v a r ia n c e 8 1 , 101
--------- в м н о ж е с т в е н н о й л и н е й н о й р е г ­ ------------- о д н о й д и с п е р с и и ( f o r s i n g l e
р е с с и и ( in m i l t i p l e l i n e a r r e g r e s s io n ) v a r ia n c e ) 83
167 -------- м н о ж е с т в е н н ы е в д и с п е р с и о н н о м
--------------п р о с т о й л и н е й н о й р е г р е с с и и ан ализе ( m ilt ip le in A N O V A ) 10 3
( in s im p le le n e a r r e g r e s s i o n ) 1 6 7 --------------д л я в е к т о р а с р е д н и х ( fo r m e a n
---------д в у х ф а к т о р н ы й ( t w o - w a y ) 2 4 3 - j- v e cto r) 3 18
---------м н о г о м е р н ы й ( m u l t i v a r i a t e ) 38 0 Д о л я ( p r o p o r t i o n ) 52
-------- м о д е л ь I 2 3 5 , 2 6 6 — д о в е р и т е л ь н ы й и н т е р в а л ( c o n fid e n c e
-------------- I I 2 3 5 , 2 6 6 in t e r v a l fo r) 68
------------- к о м п о н е н т ди сп ерси и (co m ­ — о ц е н и в а н и е ( e s t i m a t i o n ) 6 6 , 69
p o n e n t o f v a r ia n c e ) 240 Д о п о л н и т ел ь н ы е о гр ан и ч ен и я в д и с ­
-------- • — с м е ш а н н а я ( m ix e d ) 2 4 3 , 266 п е р с и о н н о м а н а л и з е ( s id e c o n d i t i o n s )
--------------с о с л у ч а й н ы м и э ф ф е к т а м и 225
( r a n d o m e f f e c t s ) 2 3 3 , 2 3 4 - f - , 2 4 0 -}-
--------------с р а н д о м и з и р о в а н н ы м и б л о ­ З н ачи м ость стати сти ч еск ая (s ig n ific a n ­
к а м и ( r a n d o m iz e d b l o c k s ) 2 5 7 - } - , 2 7 1 c e s t a t i s t i c a l ) 4 40
----------- ------- ф и к с и р о в а н н ы м и эф ф ек­
И з м е р е н и е ( m e a s u r e m e n t ) 15
та м и (fix e d e f f e c t s ) 2 2 3 , 2 3 5 -}-, 266
И нтервал груп п и р овки ( c la s s in te r ­
— • — о д н о ф а к т о р н ы й ( o n e - w a y ) 100 , 234
v a l) 55
--------------п л а н ( d e s ig n )
И н т е р в а л ь н а я ш к а л а ( in t e r v a l s c a le )
-------- -----------л а т и н с к о г о квадрата (L a ­
1 5 , 38
tin sq u are) 2 74
И н т е р с е п т (св о б о д н ы й ч лен у р а в н е н и я
------------------- р а с щ е п л е н н ы й ( s p lit- p lo t)
р е г р е с с и и ) ( i n t e r c e p t ) 1 4 8 , 166
273
И с сл е д о в а н и е о с т а т к о в в р е гр е сси и 163
-------------------с г р у п п и р о в к о й ( и е р а р х и ­
И сто ч н и к ди сп ер си и (и с т о ч н и к рас­
ч е с к и й ) ( n e s te d ) 261
с е я н и я ) (s o u r c e o f v a r ia t io n ) 102
------------------- ф а к т о р н ы й (fa c to r ia l) 266
И тоговая табл и ц а (su m m a ry ta b le )
Д иф ф еренц иальны й э ф ф е к т ( d iffe r e n ­
в п о ш а г о в о й р е г р е с с и и 199
t i a l e ffe c t) 234 --------------п о ш а г о в о м д и с к р и м и н а н т н о м
Д и х о т о м и ч е с к и е н а б л ю д е н и я ( d ic h o t o -
ан ализе 346
m ou s o b s e rv a tio n s ) 66
Д овери тельн ы е и н тер в а л ы (c o n fid e n c e
in te r v a ls ) 4 3 1 -j- К в а р т и л ь ( q u a r t i l e ) 74
---------в м н о ж е с т в е н н о й л и н е й н о й р е ­ К л а с с и ф и к а ц и я (c la s s ific a tio n ) 3 2 1
г р е с с и и ( in m u l t i p l e l i n e a r regres­ К о в а р и а ц и о н н а я м атр и ц а (c o v a ria n c e
s io n ) 16 9 m a t r i x ) в ы б о р о ч н а я ( s a m p le ) 8 6 ; 9
------------- н е л и н е й н о й р е г р е с с и и ( in n o n ­ ---------г е н е р а л ь н а я ( p o p u l a t i o n ) 4 4 3
li n e a r r e g r e s s io n ) 2 1 0 — — о б ъ е д и н е н н а я ( p o o le d ) 3 3 7
------------- о б щ е й л и н е й н о й м о д е л и ( in g e ­ К о в а р и а ц и о н н ы й а н а л и з 2 9 5 - f-
n e r a l lin e a r m o d e l ) 228 К овари ация вы борочная 86, 97
------------- п р о с т о й л и н е й н о й р егр есси и — г е н е р а л ь н а я 443
( in s im n le li n e a r r e g r e s s i o n ) 1 5 1 К о д и р о в а н и е ( c o d in g ) 2 5 -}-
482 Предметный указатель

К одировочная табл и ц а ( c o d in g t a b l e ) К ум ул я ти в н ая ф ун к ц и я р аспределени я


25 эм п и ри ч еская 7 2 , 7 7
К о м п о н е н т ы д и с п е р с и и (c o m p o n e n ts o f К усо ч н о -л и н е й н ая М -о ц е н к а Х а м п е л я
v a r ia n c e ) 2 4 0 -)- ( H a m p e l’s p ie c e w is e l i n e a r ./И- e s t i ­
---------о ц е н к и 2 4 2 m a to r) 1 3 5 +
К о н т р а с т ( c o n t r a s t ) 103
К о р р е л я ц и о н н а я м атри ца вы борочная
( c o r r e l a t i o n m a t r i x , s a m p le ) 8 6 , 9 6
М а г н и т н а я л е н т а ( M a g n e t ic t a p e ) 2 0
К о эф ф и ц и ен т ( c o e ffic ie n t) аси м м етри и
М а г н и т н ы й д и с к ( M a g n e t ic d is c ) 2 0
(sk ew n ess) 7 6
М а т р и ц а п л а н а (d e s ig n m a t r ix ) 168
— ва р и ац и и (k u rto s is ) 76
М е д и а н а ( m e d ia n ) в ы б о р о ч н а я ( s a m p le )
— д е т е р м и н а ц и и (d e te r m in a tio n ) 167 72
— кол л и гац и и 1 18
— г е н е р а л ь н а я (p o p u la tio n ) 4 0 7
— корреляции (c o r r e la t io n ) вы бороч­
М е ж к в а р т и л ь н о е с р е д н е е ( in te r q u a r t ile
ны й 86, 96, 1 4 3
m ean) 138
---------г е н е р а л ь н ы й 85, 9 5, 1 5 7 , 446
М ера связан н ости (m easu re of asso­
---------д о в е р и т е л ь н ы е и н тервал ы 160
c ia tio n ) 117
---------к р и т е р и й отл и ч и я о т 0 1 5 9 - j-
-------- К е н д а л л а -rb ( K e n d a l l ’ s т Ь ) 1 2 1
---------м н о ж е с т в е н н ы й ( m u l t i p l e ) 1 7 4 - ) - ,
-------- К р а м е р а V (C ra m er’ s V ) 12 0
18 2+ , 18 4+
---------С о м е р а D (S o m e r’ s D) 12 4 ,
---------ч а с т н ы й (p a r tia l) 17 6 -)-, 182+ ,
129+
18 4+
-------- С п и р м а н а rs ( S p e a r m a n ’ s r s ) 1 2 2
— р ан говой к о р р ел я ц и и Спирм ана
-------- С т ь ю а р т а t c ( S t u a r t ’ s i c ) 122
(ra n k c o r r e la t io n ) 122
М еры св я за н н о сти Г у д м е н а — К р у с к а -
— со п р я ж ен н о ст и признаков П и р со н а
л а (G o o d m a n — K r u s k a l) 12 4+
120
------------------- V 1 2 9
К р и т е р и й ( ф а к т о р ) ( f a c t o r ) 60J
------------------- ^ а с и м м е т р и ч н а я 1 2 5
К р и т е р и й (te st) Б а р т л е т т а р а в е н с тв а р
------------------- X ‘ - а с и м м е т р и ч н а я 126
д и с п е р с и й ( B a r t l e t t te s t) 102
------------------- Х - с и м м е т р и ч н а я 127
— д л я д в у х д и сп е р си й 91
-------- ---------- т - а с и м м е т р и ч н а я 1 2 6
о д н о й д и с п е р с и и 82
М етод м н ож ествен н ы й t ( m u ltip le t)
— К о л м о г о р о в а — С м и р н о в а (1C— С ) 7 8 10 4
— о т н о ш е н и я д и с п е р с и й ( v a r ia n c e r a ­
— М о н т е - К а р л о ( M o n t e - C a r lo ) 48
tio ) 92
— Тью ки (T u k ey) 10 4
— с о г л а с и я (g o o d n e s s -o f-fit) 77
— Ш еф ф ё (S c h e ffe ) 1 0 3 +
— t С тью дента 80
М н огом ерн ая линейная м одель 380
---------в линейной р егр есси и м нож е­
в одн оф ак торн ом м н о го м ер ­
ствен н ой 170
н ом д и сп е р си о н н о м а н а л и з е 389
-------------------------п р о с т о й 15 0
------------- м н о ж е с т в е н н ы е с р а в н е н и я 3 8 0
-------- двухвыборочнын 9 2 , 94
------------- п р о в е р к а г и п о т е з 3 8 2
-------- д л я коэф ф ициента корреляции М н ож ествен н ы е ср авн ен и я ( m u ltip le
161
c o m p a r is o n s ) 10 3
-------- --------------- ч а с т н о г о 142
М н ож ествен н ы й коэф ф иц иен т к о р р ел я ­
---------п а р н ы й д л я с в я з а н н ы х в ы б о р о к ц и и 174
( p a ir e d s a m p e ) 8 7, 93
М о д а (m od a ) в ы б о р о ч н а я 7 1
— t У э л ч а ( W e lc h ) 8 5, 93
— ген ер а л ьн а я 407
— Т 2 Х отел л и н га (H o t e llin g ) двух­
М одел ь ад д и ти в н а я (a d d itiv e ) 247
в ы б о р о ч н ы й ( t w o - s a m p le ) 320
— г л а в н ы х к о м п о н ен т (p r in c ip a l co m ­
---------о д н о в ы б о р о ч н ы й ( o n e - s a m p le ) 3 1 8 p o n e n ts) 3 5 4 + , 3 6 1
— А У илкса 3 8 3
— д и сп ер си он н ого ан ализа ( a n a ly s is
— X2 7 7
o f v a r ia n c e ) 3 2 2 +
К ритическая область (c r itic a l r e g io n ) — к о м п о н е н т д и с п е р с и и (c o m p o n e n ts
436+
o f v a r ia n c e ) 242
К у м у л я ти в н а я ф у н к ц и я распределени я — критери й адекватн ости линей ной
( Ф Р ) ( c u m u l a t i v e d is tr ib u tio n fu n c ­ м о д ел и 154
tio n ) 7 2 , 4 0 2 + -
— о б щ а я л и н е й н а я ( g e n e r a l li n e a r ) 2 2 3
-------------- с о в м е с т и а я 4 11
— р егр есси в н ая ( r e g r e s s io n ) 14 1
Предметный указатель 483

Л о д ел ь сл у ч а й н ы х э ф ф е к т о в (ra n d o m О тсу тств у ю щ и е зн ачен и я ( m is s in g v a .


e f f e c t s ) 2 2 3 , 2 3 7 , 2 4 0 - f- , 2 6 7 lu e s ) 1 3 , 4 6 , 63
— с м е ш а н н а я ( m i x e d ) 24 3 , 267 О ц е н и в а н и е (e s tim a tio n ) 429
— с рандом изи рован ны м и блокам и О ц е н к а ( e s tim a to r ) 429
(r a n d o m iz e d b lo c k s ) 2 5 7 , 2 7 1 — ви нзоризованн ая (w in s o r iz e d ) 133
-------- ф и к с и р о в а н н ы м и э ф ф е к т а м и ( f i ­ — м акси м альн ого пр авдоп одоби я (m a­
x e d e ffe c ts ) 223 , 237, 2 67 x im u m lik e lih o o d ) 209, 430
— ф а к т о р н а я ( f a c t o r ) 36 1 — м и н и м у м а ( m in im u m ) 4 3 0
М ом ен ты (m o m e n ts ) вы борочны е 76 — н а и м е н ь ш и х к в а д р а то в (М Н К -о ц е н -
— ген ерал ьн ы е 406 к а ) ( le a s t s q u a r e s ) 146 , 166 , 2 0 9 , 2 2 5
М о щ н ость к р и т е р и я (p o w er o f te s t) 4 3 6 — н е с м е щ е н н а я ( u n b ia s e d ) 4 2 9
М П -о ц е н к а (о ц ен к а м акси м альн ого — состоятел ьн ая ( c o n s is t e n t ) 4 30
правдоподобия) (m a x im u m lik e li­ — у с е ч е н н а я ( t r im m e d ) 134
hood e s tim a to r ) 82 — э ф ф е к т и в н а я ( e ffic ie n t) 430
О ш и б к а ( e r r o r ) I р о д а ( t y p e I) 4 3 4
Н аблю дения (o b s e r v a tio n ) 1 5 , 396 — II р о д а ( t y p e II) 4 3 4
Н абор дан н ы х А 2 9 - f- — ср ед н и й к в а д р а т (m ean sq u a re) 226
--------В 3 8 + - — с у м м а к в а д р а т о в (su m o f s q u a r e ) 2 2 6
Н а г р у з к а ( lo a d in g ) 3 6 2 — число степ ен ей свободы (d e g re e s
Н ач ал о о т с ч е т а ( n u ll p o in t ) 17 of fr e e d o m ) 226
Н езави си м ость сл уч ай н ы х величи н О ш ибки к л асси ф и кац и и ( m is c la s s ifi-
( in d e p e n d e n c e ) 4 12 c a t io n п о т е р и (c o a s t o f) 326
Н енорм ированная эм п и р и ч еск а я ф ун к ­ ---------в е р о я т н о с т ь (p r o b a b ility ) 321,
ция расп ределен и я 73 325
Н епреры вны е н а бл ю д ен и я ( c o n tin io u s
o b s e rv a tio n s ) 18 П ам я ть (m em o ry) 19
Н ом и нальная ш к ал а ( n o m in a l s c a le ) П а р а м е т р (p a ra m e te r) 401
1 5 , 2 9 , 38 П е р е м е н н а я с п л ав аю щ ей то ч к о й ( flo a ­
Н ом ограм м а (n o m o g ra m ) 3 4 2 t i n g p o i n t ) 39
Н орм альное распределен и е ( n o r m a l- ---------ф и к с и р о в а н н о й точкой ( f ix e d
G au ss) 4 17 p o i n t ) 39
-------- г е н е р а ц и я ( g e n e r a t i o n o f ) 6 8 П е р ф о к а р т а ( p u n c h - c a r d ) 20
Н орм альны е у р а в н е н и я ( n o r m a l e q u a ­ П л а н ( d e s ig n ) л а т и н с к о г о к в а д р а т а 2 7 4
tio n s ) 168 , 2 2 6 — р асщ еп л ен н ы х бл оков 273
Н орм ированная эм п и ри ческая ф унк­ — с рандом изи рован ны м и блокам и 2 57,
ция расп редел ен и я 73 271
Н оситель (и н ф о р м ац и и ) (m e d ia ) 19 П л о т н о с т ь ( d e n s ity ) 402
— с о в м е с т н а я ( jo in t) 4 1 1
О борудован и е (h ard w are) 1 9 ---------ф о р м у л ы д л я в а ж н е й ш и х р а с ­
О бщ ая л и н ей н ая м одель (g en era l li­ п р ед ел ен и й 426
n e a r m o d e l) 2 2 3 П о д п р о г р а м м а (s u b r o u tin e ) 2 1
О б щ н о сть (c o m m u n a lit y ) 362 П о л и г о н ч а с т о т ( fr e q u e n c y p o ly g o n ) 7 2
О бъединени е в д и с п е р с и о н н о м ан ал и зе П олная с в я з а н н о с т ь (p e rfe c t a s s o c ia ­
( p o o l i n g in A N O V A ) 2 4 8 , 2 6 9 tio n ) 118
О бъединенная вы борочная: ди сп ер си я ---------о т р и ц а т е л ь н а я ( p e r f e c t d is a s s o c ia -
( p o o le d s a m p l e v a r i a n c e ) 9 1 tio n ) 118
О днородное п одм н ож ество (h o m o g e ­ П о п р а в к а Й е т с а ( Y a t e ’ s c o rr e c tio n ) 1 14
n e ity s u b s e t) 10 7 П о п у л я ц и я (ген ер ал ьн ая со во к уп н о сть )
О дн оф акторны й д и сп ер си о н н ы й анализ ( p o p u la tio n ) 39 6
(o n e -w a y A N O V A ) 1 0 0 -f- П о р я д к о в а я ш к а л а ( o r d i n a l s c a le ) 1 5 ,
О ж идание, м атем ати ч еск о е ож и дани е, 29, 38
ср ед н ее) (m e a n ) 405 П о ш агов ы й д и скр и м и н ан тн ы й ан ализ
— ср ед н его к в а д р а т а ( e x p e c te d m ean ( s t e p w i s e d i s c r i m i n a n t a n a l y s i s ) 3 4 4 —)—
s q u a r e ) 240 — р егр есси он н ы й ан ализ (s te p w is e
О тн оси тел ьн ая ч астота (r e la tiv e fre ­ r e g r e s s io n a n a ly s is ) 19 4 4 -
q u e n c y ) 68 П р ав и л о остан овки (s to p p in g ru le )
О тнош ение ш ансов (o d d s r a tio ) 1 18-1- в п ош аговой р егр есси и 2 0 2 +
484 П редметны й указатель

П р ави л о о стан о вк и п ош аговом ди ск р и ­ П рогр ам м а ан ал и за гл а в н ы х ком по­


м и н ан тн ом ан ализе 3 4 4 + н ен т (p r in c ip a l co m p o n en t a n a ly ­
--------- н а о с н о в е и з м е н е н и й R 2 2 0 2 s is ) 3 5 4 +
— • — стан дар тн ое 202 -------- о б щ е й л и н е й н о й м о д е л и ( g e n e r a l
П р е о б р азо в ан и е к н орм альном у р ас­ lin e a r m o d e l) 2 8 4 +
пределению 57 — д е с к р и п т и в н а я ( d e s c r i p t i v e ) 5 5 , 70
— Ф и ш е р a ( F is c h e r tr a n s fo r m a tio n ) с рассл оен и ем (w ith s tra ta )
158 , 18 4 85+, 94+
П р о б и т-а н а л и з ( p r o b it a n a ly s is ) 352 П рограм м н ое обесп ечен и е ( s o f tw a r e )
П р о б и т-гр а ф и к ( p r o b i t p lo t ) 58, 77 14, 21
П роверка г и п о т е з ы ( t e s t o f h y p o th e s is ) П роц едура М ан тел я— Х эн зеля объеди­
433+ нени я ш ансов ( M a n te l— H a e n s z e l)
---------а д е к в а т н о с т и линей ной м одели 119
( a d e q u a n c y o f lin e a r m o d e l) 15 5 П р оц ед ур ы м н ож ествен н ого ср авн ен и я
---------в д и с п е р с и о н н о м а н а л и з е ( i n a n a ­ ( m u lt i p le c o m p a r is o n s ) 2 6 6 +
ly s is o f v a r ia n c e ) 2 3 0 П р о ц е н т и л ь ( p e r c e n t ile ) в ы б о р о ч н а я 7 2
-------------- м н о ж е с т в е н н о й л и н е й н о й р е ­ — ге н е р а л ь н а я 421
гресси и (in m u l t i p l e l i n e a r r e g r e s ­ П р о ц е н т и л ь н ы й р а н г (p e r c e n til ra n k )
s io n ) 17 1 73
---------------н е л и н е й н о й р е г р е с с и и ( i n n o n ­ П севдосл учай н ы е числа (p seu d o -ra n ­
lin e a r r e g r e s s io n ) 2 1 0 dom n u m b ers) 49
-------------- п р о с т о й л и н е й н о й р е г р е с с и и П С П (п а к е т ст а т и с т и ч е с к и х п р ограм м )
( i n s i m p l e l i n e a r r e g r e s s i o n ) 15 0 ( s t a t is t ic a l P r o g r a m P a c k a g e ) 5 , 10 ,
---------д в у с т о р о н н е й ( t w o - s i d e d ) 4 3 7 14, 22+
--------- н е з а в и с и м о с т и ( o f in d e p e n d e n c e )
112, 114-}- Р а зм а х в ы б о р к и (ra n g e) 7 5
---------о б о д н о й д и с п е р с и и ( fo r s i n g l e Р а н г (ra n k ) 7 5
v a r ia n c e ) 81 Р ан говы й коэф ф иц иен т корреляции
-------------- о д н о м с р е д н е м ( fo r s i n g l e m e a n ) Спирм ана 122
п р и и з в е с т н о й д и сп е р си и 438 Р асп р едел ен и е (d is tr ib u tio n ) бино­
---------о в е к т о р а х с р е д н и х (fo r m e a n м и а л ь н о е (b in o m ia l) 4 1 4
v e cto rs) 318 , 320 — в ы б о р о ч н о е ( s a m p li n g ) 4 2 7
-------------- в ы б р о с а х ( f o r o u t l i e r s ) 3 1 5 — н о р м а л ь н о е ( n o r m a l) 4 1 7
-------------- д в у х с р е д н и х (fo r t w o m e a n s ) -------- м н о г о м е р н о е ( m u l t i v a r i a t e ) 443
-------------------------- в н езависим ы х вы бор­ — п о к аза тел ь н о -э к сп о н ен ц и а л ь н о е (e x ­
ках (o f i n d e p e n d e n t s a m p le s ) 9 2 p o n e n tia l) 4 1 7
-------------------------------- с в я з а н н ы х в ы б о р к а х — п р я м о у г о л ь н о е ( r e c t a n g u la r ) 4 1 6
(o f p a i r e d s a m p le s ) 8 7 — п у а с с о н о в с к о е ( P o is s o n ) 4 1 5
---------о д н о р о д н о с т и ( f o r h o m o g e n e ity ) — р а в н о в е р о я т н о е (eq u a l p r o b a b ility )
112 4 17
---------о д н о с т о р о н н е й ( o n e - s id e d ) — р а в н о м е р н о е ( u n if o r m ) 4 1 6
437 — с л у ч а й н о й в е л и ч и н ы (ra n d o m va­
---------о д о л я х ( f o r p r o p o r t i o n s ) 6 6 , 6 8 , r ia b le ) 4 0 1
70 — со в м е с т н о е ( jo in t) 4 10
-------------- к о э ф ф и ц и е н т е к о р р е л я ц и и ( fo r — стью ден ти зован яого р а з м а х а (s tu -
c o r r e la t io n c o e ffic ie n t) 159+ d e n t iz e d r a n g e ) 1 0 4

------- - — м н о ж е с т в е н н о й корреляция — у с л о в и е ( c o n d it io n a l) 14 2 , 4 4 6
(fo r m u l t i p l e c o r r e la tio n ) 18 2 — х и -к в а д р а т 421
-------------- - н е с к о л ь к и х с р е д н и х ( f o r se­ — ч а с тн о е (м а р г и н а л ь н о е ) ( m a r g in a l)
v eral m ean s) 10 0 4 12 , 444
-------------- т а б л и ц а х с о п р я ж е н н о с т и (fo r — эм п и ри ч еское ( e m p ir ic a l) 55, 72
c o n t i g e n c y ta b le s ) 1 1 2 + , 1 1 4 + — F 423
-------------- ч а с т о т н о й к о р р е л я ц и и ( f o r p a r ­ — t С т ь ю д е н т а 422
tia l c o r r e la t io n ) 18 4 Р а с с т о я н и е М а х а л а н о б и с а ( M a h a la n o -
П р о в е р к а д а н н ы х ( d a t a s c r e e n i n g ) 5® b is d is ta n c e ) в ы б о р о ч н о е 3 1 5 , 3 2 9 ,
П р о г р а м м а а н а л и з а в ы б р о с о в (fo r o u t­ 34 6
lie r s ) 3 1 4 + ---------г е н е р а л ь н о е 3 2 4 , 327
Предметный указатель 485

Р асстоян и е М ахал ан о б и са обобщ енное С р е д н и й к в а д р а т (m e a n s q u a r e ) 10 0 ,


338 226
Р е а л и з а ц и я ( r e a li z a t i o n ) 3 9 8 , 4 4 2 С тан д ар ти зо ван н ая перем енная (sta n -
Р е г р е с с и я ( r e g r e s s io n ) 1 4 1-|- d a r tiz e d v a r ia b le ) 76
— вк л ю ч ен и е п е р ем ен н ы х (fo rc in g v a ­ С т а н д а р т н а я о ш и б к а (s ta n d a r d erro r)
r ia b le s in ) 201 431
— использовани е в ди сп ер си он н ом -------- к о э ф ф и ц и е н т а р е г р е с с и и ( o f r e g ­
ан али зе 2 8 4 + r e s s io n c o e f f i c i e n t ) 151
— коэф ф и ц и ен т 148 , 1 6 6 , 2 9 7 ---------о ц е н к а ( o f e s t i m a t e ) 4 3 1
— ■л и н е й н а я с о г р а н и ч е н и я м и ( l i n e a r -------- --— в р егр есси и ( in r e g r e s s io n )
w i t h c o n s tr a in ts ) 2 14 14 9 , 167
-------- м н о ж е с т в е н н а я 164 + -------- с р е д н е г о ( o f m e a n ) 4 3 2
-------- п р о с т а я 1 4 2 - f- С тандартное отклон ен и е вы борочное
— н е л и н е й н а я 2 0 8 -f- 76
— о б р а щ е н и е (in r e v e r s e ) 1 4 9 -------- г е н е р а л ь н о е 406
— полином иальная ( p o lin o m ia l) 165 С т а т и ст и к а Р о я ( R o y ’ s s ta tis t ic ) 384
— п о ш а г о в а я ( s t e p w is e ) 144 + С та ти сти ч еск и е пр огр ам м ы 2 2 + , 4 6 +
— п р и нуди тельное проведение ч ерез -------- о б з о р 23+
н а ч а л о к о о р д и н а т ( f o r c i n g th r o u g h -------- о ц е н к а 3 0 +
o r ig in ) 149 -------- В М О Р 2 2 +
Р обастн ость (ro b u stn e ss) 132 -------- M i n i t a b 23+
— / -к р и т е р и я 81 -------- S P S S 22+
С т е п е н и св о б о д ы (d e g re e s o f fre e d o m )
С л уч ай н ая величи на (ra n d o m v a r ia b le ) в о б щ е й л и н е й н о й м о д е л и 226
398 + , 409+ -------- в ы б о р о ч н о й д и с п е р с и и 4 3 2
-------- д и с к р е т н а я 3 9 9 -------- р а с п р е д е л е н и я стью д ен ти зован -
-------- независимость 412 н о г о р а з м а х а 10 4
— — непреры вн ая 399 -------- с у м м ы к в а д р а т о в 2 3 1
р а с п р е д е л е н и е 401 --------- F - р а с п р е д е л е н и я 423
---------с р е д н е е ( м а т е м а т и ч е с к о е о ж и д а ­ -------- / - р а с п р е д е л е н и я 4 2 2
ни е) 405 ------- Х2'РаспРеДеления ^21
— в ы б о р к а (ra n d o m s a m p le ) 4 2 5 С труктура зави си м ости (d e p e n d e n c e
— м а т р и ц а (r a n d o m m a t r i x ) 4 4 2 s t r u c t u r e ) 3 5 4 , 36 0
С л у ч ай н ы й векто р ( r a n d o m v e c to r ) 442 С тью д ен ти зо ван н ы й р а з м а х (s tu d e n t)-
— ф а к т о р (ф а к т о р с о с л у ч а й н ы м и у р о в ­ z e d r a n g e ) 104
ням и) 2 3 7 С ум м а квадратов (su m o f squ ares) 10 0
С о б ствен н о е значени е (e ig e n v a lu e ) 355
С о б ств е н н ы й в ек то р ( e ig e n v e c t o r ) 3 5 5
Таблица р езул ьтатов к л асси ф и кац и и
С о б ы т и е (e v e n t) 3 9 9 , 4 1 1
(c la s s ific a tio n t a b le ) 337
С о п у т с т в у ю щ а я п е р е м е н н а я (c o n c o m i­
--------------н а д в е с у б п о п у л я ц и и 3 1 5 +
ta n t v a r ia b le ) 296
— с о п р я ж е н н о с т и ( п р и з н а к о в ) ( c o n t i-
С п ец и ф и чн ость ( s p e c ific it y ) 361
g e n c y t a b le ) 10 8 +
С р е д н е е (m ean ) 1 6 , 405
-— ч а с т о т (ч асто тн а я таблица) (fre ­
— аб со л ю тн о е о т к л о н е н н е (m e an a b so ­
q u e n c y t a b le ) 50
lu t e d e v ia tio n ) 408
Т е о р е м а Б а й е с а (B a y e s ) 3 2 5 , 333
— в ы б о р о ч н о е 7 5 , 8 6, 90 , 99
— Г аусса— М аркова (G au ss— M a rk o v)
— ген ерал ьн ое 405
225
— доверительны й и н т е р в а л д л я д в у х
— К о к р е н а (C o ch ra n ) 234
9 1 , 10 1
Т очны й критери й Ф и ш ер а д л я табл и ц
------------------- л и н е й н о й к о м б и н а ц и и 10 3
со п р я ж ен н о сти 2X2 115
------------------- о д н о г о 8 1 , 101
— п о л н о е ( t o t a l) 2 4 7
— /-к р и т ер и й двухвы борочны й для У р о в е н ь ( le v e l) 7 6
двух 9 2 + — зн ач и м о сти (s ig n ific a n c e le v e l ) 436
-------- д л я о д н о г о 80
---------п а р н ы й д л я д в у х 8 7, 93 Ф а к т о р 10 8 , 2 2 2
---------У э л ч а д л я д в у х 93 — в р а щ е н и е (fa c to r r o ta tio n ) 371
486 Предметный указатель

Ф а к т о р , в т о р и ч н а я с т р у к т у р а ( r e fe r e n c e Э ф ф е к ти в н о ст ь (e ffic ie n c y ) 4 29
s tru c tu r e ) 374 — а с и м п т о т и ч е с к а я ( a s y m p to tic ) 208,
— н агр узк а на ( ф а к т о р н а я н агр узк а 429
( lo a d in g ) 36 1 D -с т а т и с т и к а С о м е р а 129
— о б щ и й ( п е р в и ч н ы й ) ( c o m m o n ) 361 F -р а сп р е д е л е н и е 4 2 3
— с л у ч а й н ы й (ra n d o m ) 2 37 — ген ер ац и я 32
— с п е ц и ф и ч е с к и й ( х а р а к т е р н ы й ) (s p e ­ ^ -к р и тер и й в ди сп ер си он н ом ан ализе
c ific ) 361 268+
— ф и к с и р о в а н н ы й ( f ix e d ) 2 3 7 ---------м н о ж е с т в е н н о й л и н е й н о й р е г р е с ­
Ф актор (к р и т е р и й ) ( fa c t o r ) 60 си и 1 6 9 +
Ф акторн ы й ан ализ (fa c to r a n a ly s is ) -------- - о б щ е й л и н е й н о й м о д е л и 2 3 1
360+ -------- п р о с т о й л и н е й н о й р е г р е с с и и 15 0
---------и т е р а ц и и ( i t e r a t i o n ) 3 6 5 — д л я век то р о в ср едни х 3 1 8 +
---------м е т о д г л а в н ы х ф а к т о р о в ( p r in ­ ---------в ы б р о с о в 3 1 5
c ip a l fa c to r ) 3 6 3 + -------- м н о ж е с т в е н н о г о коэф ф и ц и ен та
---------н о р м а л и з а ц и я К а й з е р а ( K a iz e r к о р р е л я ц и и 18 2
n o r m a l i z a t io n ) 365 -------- р а в е н с т в а двух ди сп ер си й 92
---------ц е л е в а я ф у н к ц и я ( o b j e c t i v e f u n c ­ ------------- k > 2 с р е д н и х 100
tio n ) 3 7 2 -------- р а с с т о я н и я М а х а л а н о б и с а 329,
Ф о р м а т (fo rm a t) 3 9 + 347
Ф ортран ( F O R T R A N ) 21 — .Р - в к л ю ч е н и я 1 9 7 , 3 4 4
Ф у н к ц и я р а сп р е д е л е н и я см . К у м у л я ­ — F -у д а л е н и я 1 9 7 , 34 4
ти вн ая ф у н к ц и я р аспределени я g -в и н зо р и зо в а н н ы е н а б л ю д е н и я 13 3
Я - з н а ч е н и е (Р v a l u e ) 439
Ч а с т о т а ( f r e q u e n c y ) 51 r X c -таб л и ц а (со п р я ж е н н о ст и призна­
Ч а с т о т н а я к р и в а я ( к р и в а я ч а с т о т ) 403 ков) 6 0 +
— т а б л и ц а ( т а б л и ц а ч а с т о т ) 50 /-к р и т ер и й С т ь ю д е н т а в м н о ж е с тв е н н о й
— ф ункция (п л о тн о ст ь) 402 л и н ей н о й р е гр е сс и и 150
-------- п р о с т о й л и н е й н о й р е г р е с с и и 150
Ш аговая п р о ц е д у р а (s te p p in g p r o c e ­ — двухвы борочны й для ср ед н и х 92,
d u res) в п о ш а г о в о й р егр есси и 1 9 5 + 94
-------------- п о ш а г о в о м ди скр и м и н ан тн ом — д л я к о э ф ф и ц и е н т а к о р р е л я ц и и 16 1
ан ализе 3 4 4 + ч астн ого коэф ф иц иента корре­
--------- м н о ж е с т в е н н о й к о р р е л я ц и и ( m i l- ляции 14 2
tip le c o r r e la tio n ) 199 — парны й (д л я св я з а н н ы х вы борок)
--------------------с з а м е н о й п е р е м е н н ы х (со 8 7 , 93
с в о п и г н о м ) ( w i t h s w a p p in g ) 20 0 — У эл ч а 85, 93
-------- с т а н д а р т н а я (s ta n d a rd ) 195 /-р а с п р е д е л е н и е С т ь ю д е н т а 422
- — с з а м е н о й п ер ем ен н ы х (w ith — ген ер а ц и я 32
s w a p p in g ) 19 6 7’2- к р и т е р и й Х отелли н га двухвы бо­
Ш кала изм ерений 15 р оч н ы й 320
---------и н т е р в а л ь н а я ( in te r v a l) 16+ — — одновы борочны й 3 18
---------н о м и н а т и в н а я (н а и м е н о в а н и й ) Х2- к р и т е р и й д л я в е к т о р о в с р е д н и х 3 1 7
( n o m in a l) 15+ в ы б р о со в 314
---------о т н о ш е н и й ( r a t i o ) 1 7 -------- - д о л е й 69
---------п о р я д к о в а я ( o r d in a l ) 1 6 -------- о д н о й п е р е м е н н о й 8 1
-------- т а б л и ц с о п р я ж е н н о с т и 112
Э ксп ери м ен тальн ая еди ница ( e x p e r i­ — со гл аси я 77
m e n ta l u n i t ) 396 /^ -р а с п р е д е л е н и е 4 2 1
Э к с п е р и м е н т а л ь н ы й пл ан (п л а н э к с п е ­ — ген ерац и я 32
р и м ен та) (e x p e r im e n ta l d e s ig n ) 2 2 2
О главлен и е

От редактора перевода 5
Предисловие ко второму изданию 7
Предисловие к первому изданию 9

Введение в анализ данных 14


1 .1 . Д анны е, изм ерения и вы чи сли тел ьн ы е ср ед ства 15
1 .2 . К ом п он ен ты вы ч и сл и тел ьн о го центра. О борудование 19
1 .3 . П р огр ам м н ое обесп ечен и е 21
1 .4 . П о д го то в к а д ан н ы х д л я п ак ето в прогр ам м 25
1 .5 . К р и тер и и оценки п ак ето в стати сти ч еск и х пр огр ам м 45
1 .6 . Д руги е п рим енени я Э В М как ср ед ства стати сти ч еского ан ализа 47
1 .7 . П р о в е р к а д а н н ы х 50
У праж н ения 64

2
Элементарные статистические выводы 65
2 .1 . П р о гр ам м ы п о д сч ета ч а с то т. А н а л и з д и с к р е т н ы х п ер ем ен н ы х 65
2 .2 . Д е с к р и п т и в н ы е п р о г р а м м ы . А н а л и з н е п р е р ы в н ы х п е р е м е н н ы х 70
2 .3 . Д е с к р и п т и в н ы е п р о г р а м м ы с р а с с л о е н и е м д а н н ы х . А н а л и з д в у х
н епреры вн ы х сл уч ай н ы х величин 85
2 .4 . Д е с к р и п т и в н ы е п р о г р а м м ы с р а с с л о е н и е м д а н н ы х . А н а л и з р : > 2
непреры вн ы х сл уч ай н ы х величин 95
2 .5 . П р о г р а м м ы п е р е к р е с т н о г о т а б у л и р о в а н и я . А н а л и з т а б л и ц с о п р я ­
ж ен н ости п ри зн аков 10 8
2 .6 . Д р у г и е к р и т е р и и н е з а в и с и м о с т и для табл и ц со п р я ж ен н о сти при­
знаков 114
2 .7 . Р о б а с т н ы е о ц ен к и 132
У праж н ения 137
488 Оглавление

3
Регрессионный и корреляционный анализы 141
3 .1 . П р остая линей ная р егр есси я и п р остой коррел яц и он н ы й анализ 142
3 .2 . М н о ж е ств е н н а я линей ная р егр есси я , м н ож ествен н ая и ч астн ая
корреляции 164
3 .3 . П о ш а г о в а я р е гр е сс и я 19 4
3 .4 . Н е л и н е й н ая р е гр е сси я 208
У праж н ения 2 17

4
Дисперсионный анализ 222
4 .1 . О сн овы теор и и общ ей л и н ей н ой м одели 223
4 .2 . О дн оф акторны й ди сп ер си он н ы й ан ал и з 234
4 .3 . Д в ухф ак то р н ы й ди сп ер си он н ы й ан ал и з 244
4 .4 . О бщ ая п рограм м а ф ак то р н ого п л ан и рован и я 266
4.5. Д и с п е р с и о н н ы й а н а л и з п р и п о м о щ и р е г р е с с и и 284
4 .6 . К о в а р и а ц и о н н ы й а н а л и з 295
У праж н ения 308

5
Методы многомерного статистического анализа 313
5 .1 . А н ал и з вы бросов 314
5 .2 . П р о в е р к а г и п о т е з о в е к т о р а х с р е д н и х 317
5 .3 . К л а сс и ф и к а ц и я индивидуум а в сл уч ае двух популяций 322
5 . 4 . К л а с с и ф и к а ц и я в с л у ч а е /г п о п у л я ц и й 334
5 .5 . П о ш а го вы й д и ск р и м и н а н т н ы й ан а л и з 344
5 .6 . А н а л и з г л а в н ы х к о м п о н е н т 3 354
5 .7 . Ф ак то р н ы й ан ал и з 360
5 .8 . М н о го м ер н ы й д и сп е р си о н н ы й а н ал и з 38 0
У праж н ения 392

П риложение I. Обзор основных понятий 395


1 .1 . О сновны е п он яти я теор и и вер оятн остей 396
1 .2 . Н аи более употреби тел ьн ы е одном ерны е распределени я 4 14
1 .3 . В ы борки из ген ер ал ьн о й со во к уп н ости 425
1 .4 . О ц ен ка парам етров ген ерал ьн ой совокуп н ости 428
1 .5 . П р овер ка гипотез 433
1 .6 . М н огом ерн ое н ор м ал ьн ое р асп р едел ен и е 442

П риложение П . Статистические таблицы 448


Л итература 468
Список и спользуем ы х латинских аббревиатур 477
Список некоторы х общ еуп отр еби тел ьн ы х обозн а­
чений 479
Предметный указатель 480

Вам также может понравиться