Вы находитесь на странице: 1из 33

МНОЖЕСТВЕННАЯ РЕГРЕССИЯ В SPSS

ОБЗОР

Множественная регрессия, освященная временем процедура, которая восходит к 1908 году, когда ее впервые
применил Пирсон, используется для объяснения (прогнозирования) дисперсии в интервальной зависимой пере-
менной на основе линейных сочетаний интервальных, дихотомических, или искусственных независимых пере-
менных. Множественная регрессия позволяет установить, что набор независимых переменных объясняет долю
дисперсии в зависимой переменной на значимом уровне (через тест значимости R2) и сравнительную прогно-
стическую важность независимых переменных (путем сравнения бета-весов). Для объяснения криволинейных
влияний в качестве независимых переменных могут добавляться степенные члены [power terms]. Для объясне-
ния влияний взаимодействия в качестве независимых переменных могут добавляться взаимные произведения
членов [cross-product terms]. Для выяснения того, улучшает ли значимо модель добавление еще одной незави-
симой переменной можно проверить значимость различий двух R2. При помощи иерархической регрессии
можно посмотреть, сколько дисперсии в зависимой переменной можно объяснить одной или набором новых
независимых переменных в дополнение к той, которая объяснялась прежним набором. Наконец, оценки (коэф-
фициенты b и константа) могут использоваться для построения прогностического уравнения и генерирования
прогнозируемых оценок [predicted scores] переменной.

Уравнение множественной регрессии имеет форму y = b1x1 + b2x2 + ... + bnxn + c. Где b являются коэффициен-
тами регрессии, показывающими, насколько изменится зависимая переменная y, если соответствующая незави-
симая переменная изменится на 1 единицу. Константа с является точкой, в которой линия регрессии пересекает
ось y. Она показывает, какова будет величина зависимой переменной, если все независимые переменные будут
равны нулю. С множественной регрессией также связан коэффициент множественной корреляции R2, характе-
ризующий процент дисперсии в зависимой переменной, объясняемый совместно всеми независимыми пере-
менными.

Множественная регрессия разделяет все допущения корреляции: линейность связей, один и тот же уровень свя-
зи на всем диапазоне независимой переменной («гомоскедастичность»), интервальные или близкие к интер-
вальным данные, отсутствие выбросов [outliers], и данных с усеченным диапазоном. В дополнение к этому
важно, чтобы проверяемая модель была корректно специфицирована. Исключение из модели важных каузаль-
ных переменных или включение необязательных переменных может существенно влиять на бета-веса и через
это на интерпретацию значимости независимых переменных.

Смотрите также различные альтернативы регрессии OLS [ordinary least squares]:

Оценка кривых [curve estimation] - модуль SPSS, позволяющий посмотреть, насколько линейная регрессия
сравнима с какой-либо из 10 нелинейных моделей, для случая, когда одна независимая переменная прогнозиру-
ет одну зависимую. Это бывает нужно для выяснения того, какие процедуры и модели лучше всего описывают
связи в имеющихся данных.
Общая линейная модель (многомерная) [general linear model (multivariate)]. Множественная регрессия с искус-
ственными переменными позволяет получать те же самые выводы, что и множественный дисперсионный ана-
лиз [multiple analysis of variance (Manova)], статистическим эквивалентом которого он является.
Обобщенные линейные модели и обобщенные оценочные уравнения [generalized linear models and generalized
estimating equations] являются обобщением линейного моделирования в форме, охватывающей почти любое
распределение зависимой переменной с почти любой функцией связи, что позволяет им поддерживать разнооб-
разные виды регрессий – линейную регрессию, пуассоновскую регрессию, гамма-регрессию и многие другие.
Нелинейная регрессия [nonlinear regression] используется при наличии принципиально нелинейной модели (не-
линейности нельзя изучать с использованием функций связи в обобщенных линейных моделях или степенных
или других преобразований в общих линейных моделях).
Логистическая регрессия [logistic regression] используется для дихотомических и мультиномиальных зависимых
переменных, реализуется здесь на основе логистических процедур и выше в обобщенных линейных моделях.
Взвешенная регрессия наименьших квадратов [weighted least squares (WLS) regression] может использоваться,
когда нарушено допущение о гомоскедастичности.
Регрессия Кокса [cox regression] может использоваться для анализа данных в отношении расстояний, близости
и предпочтений.
Дискриминантный анализ [discriminant function analysis] используется, когда зависимая переменная является
дихотомической, но могут выполняться другие допущения множественной регрессии, что делает ее более мощ-
ной, нежели альтернативная процедура логистической регрессии для бинарных или мультиномиальных зави-
симых переменных.
Частичная регрессия наименьших квадратов [partial least squares regression] может использоваться для прогно-
зирования набора зависимых переменных из набора независимых переменных.
Логит-регрессия [logit regression] использует лог-линейные процедуры для прогнозирования одной или более
категориальных зависимых переменных.
Пуассоновская регрессия [poisson regression] применяется для обработки данных в анализе истории событий и
других, реализуется здесь на основе общих лог-линейных процедур и выше в обобщенных линейных моделях.
Категориальная регрессия [categorical regression] является разновидностью регрессионного анализа, позволяю-
щей оперировать номинальными независимыми переменными, однако сегодня она все чаще вытесняется обоб-
щенными линейными моделями.

КЛЮЧЕВЫЕ ТЕРМИНЫ И ПОНЯТИЯ

SPSS. Множественная линейная регрессия вызывается через Анализ, Регрессия, Линейная.

Регрессионное уравнение имеет форму Y = b1*x1 + b2*x2 + c + e, где Y является зависимым членом, b коэффи-
циентами регрессии соответствующих х (независимых) членов, с константной или интерцептом, и е членом
ошибки [error term], отраженном в остатках [residuals]. Иногда оно выражается в более простой форме как y =
b1*x1 + b2*x2 + c, где y является оцениваемым членом и с константной (которая включает в себя член ошибки).
Подобные уравнения, не содержащие влияний взаимодействия (см. ниже) называются моделями основных влия-
ний. В SPSS выберите Анализ, Регрессия, Линейная; выберите зависимую и независимые переменные; щелкни-
те Статистики; выберите Оценки, Доверительные интервалы, Соответствие модели; Продолжить; ОК.

 Прогнозируемые значения [predicted values], также называемые подобранными значениями, это зна-
чения каждого случая, полученные путем применения регрессионного уравнения ко всем анализируе-
мым случаям. В SPSS диалоговые окна используют термин PRED для обозначения прогнозируемых
значений и ZPRED для обозначения стандартизованных прогнозируемых значений. Щелкните в SPSS
кнопку Сохранить, чтобы добавить и сохранить их в качестве новых переменных в вашем наборе дан-
ных.

 Скорректированные прогнозируемые значения [adjusted predicted values] – это значения каждого


случая, полученные путем применения регрессионного уравнения ко всем анализируемым случаям, за
исключением данного случая.

 Остатки [residuals] - это разность между наблюдаемыми значениями и теми, которые прогнозируются
регрессионным уравнением. В SPSS диалоговые окна используют термин RESID для обозначения
остатков и ZRESID для обозначения стандартизованных остатков (вычитание среднего и деление на
стандартное отклонение). Можно также получить стьюдентизованные (деление остатков на стандарт-
ное отклонение), удаленные (остаток для случая, когда он исключен из расчета коэффициентов регрес-
сии) и удаленные стьюдентизованные (опускаемый остаток делится на стандартное отклонение/ ошиб-
ку) остатки. Удаленные стьюдентизованные остатки часто используются для оценки влияния конкрет-
ного случая и выявления выбросов [outliers]. Щелкните в SPSS кнопку Сохранить, чтобы добавить и
сохранить их в качестве новых переменных в вашем наборе данных.

Искусственные переменные [dummy variables] – это способ добавления номинальной или порядковой пере-
менной в регрессионное уравнение. Стандартный подход к моделированию категориальных переменных связан
с включением категориальных переменных в регрессионное уравнение путем превращения каждого уровня
каждой категориальной переменной в самостоятельную переменную, обычно кодируемую 0 и 1. Например, ка-
тегориальную переменную «регион» можно преобразовать в такие искусственные переменные, как «Восток»,
«Запад», «Север», или «Юг». Обычно единицей обозначается интересующий атрибут (напр., Юг = 1 обозначает
случай из региона Юг). Разумеется, преобразование применяется, если нам известно значение случая на всех
уровнях категориальной переменной. Мы должны исключить одну из категорий из регрессионной модели, что-
бы избежать абсолютной мультиколлинеарности (сингулярности, избыточности), которые будут препятство-
вать решению (например, мы можем исключить «Север», чтобы избежать сингулярности). Такая опущенная ка-
тегория является референтной категорией, поскольку коэффициенты b должны интерпретироваться с учетом
этой категории, как это обсуждается ниже (см. раздел «Коэффициент регрессии»). Следует отметить, что искус-
ственные переменные не используются в качестве зависимых в обычной регрессионной модели. Смотрите об-
суждение в разделе Частые вопросы («Как кодировать искусственные переменные в регрессии?»), где описы-
ваются другие способы кодирования искусственных переменных.

 Почему не использовать отдельные регрессионные уравнения? Один из подходов к категориальной пе-


ременной в регрессии может состоять в том, чтобы реализовать отдельные регрессии для каждой кате-
гории. Казалось бы, что для единичной переменной типа гендера проще реализовать отдельную регрес-
сию для мужчин и женщин, однако это не лучший вариант по двум причинам. С практической точки
зрения, если мы имеем не одну, а несколько категориальных переменных, каждую с несколькими кате-
гориями (уровнями), это может привести к увеличению числа необходимых регрессий. Со статистиче-
ской точки зрения, мы снизим мощность проверки, поскольку каждая регрессия будет реализовываться
на меньшей по размеру выборке, чем в случае общего регрессионного уравнения. То есть, мы этим
увеличим вероятность ошибок II типа (ошибочного отрицания гипотезы о присутствии связи, когда она
действительно существует).

Влияния взаимодействия [interaction effects] иногда называют влияниями модератора [moderator effects], по-
скольку взаимодействующая третья переменная, которая изменяет связь между двумя изначальными перемен-
ными, является переменной-модератором, которая модерирует изначальную связь. Например, связь между до-
ходом и консерватизмом может изменяться в зависимости от уровня образования.

 Члены взаимодействия [interaction terms] могут добавляться в модель для оценки совместного влияния
двух переменных (напр., дохода и образования) на зависимую переменную (напр., консерватизм) в до-
полнение к их самостоятельным влияниям. Исследователь добавляет в модель члены взаимодействия
как взаимные произведения стандартизованных независимых или искусственных независимых пере-
менных, обычно помещая их после простых «основных влияний» независимых переменных. Создайте
в синтаксическом режиме SPSS новую переменную взаимодействия Х12 из переменных Х1 и Х2.
Файл, Новый, Синтаксис, введите команду:

COMP X12 = X1*X2


EXECUTE.
Затем Редактор, Выделить все; Запустить.

В SAS вы можете моделировать напрямую: MODEL y = X1 + X2 +(X1*X2). Некоторые компьютерные


программы позволяют исследователю назначать такие пары независимых переменных и автоматически
выполняют все вычисления. Члены взаимодействия могут высоко коррелировать (см. ниже мультикол-
линеарность) с корреспондирующими простыми независимыми переменными в регрессионном уравне-
нии, создавая проблемы для оценки относительной важности основных влияний и влияний взаимодей-
ствия. Примечание: для предотвращения возможной мультиколлинеарности можно использовать цен-
трированные переменные [centered variables] (когда из каждого набора данных вычитается средняя
оценка) – преобразование, которое часто уменьшает мультиколлинеарность. См. также другие альтер-
нативы подходу взаимного произведения к анализу взаимодействий. («Когда проверяется взаимодей-
ствие, существует ли альтернатива добавлению мультипликативных членов в уравнение и проверки
изменений в R2?»)

 Члены взаимодействия с искусственными переменными [interaction terms involving categorical


dummies]. Чтобы создать член взаимодействия между категориальной и непрерывной переменной, ка-
тегориальная переменная предварительно кодируется с образованием (k – 1) новых переменных, по од-
ной для каждого уровня категориальной переменной за исключением опускаемой референтной катего-
рии [reference category]. Непрерывная переменная умножается на каждую из (k – 1) искусственных пе-
ременных. Члены, вводящиеся в регрессию, включают непрерывную переменную, (k – 1) искусствен-
ных переменных, и (k – 1) членов взаимных произведений. Также реализуется регрессия без этих чле-
нов взаимодействия. Влияние взаимодействия оценивается разностью R-квадратов. Бета-веса членов
взаимодействия в регрессии, которая содержит члены взаимодействия, измеряют сравнительную про-
гностическую силу влияний непрерывной переменной с учетом специфических уровней категориаль-
ной переменной. В регрессионную модель можно также включить не только члены взаимодействия, но
и степенные члены [power terms] путем умножения искусственных переменных на квадрат непрерыв-
ной переменной, однако это может вести к чрезмерному увеличению количества членов в модели.
Один из подходов, позволяющих справиться с этой проблемой, состоит в использовании F-теста сту-
пенчатой регрессии [stepwise regression] как критерия для прекращения добавления в модель членов.

 Значимость эффекта взаимодействия [significance of an interaction effect] означает то же самое, что и


для любой другой переменной, за исключением случая с набором искусственных переменных, репре-
зентирующих единичную порядковую переменную. Когда в виде набора искусственных переменных
вводилась порядковая переменная, взаимодействие другой переменной с такой порядковой переменной
будет создавать много членов взаимодействия. В этом случае F-тест значимости взаимодействия двух
переменных отражает значимость изменения R-квадрата уравнения с членами взаимодействия и урав-
нения без набора членов, связанных с этой порядковой переменной. (Как проверить значимость разли-
чий между двумя R-квадратами?»)

 Отдельные регрессии [separate regressions]. Альтернативный подход к взаимодействиям состоит в реа-


лизации отдельных регрессий для каждого уровня взаимодействующей переменной.
Коэффициент регрессии [regression coefficient], b, характеризует среднее увеличение в зависимой переменной,
когда независимая переменная увеличивается на одну единицу, а другие независимые переменные остаются
неизменными. Коэффициент b отражает наклон линии регрессии: чем больше b, тем круче такой наклон, тем
больше зависимая переменная изменяется за каждую единицу изменения в независимой переменной. Коэффи-
циент b является нестандартизованным простым коэффициентом регрессии для случая с одной независимой
переменной. Когда имеется две или более независимых переменных, коэффициент b становится частным ко-
эффициентом регрессии [partial regression coefficient], хотя его обычно так же называют просто «коэффициен-
том регрессии». В SPSS выберите Анализ, Регрессия, Линейная; щелкните Статистики; убедитесь, что отмече-
ны Оценки, позволяющие получать коэффициенты b (отмечены по умолчанию).

 Коэффициенты b в сравнении с коэффициентами частной корреляции. Коэффициент b является


получастным коэффициентом [semi-partial coefficient] в отличие от частных коэффициентов [partial co-
efficients], которые рассчитываются в частной корреляции. Частный коэффициент данной независимой
переменной удаляет дисперсию, объясняемую контролируемыми переменными, как из независимой,
так и зависимой переменных, а затем оценивает оставшуюся корреляцию. В отличие от этого, полу-
частный коэффициент удаляет дисперсию только из независимой переменной. То есть, если частные
коэффициенты рассматривают дисперсию в зависимой переменной после удаления дисперсии, объяс-
няемой контролируемыми переменными, то получастные коэффициенты рассматривают всю диспер-
сию зависимой переменной, Таким образом, коэффициенты b, как получастные коэффициенты, отра-
жают уникальные (независимые) вклады каждой независимой переменной в объяснение всей диспер-
сии в зависимой переменной. (Для более подробного знакомства см. файл «Частная корреляция в
SPSS»).

 Интерпретация b для искусственных переменных. Интерпретация коэффициентов b отличается, ко-


гда в уравнении присутствуют искусственные переменные. Обычно, когда их нет, коэффициент b ха-
рактеризует, насколько увеличивается зависимая переменная, когда независимая переменная, связан-
ная с b, увеличивается на одну единицу. Когда используется искусственная переменная, такая как опи-
санная выше переменная «регион», коэффициент b характеризует, насколько зависимая переменная
увеличивается (или уменьшается, если b негативный), когда искусственная переменная увеличивается
на одну единицу (то есть, сдвигается от 0 = не присутствует к 1 = присутствует, например, Юг = 1 =
случай из Юга) по сравнению с референтной категорией (в нашем примере, Север). Таким образом, для
набора искусственных переменных «Региона», с референтной категорией «Север» и зависимой пере-
менной уровень образования, коэффициент b искусственной переменной «Юг» = -1.5 обозначает, что
ожидаемый уровень образования для «Юга» в среднем на 1.5 ниже, чем для респондентов «Севера».
Искусственные переменные и их интерпретации при других способах кодирования рассматриваются
ниже. («Как кодировать искусственные переменные в регрессии?»)

 Динамическое заключение [dynamic inference] характеризует интерпретацию, согласно которой зави-


симая переменная изменяется на b единиц, потому что независимая переменная изменяется на одну
единицу. То есть, предполагается, что существует процесс изменения (динамический), который напря-
мую связывает единицу изменений в х с b изменений в y. Это допущение предполагает два других до-
пущения, которые могут являться, а могут и не являться истинными: (1) b сохраняется неизменным для
всех подвыборок или популяции (инвариантность единицы изменения [cross-unit invariance]) и потому
не является искусственным усреднением, которое часто оказывается не репрезентативным конкретным
группам; и (2) b сохраняется неизменным во времени, когда впоследствии повторно обследуются те же
самые выборки из данной популяции (инвариантность во времени [cross-time invariance]).

 t-тесты используются для оценки значимости отдельных коэффициентов b, а именно для проверки ну-
левой гипотезы, что коэффициент регрессии равен нулю. «Правило большого пальца» состоит в том,
что нужно удалять из уравнения все переменные, не значимые на уровне .05 или на ином выбранном
критериальном уровне. Следует отметить, что причиной незначимости в специфической изучаемой
выборке может являться ограниченная дисперсия [restricted variance] независимой переменной. Подоб-
но всем тестам значимости, t-тест опирается на допущение о случайно выбранных данных [randomly
sampled data]. В SPSS выберите Анализ, Регрессия, Линейная; щелкните кнопку Статистики; убедитесь,
что отмечены Оценки, позволяющие получать t и значимость b.

Примечание. T-тесты не используются для искусственных переменных, хотя SPSS и другие статисти-
ческие программы и выводят их результаты – см. раздел Частые вопросы («Как кодировать искус-
ственные переменные в регрессии?»). Следует также отметить, что t-тест является тестом уникальной
дисперсии [unique variance], которую объясняет независимая переменная, а не совместной дисперсии
[shared variance], которую она также может объяснять, поскольку совместная дисперсия, хотя она и
включена в R2, не отражается в коэффициенте b.
 t-тесты для искусственных переменных. Значимость искусственных переменных должна оценивать-
ся для всего их набора, с использованием рассматриваемого ниже метода изменений в R2. (Следует иг-
норировать t-тесты в SPSS, которые будут по умолчанию выполняться для каждой искусственной пе-
ременной.)

Односторонние против двухсторонних тестов [one-tailed vs. two-tailed t-tests]. Также обратите внима-
ние, что t-тесты в SPSS и SAS являются двухсторонними. Это означает, что они проверяют гипотезу,
что коэффициент b или значимо выше, или значимо ниже нуля. Если наша модель такова, что мы мо-
жем исключить одно направление (напр., негативные коэффициенты), и таким образом проверять толь-
ко одну возможность, что коэффициент b превышает нулевое значение, нам понадобится односторон-
ний тест. Уровень значимости одностороннего теста будет вдвое превышать уровень значимости двух-
стороннего теста: например, если SPSS сообщает .05, то соответствующий односторонний уровень зна-
чимости будет составлять .10.

Уровень важности [level-importance]– это произведение коэффициента b на среднее значение соответствую-


щей независимой переменной. Сумма вкладов уровней важности всех независимых переменных плюс констан-
та равна среднему значению зависимой переменной. Экен (1982, р. 72) указывает, что коэффициент b может
пониматься как «потенциальное влияние» независимой переменной, а уровень важности как «реальное влия-
ние». Такое противопоставление опирается на идею, что чем выше b, тем больше y будет изменяться на каждую
единицу увеличения в b, однако чем ниже среднее данной независимой переменной, тем меньше будет ожи-
даться реальное единичное изменение. С учетом как величины b, так и величины среднего значения, уровень
важности оказывается лучшим показателем ожидаемого реального влияния независимой на зависимую пере-
менную. Уровень важности не рассчитывается в SPSS.

Бета-веса [beta weights] – это коэффициенты регрессии (b) для стандартизованных данных. Бета – это среднее
увеличение в зависимой переменной, когда независимая переменная увеличивается на одно стандартное откло-
нение, а другие независимые переменные остаются неизменными. Если независимая переменная имеет бета-вес
.50, это означает, что когда другие независимые переменные остаются неизменными, зависимая переменная бу-
дет увеличиваться на половину стандартного отклонения (также .50). Соотношение бета-весов отражает соот-
ношение оцениваемой уникальной прогностической важности независимых переменных. Заметьте, что бета-
веса будут изменяться при добавлении или удалении из уравнения других переменных или членов взаимодей-
ствия. Изменение порядка ввода переменных без добавления или удаления не будет влиять на бета-веса. То
есть, бета-веса помогают оценить уникальную важность независимых переменных в рамках данной модели,
включенной в регрессионное уравнение. Заметьте, что добавление или удаление переменных из модели может
приводить к существенным изменениям в b и бета-весах, что может наталкивать исследователя на мысль, что
независимые переменные, воспринимавшиеся изначально как неважные, в действительности оказываются важ-
ными. В SPSS выберите Анализ, Регрессия, Линейная; щелкните кнопку Статистики; убедитесь, что отмечены
Оценки, позволяющие получать бета-коэффициенты (отмечены по умолчанию).

Заметьте, что бета-веса отражают уникальный вклад каждой независимой переменной. Совместные вклады
учитываются в R-квадрате, но безотносительно к какой-либо конкретной независимой переменной. Поэтому
бета-веса могут недооценивать важность переменной, которая вносит сильные совместные вклады в объясне-
ние зависимой переменной, но не вносит сильного уникального вклада. Следовательно, анализируя сравни-
тельные бета-веса, нужно также учитывать корреляцию данной независимой переменной с зависимой перемен-
ной, чтобы посмотреть, не обладает ли она сильной корреляцией с зависимой переменной.

 Стандартизованные [standardized] означает, что из каждой первичной оценки [datum] вычитается


среднее и результат делится на стандартное отклонение. В результате все переменные получают сред-
нее значение 0 и стандартное отклонение 1. Это позволяет сравнивать переменные с различающимися
средними и дисперсиями. Только стандартизованные коэффициенты b (бета-веса) могут использовать-
ся для оценки сравнительной прогностической силы независимых переменных.

 Следует отметить, что некоторые авторы связывают «b» с коэффициентами, относящимися к конкрет-
ной выборке, а «бета» с коэффициентами, относящимися к генеральной совокупности. Тогда они ссы-
лаются на них как на «стандартизованные бета» - то, что мы здесь называем просто «бета-весами».

 Когда оценивается сравнительная важность независимых переменных, свет на соотношение бета-весов


позволяет пролить также рассмотрение корреляции и получастной (частичной) корреляции данной не-
зависимой с зависимой переменной.

Метод отбрасывания [dropping method] – оценка сравнительной важности независимых переменных (НП),
альтернативная методу бета-весов. Она часто предпочитается, когда требуется свести большую регрессионную
модель к ее сокращенному варианту с меньшим количеством НП. При реализации метода отбрасывания регрес-
сионная модель запускается снова и снова, при этом всякий раз отбрасывается одна из НП. НП, отбрасывание
которых не снижает значимо R-квадрат, рассматриваются как кандидаты на удаление. (Разумеется, в таких ре-
шения следует опираться на теоретические соображения, а не результаты, вытекающие из наличных данных.)

Сравнение метода бета-весов и метода отбрасывания. НП с наибольшим бета-весом является той,


которая при контроле как НП, так и ЗП всеми другими НП, вносит наибольший уникальный вклад в
контролируемую ЗП на стандартную единицу увеличения данной НП. НП, отбрасывание которой вы-
зывает наибольшее снижение в R2, является той, которая при контроле только НП, но не ЗП всеми дру-
гими НП, вносит наибольший уникальный вклад в (неконтролируемую) ЗП на стандартную единицу
увеличения данной НП. То есть, бета-веса показывают уникальные влияния НП на уникальную дис-
персию в ЗП. В отличие от этого, метод отбрасывания показывает уникальные влияния НП на всю ва-
риативность ЗП, включающую как уникальную, так и общую (совместную) вариативность.

В целом, оба метода будут показывать те же самые НП как наиболее важные, однако вполне может
случиться, что некая НП будет иметь бета-вес, близкий к нулю, но по-прежнему оказывать существен-
ное влияние на R2, если она отбрасывается из модели, потому что она характеризуется существенными
совместными влияниями даже при отсутствии уникального влияния. Метод бета-весов соотносится с
частной корреляцией [partial correlation], отражающей вариативность зависимой переменной после уда-
ления из зависимой переменной общей дисперсии, объясняемой другими НП (чем та, которая рассмат-
ривается в частной корреляции). Метод отбрасывания соотносится с частичной корреляцией [part corre-
lation], отражающей всю вариативность зависимой переменной.

Корреляция [correlation]. Пирсоновский r2 есть процент дисперсии в зависимой переменной, объясняемой дан-
ной независимой переменной, когда (в отличие от бета-весов) всем другим независимым переменным разреша-
ется изменяться. Как следствие, величина r2 отражает не только уникальную ковариантность, которую она раз-
деляет с зависимой переменной, но и неконтролируемые влияния на зависимую переменную, относящиеся к
ковариантности, которую данная независимая переменная разделяет с другими независимыми переменными в
модели. «Правило большого пальца» говорит о том, что может возникать проблема мультиколлинеарности, ко-
гда в корреляционной матрице, формируемой набором независимых переменных, присутствует одна корреля-
ция > .90 или несколько корреляций > .70. (См. также файл «Корреляция в SPSS»).

 Получастная корреляция, также называемая частичной корреляцией. Получастная корреляция


[semipartial correlation], обозначаемая в SPSS как «part corr», в ее квадратной форме есть процент всей
дисперсии в зависимой переменной, независимо (уникально) и совместно объясняемой данной незави-
симой переменной, когда другие переменные в уравнении контролируются (им не позволяют изме-
няться). Сначала из данной независимой переменной (но не из зависимой переменной) удаляются ли-
нейные влияния других независимых переменных, затем рассчитывается оставшаяся корреляция дан-
ной переменной с зависимой переменной, в результате чего получается получастная (частичная) корре-
ляция. Частичная корреляция [part correlation] почти всегда ниже соответствующей частной корреля-
ции. В SPSS выберите Анализ, Регрессия, Линейная; щелкните кнопку Статистики; отметьте опцию
Частичная и частная корреляции, позволяющую получать получастные корреляции. (См. также файл
«Частная корреляция в SPSS»).

 Квадрат частной корреляции [squared partial correlation], по контрасту, отражает процент необъяс-
ненной дисперсии в зависимой переменной, которая объясняется при добавлении данной переменной.
То есть, она отражает процент необъясненной дисперсии, уникально объясняемой данной независимой
переменной. Сначала из обеих, независимой и зависимой переменной, удаляются линейные эффекты
других независимых переменных, затем рассчитывается корреляция остатка/ скорректированной дан-
ной переменной с остатком/ скорректированной зависимой переменной, в результате чего получается
частная корреляция. Вы получите то же самое сравнительным ранжированием независимых перемен-
ных, если вы используете получастные r или частные r, однако частные r почти всегда будут выше.

Интерцепт [intercept], обозначаемый по-разному как е, с, или х0, является оценкой величины Y, когда все неза-
висимые переменные равны нулю. Иногда за этим скрывается реальный смысл, а иногда нет – то есть, иногда
линию регрессии нельзя распространить за пределы диапазона наблюдений (опустить по оси Y или поднять в
направлении бесконечности). В SPSS выберите Анализ, Регрессия, Линейная; щелкните кнопку Статистики;
отметьте Оценки, позволяющие получать интерцепт, обозначаемый как «константа» (отмечены по умолчанию).

SPSS также позволяет не использовать при построении регрессионного уравнения интерцепт. Это то же самое,
как заставить линию регрессии проходить через начало координат. «Правило большого пальца»: никогда не
выбирайте такую опцию. Ее можно выбирать лишь в тех редких случаях, когда исследователь знает, что связь
является линейной и что зависимая переменная равна нулю, когда все независимые равны нулю.
R2, также называемый множественной корреляцией [multiple correlation] или коэффициентом множественной
детерминации [coefficient of multiple determination], отражает процент дисперсии в зависимой переменной, ко-
торый уникально и совместно объясняется независимыми переменными. R2 можно также интерпретировать как
пропорциональное уменьшение ошибки в оценке зависимой переменной, когда известны независимые пере-
менные. То есть, R2 отражает количество ошибок, возникающих при использовании регрессионной модели для
предсказания значения зависимой переменной, в отношении к общему количеству ошибок, возникающих при
использовании только среднего значения зависимой переменной как основы для оценки всех случаев. Матема-
тически, R2 = (1 - (SSE/SST)), где SSE = сумма квадратов ошибки [error sum of squares] = СУММА((Yi - EstYi)2);
Yi - действительное значение Y для i-го случая; EstYi) – регрессионное предсказание для i-го случая; и SST =
общая сумма квадратов [total sum of squares] = СУММА ((Yi - MeanY)2). В выводимых SPSS результатах SSE
обозначается как «остаточная сумма квадратов» [residual sum of squares] и характеризует ошибку регрессии. Та-
ким образом, R2 есть 1 минус ошибка регрессии как процент общей ошибки, и будет равным 0, когда ошибка
регрессии оказывается столь большой, как если бы мы просто указали среднее значение во всех случаях Y. Ска-
зав это по-другому, регрессия суммы квадратов/ общая сумма квадратов = R2, где регрессия суммы квадратов =
общая сумма квадратов – остаточная сумма квадратов. В SPSS выберите Анализ, Регрессия, Линейная; щелкни-
те кнопку Статистики; убедитесь, что отмечена опция Соответствие модели, позволяющая получать R2.

 Малые выборки [small samples]. На малых выборках F-тест регрессионной модели может оказаться
незначимым, даже если t-тесты для некоторых коэффициентов b могут быть значимыми. К значимому
F в такой ситуации может привести удаление переменных с незначимыми коэффициентами b.

Максимизация R2 путем добавления переменных неприемлема, если переменные добавляются в


уравнение без теоретических оснований. Как предельный случай, когда в регрессионное уравнение
добавляется n–1 переменных, R2 будет 1, однако такой результат не имеет смысла. Скорректиро-
ванный R2 используется как консервативное уменьшение R2 с целью наказания за добавление пере-
менных и требуется, когда количество независимых переменных приближается к количеству слу-
чаев или когда сравниваются модели с разным количеством независимых переменных.

Различия в R2 между выборками. Подобно другим формам корреляции, R2 чувствителен к огра-


ниченной дисперсии [restricted variance]. Экен (1982, р. 75) приводит пример исследования влияния
измерения пристрастности в газетных сообщениях. Пристрастность использовалась для прогноза
голосов за кандидатов на первичных и всеобщих выборах. Корреляция для всеобщих выборов со-
ставила .84, а для первичных выборов .64, побуждая к неверному заключению, что газетные при-
страстия оказывались более влиятельными на всеобщих выборах. Однако дисперсия пристрастий
была гораздо ниже на первичных выборах, чем на всеобщих выборах. Более высокая дисперсия на
всеобщих выборах позволяла объяснять больше дисперсии в голосовании на всеобщих выборах, в
особенности по той причине, что всеобщие выборы обладали меньшей объясняемой дисперсией.
Однако первичные выборы обнаружили более высокий коэффициент b (то есть, дополнительное
пристрастное сообщение на первичных выборах имело большее влияние на процент голосов за
кандидата). Тем самым Экен предупреждает, что R-квадраты не могут использоваться для срав-
нения выборок из-за различий в дисперсиях независимых и зависимых переменных.

Скорректированный R2 [adjusted R-square] является поправкой на то, что когда имеется большое
количество независимых переменных, R2 может достигать неоправданно высоких значений просто
потому, что случайные вариации некоторых независимых переменных «объясняют» небольшие
доли дисперсии в зависимой переменной. Как предельный случай, когда существует столько же
независимых переменных, сколько случаев в выборке, R2 будет всегда равен 1. Поправка к формуле
снижает R2 по мере того как увеличивается количество независимых переменных. Некоторые авто-
ры трактуют скорректированный R2 как процент дисперсии, «объясняемой в репликации после
удаления вклада случайности». При небольшом количестве независимых переменных R2 и скор-
ректированный R2 будут близки друг к другу. При большом количестве независимых переменных
скорректированный R2 может оказываться заметно более низким. Чем больше исследователь ис-
пользует независимых переменных, тем чаще от него ожидают сведений о таком скорректирован-
ном коэффициенте. Всегда используйте скорректированный R2, когда вы сравниваете модели с
разным числом независимых переменных. В SPSS выберите Анализ, Регрессия, Линейная; щелк-
ните Статистики; убедитесь, что отмечены Оценки, позволяющие получать скорректированный R2.

Скорректированный R2 = 1 - ( (1-R2)(N-1 / N - k - 1) ),

где n размер выборки и k число членов в модели без учета константы (т.е., число независимых пе-
ременных).
 Изменение R2 [R2 change], также называемое инкрементами R2 [R2 increments] характеризует измене-
ние (увеличение или снижение) величины R2 при добавлении или исключении из уравнения какой-
либо переменной. Тест различий в R-квадратах [R2 difference test] связан с реализацией регрессии для
полной модели и для той же модели минус одна переменная, с последующим нахождением разности
между R-квадратами и проверкой значимости различий. Поскольку ступенчатая регрессия на каждом
шаге прибавляет к регрессионному уравнению одну переменную, всякий раз генерируя R2, вычитание
каждого R2 из предыдущего также дает инкремент R2. Инкременты R2 проверяются F-тестом и оцени-
ваются автоматически в процедуре иерархической регрессии, рассматриваемой ниже. В SPSS выберите
Анализ, Регрессия, Линейная; выберите зависимую и независимые переменные; щелкните Дальше; до-
бавьте дополнительную независимую переменную в группе «Блок 2 х 2»; щелкните Статистики; выбе-
рите Соответствие модели и Изменение R-квадрата; Продолжить; ОК. В рядах Модель 1 и Модель 2
будут выведены данные с результатами F-теста изменения. Заметьте, что эта проверка добавления пе-
ременных в модель статистически эквивалентна проверке отбрасывания тех же самых переменных из
модели. (Как проверить значимость различий между двумя R-квадратами?»)

 Изменение R2 и искусственные переменные. Для оценки значимости набора искусственных пере-


менных следует использовать инкрементальный F-тест изменения R2 . Не используйте отдельные t-
тесты коэффициентов b искусственных переменных.

F-incremental = [(R2with - R2without)/m] / [(1 - R2)/df]

где m количество НП в новом блоке, который добавляется, и df = N - k - 1 (где N размер выборки; k ко-
личество независимых переменных). F оценивается с m и df степенями свободы для получения значе-
ния p (вероятности). Заметьте, что «модель без» [without model] вложена в «модель с» [with model]. В
SPSS выберите Анализ, Регрессия, Линейная; щелкните кнопку Статистики; отметьте опцию Измене-
ние R-квадрата, позволяющую получить «Sig F Change».

Связь бета-весов с R2 и инкрементами R2. Некоторые авторы утверждают, что отношение R-


квадратов и бета-весов показывает инкремент R-квадрата каждой независимой переменной. Это
некорректное утверждение.

Бета-веса уравнения в заключительном шаге ступенчатой регрессии не делят R2 на инкременты,


связываемые с каждой независимой переменной, потому что на бета-веса влияет то, какие пере-
менные включены в уравнение. Бета-веса оценивают сравнительную прогностическую силу каж-
дой независимой переменной при контроле всех других независимых переменных в уравнении
данной модели. Бета-веса оценивают сравнительную прогностическую силу независимой перемен-
ной, которую та привносит в анализ, когда добавляется в регрессионную модель в сравнении с мо-
делью без такой переменной. Бета-веса сравнивают независимые переменные в одной модели, то-
гда как инкременты R2 сравнивают независимые переменные в двух или более моделях.

Это означает, что оценка важности переменной с использованием инкрементов R2 очень отличается
от оценки ее важности с использованием бета-весов. Величина бета-веса переменной отражает ее
сравнительную объяснительную важность при контроле других независимых переменных в урав-
нении. Величина инкрементов R2 переменной отражает ее прибавочную объяснительную важность
с учетом того, что общая дисперсия, которую она делит с другими независимыми переменными,
вводившимися на предыдущих шагах, поглощается этими переменными. Для каузальных оценок
лучше подходят бета-веса (см. Как «корреспондирующие регрессии» помогают каузальному ана-
лизу?). Для целей чистого предсказания лучше подходят инкременты R2.

 Квадрат получастной (частичной) корреляции [squared semipartial (part) correlation]: пропорция всей
дисперсии в зависимой переменной, уникально объясняемой данной независимой переменной при кон-
троле других независимых переменных в модели. Когда данная независимая переменная удаляется из
уравнения, R2 будет уменьшаться. Или же это можно интерпретировать как количество увеличения в
R2, когда в уравнение добавляется такая независимая переменная. R2 минус сумма квадратов всех полу-
частных корреляций дает дисперсию, объясняемую совместно всеми независимыми переменными
(«разделяемая дисперсия» модели). В SPSS выберите Анализ, Регрессия, Линейная; щелкните Стати-
стики; отметьте опцию Частичная и частная корреляции, позволяющую получать получастные корре-
ляции. (См. также файл «Частная корреляция в SPSS»).

 Квадрат частной корреляции [squared partial correlation]: пропорция дисперсии, уникально объясняе-
мая данной независимой переменной после того как из независимой и зависимой переменной удалена
дисперсия, которую они делят с другими независимыми переменными. Таким образом, коэффициент
квадрата частной корреляции представляет процент необъясненной дисперсии в зависимой перемен-
ной, которую можно объяснить, если добавить в модель данную независимую переменную. В SPSS
выберите Анализ, Регрессия, Линейная; щелкните Статистики; отметьте опцию Частичная и частная
корреляции, позволяющую получать частные корреляции.

Стандартная ошибка оценки, доверительные интервалы и интервалы предсказания [standard error of esti-
mate (SEE), confidence intervals, and prediction intervals]. Доверительные интервалы вокруг среднего обсуждают-
ся в файле «Значимость в SPSS». Однако в регрессионном анализе доверительность относится более чем к од-
ной вещи. Нужно отметить, что доверительные интервалы и интервалы предсказания могут улучшаться
(сужаться) с увеличением размера выборки, либо с уменьшением доверительного уровня (напр., с 95% до 90%).

В больших выборках SEE приближается к стандартной ошибке прогнозируемого значения. SEE представляет
собой стандартное отклонение остатков. В хорошей модели SEE будет заметно ниже, чем стандартное отклоне-
ние зависимой переменной. В хорошей модели среднее зависимой переменной будет превышать 1.96, умно-
женное на SEE.

 Доверительный интервал регрессионного коэффициента. Базирующийся на t-тестах, доверитель-


ный отражает плюс/ минус диапазон вокруг наблюдаемого выборочного коэффициента регрессии, в
пределах которого, с 95%-й гарантией, располагается реальный коэффициент регрессии изучаемой по-
пуляции. Границы доверия релевантны только данным, полученным на случайных выборках. Если до-
верительный интервал включает 0, то мы не имеем значимой линейной связи между х и y. Тогда нельзя
отвергнуть нулевую гипотезу, что х является независимой переменной y. В SPSS выберите Анализ, Ре-
грессия, Линейная; щелкните Статистики; отметьте Доверительные интервалы для получения t и дове-
рительных границ для b.

 Доверительный интервал y (зависимой переменной) также называется стандартной ошибкой пред-


сказания среднего [standard error of mean prediction]. Примерно в 95 случаях из 100 истинное среднее y
будет находиться внутри границ доверия вокруг наблюдаемого среднего из n выборочных оценок. То
есть, доверительным интервалом являются верхняя и нижняя границы средней прогнозируемой реак-
ции. Следует отметить, что доверительный интервал y относится к среднему, а не к отдельному случаю
y. Кроме того, доверительный интервал уже, чем интервал предсказания, который относится к отдель-
ным случаям. Некоторые учебники не проводят различий между доверительным интервалом и интер-
валом предсказания, и в результате смешивают эти понятия. В SPSS выберите Анализ, Регрессия, Ли-
нейная; щелкните Сохранить; под «Интервалы предсказания» отметьте Среднее, а справа от «Довери-
тельный интервал» установите уровень, который вам нужен (напр., 95%). SPSS называет его интерва-
лом предсказания среднего [prediction interval for mean].

 Интервал предсказания y. Для 95%-х доверительных границ интервал предсказания подобранного


значения [fitted value] равен оценочному значению [estimated value] плюс или минус 1.96, умноженно-
му на квадратный корень(SEE + S2y), где S2y стандартная ошибка предсказания среднего. Интервалы
предсказания являются верхними и нижними границами предсказания зависимой переменной для от-
дельного случая. Таким образом, примерно в 95 случаях из 100 случай с данными значениями незави-
симых переменных будет находиться внутри рассчитанных границ предсказания. Интервал предсказа-
ния будет шире (менее определенным), чем доверительный интервал, поскольку он имеет дело с оцен-
кой интервалов отдельных случаев, а не средних значений. В SPSS выберите Анализ, Регрессия, Ли-
нейная; щелкните Сохранить; под «Интервалы предсказания» отметьте Отдельный, а справа от «Дове-
рительный интервал» установите уровень, который вам нужен (напр., 95%).

F-тест используется для проверки значимости R, что то же самое, что проверка значимости R2, а также провер-
ка значимости регрессионной модели в целом. Если вероятность (F) < .05, то модель считается значительно
лучшей, чем этого можно было бы ожидать случайно, и поэтому мы отвергаем нулевую гипотезу об отсутствии
линейной связи между y и независимыми переменными. F есть функция от R2, количества независимых пере-
менных и количества случаев. F рассчитывается с учетом k и (n – k – 1) степенями свободы, где k количество
членов в уравнении без учета константы.

F = [R2/k]/[(1 - R2 )/(n - k - 1)].

В SPSS F-тест появляется в таблице ANOVA, являющейся частью выводимых результатов регрессии. Следует
отметить, что F-тест оказывается слишком мягким для ступенчатого метода оценки коэффициентов регрессии,
и поэтому здесь рекомендуется использовать скорректированный F (см. Tabachnick & Fidell, 2001, p,143 и Таб-
лица C.5). В SPSS выберите Анализ, Регрессия, Линейная; щелкните Статистики; убедитесь, что отмечено Со-
ответствие модели, чтобы получить таблицу ANOVA и F-тест.
Частичный F-тест [partial F-test]. Используется для оценки значимости различий двух R2 для вложенных моде-
лей [nested models]. Термином вложенный обозначаются модели, одна из которых является подмножеством
другой, как модель с и модель без членов взаимодействия. Или же можно оценить уникальные влияния незави-
симых переменных, реализовав модель с и без данной независимой переменной, после чего применить частич-
ный F-тест для проверки значимости различий. В этом смысле F играет решающую роль процессе моделирова-
ния на основе метода проб-и-ошибок.

Пусть q будет большая модель, а b вложенная меньшая модель.


Пусть RSSp будет остаточной суммой квадратов (отклонением) [residual sum of squares (deviance)] мень-
шей модели.
Пусть RSSq будет остаточная сумма квадратов большей модели.
Частичный F имеет df1 и df2 степеней свободы, где
df1 = df для RSSp минус RSSq
df2 = df RSS в большей модели (RSSq).
Частичный F = (RSSp - RSSq)/(df1*[RSSq/df2])

В SPSS 13 запустите Анализ, Регрессия, Линейная для большей и меньшей моделей. Таблица ANOVA, появля-
ющаяся в выводимых результатах по умолчанию, покажет сумму квадратов (RSS) с соответствующими df. Вве-
дите эти значения в верхнее уравнение, чтобы рассчитать частичный F для проверки различий между моделя-
ми, а затем найдите вероятность (F) [prob (F)] в таблице F с df1, df2 степенями свободы. Альтернативное урав-
нение для проверки значимости различий моделей приводится ниже. (Как проверить значимость различий
между двумя R-квадратами?»)

OLS означает «обычные наименьшие квадраты» [ordinary least squares]. Такое название вытекает из критерия,
используемого для проведения наиболее оптимальной линии регрессии: такой линии, где сумма квадратов от-
клонений расстояний всех точек от этой линии является минимальной.

Выбросы [outliers] - это точечные наблюдения, которые выходят за пределы общего линейного паттерна, кото-
рый представляет линия регрессии. «Правило большого пальца» состоит в том, чтобы считать выбросами те то-
чечные наблюдения, чьи стандартизованные остатки превышают 3.3 (корреспондирующие с уровнем альфа
.001). SPSS покажет их список, если вы отметите Диагностику случаев [casewise diagnostics], щелкнув кнопку
Статистики. Иногда удаление выбросов из набора данных может существенно влиять на эффективность регрес-
сионной модели. Выбросы следует удалять, если имеются основания полагать, что другие переменные, не
включенные в модель, объясняют, почему случаи таких выбросов являются необычными – иными словами, эти
случаи нуждаются в отдельной модели. Или выбросы могут наводить на мысль, что в данную модель нужно
ввести дополнительные объяснительные переменные (т.е., модель требует повторной спецификации). Еще одна
альтернатива заключается в использовании устойчивой регрессии [robust regression], алгоритм которой придает
выбросам меньший вес, но не удаляет их (см. дальнейшее обсуждение ниже в разделе «Гомоскедастичность»).

Стьюдентизованные остатки [studentized residuals] и удаленные стьюдентизованные остатки [deleted studen-


tized residuals] также используются для выявления высоко влиятельных выбросов. «Стьюдентизованный оста-
ток» – это наблюдаемый остаток, деленный на стандартное отклонение. «Удаленный стьюдентизованный оста-
ток», также называемый «обрезанный остаток» [jackknife residual] - это наблюдаемый остаток, деленный на
стандартное отклонение, рассчитанный после удаления из анализа данного наблюдения. Анализ выбросов
обычно фокусируется на удаленных остатках. Другими синонимами являются внешне стьюдентизованный
остаток [extermally studentized residual] или, неверно, стандартизованный остаток [standardized residual].
Возле каждого остатка будет приведено t-значение с df = n – k – 1, где k количество независимых переменных.
Когда t превышает критическое значение на принятом уровне альфа (напр., .05), тогда этот случай рассматрива-
ется как выброс. В диаграмме удаленных стьюдентизованных остатков против обычных остатков можно про-
чертить линии вдоль отметок плюс и минус две стандартных единицы, чтобы выделить случаи, выходящие за
пределы диапазона, в котором лежат 95% нормальных случаев; точки, значительно отклоняющиеся от прямой
линии, являются потенциально влиятельными проблемами [leverage problems]. В SPSS 13 выберите Анализ, Ре-
грессия, Линейная; щелкните Сохранить; отметьте Стьюдентизованные остатки, чтобы добавить эти значения к
вашим данным в качестве дополнительного столбца.

Диаграммы частичной регрессии [partial regression plots], также называемые диаграммами влияния частичной
регрессии [partial regression leverage plots] или диаграммами добавленной переменной [added variable plots], яв-
ляются еще одним способом выявления наборов влиятельных случаев. Диаграммы частичной регрессии пред-
ставлены последовательностью двумерных диаграмм регрессии зависимой переменной с каждой независимой
переменной. Эти диаграммы показывают случаи номером или ярлыком вместо точек. Они позволяют осу-
ществлять поиск случаев, которые являются выбросами во всех или в большинстве диаграмм. В SPSS 13 выбе-
рите Анализ, Регрессия, Линейная; щелкните Диаграммы; отметьте Произвести все частичные диаграммы.
Мультиколлинеарность [multicollinearity] – это интеркорреляция независимых переменных. R-квадраты,
близкие к единице нарушают допущение об отсутствии абсолютной мультиколлинеарности, а высокие R-
квадраты увеличивают стандартную ошибку коэффициентов бета и делают оценку уникальной роли каждой не-
зависимой переменной трудной или невозможной. (См. «Отсутствие высокой частичной мультиколлинеарно-
сти» в разделе «Допущения».) Хотя о мультиколлинеарности могут говорить уже простые корреляции, более
предпочтительный способ ее оценки состоит в регрессировании каждой независимой на все другие независи-
мые переменные в данном уравнении. Изучение корреляционной матрицы выявляет только двумерную мульти-
коллинеарность, типичным критерием которой служит присутствие в таблице двумерных корреляций > .90. За-
метьте, что неизбежным следствием является то, что очень высокие стандартные ошибки коэффициентов b ста-
новятся показателем мультиколлинеарности в данных. Для оценки многомерной мультиколлинеарности ис-
пользуют толерантность или VIF, которые рассчитываются путем регрессирования каждой независимой пере-
менной на все остальные. Заметьте, что даже когда мультиколлинеарность присутствует, она не влияет на
оценки важности других переменных в уравнении (на переменные, которые не являются коллинеарными с дру-
гими). Смотрите дальнейшее обсуждение в файле «Проверка допущений в SPSS». Стратегии устранения муль-
тиколлинеарности описываются в частых вопросах (См. вопрос «Что можно сделать, чтобы справиться с муль-
тиколлинеарностью?»).

Типы мультиколлинеарности. Тип мультиколлинеарности имеет большое значение. Некоторые типы могут
становиться специальной целью исследования! Смотри их обсуждение в разделе Допущения («Отсутствие вы-
сокой частичной мультиколлинеарности»).

 Толерантностью [tolerance] является 1 – R2 регрессии данной независимой переменной на все другие


независимые переменные без учета зависимой переменной. Существует столько же коэффициентов то-
лерантности, сколько независимых переменных. Чем выше интеркорреляция независимых переменных,
тем больше толерантность будет приближаться к нулю. «Правило большого пальца»: на существование
проблемы мультиколлинеарности указывает коэффициент толерантности < .20. В SPSS выберите Ана-
лиз, Регрессия, Линейная; щелкните Статистики; отметьте Диагностика коллинеарности, чтобы полу-
чить толерантность.

Когда толерантность приближается к нулю, это говорит о высокой мультиколлинеарности данной не-
зависимой переменной с другими независимыми переменными, и коэффициенты b и бета будут оказы-
ваться неустойчивыми. Чем больше мультиколлинеарность, тем ниже толерантность, и тем выше стан-
дартная ошибка коэффициентов регрессии. Толерантность является частью знаменателя в формуле для
вычисления доверительных границ для коэффициента b (частной регрессии).

 Фактор инфляции дисперсии [variance-inflation factor], VIF. VIF – показатель, противоположный по


смыслу толерантности. Поэтому высокие значения VIF говорят о высокой мультиколлинеарности и не-
устойчивости коэффициентов b и бета. VIF и толерантность находятся в выводимых SPSS результатах
в разделе статистики коллинеарности. Приведенная ниже таблица показывает инфляционное влияние
на стандартную ошибку коэффициента регрессии (b) i-той независимой переменной для различных
уровней множественной корреляции (Rj), толерантности и VIF (цит. по Fox, 1991, р. 12). В SPSS выбе-
рите Анализ, Регрессия, Линейная; щелкните Статистики; отметьте Диагностика коллинеарности, что-
бы получить VIF. Заметьте, что 1.00 в столбце «Влияние на SE» [Impact on SE] корреспондирует с от-
сутствием влияния, 2.00 с удвоением стандартной ошибки и т.д.

Rj Tolerance VIF Impact on SEb


.00 1.00 1.00 1.00
.40 .84 1.19 1.09
.60 .64 1.56 1.25
.75 .44 2.25 1.50
.80 .36 2.78 1.67
.87 .25 4.00 2.00
.90 .19 5.26 2.29

Стандартная ошибка удваивается, когда VIF достигает 4.00 и толерантность .25, корреспондируя с Rj
=.87. Поэтому VIF > = 4.00 является условным, но широко принятым критерием для решения о том, ко-
гда данная независимая переменная начинает демонстрировать «слишком большую» мультиколлине-
арность: значения, превышающие 4, указывают на существование проблемы мультиколлинеарности.
Некоторые исследователи используют более мягкий критерий 5 или даже 10 в качестве показателя
проблемы мультиколлинеарности. Исследователь может удалить переменную с самым высоким VIF,
если он обнаруживает мультиколлинеарность, и если это не противоречит теоретическим ожиданиям.
 Таблица диагностики коллинеарности [collinearity diagnostics table] в SPSS является альтернативным
способом оценки присутствия в модели слишком высокой мультиколлинеарности. Говоря коротко,
взаимные произведения [crossproducts] независимых переменных подвергаются факторному анализу. В
результате получается столько же факторов, сколько независимых переменных плюс один (для кон-
станты). Высокие собственные значения [eigenvalues] указывают на измерения (факторы), которые
объясняют основной объем дисперсии в матрице взаимных произведений. Собственные значения,
близкие к 0, указывают на измерения, которые объясняют лишь небольшой объем дисперсии. Множе-
ство собственных значений, близких к 0, указывает на плохое качество матрицы взаимных произведе-
ний [ill-conditioned crossproduct matrix], что говорит о возможном существовании мультиколлинеарно-
сти, и тогда следует проверить показатели состояния, как это описано ниже.

Показатели состояния и пропорции дисперсии [condition indices and variance proportions]. Пока-
затели состояния используются для выявления высокой коллинеарности в данных. Показатель со-
стояния свыше 30 указывает на серьезные проблемы коллинеарности, а показатель свыше 15 на
возможные проблемы коллинеарности. Если какой-то фактор (компонент) имеет высокий показа-
тель состояния, следует заглянуть в столбец пропорций дисперсии. Критерии «значительной про-
порции» варьируются среди исследователей, но наиболее распространенный, когда две или более
переменных имеют пропорцию дисперсии от .50 и более по фактору с высоким показателем состо-
яния. В таком случае эти переменные характеризуются высокой линейной зависимостью, и суще-
ствует проблема мультиколлинеарности, в результате чего даже небольшие изменения в данных
или арифметические ошибки могут превращаться в очень большие изменения или ошибки в ре-
грессионном анализе. Заметьте, что существует возможность, что «правило большого пальца» для
показателей состояния (отсутствие показателя свыше 30) будет указывать на существование муль-
тиколлинеарности, даже когда «правила большого пальца» для толерантности > .20 или VIF < 4 го-
ворят о ее отсутствии. Математически, «единичное значение» [singular value] есть квадратный ко-
рень из собственного значения, а «показатели состояния» есть отношение наибольших единичных
значений с каждым другим единичным значением. В SPSS выберите Анализ, Регрессия, Линейная;
щелкните Статистики; отметьте Диагностика коллинеарности, чтобы получить показатели состоя-
ния. Для более подробного обсуждения см. Belsley, Kuh & Welsch (1980).

Ступенчатая множественная регрессия [stepwise multiple regression], называемая также статистической ре-
грессией [statistical regression], это способ пошагового расчета регрессии OLS. На первом шаге в уравнение
включается независимая переменная, лучше всего коррелирующая с зависимой переменной. На втором шаге
вводится следующая независимая переменная с наиболее высокой частной корреляцией с зависимой перемен-
ной, с контролем первой независимой переменной. Этот процесс повторяется, с сохранением на каждом шаге
ранее введенных переменных, до тех пор, пока добавление оставшихся независимых переменных не перестает
значимо увеличивать R-квадрат (или, конечно, пока не закончатся переменные). Или этот процесс может рабо-
тать в обратном направлении: начаться со всех переменных с последующим удалением по одной независимой
переменной по одной на каждом шаге, пока оно не приводит к значимым изменениям в R-квадрате. В SPSS вы-
берите Анализ, Регрессия, Линейная; справа от «Метод» выберите Ступенчатая.

 Ступенчатая регрессия и теория. Ступенчатая регрессия используется на поисковой стадии исследо-


вания или исключительно в целях прогнозирования, но не для проверки теории. На стадии проверки
теории исследователь должен обосновать выбор переменных и порядок их следования на основе тео-
рии, а не на основе компьютерного алгоритма. Менард (1995, р. 54) пишет: «существует общая догово-
ренность, что использование компьютерных ступенчатых процедур выбора переменных не годится для
проверки теории, поскольку это накапливает случайные вариации в данных и приводит к результатам,
которые зачастую оказываются идиосинкразическими и не воспроизводятся в любой другой выборке
кроме той, в которой они были получены». Кроме того, условный уровень значимости .05, используе-
мый на каждом шаге ступенчатой регрессии, подвержен инфляции, в результате чего реальный уровень
значимости к последнему шагу может оказываться гораздо хуже, даже ниже .50, что значительно уве-
личивает вероятность возникновения ошибок I типа. (См. Draper, N.R., Guttman, I. & Lapczak, L., 1979.)
Поэтому Фокс (1991, р. 18) настоятельно рекомендует любую ступенчатую модель подвергать пере-
крестной валидизации [cross-validation] (см. раздел «Допущения»).

 Другие проблемы ступенчатой регрессии. Грубо подгоняя регрессионные модели к исходным данным,
ступенчатые методы могут переоценивать качество данных, снижая надежность генерализации полу-
ченных результатов на другие наборы данных. Неизбежным следствием ступенчатых методов является
то, что они приводят к оценкам R2, которые оказываются слишком высокими, тестам значимости, ко-
торые оказываются слишком мягкими (повышают вероятность ошибки I типа), и доверительным ин-
тервалам, которые оказываются слишком узкими. К тому же, мультиколлинеарность влияет на ступен-
чатые методы даже больше, чем на обычные методы.
 Искусственные переменные в ступенчатой регрессии. Заметьте, что если при выполнении ступенчатой
процедуры используются наборы искусственных переменных, они должны добавляться или исклю-
чаться не по одной переменной, а по блокам. А поскольку не существует автоматического способа до-
бавлять или удалять блоки искусственных переменных; SPSS будет интерпретировать каждую искус-
ственную переменную, как если бы она была обычной переменной. То есть, при использовании искус-
ственных переменных следует реализовать последовательность создаваемых вручную уравнений, ко-
торые добавляют или удаляют наборы искусственных переменных по блокам.

Иерархическая множественная регрессия [hierarchical multiple regression] (не смешивать с иерархическими


линейными моделями, см. файл «Смешанные линейные модели в SPSS») похожа на ступенчатую регрессию,
однако порядок ввода переменных в данном случае определяет исследователь, а не компьютер. Для определе-
ния значимости каждой добавляемой переменной (или набора переменных) в объяснении R-квадрата исполь-
зуются F-тесты. («Как проверить значимость различий между двумя R-квадратами?») Такая иерархическая
процедура является альтернативой сравнению бета-весов с целью оценки важности независимых переменных.
В более сложных формах иерархической регрессии проверяемая модель может включать ряд промежуточных
переменных, которые, будучи зависимыми в отношении некоторых других независимых переменных, являются
независимыми в отношении конечной зависимой переменной. В таких случаях в иерархической множественной
регрессии могут использоваться последовательности регрессий не только для конечной зависимой переменной,
но и для каждой промежуточной переменной.

Для выполнения иерархической множественной регрессии в SPSS сначала укажите зависимую пере-
менную; затем в окне независимых переменных введите первую независимую переменную или набор
переменных; щелкните Дальше, чтобы очистить окно независимых переменных и введите вторую пе-
ременную или набор переменных и т.д. Затем щелкните кнопку Статистики и выберите Изменение R-
квадрата. Заметьте, что член ошибки будет меняться для каждого блока или шага иерархического ана-
лиза. Если это нежелательно, этого можно избежать, выбрав Статистики, Общая линейная модель,
GLM-Общий факторный, затем укажите «Суммы квадратов I типа» [Type I sums of squares]. Это позво-
лит получить результаты GLM, аналогичные иерархической регрессии, но с теми же самыми членами
ошибки в каждом блоке.

Регрессия с панельными данными [panel data regression].


Панельные данные содержат межсубъектную (сравнительную) информацию об индивидах, получен-
ную в какой-либо определенный период времени, а также внутрисубъектную информацию о тех же са-
мых индивидах, полученную в разные периоды времени. В обычной множественной регрессии с попе-
речными данными, полученными в один период времени (межсубъектными данными), исследователь
стремится, чтобы в модели были представлены все важные переменные, поскольку плохая специфика-
ция модели может радикально менять регрессионные коэффициенты. Однако в случае внутрисубъект-
ных данных тех же самых индивидов за различные периоды времени люди сами контролируют те не-
наблюдаемые переменные, которые не представлены в модели: нам не обязательно знать, что это за пе-
ременные, достаточно одного предположения, что они одинаково влияют на тех же самых индивидов в
каждый период времени. Регрессия с панельными данными использует такую внутрисубъектную ин-
формацию за различные периоды времени для корректировки стандартных ошибок переменных и, тем
самым, для корректировки самого анализа результатов.

Регрессионные модели с панельными данными могут быть трех типов: с фиксированными, изменяю-
щимися и случайными эффектами.

1. Модели с фиксированными эффектами [fixed effects models] исходят из предположения, что


ненаблюдаемые переменные различаются между индивидами, но остаются постоянными во време-
ни у отдельного индивида. Концептуально, это как если бы вы создали для каждого индивида ис-
кусственную переменную, чтобы проконтролировать в стандартном регрессионном уравнении эф-
фекты специфического индивида. Фиксированные эффекты являются наиболее распространенным
типом регрессионной модели с панельными данными. Заметьте, что можно создать набор искус-
ственных переменных для реализации регрессии с фиксированными эффектами времени, чтобы
изучить эффекты временных периодов.

2. Модели с изменяющимися эффектами [between effects models] исходят из предположения, что


ненаблюдаемые переменные различаются во времени, но остаются постоянными у разных индиви-
дов в отдельный период времени. Концептуально, это как если бы вы рассчитали для каждого слу-
чая среднее значение каждой переменной по всем периодам времени, что дало бы вам набор дан-
ных с одним значением переменной (средним) для каждого случая, а затем реализовали регрессию
для этого сжатого набора данных. Из-за потери информации при таком методе модели с изменяю-
щимися эффектами редко встречаются в социальных науках, за исключением их использования в
моделях со случайными эффектами, комбинирующих фиксированные и изменяющиеся эффекты.

3. Модели со случайными эффектами [random effects models] исходят из предположения, что не-
наблюдаемые переменные могут характеризоваться либо фиксированными, либо изменяющимися
типами эффектов. При выборе случайных эффектов рассматривается взвешенное среднее фиксиро-
ванных и изменяющихся эффектов. С одной стороны, модели со случайными эффектами оказыва-
ются мощнее моделей со смешанными эффектами, поскольку в них учитываются эффекты обоих
типов. С другой стороны, модели со случайными эффектами требуют допущения о том, что фикси-
рованные эффекты не коррелируют с возмущениями [disturbances], отражаемыми в изменяющихся
эффектах. Если они коррелируют, это будет приводить к искаженным результатам, даже если такие
модели оказываются более мощными – выигрыш, не оправдывающий затрат. Поэтому некоторые
исследователи утверждают, что модели со случайными эффектами подходят только для данных
рандомизированных экспериментов с панелями индивидов. Рандомизация с экспериментальными и
контрольными группами гарантирует, что фиксированные эффекты, связываемые с индивидами/
случаями, не будут коррелировать с межгрупповыми эффектами экспериментального воздействия.

Тест Хаусмана [Hausman test] – это критерий, используемый для выбора того, применять в данном
конкретном случае обычную модель с фиксированными эффектами или модель со случайными эффек-
тами. Значимые результаты теста Хаусмана указывают на то, что исследователю следует использовать
модель с фиксированными эффектами; незначимые указывают на возможность использования более
мощной модели со случайными эффектами.

Статистические программы. Регрессионный анализ с панельными данными эксплицитно поддержи-


вается в Stata, однако можно создавать модели с панельными данными в SAS и SPSS.

ДОПУЩЕНИЯ

Надлежащая спецификация модели [proper specification of the model]. Если в модели не учтены релевантные
переменные, общая дисперсия, которую они разделяют с включенными переменными, может ошибочно припи-
сываться не релевантным переменным, и этим увеличивать член ошибки [term error]. Если в модель включены
не релевантные каузальные переменные, общая дисперсия, которую они разделяют с включенными перемен-
ными, может ошибочно приписываться этим не релевантным переменным. Чем выше корреляция не релевант-
ной переменной (переменных) с другими независимыми переменными, тем выше стандартные ошибки коэф-
фициентов регрессии этих независимых переменных. Неучет и иррелевантность могут существенно влиять на
величину коэффициентов b и бета. Это одна из причин, по которой регрессию лучше использовать для оценки
сравнительного соответствия двух моделей, чем для установления валидности какой-то одной модели.

Примечание. Добавление переменных в модель всегда будет улучшать R2, хотя бы даже и ненамного, однако
это влечет за собой риски плохой спецификации [misspecification] и не гарантирует сохранения такого улучше-
ния R2 в других наборах данных, собираемых впоследствии. То есть, это может повышать чувствительность мо-
дели к шумам в имеющемся наборе данных и в действительности снижать ее надежность.

Иногда спецификация понимается как допущение о том, что «независимые переменные измеряются без ошиб-
ки». Ошибка, возникающая в результате неучета важных каузальных переменных, подразумевает, что коэффи-
циенты b будут искажаться в степени, в которой эти не измерявшиеся переменные коррелируют с измерявши-
мися переменными, присутствующими в модели. Если эта корреляция позитивна, то коэффициенты b будут
слишком высокими, если негативна, слишком низкими. То есть, когда в модель включается важная каузальная
переменная, которая коррелирует с присутствующими в модели переменными (что является обычной ситуаци-
ей), то все коэффициенты b будут изменяться.

 Иллюзорность [spuriousness]. Эта проблема спецификации в регрессии аналогична проблеме иллюзор-


ности в корреляции, где рассматриваемая двумерная корреляция может преувеличиваться, поскольку в
модель не были введены контрольные переменные на основе метода частной корреляции [partial corre-
lation]. Например, регрессирование роста на длину волос будет генерировать значимый коэффициент b,
но только когда в специфицируемой модели не учитывается гендер (женщины ниже мужчин, но носят
более длинные волосы).

 Подавление [suppression]. Следует отметить, что когда не учитывается переменная, имеющая подавля-
ющее влияние, коэффициенты в модели могут скорее недооценивать, чем переоценивать влияние
включенных переменных на зависимую переменную. Подавление происходит, когда не учтенная пере-
менная оказывает позитивное каузальное влияние на включенную независимую и негативное влияние
на включенную зависимую переменную (или наоборот), маскируя тем самым влияние независимой пе-
ременной, которое та бы оказывала на зависимую, если бы не существовало этой третьей переменной.

Линейность [linearity]. Регрессионный анализ является линейной процедурой. Поэтому традиционный регрес-
сионный анализ будет недооценивать связи в той степени, в которой они являются нелинейными. То есть, R-
квадрат будет недооценивать объясняемую общую дисперсию, а бета-веса недооценивать важность перемен-
ных, участвующих в нелинейной связи. Значительные нарушения линейности делают непригодными результа-
ты регрессионного анализа. Небольшие нарушения линейности не будут существенно влиять на интерпретацию
результатов регрессии. Поэтому при использовании регрессионных моделей важной исследовательской задачей
становится проверка допущения о линейности связей. Для проверки линейного характера связей в наборе дан-
ных можно обратиться к процедуре «Оценка кривых» [curve estimation]. (См. файл «Оценка кривых в SPSS».)

«Правило большого пальца» состоит в том, что нелинейность в регрессии не оказывается проблемой, если
стандартное отклонение зависимой переменной превышает стандартное отклонение остатков. Линейность да-
лее обсуждается в файле «Проверка допущений в SPSS». Следует отметить, что для приспособления сглажен-
ных кривых к нелинейным паттернам связей существуют процедуры сглаживания [smoothing techniques] и не-
параметрическая регрессия [nonparametric regression]. (См. вопросы «Что такое сглаживание в регрессии и как
ее использовать для обращения с нелинейностями в регрессиях OLS?» и «Что такое непараметрическая регрес-
сия нелинейных связей?»)

 Нелинейные преобразования [nonlinear transformations]. Когда присутствует нелинейность, существу-


ет возможность исправить ситуацию за счет использования экспоненциальных или взаимодействую-
щих членов. Нелинейные преобразования выбранных переменных могут совершаться на предвари-
тельном этапе, до включения в регрессионное уравнение, однако имейте в виду, что это влечет за собой
опасность чрезмерного приспособления модели к тому, что в действительности является случайными
вариациями в данных. Степенные и другие преобразованные члены следует добавлять лишь тогда, ко-
гда на это имеются теоретические основания. Добавление таких членов повышает риск возникновения
мультиколлинеарности. Один из способов предотвращения такой возможности заключается в центра-
ции [centering] включаемых степенных членов (вычитании из каждой оценки среднего значения). Цен-
трация не влечет изменений в коэффициентах корреляции и не стандартизованных коэффициентах b.

 Диаграммы частичной регрессии [partial regression plots] часто используются для оценки нелинейно-
сти. Они представляют собой систему координат с каждой независимой переменной на оси x, и зависи-
мой переменной на оси y. Наличие кривизны в паттерне точек в диаграмме частичной регрессии гово-
рит о существовании нелинейной связи между зависимой и какой-либо другой отдельно взятой незави-
симой переменной. Следует отметить, однако, что диаграммы частичной регрессии лучше использо-
вать для выявления влиятельных случаев [cases with high leverage], тогда как для выявления нелиней-
ностей лучше использовать диаграммы частичных остатков (см. ниже).

 Диаграммы частичных остатков [partial residual plots], также называемые диаграммами компонента-
плюс-остатка [component-plus-residual plots], являются предпочтительным способом оценки нелиней-
ности. Частичный остаток [partial residual] данной независимой переменной представляет собой оста-
ток плюс произведение коэффициента b на наблюдаемую оценку этой независимой переменной. То
есть, частичные остатки добавляют линейный компонент независимой переменной назад в остаток (от-
сюда название «диаграммы компонента-плюс-остатка»). Диаграмма частичного остатка располагает
данную независимую переменную на оси y, а корреспондирующий остаток на оси x. Для каждой неза-
висимой переменной выводится одна диаграмма частичного остатка. Диаграммы частичных остатков
обладают над диаграммами частичной регрессии тем преимуществом, что ось y инкорпорирует коэф-
фициент b, который, в свою очередь, отражает как независимую переменную, так и контролируемые
влияния на нее со стороны других независимых переменных. Наклон частичных остатков будет тем же
самым, что и у самой регрессии, однако можно провести нижнюю сглаживающую линию [lowess
smoothing line], позволяющую подчеркнуть кривизну данных. Кривизна диаграмм частичных остатков
позволяет иллюстрировать как монотонные (опускающиеся или поднимающиеся), так и не монотонные
(опускающиеся или поднимающиеся) нелинейности.

 Диаграммы простых остатков [simple residual plots] также иллюстрируют нелинейность, но не отли-
чают монотонную от не монотонной нелинейности. Они представляют собой систему координат со
стандартизованными остатками и стандартизованными оценками Y, зависимой переменной. В SPSS
они обозначаются как ZRESID против ZPRED. Некоторые авторы предпочитают диаграмму стьюден-
тизованных остатков (сохраняемых как sre_1) по оси Y против не стандартизованных прогнозируемых
значений по оси Х. Такая диаграмма должна показывать случайный паттерн, без линейности или го-
москедастичности. На жаргоне, он показывает вектор ошибок, ортогональный вектору оценок. Нели-
нейность, разумеется, обнаруживается, когда точки образуют кривую. Не нормальность обнаруживает-
ся, когда точки не поровну располагаются выше и ниже 0 линии оси Y. Не гомоскедастичность обна-
руживается, когда точки принимают колоколообразную (воронкообразную) или другую форму, пока-
зывающую изменения в дисперсии при продвижении вдоль оси Y.

Не-рекурсивность [non-recursivity]. Зависимая переменная также не может быть одновременно причиной од-
ной или нескольких независимых переменных. Это также называется допущением не-одновременности или от-
сутствия совместной зависимости. Нарушение этого допущения приводит к искажению регрессионных оценок
и ненадежности результатов тестов на значимость.

Отсутствие чрезмерного соответствия [no overfitting]. Исследователь добавляет переменные в уравнение в


расчете, что каждое добавление значимо увеличивает R-квадрат. Однако существует соблазн добавить слишком
много переменных, чтобы как можно больше повысить R-квадрат. Такое стремление приводит к приспособле-
нию модели к шумам в исходных данных, нежели к выявлению действительных взаимосвязей. Последующее
применение такой модели к другим данным может приводить к заметному уменьшению R-квадрата.

 Перекрестная валидизация [cross-validation] – это стратегия, помогающая избежать чрезмерного при-


способления. При перекрестной валидизации с целью формирования модели берется часть выборки
(обычно от 60% до 80%), после чего другая ее часть (от 20% до 40%) используется для проверки устой-
чивости R-квадрата. Это может реализовываться последовательно в отношении каждой альтернативной
модели до тех пор, пока не будут достигнуты устойчивые результаты.

Непрерывные данные [continuous data] требуются (шкала интервалов или отношений), хотя довольно широко
используются порядковые данные. Искусственные переменные представляют особый случай, и допускается их
использование в регрессиях OLS как независимых переменных. Дихотомические данные могут использоваться
в качестве независимых переменных, но не как зависимые переменные. Обычно дихотомические переменные
кодируются 0 или 1, где единица указывает на присутствие данного влияния, а 0 на его отсутствие. Использо-
вание дихотомических зависимых переменных в регрессиях OLS нарушает допущения относительно нормаль-
ности и гомоскедастичности, поскольку нормальное распределение невозможно с только двумя переменными.
Также, когда переменная может принимать только два значения, 0 или 1, остатки будут низкими для частей ли-
нии регрессии возле Y = 0 и Y = 1, и высокими посередине – в результате член ошибки будет нарушать допуще-
ние о гомоскедастичности (равенстве дисперсий), когда дихотомическая переменная используется в качестве
зависимой. Из-за отсутствия гомоскедастичности стандартные ошибки и тесты на значимость будут искажаться
даже на больших выборках.

Неограниченные данные [unbound data] – это допущение. То есть, линию регрессии, построенную OLS, мож-
но экстраполировать в оба направления, но это имеет смысл только в пределах верхней и нижней естественных
границ зависимой переменной.

Данные не являются цензурированными, избирательно извлекаемыми или усеченными [censored, sample


selected, or truncated]. Существует столько же наблюдений независимых переменных, сколько зависимых. Сжа-
тие интервальной переменной в меньшее число категорий приводит к ее ослаблению, и будет снижать R2. (Для
более подробного обсуждения см. вопрос «Что делать, если количество наблюдений по независимым перемен-
ным превышает количество наблюдений по зависимым?»)

Отсутствие абсолютной мультиколлинеарности [absence of perfect multicollinearity]. При абсолютной муль-


тиколлинеарности не существует единственного регрессионного решения. Абсолютная мультиколлинеарность
возникает, когда независимые переменные являются линейной функцией друг друга (напр., возраст и год рож-
дения), когда исследователь создает искусственные переменные для всех значений категориальной переменной,
не удаляя одного из них, и когда имеется меньше наблюдений, чем переменных.

Отсутствие высокой частичной мультиколлинеарности [absence of high partially multicollinearity]. При нали-
чии высокой, но не абсолютной мультиколлинеарности решение возможно, но с усилением корреляции между
независимыми переменными стандартные ошибки коэффициентов регрессии будут завышаться [will become in-
flated]. Высокая мультиколлинеарность не искажает оценки коэффициентов, а только их надежность. Это озна-
чает, что становится трудно оценить сравнительную важность независимых переменных с использованием бе-
та-весов. Это также означает, что даже небольшое количество несогласованных случаев способно серьезно по-
влиять на результаты. Важность этого допущения зависит от типа мультиколлинеарности. В проводимом ниже
обсуждении термин «независимые» относится к переменным в правой части регрессионного уравнения, дру-
гим, нежели контрольные переменные.

 Мультиколлинеарность независимых переменных. Этот тип мультиколлинеарности вызывает наиболь-


шие проблемы, поскольку он завышает стандартные ошибки и снижает надежность оценки сравни-
тельной важности независимых переменных. Однако в случаях, когда целью является чистое прогнози-
рование (в противоположность каузальному анализу), можно отметить, что высокая мультиколлинеар-
ность независимых переменных не влияет на эффективность регрессионных оценок.

 Мультиколлинеарность независимых компонентов конструкта. Когда две или более независимых пе-
ременных являются компонентами шкалы, показателя или другого конструкта, высокая интеркорреля-
ция между ними естественна и желательна. Это не рассматривается как «мультиколлинеарность», од-
нако «Диагностика коллинеарности» может сообщать о ее присутствии. Обычно исследователь объ-
единяет такие наборы переменных в шкалы или показатели перед реализацией регрессии, но иногда он
может предпочесть вводить их по отдельности и интерпретировать их как блок.

 Мультиколлинеарность взаимных произведений независимых переменных. Сходным образом, члены


взаимодействия могут высоко коррелировать с членами отдельных компонентов этого взаимодействия.
Это естественно и обычно не рассматривается как «мультиколлинеарность», однако «Диагностика кол-
линеарности» может сообщать о ее присутствии.

 Мультиколлинеарность степенных членов независимых переменных. Степенные члены могут коррели-


ровать с соответствующими членами первого порядка. Рекомендуется центрировать такие переменные
для устранения мультиколлинеарности, ассоциирующейся со средним значением переменной первого
порядка. Это особенно необходимо, когда среднее принимает большие значения.

 Мультиколлинерность контрольных переменных. Высокая мультиколлинеарность между контрольны-


ми переменными не влияет на результаты исследования, если исследователя не интересует оценка
сравнительной важности контрольных переменных.

 Мультиколлинеарность контрольных переменных с независимыми. Это не обязательно вызывает про-


блемы, а скорее может означать, что контрольные переменные оказывают сильное влияние на незави-
симые, и, следовательно, независимые переменные менее важны, чем их неконтролируемая связь с за-
висимой переменной.

 Мультиколлинеарность независимых или контрольных переменных с зависимой. Это вызывает пробле-


мы, если такая высокая корреляция не указывает на пересечение понятий, так что столь тесная связь в
действительности является тавтологическим артефактом. Или же высокая корреляция независимых пе-
ременных с зависимой просто означает, что модель объясняет очень большую часть дисперсии в зави-
симой переменной. Высокая корреляция контрольных переменных объясняется их сильным влиянием
на независимые переменные. Этот тип высокой корреляции обычно не рассматривается как «мульти-
коллинеарность».

Одинаковый тип распределения [same underlying distribution] предполагается для всех переменных. Если рас-
пределение независимой переменной отличается от распределения зависимой (напр., бимодальное против нор-
мального), тогда единица увеличения в независимой переменной будет оказывать нелинейные влияния на зави-
симую. Даже когда пары независимых/ зависимых данных расположены в идеальном порядке, единицу измене-
ния в независимой переменной невозможно связать с фиксированными линейными изменениями в зависимой.
Например, идеальное упорядочение бимодальной независимой переменной с нормальной зависимой будет ге-
нерировать S-образную диаграмму рассеяния [s-shaped scatterplot], не имеющую линейного решения. Линейная
регрессия будет недооценивать корреляцию независимой и зависимой переменной, если те основаны на разных
распределениях.

 Многомерная нормальность [multivariate normality]. Наиболее важные статистики опираются на нор-


мальное распределение. Поэтому от данных чаще всего требуется, чтобы они подчинялись нормально-
му распределению. Строго говоря, зависимая переменная должна нормально распределяться для каж-
дого сочетания значений независимых переменных. Это называется «многомерной нормальностью».
Однако большинство исследователей ограничиваются установлением одномерной нормальности каж-
дой независимой переменной.

 Преобразования [transforms]. Иногда для приведения всех переменных к нормальному распределению


используются преобразования. Например, извлечение квадратного корня, логарифмическое и обратные
(х = 1/х) преобразования позволяют корректировать позитивное [skew distribution], а степенное нега-
тивное смещение распределения. Однако в результате таких преобразований теряется часть информа-
ции из оригинальной шкалы.

Нормально распределенная остаточная ошибка [normally distributed residual error]. Ошибка, репрезентиро-
ванная остатками, должна нормально распределяться для каждого набора значений независимой переменной.
Гистограмма стандартизованных остатков [histogram of standardized residuals] должна демонстрировать прибли-
зительно нормальную кривую. Или с той же целью может использоваться диаграмма нормальной вероятности
[normal probability plot] с наблюдаемыми кумулятивными вероятностями появления стандартизованных остат-
ков на оси Y и ожидаемыми вероятностями появления на оси Х, где в случае подчинения наблюдаемых вероят-
ностей нормально ожидаемым, будет возникать линия под углом в 45 градусов. Сравнительно надежным кри-
терием при небольших или средних нарушениях допущения о нормальности может служить F-тест. Теорема о
центральном пределе [central limit theorem] предполагает, что даже когда ошибка не нормально распределена, а
размер выборки достаточно велик, выборочное распределение коэффициента b все равно будет нормальным.
Поэтому нарушения этого допущения обычно слабо или совсем не влияют на основательность заключений при
больших выборках, однако при небольших выборках проверка нормальности чрезвычайно важна.

В SPSS выберите Графики, Гистограмма; укажите в качестве переменной sre_1 (это стьюдентизованный оста-
ток, ранее сохраненный при нажатии кнопки Сохранить в диалоговом окне). Можно также проверить остатки
на нормальность с использованием диаграммы Q-Q: в SPSS выберите Графики, Q-Q; в списке Переменные
укажите стьюдентизованный остаток (sre_1); ОК. Если остатки нормально распределены, точки должны при-
близительно соответствовать линии под углом в 45 градусов.

Аддитивность [additivity]. Так же, регрессия не объясняет влияний взаимодействия, хотя в качестве дополни-
тельных переменных в регрессионном анализе могут создаваться члены взаимодействия (как правило, произве-
дения стандартизованных независимых переменных). Как и добавление нелинейных преобразований, добавле-
ние членов взаимодействия влечет за собой опасность чрезмерного приспособления модели к тому, что на са-
мом деле является случайными вариациями в данных. Такие члены должны добавляться лишь тогда, когда на
это есть теоретические основания. То есть, значимые, но небольшие эффекты взаимодействия членов взаимо-
действия, не включенные по теоретическим соображениям, могут являться артефактами чрезмерного приспо-
собления. Такие артефакты вряд ли будут воспроизводиться в других наборах данных.

Гомоскедастичность [homoscedasticity]. Исследователь должен убедиться, что остатки распределяются слу-


чайно вдоль всего диапазона оцениваемой зависимой переменной. Иными словами, дисперсия остаточной
ошибки должна оставаться постоянной для всех значений независимой или независимых переменных. Если это
не так, могут потребоваться отдельные модели для разных диапазонов. Также, когда нарушается допущение о
гомоскедастичности, «традиционно рассчитываемые доверительные интервалы и традиционные t-тесты для
оценок OLS больше не являются оправданными» (Berry, 1993, p. 81). Однако небольшие нарушения го-
москедастичности оказывают лишь незначительное влияние на регрессионные оценки (Fox, 2005, p. 516).

Непостоянство дисперсии ошибки можно наблюдать, если запросить диаграмму простых остатков (диаграмма
остатков по оси Y и прогнозируемых значений по оси Х). Модель гомоскедастичности обнаруживает себя скоп-
лением точек, в то время как отсутствие гомоскедастичности будет характеризоваться паттерном, наподобие
колокола (воронки), показывающим увеличение ошибки по мере увеличения значений зависимой переменной.
Непостоянство дисперсии ошибки может указывать на необходимость повторной спецификации модели с
включением в нее ранее неучтенных независимых переменных.

Отсутствие гомоскедастичности может означать (1) существование эффекта взаимодействия между измеряемой
независимой переменной и не измеряемой независимой переменной, не включенной в модель; или (2) что неко-
торые независимые переменные смещены [skewed], тогда как другие нет. Распространенный способ справиться
с гомоскедастичностью состоит в использовании вместо регрессии OLS взвешенной регрессии наименьших
квадратов [weighted least squares regression]. (См. файл «Взвешенная регрессия наименьших квадратов в SPSS».)
Она придает случаям с меньшими остатками больший вес при расчете коэффициентов b. Извлечение квадрат-
ного корня, лог и реципрокные преобразования зависимой переменной также способны снижать или устранять
отсутствие гомоскедастичности.

Отсутствие выбросов [no outliers]. Выбросы являются формой нарушения гомоскедастичности. Определяемые
на основе анализа остатков и статистик влияния [leverage statistics], это случаи с высокими остатками (ошибка-
ми), являющиеся очевидными исключениями из данного регрессионного объяснения. Выбросы могут серьезно
влиять на регрессионные коэффициенты. Набор выбросов может наводить на мысль о необходимости отдель-
ного объяснения. Некоторые компьютерные программы могут иметь опцию, позволяющую напрямую выводить
список выбросов, или они могут иметь опцию «диаграмма случаев» [casewise plot], показывающую случаи, от-
личающиеся от данной оценки более чем на 2 стандартных отклонения. Чтобы справиться с выбросами, иссле-
дователь может удалить их из анализа и попытаться их объяснить отдельно, или он может использовать преоб-
разования, способные «втягивать» выбросы. Сюда относятся извлечение квадратного корня, логарифмическое и
обратное (х = 1/х) преобразования.

 Статистика влияния [leverage statistic], h, также называемая командирским значением [hat-value], ис-
пользуется для выявления случаев, влияющих на регрессионную модель в большей степени, нежели
другие. Статистика влияния варьируется от 0 (отсутствие влияния на модель) до 1 (полностью детер-
минирует модель). «Правило большого пальца» состоит в том, что случаи с влиянием менее .20 не яв-
ляются проблемой, но если случай имеет влияние более .50, такой случай оказывает чрезмерное влия-
ние, и его следует изучить на предмет возможной ошибки измерения или рассмотреть возможность по-
строения для таких случаев отдельной модели. В SPSS минимальное, максимальное и среднее влияние
показывается в таблице «Статистики остатков», если отмечена Диагностика случаев после нажатия
кнопки Статистики в Регрессионном диалоге. Также, выберите Анализ, Регрессия, Линейная; щелкните
Сохранить; отметьте Значения влияния [leverage values], чтобы добавить эти значения к вашему набору
данных в виде дополнительного столбца.

 Именование данных [data labels]. Влиятельные случаи с высоким влиянием можно определить графиче-
ским путем. Сохраните lev_1 в SPSS при помощи кнопки Сохранить вышеописанную процедуру; затем
выберите Графики, Разброс/Точка; выберите Простой разброс; щелкните Определить; обозначьте ось Y
как lev_1 и ось Х как caseid; убедитесь, что выбрали нужную переменную (типа Name) при помощи
«Именовать случаи» [Label cases by] такой-то переменной; ОК. Затем щелкните дважды на диаграмме
для вызова Редактора диаграммы; выберите Элементы, Режим именования данных; щелкните на случа-
ях с высокими значениями по оси Y.

 Расстояние Махалабобиса [Mahalabobis distance]. Расстояние Махалабобиса – это влияние, умножен-


ное на (n – 1), где n - размер выборки. В качестве «правило большого пальца», максимальное расстоя-
ние Махалабобиса не должно превышать критического значения хи-квадрат со степенями свободы,
равными количеству предикторов и альфа = .001, в противном случае отклоняющиеся значения в дан-
ных могут представлять проблемы. Максимальное расстояние Махалабобиса показывается в SPSS в
таблице «Статистики остатков», если отмечена Диагностика случаев после нажатия кнопки Статистики
в Регрессионном диалоге.

 Расстояние Кука [Cook`s distance], D, другой способ измерения влияния случая (см. пример выводи-
мых в SPSS результатов). Расстояние Кука измеряет эффект удаления данного наблюдения. Наблюде-
ния с большими значениями D, чем остальные данные, это случаи, оказывающие наибольшее влияние.
Фокс (1991, р. 34) предлагает использовать для выделения влиятельных случаев значения D, превыша-
ющие 4(n – k – 1), где n - количество случаев и k - количество независимых переменных. Другие пред-
лагают D > 1 как критерия для признания серьезной проблемы отклоняющихся значений, а D > 4/n как
критерия для признания возможной проблемы. В SPSS минимальное, максимальное и среднее D Кука
показывается в таблице «Статистики остатков», если отмечена Диагностика случаев после нажатия
кнопки Статистики в Регрессионном диалоге. Также, выберите Анализ, Регрессия, Линейная; щелкните
Сохранить; отметьте Кука, чтобы добавить эти значения к вашему набору данных в виде дополнитель-
ного столбца.

Отклоняющиеся значения можно также определить графически с использованием расстояния Кука,


при этом высвечиваются очень (чрезвычайно) влиятельные случаи. В SPSS сохраните расстояния Кука
(coo_1) при помощи кнопки Сохранить в Регрессионном диалоге. Затем выберите Графики, Раз-
брос/Диаграмма, Простой разброс; щелкните Определить; пусть ось Y будет coo_1 и ось Х номером
случая; щелкните ОК. Если график показывает какие-то точки, далекие от линии, вы можете отследить
их по номерам случаев. Щелкните дважды на диаграмме для вызова Редактора диаграммы; выберите
Элементы, Режим именования данных; щелкните на отклоняющейся точке (точках), чтобы заставить
появиться наименование.

 DfBeta, называемые в SPSS стандартизованными dfbeta(s), является другой статистикой для оценки
влияния случая. Если DfBeta > 0, данный случай увеличивает наклон; если DfBeta < 0, данный случай
уменьшает наклон. Случай может рассматриваться влиятельным отклоняющимся значением, если
|DfBeta| > 2. В альтернативном «правиле большого пальца» случай может считаться влиятельным, если
|DfBeta| > 2/квадратный корень из n. В SPSS, выберите Анализ, Регрессия, Линейная; щелкните Сохра-
нить; отметьте DfBbeta(s) или Стандартизованные DfBeta(s), чтобы добавить эти значения к вашему
набору данных в виде дополнительного столбца. Также в SPSS, выберите Анализ, Описательные стати-
стики, Исследовать; выберите dfb1_1 в качестве зависимой переменной (ранее сохраненной кнопкой
Сохранить в Регрессионном диалоге); щелкните Статистики, выберите Выбросы; Продолжить; ОК.

 DfFit. Измеряет, насколько изменяется оценка в результате удаления из анализа конкретного наблюде-
ния. В SPSS, выберите Анализ, Регрессия, Линейная; щелкните Сохранить; отметьте DfFit, чтобы доба-
вить эти значения к вашему набору данных в виде дополнительного столбца.

Надежность [reliability]. Надежность снижается ошибкой измерения и, поскольку все переменные измеряются
с некоторой ошибкой, она также снижается с увеличением количества независимых переменных. В той мере, в
которой в измерении переменных присутствует случайная ошибка, регрессионные коэффициенты будут ослаб-
ляться [attenuated]. (См. вопрос «Что такое ослабление в контексте регрессионного анализа?») В той мере, в ко-
торой в измерении переменных присутствует систематическая ошибка, регрессионные коэффициенты будут
просто неверными. (В отличие от регрессии OLS, структурное моделирование использует эксплицитное моде-
лирование ошибки измерения, что позволяет получать коэффициенты, которые, в отличие от регрессионных
коэффициентов, не искажены ошибкой измерения.) (См. файл «Структурное моделирование в SPSS.») Приме-
чание: члены ошибки измерения [measurement error] не следует путать с остаточной ошибкой оценки [residual
error of estimate], рассматриваемой ниже.

Ошибка популяции не коррелирует с каждой из независимых переменных. Это допущение о «независимо-


сти среднего»: что ошибка среднего является независимой от независимых переменных х. Это важнейшее ре-
грессионное допущение, нарушение которого может приводить к неверным выводам из полученных результа-
тов.

Член ошибки (популяции) [population error term], представляющий разность между действительными значения-
ми зависимой переменной и значениями, полученными на основе регрессионного уравнения популяции, не
должен коррелировать ни с одной из независимых переменных. Поскольку регрессионная линия популяции для
выборочных данных неизвестна, такое допущение должно оцениваться теоретически. В частности, нужно быть
уверенным, что зависимая переменная в свою очередь также не вызывает одну или более из независимых пере-
менных, и что переменные, не вошедшие в уравнение, не вызывают Y и не коррелируют с переменными, кото-
рые в него вошли. Оба этих обстоятельства будут нарушать допущение о не коррелирующей ошибке [uncorre-
lated error]. Наиболее распространенный тип коррелирующей ошибки возникает вследствие ошибки отбора [se-
lection bias] относительно членства в независимой переменной «группа» (репрезентирует членство в основной и
сравниваемой группах): измеряемые факторы, такие как гендер, раса, образование и т.п. могут быть по-разному
представлены в обеих группах, а также могут коррелировать с зависимой переменной. Когда присутствует кор-
релирующая ошибка, традиционные расчеты стандартных отклонений, t-тестов и значимости будут искажаться
и не являться валидными.

Заметьте, что остаточная ошибка [residual error] - разность между наблюдаемыми значениями и значениями,
полученными на основе регрессионного уравнения выборки – всегда будут не коррелировать и поэтому отсут-
ствие корреляции остатков с независимыми переменными не является валидной проверкой этого допущения.

Двухступенчатые наименьшие квадраты [two-stage least squares (2SLS)], обсуждаемые отдельно, предназна-
чены для распространения регрессионной модели на ситуации, где вводится не-рекурсивность, поскольку ис-
следователь должен допустить, что корреляции некоторых членов ошибки не равны 0. Ее можно использовать,
например, для проверки ошибки отбора [selection bias]. (См. файл «Двухступенчатый регрессионный анализ
наименьших квадратов».)

Независимые наблюдения (отсутствие автокорреляции), ведущие к не коррелирующим членам ошибки.


Текущие значения не должны коррелировать с предыдущими значениями в ряде данных [data series]. Это часто
представляет проблему с данными временного ряда [time series data], где многие переменные имеют тенденцию
возрастать со временем, так что знание значения текущего наблюдения помогает оценить значение предыдуще-
го наблюдения. Пространственная автокорреляция также может представлять проблему, когда единицами ана-
лиза являются географические единицы и знание значения для данной географической области помогает оце-
нить значение соседней области. То есть, каждое наблюдение должно быть независимым от каждого другого
наблюдения, если члены ошибки не должны коррелировать, что в свою очередь приводило бы к искаженным
оценкам стандартных отклонений и значимости.

 Коэффициент Дурбина-Ватсона [Durbin-Watson coefficient], d, проверяет автокорреляцию. Значение d


варьируется от 0 до 4. Значения, близкие к 0, указывают на сильную позитивную автокорреляцию;
близкие к 4 на сильную негативную автокорреляцию; близкие к 2 на отсутствие автокорреляции ряда.
В соответствии с «правилом большого пальца» d должен находиться в пределах от 1.5 до 2.5, чтобы
указывать на независимость наблюдений. Позитивная автокорреляция означает, что стандартные
ошибки коэффициентов b слишком малы. Негативная автокорреляция означает, что стандартные
ошибки слишком велики.

В качестве альтернативы, значение d обладает связью со значением вероятности p для различных уров-
ней значимости (напр., .05). На данном конкретном уровне значимости, таком как .05, существует
верхняя и нижняя граница значения d. Если рассчитанное значение d для данного ряда превышает
верхнюю границу, нулевая гипотеза об отсутствии автокорреляции не отвергается, и это означает, что
ошибки в ряде не коррелируют. Если рассчитанное значение d не достигает нижней границы, нулевая
гипотеза об отсутствии автокорреляции отвергается, и это означает, что ошибки в ряде коррелируют.
Если рассчитанное значение d находится между обеими границами, это не позволяет сделать опреде-
ленного вывода. В SPSS можно получить коэффициент Дурбина-Ватсона для набора остатков, исполь-
зуя окно синтаксиса при помощи команды FIT RES_1, если переменная остатков называется RES_1.

При графической проверке независимости ряда [graphical test of serial independence] диаграмма стью-
дентизованных остатков на оси Y и последовательности случаев (переменная caseid) на оси Х должна
демонстрировать отсутствие паттерна, указывая на независимость ошибок. В SPSS выберите Графики,
Разброс/Точка, Простой разброс; обозначьте ось Y как sre_1 (стьюдентизованный остаток, ранее сохра-
ненный кнопкой Сохранить в Регрессионном диалоге) и ось Х как caseid; ОК. Затем щелкните дважды
на диаграмме для вызова Редактора диаграммы; выберите Установкм, Относительно линии оси Y;
щелкните Свойства, определите положение 0 на оси Y; щелкните Применить; Закрыть.

Если автокорреляция присутствует, вместо обычных наименьших квадратов (OLS) лучше использовать
оценку обобщенных наименьших квадратов [generalized least-squares] (GLS). В итерации 0 в GLS
остатки, оцениваемые в OLS. используются для оценки ковариационной матрицы ошибок [error covari-
ation matrix]. Затем в итерации 1 оценки GLS минимизируют сумму квадратов остатков, взвешенную на
обратные значения ковариационной матрицы.

Валидность [validity]. Как и во всех процедурах, в регрессионном анализе предполагается, что используемые
измерения являются валидными. (См. файл «Валидность в SPSS».)

Средняя ошибка популяции равна нулю. Среднее члена ошибки (популяции) [mean of the population error
term] должно равняться нулю. Поскольку регрессионная линия популяции для наших выборочных данных не-
известна, это допущение должно оцениваться на основе анализа неполучения ответов [nonresponse data] (см.
файл «Опросные обследования в SPSS»). В частности, следует убедиться в отсутствии ошибки отбора [selection
bias], приводящей к повышенной представленности в выборке одних субпополяций и недостаточной представ-
ленности других. Обратите внимание, что средняя остаточная ошибка [mean residual error] всегда равна нулю, и
потому не является валидной проверкой данной допущения.

Случайный выбор [random sampling]. Требуется для проверки значимости в регрессионном анализе, когда ис-
пользуются данные из случайной выборки. Когда используются данные переписи по всей популяции, тесты на
значимость не будут релевантными. Когда используются данные из не случайных выборок, тесты на значи-
мость могут быть релевантными, но, к сожалению, ненадежными, и поэтому они не подходят. Тем не менее,
социальные исследователи обычно используют тесты на значимость с данными, полученными из не случайных
выборок, из-за их полезности как условного критерия для принятия решений.

ПРИМЕР ВЫВОДИМЫХ РЕЗУЛЬТАТОВ

Смотри файл «Выводимые результаты в SPSS».


ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ

1. Какая стоит логика за вычислением коэффициента регрессии во множественной регрессии?


2. Все, что мне нужно, это получить простую диаграмму рассеяния регрессионной линии. Почему SPSS
мне ее не выдает?
3. Каков должен быть размер выборки, необходимый для работы с множественной регрессией?
4. Можно ли интерпретировать R2 как процент объясняемых случаев?
5. Когда в регрессии могут использоваться порядковые данные?
6. Как кодировать искусственные переменные в регрессии?
7. Что такое категориальная регрессия, использующая независимые переменные номинального уровня?
8. Что такое ослабление в контексте регрессионного анализа?
9. Является ли мультиколлинеарность проблемой только в случае значимых результатов?
10. Что можно сделать, чтобы справиться с мультиколлинеарностью?
11. Как «корреспондирующие регрессии» помогают каузальному анализу?
12. Как ступенчатая множественная регрессия соотносится с мультиколлинеарностью?
13. Что такое прямое включение и обратное удаление в ступенчатой регрессии?
14. Что такое частичная корреляция в выводимых результатах регрессионного анализа?
15. Может ли регрессия использоваться вместо ANOVA для анализа категориальных независимых пере-
менных, влияющих на интервальную зависимую?
16. Требует ли регрессионный анализ отсутствия корреляций между независимыми переменными?
17. Как проверить значимость различий между двумя R-квадратами?
18. Как мне сравнить коэффициенты b, после того как я рассчитал модель с теми же самыми переменными
для двух подгрупп моей выборки?
19. Как мне сравнить регрессионные результаты, полученные в одной группе респондентов с результата-
ми, полученными в другой группе, если в каждом уравнении использовались те же самые переменные?
20. Что делать, если количество наблюдений по независимым переменным превышает количество наблю-
дений по зависимым?
21. Что делать, если я измеряю те же самые независимые переменные как на индивидуальном, так и на
групповом уровне? Что такое контекстуальный анализ в регрессии?
22. Как я могу проверить, какое влияние квадратический или иной нелинейный член оказывает в моей ре-
грессионной модели?
23. Когда проверяется взаимодействие, существует ли альтернатива добавлению мультипликативных чле-
нов в уравнение и проверки изменений в R2?
24. Что такое «сглаживание» в регрессии и как оно соотносится с нелинейностями в регрессиях OLS?
25. Что такое непараметрическая регрессия нелинейных связей?
26. Что такое пуассоновская регрессия?

1. Какая стоит логика за вычислением коэффициента регрессии во множественной регрессии?

Пусть Y будет зависимой переменной, а Х1 и Х2 будут двумя независимыми. Множественная регрессия снача-
ла регрессирует Х1 на Х2 (и другие независимые переменные, если бы они там были) и оставляет в стороне эти
остатки, которые репрезентируют уникальную дисперсию в Х 1, не коррелирующую с другими независимыми
переменными. Этот процесс повторяется в отношении регрессии Х 2 на Х1, также с оставлением в стороне этих
остатков. На последнем шаге Y регрессируется на наборы остатков каждой независимой переменной. Результи-
рующие коэффициенты b являются частными коэффициентами регрессии [partial regression coefficients], кото-
рые отражают уникальную связь каждой независимой переменной с переменной Y. Интерпретация интерцепта,
с, в двумерной и множественной регрессии остается той же самой, тогда как интерпретация коэффициентов b
различается: они являются простыми коэффициентами в двумерной регрессии, но частными коэффициентами
во множественной регрессии.

2. Все, что мне нужно, это получить простую диаграмму рассеяния регрессионной линии. Почему SPSS
мне ее не выдает?

В SPSS выберите Графики, Разброс/ Точка, Простой разброс; щелкните Определить; выберите вашу независи-
мую переменную как переменную оси Х и вашу зависимую как переменную оси Y; ОК; щелкните дважды на
получившемся графике для вызова Редактора диаграммы; выберите Элементы, Подобрать общую линию;
щелкните Свойства и выберите Линейная; Закрыть. В результате вы получите желаемую диаграмму.

3. Каков должен быть размер выборки, необходимый для работы с множественной регрессией?

Когда количество случаев близко к количеству независимых переменных, исследователь рискует обнаружить
значимые коэффициенты b просто случайно. Менее 5 случаев на каждую независимую переменную обычно не-
приемлемо даже для поисковых исследований. В соответствии с Табачником и Фиделлом (2001, р. 117), «пра-
вило большого пальца» состоит в том, что для тестирования коэффициентов b следует иметь N >= 104 + m, где
m = количество независимых переменных. Другое популярное «правило большого пальца» гласит, что количе-
ство случаев должно не менее чем в 20 раз превышать количество независимых переменных. Если вы исполь-
зуете ступенчатую регрессию, «правилом большого пальца» является N >= 40* m, поскольку ступенчатые про-
цедуры могут слишком легко вызывать шумы и не генерализовываться в меньших по размеру выборках. «Пра-
вило большого пальца» для тестирования R2 требует N >= 50 + 8* m. Когда m >= N, регрессия дает бессмыс-
ленное решение с R2 = 1.0. В целом, вам потребуется больше N, когда зависимая переменная смещена; когда вы
собираетесь проверять небольшие по величине эффекты [small effect sizes] («правило большого пальца»: N >
(8/f2) + (m-1), где f2 = .01, .15 и .35 для небольших, средних и больших по величине эффектов [effect sizes]): ко-
гда вы хотите проверить, в каких независимых переменных ошибка измерения выше; и, конечно, если ваш план
требует перекрестной валидизации тренировочных данных с проверяемыми данными [training data to test data].

4. Можно ли интерпретировать R2 как процент объясняемых случаев?

Нет. Иногда можно прочесть, что автор говорит, что поскольку R2 равен .40, 40% случаев будут правильно про-
гнозироваться данным регрессионным уравнением, а 60% нет. Однако коэффициент детерминации не обладает
такой интерпретацией качества классификации [goodness-of-classification-interpretation]. Скорее, R2 анализирует
общую дисперсию.

5. Когда в регрессии могут использоваться порядковые данные?

С формальной точки зрения, никогда.

Как независимые переменные. Регрессионная модель не высказывает допущений в отношении распределений


независимых переменных, которые могут быть дискретными переменными, если выполняются другие регрес-
сионные допущения. Поэтому дискретность порядковых переменных не является проблемой, однако насколько
порядковые переменные приближаются к интервальным? Порядковые переменные должны интерпретироваться
с большой осторожностью, когда существуют большие нарушения интервальности, например, когда известно,
что между рангами имеются значительные разрывы, скажем, между первыми тремя рангами и всеми остальны-
ми. Однако в большинстве случаев методологи просто используют «правило большого пальца», согласно кото-
рому в порядковой независимой переменной должно иметься определенное минимальное количество классов
[Экен, 1991, требует не меньше 5; Берри (1993, p. 47) утверждает, что 5 или менее «совершенно недопустимо»;
другие настаивают на 7 или более.] Однако следует отметить, что в исследовательской литературе широко рас-
пространено использование в регрессии 5-балльных Лайкертовских шкал.

Как зависимые переменные. Порядковые зависимые переменные более проблематичны, поскольку их дискрет-
ность нарушает регрессионные допущения о нормальном распределении ошибок с постоянной дисперсией.
Консервативный метод проверки состоит в том, чтобы посмотреть, существуют ли значимые различия в ре-
грессионном уравнении, когда оно рассчитывается отдельно для каждого класса порядковой зависимой пере-
менной. Если независимые переменные функционируют, по-видимому, одинаково на каждом из порядковых
уровней зависимой переменной, тогда использование порядковой зависимой переменной считается приемле-
мым. Более либеральный и гораздо более распространенный подход разрешает использовать порядковые зави-
симые переменные, если количество категорий выбора ответа не слишком мало (по крайней мере, 5 или 7, см.
выше) и эти ответы не слишком сильно концентрируются в очень небольшом количестве категорий выбора.

6. Как кодировать искусственные переменные в регрессии?

Регрессия подразумевает использование интервальных данных, однако дихотомии можно рассматривать как
особый случай интервальности. Номинальные и порядковые категории могут преобразовываться в наборы ди-
хотомий, называемых искусственными переменными [dummy variables]. Для предотвращения абсолютной
мультиколлинеарности одну категорию следует удалить. Например, для номинальной переменной «Регион» мы
можем создать набор искусственных переменных под названиями Восток, Запад и Юг, удалив Север.

Существуют три соображения по поводу того, какую категорию следует удалить. Так как коэффициенты b для
искусственных переменных будут отражать изменения в зависимой переменной в отношении референтной
группы (которой является удаленная группа), лучше, чтобы такая группа имела четко определенный смысл.
Поэтому удаление категории «Другое» или «Разное» не является хорошей идеей, поскольку референтные срав-
нения будут затруднены и неясны, тогда как удаление «Севера» в вышеописанном примере было бы приемле-
мо, поскольку такая референтность хорошо определена. Во-вторых, удаляемая референтная группа не должна
оказываться группой с очень небольшим количеством случаев, поскольку это не будет приводить к устойчивым
референтным сравнениям. В-третьих, некоторые исследователи предпочитают удалять «промежуточную» кате-
горию при преобразовании порядковых категорий в искусственную переменную, чувствуя, что референтные
сравнения с медианными группами лучше, чем сравнения с крайними полюсами.
Регрессионные коэффициенты для оригинальной переменной «Регион» должны оцениваться в отношении всего
набора искусственных переменных (в отличие от отдельных t-тестов для коэффициентов b, как это делается для
интервальных переменных). Для регрессионной модели, в которой все независимые переменные являются ис-
кусственными переменными одной изначальной порядковой или номинальной переменной, таким тестом явля-
ется F-тест для R-квадрата. В других случаях подходящим тестом является F-тест различий R-квадратов для
модели с набором искусственных переменных и модели без этого набора.

F = [(R22 - R12)/(k2 - k1)]/[(1-R22)/(n - k2 -1)],

где нижние индексы относятся к модели 1 (без набора искусственных переменных) и модели 2 (с набором ис-
кусственных переменных); где k относится к количеству независимых переменных в данной модели; n есть
размер выборки; и степени свободы для F-теста есть k2 - k1 и n - k2 -1.

Существуют три способа кодирования искусственных переменных. Кодирование существенно влияет на вели-
чину и смысл коэффициентов b и бета, но не на их значимость. Кодирование не влияет на R-квадрат модели или
значимость R-квадрата, поскольку все искусственные переменные, включенные в модель, имеют одну и ту же
референтную категорию.

1. Бинарное кодирование [binary coding], также называемое индикаторным кодированием [indicator


coding] или искусственным кодированием [dummy coding], до сих пор наиболее распространено и
предполагает сравнения с опущенной референтной группой. При бинарном кодировании, если за еди-
ницу принимается Восток, он будет кодироваться как 1 в переменной, называемой «Восток» и как 0 в
переменной «Запад» и «Юг». Если итоговый коэффициент b, скажем, равен 2.1, это означает, что
нахождение на Востоке побуждает реакцию (зависимую переменную) увеличиваться на 2.1 единицы в
сравнении с 1 при нахождении на Севере, который является референтной (отсутствующей) категорией.
Это подразумевает, что если в модель включить Север, а Восток удалить, то коэффициент b для Севера
также будет составлять 2.1. Позитивный коэффициент b для любой включенной группы означает, что
она оценивается выше по зависимой переменной, чем референтная группа, а если он негативный, то
ниже. Значимый коэффициент b для любой включенной группы означает, что эта группа значимо от-
личается по зависимой переменной от референтной группы.

В целом, коэффициенты b представляют собой расстояния от искусственных переменных до референт-


ного значения при контроле других переменных в уравнении, и расстояние от референтной категории
до других искусственных переменных будет тем же самым в модели, в которой изменены референтные
(опущенные) категории. Другое следствие состоит в том, что расстояние от одного включенного искус-
ственного значения до другого включенного значения (напр., от Востока к Западу в примере, в котором
Север служит опущенной референтной категорией) является просто различием в их коэффициентах b.
Таким образом, если коэффициент b для Запада составляет 1.6, то мы можем сказать, что влияние Во-
стока на .5 единиц больше (2.1 – 1.6 = .5), чем влияние Запада, где эти влияния по-прежнему оценива-
ются в терминах единицы увеличения в зависимой переменной в сравнении с нахождением на Севере.
Для «Региона», в котором «Север» выступает референтной категорией, а уровень образования зависи-
мой переменной b = -1.5 для искусственной переменной «Юг» означает, что ожидаемый уровень обра-
зования на Юге на 1.5 лет меньше, чем в среднем у респондентов «Севера».

В некоторых учебниках говорится, что коэффициент b искусственной переменной является разницей в


средних между двумя значениями искусственной (0, 1) переменной. Это верно лишь в случае, если та-
кая переменная является дихотомической. В целом, коэффициент b для данной искусственной пере-
менной есть разница в средних между данной искусственной переменной и опущенной референтной
искусственной переменной. Применительно к дихотомиям будет только одна данная искусственная
переменная, а другое значение будет опущенной референтной категорией, так что это является особым
случаем, в котором коэффициент b является разницей в средних между двумя значениями искусствен-
ной переменной.

В экспериментальном контексте опущенной референтной группой обычно является контрольная груп-


па.

2. Кодирование влияния [effect coding], также называемое кодированием отклонения [deviation coding],
позволяет проводить сравнения в отношении общего среднего всех подгрупп. Исследователь берет ка-
тегорию, такую как «Юг» из набора «Регион» и кодирует ее как 1. Другая категория, такая как «Запад»
кодируется как -1, чтобы указать, что она является референтной категорией. Все остальные группы ко-
дируются как 0, и они не будут влиять на результаты, если размеры групп равны, и даже когда их раз-
меры неравны, их влияния будут небольшими. Одна группа, как обычно, опускается.
При таком кодировании влияния и уровне образования в качестве зависимой переменной b = -1.5 для
искусственной переменной «Юг» означает, что ожидаемый уровень образования на Юге на 1.5 лет
меньше, чем не взвешенное среднее ожидаемых значений для всех подгрупп. То есть, если бинарное
кодирование интерпретирует b для искусственной категории (Юг) в отношении к референтной группе
(опущенной категории), кодирование влияния интерпретирует его в отношении ко всему набору групп.
Позитивный коэффициент b для любой включенной группы (другой, чем -1 группа) означает, что она
оценивается выше по зависимой переменной, чем общее среднее для всех подгрупп, а если негативный,
то ниже. Значимый коэффициент b для любой включенной группы (другой, чем -1 группа) означает,
что эта группа значимо отличается по зависимой переменной от общего среднего. При кодировании
влияния невозможно сравнение между группой, кодируемой -1, и общим средним.

3. Контрастное кодирование [contrast coding], также называемое ортогональным кодированием [orthogo-


nal coding], позволяет исследователю указать, какие именно контрасты должны проверяться. Контраст-
ное кодирование позволяет исследователю установить кластеры категорий и их контраст. Например, в
искусственной переменной, набор которой включает типы профессиональной деятельности (менедже-
ры, белые воротнички, квалифицированные работники, работники сферы обслуживания и чернорабо-
чие), менеджеры и белые воротнички могут рассматриваться как один кластер, а квалифицированные,
сферы обслуживания и чернорабочие как другой.

Чтобы сравнить первый кластер со вторым, интересующий кластер (менеджеры и белые воротнички)
будет кодироваться +.5 каждый (1, деленная на 2 категории в этом кластере), а другие категории рефе-
рентного кластера как -.33 каждая (-1, деленная на 3 категории). Контрастные коды для всех категорий
будут в сумме составлять 0. Для противопоставления менеджеров только белым воротничкам, примем
менеджеров за интересующую категорию (кодируется +1), белые воротнички за референтную катего-
рию (кодируется -1), а все другие за третий кластер (кодируется 0). Групповой контраст [group
contrast] равен коэффициенту b, умноженному на [nint + nref]/[(nint)*( nref)], где n есть количество катего-
рий для кластера интересующих категорий (int) или референтного кластера (ref).

Значимый коэффициент b означает, что противопоставляемые переменные или кластеры переменных


значимо различаются по зависимой переменной. При контрастном кодировании коэффициенты b не
имеют четкой интерпретации в терминах групповых средних по зависимой переменной.

7. Что такое категориальная регрессия, использующая независимые переменные номинального уровня?

Категориальная регрессия [categorical regression], также называемая CATREG в SPSS, является представитель-
ницей регрессионного семейства, которая может использоваться, когда имеется сочетание независимых пере-
менных номинального, порядкового и интервального уровня. CATREG использует оптимальное шкалирование
[optimal scaling], которое квантифицирует категориальные переменные, и затем обращается с ними как с число-
выми переменными, включая применение нелинейных преобразований для поиска наилучшего соответствия
модели. Для номинальных переменных порядок категорий не удерживается, однако для каждой категории фор-
мируются значения, позволяющие максимизировать качество соответствия [goodness of fit]. Для порядковых
переменных порядок удерживается, и формируются значения, максимизирующие соответствие. Для интерваль-
ных переменных порядок удерживается, поскольку между значениями существуют равные расстояния.

В SPSS категориальная регрессия вызывается из меню выбором Анализ, Регрессия, Оптимальное шкалирова-
ние; затем указываются зависимая и независимые переменные. По желанию можно изменить уровень шкалиро-
вания для каждой переменной. Выбираемые шкалы включают номинальные, порядковые или числовые (интер-
вальные), а также номинальные и порядковые сплайн-аппроксимации (выбор сплайн-аппроксимации формиру-
ет более гладкую [smoother], но хуже соответствующую кривую).

Выводимые результаты в CATREG содержат частоты, регрессионные коэффициенты, таблицу ANOVA, исто-
рию итерации, квантификацию категорий, корреляции между не преобразованными предикторами, корреляции
между преобразованными предикторами, диаграммы остатков и диаграммы преобразований. Выбор опции Ко-
эффициенты (при нажатии кнопки Выводимые результаты) дает три таблицы: таблицу бета-весов, стандартных
ошибок бета-весов, t-значениий и значимостей; таблицу Коэффициенты-Оптимальное шкалирование со стан-
дартными ошибками бета-весов с учетом степеней свободы оптимального шкалирования; и таблицу с нулевого
порядка, частичными и частными корреляциями, измерением Пратта сравнительной важности для преобразо-
ванных предикторов и толерантностью до и после преобразования.

CATREG требует, чтобы категории выражались в позитивных целых числах. В диалоговом окне категориаль-
ной регрессии имеется кнопка Дискретизировать для преобразования переменных с дробными значениями и
строчных переменных [string variables] в позитивные целые числа. Допускается существование только одной
зависимой переменной, до 200 предикторов (в SPSS 12), и количество валидных случаев должно превышать ко-
личество переменных-предикторов не менее чем на одну переменную. Заметьте, что CATREG эквивалентна ка-
тегориальному каноническому корреляционному анализу с оптимальным шкалированием (OVERALS) с двумя
наборами переменных, один из которых (зависимый) включает только одну переменную. Шкалирование всех
переменных на числовом уровне корреспондирует со стандартным множественным регрессионным анализом.

Предупреждение. Оптимальное шкалирование перекодирует значения «на ходу», чтобы максимизировать соот-
ветствие исходным данным. Как и с любой атеоретической, процедурой добычи данных «задним числом» су-
ществует опасность чрезмерного приспособления модели к имеющимся данным. Поэтому в данном случае осо-
бенно уместно применение перекрестной валидизации, подразумевающей формирование модели на трениро-
вочном наборе данных [training dataset] и последующую оценку ее генерализуемости путем реализации модели
на отдельном наборе валидизационных данных [validation dataset].

8. Что такое ослабление в контексте регрессионного анализа?

Коэффициенты регрессии (b) могут корректироваться на ослабление [attenuation]. Чем выше дисперсия ошибки
измерения, тем больше регрессионный коэффициент смещается в сторону нуля. Например, серьезные ошибки,
вызываемые шумами в данных, будут приводить к серьезной недооценке истинных регрессионных коэффици-
ентов. Сумма недооценки называется ослаблением. В случае двумерной регрессии Y на Х, такое ослабление
оценивается как отношение дисперсии Х к сумме дисперсии в Х плюс дисперсия ошибки. Такое отношение
называется коэффициентом ослабления [attenuation coefficient]. Чем ниже надежность переменной, тем больше
ослабление. Поскольку ослабление приводит к недооценкам коэффициентов регрессии, оно также подрывает
смысл тестов значимости регрессионных моделей, снижая статистическую мощность и увеличивая вероятность
ошибок II типа.

См. Фуллера (1987), который получил для одного из наборов данных коэффициенты ослабления .98 для генде-
ра, .88 для уровня образования и .58 для статуса бедности. То есть, ослабление является проблемой, которая
может приводить к серьезной недооценке коэффициентов регрессии. Дисперсия ошибки будет равняться дис-
персии остатков, если в уравнение включены все релевантные переменные и удалены все не релевантные.

9. Является ли мультиколлинеарность проблемой только в случае значимых результатов?

Иногда утверждают, что мультиколлинеарность не является проблемой, если в исследовании не обнаруживает-


ся значимых результатов. Это аргументируется тем, что мультиколлинеарность подрывает возможность ранжи-
рования важности независимых переменных, но если все независимые переменные оказываются незначимыми,
то само ранжирование ставится под вопрос, и мультиколлинеарность теряет свое значение. Это ошибочная ло-
гика. Мультиколлинеарность увеличивает стандартные ошибки коэффициентов b. Увеличение стандартных
ошибок в свою очередь означает, что коэффициенты некоторых независимых переменных могут незначимо от-
личаться от нуля, в то время как в отсутствие мультиколлинеарности и с меньшими стандартными ошибками те
же самые коэффициенты могли бы оказаться значимыми, и исследователю не пришлось бы констатировать от-
сутствие результатов.

10. Что можно сделать, чтобы справиться с мультиколлинеарностью?

1. Наиболее распространенное средство связано с увеличение размера выборки, поскольку с увеличением


выборки снижается стандартная ошибка (при прочих равных условиях). Это отчасти компенсирует
проблему, что высокая мультиколлинеарность приводит к высоким стандартным ошибкам коэффици-
ентов b и бета.
2. Воспользуйтесь центрированием [centering]: преобразуйте проблемные независимые переменные, вы-
чтя из каждого случая среднее значение. Получившиеся центрированные данные могут демонстриро-
вать значительно меньшую мультиколлинеарность. Вы должны иметь теоретические основания, согла-
сующиеся с тем фактом, что нулевой коэффициент b теперь будет корреспондировать с независимой
переменной как с ее средним значением, а не с нулем, и интерпретации b и бета-весов должны изме-
ниться соответственно. Центрирование особенно важно, когда в модели используются квадратические
(степенные) члены [quadratic (power) terms]. (См. вопрос «Как я могу проверить, какое влияние квадра-
тический или иной нелинейный член оказывает в моей регрессионной модели?»)
3. Объедините переменные в составную переменную. Это предполагает наличие некоторой теории, кото-
рая бы оправдывала это концептуально. Этот способ также предполагает, что бета-веса объединенных
переменных приблизительно равны. На практике последнее допущение проверяется лишь немногими
исследователями.
4. Удалите наиболее высоко коррелирующую переменную (переменные) из анализа. Этот способ не го-
дится, если включение этих переменных в модель имеет серьезные теоретические обоснования.
5. Удалите из уравнения высоко коррелирующие друг с другом переменные, но замените их взаимным
произведением в качестве члена взаимодействия, или как-нибудь иначе скомбинируйте эти перемен-
ные. Это эквивалентно повторной спецификации модели путем рассмотрения коррелирующих пере-
менных как показателей единственной латентной переменной. Обратите внимание: если коррелирую-
щая переменная является искусственной переменной, другие переменные из того же самого набора
также должны включаться в объединенную переменную, чтобы сохранить концептуальную связь ис-
кусственных переменных.
6. Оставьте только одну из двух высоко коррелирующих переменных, но тогда удалите дисперсию в ее
ковариантах путем регрессирования их на эту переменную и использования остатков.
7. Назначьте общую дисперсию [common variance] каждому из ковариантов при помощи какой-либо про-
извольной процедуры.
8. Обращайтесь с общей дисперсией как с отдельной переменной и очистите каждый ковариант путем ре-
грессирования их на другие и использования остатков. То есть, анализируйте общую дисперсию как
отдельную самостоятельную переменную.
9. Примените ортогональный факторный анализ главных компонент, а затем используйте получившиеся
факторы как независимые переменные.
10. Вместо обычной регрессии можно воспользоваться частичными наименьшими квадратами [partial least
squares regression]. (См. файл «Частичная регрессия наименьших квадратов в SPSS».) PLS не требует
отсутствия мультиколлинеарности, но ей недостает мощности регрессии OLS в дискриминации эффек-
тов независимых переменных, и поэтому ее лучше всего использовать в поисковых исследованиях, а
также когда целью исследования является прогнозирование, а не анализ независимых переменных.
11. Гребневая регрессия [ridge regression] является попыткой справиться с мультиколлинеарностью за счет
применения вместо OLS специфической формы смещенной оценки. Этот способ требует выбора
условной «гребневой константы» [ridge constant], которая используется для расчета регрессионных ко-
эффициентов с более низкими стандартными ошибками. Однако, поскольку выбор гребневой констан-
ты требует знания неизвестных регрессионных коэффициентов всей популяции, которые исследователь
пытается оценить, Фокс (1991, р. 20) и другие высказываются против ее использования в большинстве
случаев. SPSS не имеет процедуры гребневой регрессии, но ее макробиблиотека содержит макро
ridge_regression.sps.

11. Как «корреспондирующие регрессии» помогают каузальному анализу?

Чамберс (1986) наблюдал, что каузальность может выводиться из соответствия дисперсий в зависимых пере-
менных. Используя имитацию, он продемонстрировал, что высокие значения зависимой переменной вытекают
из высоких значений независимых переменных, низкие значения из низких значений, однако умеренные значе-
ния зависимой переменной могут вытекать из различных уровней независимых переменных, поскольку высо-
кие и низкие значения независимых переменных нейтрализуют друг друга. Он также показал, что ограничение
независимых переменных умеренными значениями в целом приводило к умеренным значениям зависимой пе-
ременной. Основываясь на этих наблюдениях, Чамберс показал, что дисперсия зависимых переменных, корре-
спондирующая со случаями с умеренными оценками независимых переменных, ниже, чем дисперсия независи-
мых переменных, корреспондирующая со случаями с умеренными оценками зависимых переменных. Эта
асимметрия используется для определения каузальной направленности.

Впоследствии Чамберс (1991) предложил способ определения каузальности на основе корреспондирующих ре-
грессий [corresponding regressions]. Возьмем двумерную регрессию y на х, где существует неопределенность в
отношении того, не может ли подобная каузальная направленность оказаться противоположной. В корреспон-
дирующих регрессиях y регрессируется на х, и абсолютные отклонения (прогнозируемые минус действитель-
ные значения y) рассматриваются как измерение крайности ошибок предсказания. Затем берутся отклонения
значений х от среднего значения х для получения измерения крайности значений предиктора. Эти два столбца
отклонений коррелируются, давая корреляцию отклонения для y, именуемую rde(y). Такая корреляция отклоне-
ния будет негативной, поскольку, когда значения предиктора оказываются крайними, ошибки должны быть
меньше, так как высокие значения предиктора приводят к высоким значениям зависимой переменной, а низкие
значения к низким значениям. Далее та же процедура повторяется в отношении регрессии x на y, давая rde(x).

Когда истинно независимая переменная служит предиктором, должна наблюдаться более высокая корреляция,
чем когда истинно зависимая переменная служит предиктором. То есть, значение rde() выше, когда истинно не-
зависимая переменная служит предиктором. Это происходит по причине того, что умеренные оценки предик-
тора (измеряемые низкой крайностью значений предиктора) должны ассоциироваться с умеренными оценками
зависимой переменной (измеряемые крайностью ошибок) лишь в том случае, когда истинная независимая пе-
ременная используется как предиктор истинной зависимой переменной. Chambers`D = rde(y) - rde(x). Когда ис-
тинно независимая переменная является х, а истинно зависимая y, D будет негативным. То есть, только если х
является истинно независимой переменной, а y истинной зависимой, rde(y) будет более негативным, чем rde(x),
и после вычитания D будет принимать негативное значение. Если нет, Чамберс рекомендует полагать отсут-
ствие корреляции между этими двумя переменными (1991, р. 12).

Допущения в отношении корреспондирующих регрессий.


1. Двумерная каузальность. Корреспондирующие регрессии исследуют каузальную связь между двумя
переменными. Разумеется, дополнительные не измерявшиеся переменные могут вызывать об эти пере-
менные, влияние которых будет обнаруживаться в члене ошибки регрессии. Имитации Чамберса пока-
зали, что D оказывается эффективным для иерархических моделей, в которых истинно независимая пе-
ременная вызывалась цепью предыдущих переменных.
2. Размер выборки. Имитации Чамберса показывают, что D требует как минимум выборки умеренного
размера (напр., 50 или более).
3. Корреляция. Имитации Чамберса показывают, что D будет обладать почти 100%-й точностью при n >
50, а корреляция независимой с зависимой переменной лежит в диапазоне от .20 до .90. Этот способ не
годится, если соответствующая корреляция выходит за пределы указанного диапазона.
4. Аддитивность. Имитации Чамберса показывают, что эффективность D снижается в мультипликатив-
ных моделях. Скорее, корреспондирующие регрессии предполагают, что независимая переменная и
член ошибки суммарно детерминируют зависимую переменную.

Примечание. Корреспондирующие регрессии как способ определения каузальности до сих пор вызывает поле-
мику и не является широко принятым и используемым в социальных науках.

12. Как ступенчатая множественная регрессия соотносится с мультиколлинеарностью?

Ступенчатые процедуры сначала выбирают наиболее коррелирующую независимую переменную, удаляют


дисперсию в зависимой переменной, затем выбирают вторую независимую переменную, сильнее всего корре-
лирующую с оставшейся дисперсией в зависимой переменной, и это продолжается до тех пор, пока выбор неза-
висимой переменной не перестает значимо (обычно на уровне .05) увеличивать R-квадрат. Хотя ступенчатая
регрессия опирается на осмысленный критерий при отборе переменных, она не гарантирует, что выбранные пе-
ременные не будут обладать высокой мультиколлинеарностью (высокой интеркорреляцией).

13. Что такое прямое включение и обратное удаление в ступенчатой регрессии?

Прямое включение [forward inclusion] является опцией, обычно использующейся компьютерными программами
по умолчанию, когда первой в уравнение вводится лучшая переменная, затем следующая за ней по значимости
и т.д. Обратное удаление [backward elimination] является альтернативной опцией, которая начинается с включе-
ния всех переменных в уравнение и последующего удаления независимых переменных по одной за один раз до
тех пор, пока такое удаление не приводит к значимому изменению в R-квадрате. Прямое включение служит ос-
новой для рационального, но автоматического упорядочивания переменных, однако оно упускает независимые
переменные, которые оказывают подавляющее влияние [suppressor effects] – переменные, чьи значимые связи с
зависимой переменной становятся очевидными только при контроле других переменных. Например, перемен-
ная, которая оказывает позитивное влияние на зависимую переменную через одну промежуточную переменную
и негативно через другую может вовсе не иметь значимой связи с такой зависимой переменной и, как следствие
не войти в модель при прямом включении. Когда подозревается присутствие подавляющих влияний, при сту-
пенчатом анализе следует выбирать опцию обратного удаления.

14. Что такое частичная корреляция в выводимых результатах регрессионного анализа?

Это обсуждается в разделе, посвященном частной корреляции. (См. файл «Частная корреляция в SPSS».)

15. Может ли регрессия использоваться вместо ANOVA для анализа категориальных независимых пере-
менных, влияющих на интервальную зависимую?

Да. Тогда нужно использовать искусственные переменные в качестве независимых и включить в уравнение их
взаимные произведения в качестве членов взаимодействия. При использовании искусственных переменных
нужно опустить одно из значений каждой категориальной независимой переменной для предотвращения сверх-
детерминации [overdetermination]. Когда включены все члены взаимодействия, F-значение для регрессионного
уравнения будет равно F-значению для Объясняемых сырых данных [Explained raw] в выводимых результатах
ANOVA.

Обратите внимание, что ANOVA не является взаимозаменяемой процедурой с регрессионным анализом по


двум причинам. (1) ANOVA не может оперировать с непрерывными переменными, поскольку она является
процедурой, опирающейся на группы. Хотя непрерывные переменные могут кодироваться в категории, это вле-
чет за собой потерю информации и ослабляет корреляцию. (2) ANOVA обычно требует примерно равных n в
каждой группе, формируемой пересечением независимых переменных. Равные размеры групп эквивалентны
ортогональности между независимыми переменными. Регрессия позволяет корреляцию между независимыми
переменными (до определенных границ, не приводящую к мультиколлинеарности) и поэтому лучше подходит
для не экспериментальных данных. Хотя для ANOVA и существуют процедуры, позволяющие вводить поправ-
ки на неравные n, они не принимаются единодушно всеми исследователями.

16. Требует ли регрессионный анализ отсутствия корреляций между независимыми переменными?

Об этом иногда говорится, но это неверно. Регрессионный анализ предполагает отсутствие корреляций членов
ошибки, но не корреляций независимых переменных. Однако верно то, что чем меньше коррелируют независи-
мые переменные, тем меньше вероятность возникновения проблемы мультиколлинеарности, так что в этом
смысле такое утверждение является верным.

17. Как проверить значимость различий между двумя R-квадратами?

Например, для F-теста различий между двумя регрессионными моделями, где одна включает эффекты взаимо-
действия, а другая нет, используйте F-тест:

F = [(R22 - R12)/(k2 - k1)]/[(1-R22)/(n - k2 -1)],

где
R22 = R-квадрат второй модели (напр., модели с взаимодействиями или с добавленной независимой переменной)
R12 = R-квадрат первой, ограниченной модели (напр., без взаимодействий или без добавленной независимой пе-
ременной)
n = размер общей выборки
k2 = количество предикторов во второй модели
k1 = количество предикторов в первой, ограниченной модели
F обладает (k2 - k1) и (n - k2 -1) степенями свободы и проверяет нулевую гипотезу, что инкремент R2 между дву-
мя моделями незначимо отличается от нуля.

18. Как мне сравнить коэффициенты b, после того как я рассчитал модель с теми же самыми перемен-
ными для двух подгрупп моей выборки?

Имеется t-тест различий коэффициентов b для регрессий отдельных подгрупп. Более подробное обсуждение см.
у Харди (1993, p. 52).

19. Как мне сравнить регрессионные результаты, полученные в одной группе респондентов с результа-
тами, полученными в другой группе, если в каждом уравнении использовались те же самые переменные?

Наилучшей процедурой является Тест Чау [Chow test]. Объедините данные обеих групп в общий набор, добавь-
те переменную, обозначающую, к какой группе относится каждый случай. Затем создайте члены взаимодей-
ствия путем последовательного умножения этой групповой переменной на каждую независимую переменную,
создайте столько членов взаимодействия, сколько имеется независимых переменных. Исследователь использу-
ет метод ENTER и определяет оригинальные независимые переменные в качестве первого блока, затем опреде-
ляет все члены взаимодействия в качестве второго блока. В выводимых результатах под «Резюме модели» в
SPSS столбец "Sig. F Change" проверяет нулевую гипотезу, что регрессии для обеих групп равны. Альтерна-
тивный вариант связан с аналогичным анализом в модуле MANOVA, который не требует создания искусствен-
ной группирующей переменной и всех членов взаимодействия:

MANOVA Y BY GROUP(1,K) WITH X1 X2 XJ


/ANALYSIS Y
/DESIGN=X1 X2 XJ GROUP+GROUP BY X1+GROUP BY X2+GROUP BY XJ.

20. Что делать, если количество наблюдений по независимым переменным превышает количество
наблюдений по зависимым?

Оценка коэффициентов b будет искажаться, когда используется регрессия с цензурированными, избирательно


извлекаемыми или усеченными [censored, sample selected, or truncated] данными. Цензурированные данные
имеют место, когда исследователь располагает всеми данными по независимым переменным, а по зависимой
лишь теми данными, которые удовлетворяют некоторому выдвинутому в отношении нее критерию (напр., если
зависимая переменная превышает некое пороговое значение). Избирательно извлекаемые данные то же самое,
но где такой критерий относится к третьей переменной (напр., существуют данные по зависимой, если третья
переменная превышает некоторое пороговое значение). Усеченные данные имеют место, когда данные по неза-
висимым переменным существуют, только если существуют данные по зависимым переменным. Брин (1996)
рекомендует использовать вместо стандартных оценок OLS коэффициентов линейной модели оценки макси-
мального правдоподобия Тобита [maximum likelihood Tobit esimates], поскольку Тобит ставит ожидаемые зна-
чения зависимой переменной в зависимость от вероятности цензурирования или избирательного извлечения.
Принцип Тобита поддерживают статистические пакеты LIMDEP и SHAZAM, встроенные в программу SAS.
Часто цензурированные или избирательно извлекаемые данные возникают в результате использования в каче-
стве критерия времени (зависимая переменная наблюдается только после определенного периода времени). Та-
кой тип цензурированных данных обрабатывается в SPSS с использованием регрессии Кокса [Cox regression]
(также метод максимального правдоподобия), анализа выживания Каплана-Мейера [Kaplan-Meier Survival anal-
ysis], или процедуры Таблиц жизни [Life Tables].

21. Что делать, если я измеряю те же самые независимые переменные как на индивидуальном, так и на
групповом уровне? Что такое контекстуальный анализ в регрессии?

Айверсен (1991) адресуется к тому, как можно использовать регрессию для изучения функционирования пере-
менной на индивидуальном и групповом уровнях, например, к тому, как разделить влияния на продуктивность
индивидуальных способностей, способности команды и взаимодействия этих двух факторов. Он критикует
обычную регрессионную модель «абсолютных влияний», в которой, на этом примере, измерением на индиви-
дуальном уровне являлась бы оценка способностей, а измерением на групповом уровне была бы средняя оценка
способностей всех членов данной команды индивидов. Айверсен показывает, как мультиколлинеарность в та-
ких моделях, в особенности, когда добавляются члены взаимодействия индивидуальных и групповых оценок,
затрудняет или делает невозможным отделение групповых влияний от измерений на индивидуальном уровне и
ведет к ненадежному анализу.

Вместо этого Айверсен предлагает «модель относительных влияний», в которой измерением на индивидуаль-
ном уровне являлось бы, на этом примере, оценка индивидуальных способностей минус среднее по группе (ко-
манде), а измерением на групповом уровне среднее по группе (команде) минус общее среднее по способностям
всех команд. Такое преобразование, которое должно иметь теоретическое обоснование в оцениваемой модели,
обычно уменьшает или полностью устраняет проблему мультиколлинеарности. В модели относительных влия-
ний следует регрессировать продуктивность на сравнительные измерения индивидуальных способностей с ис-
пользованием отдельной регрессии для каждой команды. Константой является значение продуктивности, когда
индивидуальные способности оказываются теми же самыми, что и среднее по команде (а не ноль, как в модели
абсолютных влияний). Если коэффициенты b варьируются от команды к команде, это указывает на групповое
влияние.

Чтобы изучить групповое влияние с использованием единственного уравнения, нужно регрессировать продук-
тивность на сравнительные индивидуальную, групповую переменную и переменную взаимодействия, которое
генерирует коэффициенты, корреспондирующие с индивидуальными, групповыми влияниями и влияниями
взаимодействия. (Айверсен также описывает способ с отдельным уравнением, который генерирует те же самые
оценки, однако способ с единственным уравнением обычно обладает меньшими стандартными ошибками.)
Стандартизованные коэффициенты (бета-веса) в этой регрессии позволяют сравнения относительной важности
индивидуальных, групповых влияний и влияний взаимодействия. Такое сравнение не страдает от мультиколли-
неарности, поскольку преобразования модели относительных влияний оставляет переменные, которые в боль-
шинстве случаев имеют низкие корреляции или вообще не коррелируют между собой. Айверсон (рр. 64-66)
также описывает альтернативный вариант для сравнительной оценки индивидуальных, групповых влияний и
влияний взаимодействия на основе разбиения сумм квадратов [partitioning the sums of squares].

Описываемые Айверсеном модели можно реализовать в SPSS или SAS, однако сравнительные индивидуаль-
ные, групповые переменные и переменные взаимодействия придется рассчитывать вручную. Это может оказы-
ваться утомительно или почти невозможно в больших моделях. Для контекстуального анализ разработаны раз-
нообразные пакеты, такие как GENMOD, ML3 и, наиболее популярный, HLM (см. Bryk et al., 1988).

22. Как я могу проверить, какое влияние квадратический или иной нелинейный член оказывает в моей
регрессионной модели?

Добавьте квадратический член (напр., квадрат уровня дохода) в качестве дополнительной независимой пере-
менной в вашу модель. Исследователи часто центрируют свои данные (вычитают среднее значение) перед при-
менением такого квадратического преобразования, что позволяет им добиться того, что принято называть ор-
тогональным многочленом. Если их не центрировать, между членами уравнения может возникать мультикол-
линеарность вследствие их общего среднего нулевого порядка (если это среднее не уже равно нулю). Центри-
рование особенно важно при больших величинах среднего нулевого порядка. Сравните полученный R2 с R2 для
линейной модели без квадратичного члена, используя обычный тест различий между двумя R2. (См. вопрос
«Как проверить значимость различий между двумя R-квадратами?»)
23. Когда проверяется взаимодействие, существует ли альтернатива добавлению мультипликативных
членов в уравнение и проверки изменений в R2?

Существуют еще две стратегии. В одной две предположительно взаимодействующие переменные дихотомизи-
руются вокруг их средних значений (или некоторого другого критерия), затем проводится традиционный 2 х 2
ANOVA, дающий основные эффекты и эффект взаимодействия. (См. файл «Одномерный GLM, ANOVA и AN-
COVA в SPSS».) Во второй стратегии одна из взаимодействующих переменных дихотомизируется, разбивая
выборку на две группы. Затем проводятся отдельные регрессии зависимой переменной на другую взаимодей-
ствующую независимую переменную, после чего сравниваются коэффициенты b. Степень их похожести отра-
жает отсутствие эффекта взаимодействия. Однако, поскольку дихотомизация приводит к потере информации,
эти способы обычно являются менее предпочтительными. Для более подробного обсуждения этих альтернатив
см. Jaccard, Turrisi, & Wan (1991, pp. 48-49).

24. Что такое «сглаживание» в регрессии и как оно соотносится с нелинейностями в регрессиях OLS?

Сглаживание [smoothing] – это подгонка нелинейной линии через точки на диаграмме рассеяние. Нелинейная
регрессия OLS – это добавление полиномиальных членов в регрессионное уравнение. Ее также называют непа-
раметрической регрессией (см. ниже), которую не следует смешивать с общей нелинейной регрессией (см. файл
«Нелинейная регрессия в SPSS»). Фокс (2000а) рассматривает различные типы сглаживания и непараметриче-
ской регрессии. Он выделяет следующие типы сглаживания.

 Биннинг. Независимая (х) переменная делится на два непересекающихся диапазона, называемых «би-
нами», и для каждого бина рассчитывается отдельная регрессионная линия, в результате чего получа-
ется набор регрессионных линий, связанных по типу ступенек. Обычно отсечка для бина устанавлива-
ется таким образом, чтобы в каждом бине было одинаковое количество случаев. Количество бинов
должно быть невелико, чтобы регрессия для каждого бина основывалась на достаточном для получения
значимых результатов количестве случаев.

 Локальные средние [local averages]. Этот способ сходен с биннингом, однако бин (полоса, окно) дви-
жется вдоль диапазона независимой (х) переменной, и регрессионные линии рассчитываются по боль-
шому числу равных по протяженности отрезков данных. Этот способ обычно сопряжен с «граничными
искажениями» - уплощением регрессионной линии на левом и правом краях распределения. Обратите
внимание, что когда переменной х является время, локальные средние называют движущимися сред-
ними [moving averages], Эта процедура широко используется в анализе временных рядов [time series
analysis].

 Ядерная оценка [kernel estimation]. Это локальное усреднение с взвешиванием, при котором случаи,
расположенные ближе к центру бина, наделяются большим весом. Ядерное взвешивание обычно при-
меняется для распределения нормального типа, однако возможны взвешивания распределений других
типов. Поскольку отклоняющиеся значения могут радикально влиять на оценки ядер, взвешивание мо-
жет производиться в форме двухшагового процесса, на втором шаге которого случаи с высокими
остатками (отклоняющиеся случаи) получают меньший вес. Двумя типами такого уменьшающего
взвешивания являются двойное взвешивание (биквадрат) и взвешивание Хьюберта (см. Fox, 2000a, pp.
40-41). Ядерное взвешивание будет приводить к более гладкой линии, чем локальные усреднения, но
тоже демонстрировать граничные искажения.

 Локальная полиномиальная регрессия [local polynomial regression]. Это ядерная оценка, за исключением
того, что регрессионная линия, подгоняемая для каждого бина, является полиномиальной. Локальная
полиномиальная регрессия обладает меньшим искажением (меньшей средней квадратической ошиб-
кой), чем ядерная оценка, поскольку она может объяснять нелинейные связи данных. Измерением точ-
ности локальной полиномиальной регрессии является усредненная квадратическая ошибка [average
squared error (ASE)]. Наиболее распространенной разновидностью локальной полиномиальной регрес-
сии является Loess [LOcal regrESSion]. См. ниже.

 Исследователь может установить уровень возведения в степень [level of exponentiation] (включая 1 =


линейный случай), однако типичной является кубическая полиномиальная подгонка. Так, для простых
моделей с одной независимой переменной пусть х0 будет значением х фокальной точки бина, а xi будет
значением х любой из i других точек внутри этого бина. В кубическом случае полиномиальное регрес-
сионное уравнение будет выглядеть как

yi = b1(xi - x0) + b2(xi - x0)2 + b3(xi - x0)3 + c.


Ширина [span] полосы, s, может также устанавливаться исследователем. Одним из способов является
просто визуальный метод проб-и-ошибок с использованием различных значений s и поиском наимень-
ших s, которые все еще генерируют гладкую кривую.

 Регрессионные сплайны [regression splines]. Сплайны кубической регрессии функционируют аналогич-


но локальной полиномиальной регрессии, однако накладываемое ограничение состоит в том, что ре-
грессионная линия в данном бине должна присоединяться к началу регрессионной линии в следующем
бине. Это позволяет избегать разрывов в кривой линии, при этом увеличение ошибки оказывается не-
значительным.

 Сглаживающие сплайны [smoothing splines]. Является более сложной и усовершенствованной процеду-


рой регрессионных сплайнов, однако она не генерализуется на модели с несколькими независимыми
переменными, и поэтому реже применяется. См. Фокс (2000а, рр. 67-69).

25. Что такое непараметрическая регрессия нелинейных связей?

Непараметрическая регрессия (сглаживающая) относится к семейству процедур, которые смягчают допущение


регрессии OLS или GLM о том, что член в левой части регрессионного уравнения (зависимая переменная в
OLS, логит зависимой переменной в GLM) является линейной функцией членов в правой его части. Непарамет-
рическая регрессия подгоняет к диаграмме рассеяния данных скорее сглаженную кривую (см. предыдущий во-
прос), чем прямую линию. Проверкой нелинейности может служить сравнение обычной регрессионной модели
с корреспондирующей непараметрической моделью.

Применительно к работе с нелинейными связями в регрессионном контексте непараметрическая регрессия се-


годня считается более предпочтительной, чем простое добавление полиномиальных членов в регрессионное
уравнение (как делается, например, в SPSS через меню выбора Анализ, Регрессия, Нелинейная). Процедуры не-
параметрической регрессии позволяют данным влиять на форму (кривизну) регрессионной линии. Следует от-
метить, что это означает, что непараметрическая регрессия обычно является атеоретической процедурой, не
требующей предварительного постулирования модели, выводя ее из имеющихся данных. Следовательно, при-
способление кривой к шумам в данных представляет собой главную проблему в непараметрической регрессии.
Непараметрическая регрессия обсуждается у Фэна и Джиайбелса (1996) и Фокса (2000b), которые рассматри-
вают локальную полиномиальную множественную регрессию, аддитивные регрессионные модели, регрессию
планирования-выполнения, регрессионные деревья и непараметрическую регрессию GLM.

Локальная полиномиальная множественная регрессия [local polynomial multiple regression]. Рассматривает зави-
симую переменную как единственную нелинейную функцию от независимых переменных. Локальная регрес-
сия подгоняет регрессионную поверхность не ко всем точечным данным как в обычной регрессии, а к точеч-
ным данным в некоторой «окрестности» [neighborhood]. Исследователи определяют «параметр сглаживания»
[smoothing parameter], который обозначается определенным процентом от размера выборки, и окрестностями
становятся точки внутри корреспондирующего радиуса. В процедуре loess для приспособления регрессионной
поверхности к каждой окрестности используются взвешенные наименьшие квадраты, где точечные данные в
окрестности взвешиваются в соответствии с плавно убывающей обратной функцией их расстояния от центра
данной окрестности. Вместо такого сглаживания по принципу ближайшего соседства [nearest-neighbor
smoothing] вместо областей соседства можно определить полосы [bands], являющиеся сегментами диапазона
независимой переменной (переменных). Подгонка поверхностей к окрестностям может осуществляться на вы-
борке точек в пространстве предиктора, или на всех точках. Независимо от этого, поверхности затем объеди-
няются вместе с формированием кривой линии или кривой поверхности непараметрической регрессии. Непа-
раметрическая регрессия не встроена напрямую в 10-ю версии SPSS, однако сайт SPSS предлагает демонстра-
ционный апплет на языке Java. См. Фокс (2000b, pp. 8-26).

Проблемы локальной регрессии. Фокс (2000b, p. 20) указывает на «проблему размерности» в локальной регрес-
сии, отмечая, что с увеличением количества переменных-предикторов резко уменьшается количество точечных
данных в локальной окрестности фокальной точки. Это означает, что для получения данного процента точеч-
ных данных радиус параметра сглаживания должен становиться все менее и менее локальным. К другим про-
блемам локальной регрессии относятся: (1) ее пост-хоковый атеоретический подход к определению регресси-
онной кривой; (2) тот факт, что динамическое заключение [dynamic inference] (см. раздел Обзор, регрессионный
коэффициент) из коэффициентов b становится невозможным вследствие нелинейности, требуя взамен графиче-
ского вывода; и (3) графическая иллюстрация становится трудной для понимания, когда в модели содержатся
более трех независимых переменных (Fox, 2000b, p. 26, рекомендует плоскостные диаграммы [coplots] в каче-
стве лучшего способа графической иллюстрации).

Аддитивные регрессионные модели [additive regression models]. Позволяют зависимой переменной быть адди-
тивной суммой нелинейных функций, различающихся для каждой независимой переменной. Это означает, что
зависимая переменная равна сумме последовательности двумерных частичных регрессий [two-dimensional
partial regressions]. Для зависимой переменной y и каждой независимой х можно прогнозировать скорректиро-
ванный y как локальную регрессионную функцию х. Эта корректировка должна контролировать y в отношении
других независимых переменных в уравнении. Итеративная процедура, называемая обратной подгонкой [back-
fitting], одновременно рассчитывает нелинейные функции для каждого независимого (х) члена, а зависимая пе-
ременная является аддитивной суммой этих членов. См. Фокс (2000b, pp. 27-37).

Обратите внимание, что возможно также использовать полупараметрическую регрессионную модель, где одни
независимые переменные имеют описанные выше непараметрические функции, а другие традиционные регрес-
сионные коэффициенты. В частности, полупараметрическая модель более предпочтительна при наличии членов
искусственной переменной: искусственные переменные будут вводиться как линейные члены. Аддитивные мо-
дели имеют те же самые проблемы интерпретации, что и локальная регрессия.

Регрессия планирования-выполнения [projection-pursuit regression] сначала сужает качественные признаки про-


странства путем создания латентных переменных, которые являются регрессионными функциями сырых неза-
висимых переменных, затем делает зависимую переменную аддитивной суммой нелинейных функций, разли-
чающихся для каждой из этих латентных переменных. Цель регрессии планирования-выполнения заключается
в том, чтобы, сокращая количество переменных в локальной регрессии и делая зависимую переменную адди-
тивной функцией последовательности двумерных частичных регрессий, смягчить упомянутую выше «проблему
размерности». Однако за это приходится платить тем, что, как отмечает Фокс, «произвольные линейные соче-
тания предикторов обычно не корреспондируют с осмысленными переменными», а это умножает трудности,
связанные с интерпретацией результатов непараметрической регрессии. Однако аддитивные регрессионные
модели как минимум позволяют, например, интерпретировать знаки частичных регрессионных коэффициентов
как указание направления влияния отдельных переменных-предикторов. См. Фокс (2000b, pp. 37-47).

Регрессионные деревья [regression trees]. Используют последовательные бинарные деления пространства пре-
диктора, делая зависимую переменную функцией процесса биннинга или усреднения. Также называемые про-
цедурой AID (автоматического обнаружения взаимодействия) [automatic interaction detection], регрессионные
деревья являются деревьями классификации непрерывных данных. Существуют несколько различных алгорит-
мов для создания регрессионных деревьев, однако все они вовлекают последовательные подразделения случаев
на все меньшие и меньшие бины, основанные на одной или более независимых переменных. Критерием для
прекращения деления может являться ситуация, когда бины содержат 10 или менее случаев. Например, одной
ветвью может быть: если доход < 32564, тогда если образование < 14.2, то удовлетворенность работой = 88.9,
где 88.9 является средним для всех случаев в этом бине. Отсечки для ветви данного дерева устанавливаются,
чтобы минимизировать ошибку классификации, которая отражена в остаточной сумме квадратов. Поскольку
алгоритмы могут создавать очень сложное дерево, приспособленное к шумам в данных, исследователь может
его «подрезать», пожертвовав небольшим увеличением в ошибке, чтобы получить менее сложное дерево. SPSS
поддерживает регрессионные деревья в своем продукте Answer Tree. См. Фокс (2000b, pp. 47-58).

Проблемы регрессионных деревьев. Использование автоматизированных алгоритмов обычно приводит к чрез-


мерному приспособлению деревьев (слишком сложных, так что правила ветвления кажутся произвольными и
не связанными с какой-либо теорией, лежащей за причинно-следственными связями изучаемых переменных).
Это отчасти можно компенсировать разработкой дерева на одном наборе данных его перекрестной валидизаци-
ей на другом. Регрессионные деревья могут вызывать трудности в интерпретации, поскольку небольшие изме-
нения в точках осечки могут оказывать большое влияние на ветвление дерева. На ветвление также влияют
плотность и разреженность данных, с большим ветвлением и меньшими бинами в областях с более густыми то-
чечными данными. В целом регрессионные деревья наиболее полезны, когда целью является выработка правил
решения, чем каузальная интерпретация.

Непараметрическая регрессия GLM [GLM nonparametric regression]. Позволяет логиту зависимой переменной
быть нелинейной функцией логитов независимых переменных. Поскольку процедуры GLM подобно логисти-
ческой регрессии являются нелинейными в том, что они используют нелинейное преобразование (для логисти-
ческой регрессии натуральный лог шансов [odds] зависимой переменной), в традиционной форме результат та-
кого преобразования (логит зависимой переменной) есть линейная функция членов в правой части уравнения.
Непараметрическая регрессия GLM смягчает допущение о линейности, допуская нелинейные связи за предела-
ми преобразования (логит) функции связи. См. Фокс (2000b, pp. 58-73).

26. Что такое пуассоновская регрессия?

Пуассоновская регрессия [poisson regression], которая используется в моделировании одиночных и редких со-
бытий, обсуждается в разделе по логит-моделированию. (См. файл «Лог-линейные, логит и пробит модели в
SPSS».)

Оценить