ДИСКРИМИНАНТНЫЙ АНАЛИЗ1
8.1. Назначение
Дискриминантный анализ (ДА) является статистическим методом,
который позволяет изучать различия между двумя и более группами
объектов по нескольким переменным одновременно. Этот метод часто
бывает полезен в социальных науках. Рассмотрим, например, такую
ситуацию.
Группа экспертов исследует возможность переговоров с террористами,
захватившими заложников. Их интересуют те особенности ситуации, при
которых было бы возможно безопасное освобождение заложников, даже если
требования террористов не выполнены. В качестве альтернативы, что
заложникам будет причинен вред, существует несколько переменных,
предсказывающих их благополучное освобождение. Например, число
террористов, наличие поддержки их местным населением, являются ли они
независимой группой или принадлежат к большой военной организации,
характер их устных заявлений, тип и количество оружия, отношение числа
террористов к числу заложников и т. д.
Изучая предыдущие инциденты, в которых власти отказались
выполнить требования террористов, эксперты должны найти ответ на
следующие вопросы:
1. какие из этих переменных могут быть полезными для предсказания судьбы
заложников:
2. как эти переменные могут быть связаны в математическую функцию для
предсказания наиболее вероятного исхода:
3. какова точность предсказания.
Дискриминантный анализ с успехом применяется в таких областях как
1
Текст этой лекции составлен на основании соответствующего раздел книги: Факторный, дискриминантный
и кластерный анализ / Дж.-О. Ким, Ч.У. Мьюллер, У.Р. Клекка и др. М., 1989.
психологическое тестирование, личностное и в целях профотбора или
аттестации кадров, анализ переписи населения, изучение эффекта от какого-
либо метода лечения, исследование экономических различий между
географическими районами и предприятиями, предсказание итогов
голосования и др.
Основным предположением дискриминантного анализа является то,
что существуют две или более группы, которые по некоторым переменным
отличаются от других групп, причем такие переменные могут быть измерены
по интервальной шкале либо по шкале отношений. Дискриминантный анализ
помогает выявлять различия между группами и дает возможность
классифицировать объекты по принципу максимального сходства.
Объекты (наблюдения) должны принадлежать одному из двух (или
более) классов (групп). Объекты являются основными единицами анализа.
Объектами изучения могут быть люди, животные, страны, экономика в
различные моменты времени и вообще все, что угодно. В примере с
террористами каждый предыдущий террористический акт есть объект. Класс
(группа) должен быть определен таким образом, чтобы каждое наблюдение
принадлежало одному и только одному классу. Последствия
террористических актов могут быть отнесены к одному из двух классов:
случаи успешного освобождения заложников и случаи, когда пострадали
некоторые или все заложники. Главная задача в случае с террористами
состоит в точном предсказании результатов будущих инцидентов. Поэтому
будущие инциденты могут рассматриваться как «нерасклассифицированные»
(«несгруппированные»).
«Дискриминантный анализ» можно разделить на методы
интерпретации межгрупповых различий и методы классификации
наблюдений по группам.
При интерпретации необходимо ответить на вопросы: возможно ли,
используя данный набор характеристик (переменных), отличить один класс
от другого: насколько хорошо эти характеристики позволяют провести
различение и какие из них наиболее информативны.
Метод, относящийся к классификации, связан с получением одной или
нескольких функций (уравнений), обеспечивающих возможность отнести
данный объект к одной из групп (классов). Эти функции, называются
классифицирующими. Например, если значения характеристик нового
террористического акта близки к соответствующим значениям прошлых
инцидентов, в которых все заложники были освобождены,
классифицирующая функция покажет, что для рассматриваемого события
более вероятен благоприятный исход. (После того как инцидент будет
исчерпан, станет известно, оправдался ли прогноз, однако для многих других
приложений подтвердить точность классификации не представляется
возможным.)
Характеристики, применяемые для того, чтобы отличать один класс от
другого, называются дискриминантными переменными. В примере с
террористами были упомянуты семь дискриминантных переменных (число
террористов, степень поддержки, количество оружия и т. д.). В общем
случае, число дискриминантных переменных не ограничено, но в сумме
число объектов должно всегда превышать число переменных по крайней
мере на два.
Итак, дискриминантный анализ используется для изучения различий
между несколькими группами по определенному набору дискриминантных
переменных.
2
Переменными являлись шкалы тестов Кеттела, Фидлера и Розенцвейга
Каноническая дискриминантная функция является линейной
комбинацией дискриминантных переменных. Ее уравнение, называемое
дискриминантным, имеет следующий вид:
Fkm = U0+U1X1km+U2X2km+ … +UpXikm
где Fkm – значение канонической дискриминантной функции для m-го
объекта в группе K; Xikm – значение дискриминантной переменной Xi для m-
го объекта в группе K; Ui – коэффициенты, обеспечивающие выполнение
требуемых условий.
Коэффициенты для Fkm подбираются таким образом, чтобы ее средние
значения для различных классов как можно больше отличались друг от
друга.
STATGRAF рассчитывает стандартизированные и
нестандартизованные коэффициенты канонической дискриминантной
функции. Разница между ними заключается в следующем:
нестандартизованные коэффициенты – в отличие от стандартизованных –
рассчитываются на основании матрицы, содержащей исходные значения
наблюдений, которые не приведены к стандартной форме.
Нестандартизованные коэффициенты канонической
дискриминантной функции необходимы для определения положения
наблюдений (объектов) в дискриминантном пространстве (табл. 2.4.1).
Таблица 8.1
Нестандартизованные коэффициенты канонической дискриминантной
функции
В М Q1 Q4 АSОл МРСл 0-D E-D Const.
+ ++
++ ++ + + +
++
+ + +++ ++ +
Гр.2 (элита) --* * * * * * *
-1 ц1 0 ц2 +1
-0,43 -03 1,8
0,81
Таблица 8.2
Стандартизованные коэффициенты канонической дискриминантной
функции
Таблица 8.3
Коэффициенты простой классифицирующей функции
В МК Q1 Q4 ASOЛ МРСл OD ED const
Н1 0.2 0.7 0.36 1.2 0.37 5.54 1.68 3.1 47.6
Н2 0.24 0.88 0.41 1.33 0.36 5.83 1.97 2.84 52.16
3
Во многих работах именно эти функции называются дискриминантными, но чтобы не путать их с
каноническими дискриминантными функциями, мы будем называть их классифицирующими.
функция, происходило обучение системы. Теперь в уравнения можно
подставлять значения переменных неизвестных людей (например,
абитуриентов) и относить их к потенциально успешным или к таким, у кого
потенциал успешности под вопросом.
Упражнения
В таблице представлены данные по двум группам испытуемых с
высоким и низким организаторским потенциалом. Их деятельность
характеризуется показателями самоорганизации и способностью
организовать работу группы. С помощью компьютерной программы
дискриминантного анализа классифицировать трех неизвестных
испытуемых.