Вы находитесь на странице: 1из 6

Федеральное автономное образовательное учреждение

высшего профессионального образования


«Национальный исследовательский университет
«Высшая школа экономики»

Московский институт электроники и математики


им. А.Н. Тихонова

Аналитическая записка по теме


«Дискриминантный анализ в IBM SPSS Statistics»

Выполнено:
Петровой Марией Владиславовной
Был проведен дискриминантный анализ в IBM SPSS Statistics на основе данных, взятых из
файла «Банковский кредит.sav».

Этот анализ чаще всего проводят для того, чтобы определить какие из признаков лучше
всего отличают объекты друг от друга.

В нашем случае в исходных данных была приведена информация о людях, который


запрашивали кредит в банке, и соответствующая информация по тому был ли выдан
кредит или нет.

В нашем анализе мы смотрели только тех людей, которые получили положительный


ответ о выдаче кредита. После проведения анализа мы получили следующие результаты.

Статистика группы
Станд. N валидных (по списку)
Наличие долга по ранее взятому кредиту Среднее отклонения Невзвешенные Взвешенные
Нет Стаж на последнем месте 10.1843 6.77679 293 293.000
работы
Долг клиента по кредитной 1.1765 1.33726 293 293.000
карте банка в тысячах
Время проживания по 8.4505 6.58520 293 293.000
последнему адресу
Да Стаж на последнем месте 6.0253 6.47673 79 79.000
работы
Долг клиента по кредитной 2.4260 3.63501 79 79.000
карте банка в тысячах
Время проживания по 6.2025 6.42986 79 79.000
последнему адресу
Всего Стаж на последнем месте 9.3011 6.91852 372 372.000
работы
Долг клиента по кредитной 1.4418 2.10886 372 372.000
карте банка в тысячах
Время проживания по 7.9731 6.60836 372 372.000
последнему адресу
Данная таблица содержит данные о средних значения дискриминационных переменных в
каждой из исследуемых групп. Эти показатели дают общее представление о том,
являются ли дискриминационные переменные отличительными признаками этих групп.
Из таблицы, например видно, что хотя среднее значение стажа на последнем месте
работы 9,3 у всех, но этот показатель значительно различается у людей у которых есть
долг по прошлому кредиту и у которых нет.

Но это ещё не может служить 100% доказательством того, что это ключевой
различающийся признак. Для подтверждения нужно проверить значимость того или
иного коэффициента.
Критерии равенства групповых средних
Лямбда Уилкса F ст.св.1 ст.св.2 знач.
Стаж на последнем месте .939 23.872 1 370 .000
работы
Долг клиента по кредитной .941 23.147 1 370 .000
карте банка в тысячах
Время проживания по .981 7.323 1 370 .007
последнему адресу
По данной таблице смотрим значимость показателя и те, что больше 0,05, убираем из
модели.

В нашем случае из модели вылетает только время проживания по последнему адресу, т.к.
его значимость незначительно превышает 0,05 (0,07).

Объединенные внутригрупповые матрицы


Долг клиента Время
Стаж на по кредитной проживания по
последнем карте банка в последнему
месте работы тысячах адресу
Корреляция Стаж на последнем месте 1.000 .558 .274
работы
Долг клиента по кредитной .558 1.000 .216
карте банка в тысячах
Время проживания по .274 .216 1.000
последнему адресу
Важно отметить, что в дискриминационном анализе важно, чтобы переменные были
максимально независимыми. И именно эта таблица помогает сопоставить
коэффициенты корреляции. В целом значения этих коэффициентов не должно
превышать 0,5.

Но долг клиента по кредитной карте и стаж на последнем месте работы немного


превышают это значение, это значит, что данные показатели имеют некоторую
взаимосвязь, а это в свою очередь ухудшает наш дискриминационный анализ.

Коэффициенты По этой таблице можно оценить вклад каждой


стандартизованной переменной в различие между двумя группами.
канонической
По полученным результатам можно сделать вывод,
дискриминантной функции
что максимальное различие между двумя группами
Функция
по наличию долга по кредитной карте и не менее
1
значим стаж на последнем месте работы.
Стаж на последнем месте .996
работы Интересно отметить, что со стажем прямая
Долг клиента по кредитной -1.058 зависимость, в то время как с долгом по кредитной
карте банка в тысячах карте обратная. Что вполне вписывается в общую
Время проживания по .212 картину мира.
последнему адресу
Матрица структуры По данной таблице коэффициенты показывают силу
Функция связи дискриминантных переменных со
1 стандартизованными значениями дискриминантной
Стаж на последнем месте .464 функции.
работы
Долг клиента по кредитной -.457 Можно сделать вывод, что максимально связан стаж
карте банка в тысячах работы на последнем месте, но, хотя и с
Время проживания по .257 отрицательным знаком, долг клиента по кредитной
последнему адресу карте имеет вообще то не существенное различие.
Объединенные внутригрупповые
Время проживания по последнему адресу не играет
корреляции между
дискриминируюшими переменными и
существенной роли. И эту связь можно
стандартизованными каноническими охарактеризовать как слабую.
дискриминантными функциями
Таблица «Коэффициенты канонической
Переменные упорядочиваются по
дискриминантной функции» одна из самых важных
абсолютной величине корреляции в
таблиц т.к. она дает коэффициенты для
функции.
дискриминантной функции.

По данной таблице составляем следующее Коэффициенты канонической


уравнение: дискриминантной функции
Функция
D = 0.148X1 – 0.517X2 – 0.032X3 – 0.893 1
Стаж на последнем месте .148
На основе полученной модели можно делать прогноз
работы
о том, дадут ли человеку кредит или нет.
Долг клиента по кредитной -.517
Так же из данной таблице можно сделать вывод о карте банка в тысячах
том, что максимальное значение имеет долг клиента Время проживания по .032
по кредитной карте в банке, а точнее отсутствие этого последнему адресу
долга). А время проживания по последнему адресу (Константа) -.893
практически не влияет на конечный результат.
Нестандартизованные коэффициенты
Осталось только оценить качество полученной
модели. Для этого нам потребуется следующая
таблица.

Функции в центроидах групп Чем больше значение в этой таблице, тем лучше т.к.
Наличие долга по ранее Функция это значит, что различие групп существеннее.
взятому кредиту 1
По данным результатам делаем почти 100% вывод о
Нет .284 том, что наличие долга по взятому кредиту имеет чуть
Да -1.052 ли не ключевое значение в принятии решения давать
Нестандартизованные канонические кредит человеку или не давать.
дискриминантные функции,
вычисленные в групповых средних
Так же в SPSS есть функция пошагового
дискриминантного анализа. Его отличие в том, что там
SPSS автоматически подбирает лучшую модель и дает
пользователю выбор из нескольких вариантов, если
таковые имеются.
Все первые таблицы остались без изменения, и это логично, потому что мы проводили
этот анализ на тех же самых данных.

Введенные/удаленные переменныеa,b,c,d
Лямбда Уилкса
Точное F
Шаг Введено Статистика ст.св.1 ст.св.2 ст.св.3 Статистика ст.св.1 ст.св.2 знач.
1 Стаж на .939 1 1 370.000 23.872 1 370.000 .000
последнем
месте
работы
2 Долг клиента .777 2 1 370.000 53.043 2 369.000 .000
по кредитной
карте банка в
тысячах
На каждом шаге вводится переменная, минимизирующая общую лямбду Уилкса.
a. Максимальное число шагов равно 6.
b. Минимальное частное F для ввода - это 3.84.
c. Максимальное частное F для удаления - это 2.71.
d. Уровень F, допуск или VIN недостаточны для дальнейших вычислений.
Данная таблица показывает пошаговое составление дискриминантного уравнения.

Переменные для анализа


Шаг Допуск F для удаления Лямбда Уилкса
1 Стаж на последнем месте 1.000 23.872
работы
2 Стаж на последнем месте .689 78.114 .941
работы
Долг клиента по кредитной .689 77.292 .939
карте банка в тысячах
А в этой таблице конечный результат работы. Из неё мы можем взять информацию о
переменных, которые будут использоваться в работе дальше.

А в таблице «Переменные не для анализа» представлены оставшиеся переменные,


Коэффициенты канонической которые не будут участвовать в дальнейших расчетах.
дискриминантной функции
Как можно судить по этой таблице, коэффициенты
Функция
уравнения немного поменялись и был исключен срок
1
проживания на последнем адресе, как не значимый.
Стаж на последнем месте .159
работы В итоге получаем уравнение:
Долг клиента по кредитной -.518
Y = 0.159X1 – 0.518X2 – 0.73
карте банка в тысячах
(Константа) -.730 Оно содержит на одну переменную меньше, чем
Нестандартизованные коэффициенты предыдущее и соответственно коэффициенты и
константа различаются.

Вам также может понравиться