Дискриминантный анализ в банковском скоринге

А.В. ГруздевИсследовательская компания «Гевисста»
Журнал «Риск-менеджмент в кредитной организации», №4 за 2011 год

Статистические методы, лежащие в основе скоринговых систем, весьма разнообразны. В настоящее время широко используются дискриминантный анализ, множественная регрессия, логистическая регрессия, деревья классификации, метод К-ближайших соседей, байесовские процедуры, метод опорных векторов, МАР-сплайны и нейронные сети. В настоящей статье речь пойдет об использовании дискриминантного анализа для оценки кредитоспособности заемщиков.

Приводится фрагмент статьи. Полную версию читайте в печатной версии журнала.

Описание метода

Цель дискриминантного анализа — это различение (дискриминация) объектов наблюдения на классы по заранее определенным признакам. Применительно к скорингу: класс — это статус заемщика: кредитоспособный/некредитоспособный (зависимая переменная); объекты наблюдения — собственно заемщики; признаки — характеристики заемщиков (независимые переменные, или предикторы).

В основе метода лежит несколько базовых предположений:

— множество объектов разбито на несколько обучающих подмножеств (в скоринге это обычно два класса: надежные и ненадежные заемщики), которые отличаются друг от друга предикторами (характеристиками);

— все предикторы независимы (отсутствует коллинеарность), переменная не может быть линейной комбинацией других переменных, иначе не представляет ценности для анализа;

— все предикторы измеряются в интервальной шкале или шкале отношений;

— независимые переменные внутри класса нормально распределены внутри класса (при фиксированных других переменных);

— все классы гомоскедастичны (выполняется однородность ковариационных матриц для каждого класса).

Результатом анализа является построение дискриминантной функции вида

d = a + b₁x₁ + b₂x₂ + ... + b_nx_n,

где a — константа;

b_n — коэффициенты дискриминантной функции;

x_n — предикторы (характеристики заемщика).

С помощью этой модели, зная характеристики заемщика, можно с определенной степенью вероятности определить его принадлежность к одному из классов.

Важно помнить, что ни один из статистических методов не пригоден для практического применения без предварительной «настройки». Дискриминантный анализ здесь не исключение и осуществляется в два этапа. На первом этапе проводится отбор наиболее значимых (из числа имеющихся) характеристик потенциального заемщика, определяются критерии «плохого» и «хорошего» заемщиков. Отправной точкой для отбора здесь служат имеющиеся у банка данные по клиентам, у которых кредит закрыт с известным результатом погашения (обучающая выборка). На втором этапе по данным обучающей выборки выполняется классификация потенциальных заемщиков на «плохих» и «хороших».

Рассмотрим конкретный пример разработки скоринговой модели для ипотечного кредитования клиентов банка в программе SPSS. Модель должна дать прогноз рисков по клиентам, которые планируют воспользоваться ипотечным кредитом.

Сбор (регистрация) данных для модели

Объект исследования — данные о 850 клиентах, предоставленные отделом кредитования:

— 700 клиентов, которые уже воспользовались ипотечным кредитом (обучающая выборка);

— 150 клиентов, которые только планируют воспользоваться ипотечным кредитом (выборка, по которой нужно дать прогноз).

Независимые переменные — пол клиента, возраст клиента, образование клиента, стаж на последнем месте работы, срок проживания по последнему адресу, процент долговых обязательств клиента от дохода (x100), долг клиента по кредитной карте банка, ежемесячный доход клиента, срок кредита, сумма кредита и пр.

Зависимая переменная — наличие/отсутствие у клиента долгов по ранее взятому кредиту.

Клиент — физическое лицо, владелец кредитной карты банка, обратившийся за ипотечным кредитом и заполнивший анкету установленного образца.

Подготовка данных для модели

На первом этапе по данным о 700 клиентах, уже обращавшихся за кредитом, были выделены четыре ключевые характеристики для определения кредитоспособности заемщика: стаж на последнем месте работы, срок проживания по последнему адресу, процент долговых обязательств клиента от дохода (x100), долг клиента по кредитной карте банка.

На втором этапе запускалась генерация случайной выборки из этих 700 клиентов для создания модели. Использовался метод out-of-sample validation, большая часть имеющихся данных (примерно 70%) использовалась для построения модели, а оставшаяся часть (не задействованная в моделировании) применялась для проверки модели. Затем полученная модель классифицировала 150 потенциальных клиентов на «плохих» и «хороших» заемщиков. При этом был выбран прямой метод дискриминантного анализа — дискриминантная функция вычисляется при одновременном введении всех независимых переменных (предикторов). В этом случае учитывается каждая независимая переменная.

<...>

Дискриминантная модель: прогноз

По итогам анализа в редакторе данных/редакторе переменных SPSS появились три новые переменные:

1. [Dis_1] — Predicted Group for Analysis 1, или «Предсказанная группа».

Переменная принимает два значения:

0 — не было долгов по кредитам;

1 — были долги по кредитам.

Чтобы было удобно анализировать вероятности дефолта по 150 по-тенциальным клиентам, переименуем метки переменной:

0 — не будет долгов по кредиту;

1 — будут долги по кредиту.

Также можно посмотреть, как модель предсказала риски по тем 700 клиентам, у которых кредит закрыт с известным результатом погашения.

2. [Dis1_1] — Probabilities of Membership in Group 0 for Analysis 1, или «Вероятности принадлежности к группе со значением 0 — не будет долгов по кредиту».

3. [Dis2_1] — Probabilities of Membership in Group 1 for Analysis 1, или «Вероятности принадлежности к группе со значением 1 — будут долги по кредиту».

Рисунок. Прогноз кредитоспособности заемщиков

Прогноз кредитоспособности заемщиков

Пример

Рассмотрим наблюдения 701 и 703 (рисунок).

Наблюдение 701 — это клиентка 36 лет, которая работает в одной и той же компании 16 месяцев, проживает по своему постоянному адресу в течение 13 месяцев, ее долговые обязательства составляют 10,9% ее дохода, $540 из которых — долг по кредитной карте.

Значение переменной [Dis_1] для этого наблюдения — 0, то есть «не будет долгов по кредиту». Таким образом, дискриминантная модель отнесла данного клиента к «хорошим» заемщикам.

Значение переменной [Dis1_1] для этого наблюдения — 92% (0,91548 x 100). Это означает, что с вероятностью 92% данное наблюдение может быть отнесено к группе клиентов, у которых не будет долгов по кредиту (группе со значением 0).

Значение переменной [Dis2_1] для этого наблюдения — 8% (0,08452 x 100). Это означает, что с вероятностью 8% данное наблюдение может быть отнесено к группе клиентов, у которых будут долги по кредиту (группе со значением 1).

Наблюдение 703 — это клиент 40 лет, который работает в одной и той же компании 9 месяцев, проживает по своему постоянному адресу в течение 9 месяцев, его долговые обязательства составляют 17% его дохода, $4880 из которых — долг по кредитной карте.

Значение переменной [Dis_1] для этого наблюдения — 1, то есть «будут долги по кредиту». Таким образом, дискриминантная модель отнесла данного клиента к «плохим» заемщикам.

Значение переменной [Dis1_1] для этого наблюдения — 19% (0,18545 x 100). Это означает, что лишь с вероятностью 19% данное наблюдение может быть отнесено к группе клиентов, у которых не будет долгов по кредиту (группе со значением 0).

Значение переменной [Dis2_1] для этого наблюдения — 81% (0,81455 x 100). Это означает, что с вероятностью 81% данное наблюдение может быть отнесено к группе клиентов, у которых будут долги по кредиту (группе со значением 1).

В классификационной таблице (табл. 1) приводятся результаты использования дискриминантной модели. 94 клиента из 124, у которых были долги по кредиту, были классифицированы корректно. 281 клиент из 375, выплативших кредит, был классифицирован корректно. В целом 75,2% наблюдений были классифицированы корректно. Следует помнить, что данная классификация может быть слишком «оптимистичной» (точность классификации может быть завышена).

Валидация модели

Кросс-проверка (раздел табл. 1 «Кросс-проверенные») пытается скорректировать «оптимистичную» классификацию тем, что классифицирует каждое наблюдение функциями, полученными по всем наблюдениям, при этом исключая его самого из вычислений. Метод кросс-проверки дает более «оптимистичный» прогноз, чем метод обычной проверки.

Проверка модели осуществляется путем классификации клиентов, уже бравших кредит, которые не использовались для построения модели. Эти результаты представлены в разделе «Невыбранные наблюдения». 77,1% этих наблюдений модель классифицировала правильно.

Таблица 1. Результаты классификации*

Факт долга по кредиту Предсказанная принадлежность к группе Итого

не было долгов по кредиту были долги по кредиту

1 2 3 4

Выбранные наблюдения Исходные Частота Не было долгов по кредиту 281,0 94,0 375,0

Были долги по кредиту 30,0 94,0 124,0

% Не было долгов по кредиту 74,9 25,1 100,0

Были долги по кредиту 24,2 75,8 100,0

Кросс-проверенные** Частота Не было долгов по кредиту 278,0 97,0 375,0

Были долги по кредиту 31,0 93,0 124,0

% Не было долгов по кредиту 74,1 25,9 100,0

Были долги по кредиту 25,0 75,0 100,0

Невыбранные наблюдения Исходные Частота Не было долгов по кредиту 106,0 36,0 142,0

Были долги по кредиту 10,0 49,0 59,0

Несгруппированные наблюдения 95,0 55,0 150,0

% Не было долгов по кредиту 74,6 25,4 100,0

Были долги по кредиту 16,9 83,1 100,0

Несгруппированные наблюдения 63,3 36,7 100,0

Факт долга по кредиту	Предсказанная принадлежность к группе	Итого
не было долгов по кредиту	были долги по кредиту
1	2	3	4
Выбранные наблюдения	Исходные	Частота	Не было долгов по кредиту	281,0	94,0	375,0
Были долги по кредиту	30,0	94,0	124,0
%	Не было долгов по кредиту	74,9	25,1	100,0
Были долги по кредиту	24,2	75,8	100,0
Кросс-проверенные**	Частота	Не было долгов по кредиту	278,0	97,0	375,0
Были долги по кредиту	31,0	93,0	124,0
%	Не было долгов по кредиту	74,1	25,9	100,0
Были долги по кредиту	25,0	75,0	100,0
Невыбранные наблюдения	Исходные	Частота	Не было долгов по кредиту	106,0	36,0	142,0
Были долги по кредиту	10,0	49,0	59,0
Несгруппированные наблюдения	95,0	55,0	150,0
%	Не было долгов по кредиту	74,6	25,4	100,0
Были долги по кредиту	16,9	83,1	100,0
Несгруппированные наблюдения	63,3	36,7	100,0

* 75,2% выбранных исходных сгруппированных наблюдений классифицировано правильно.

77,1% невыбранных исходных сгруппированных наблюдений классифицировано правильно.

74,3% выбранных кросс-проверяемых сгруппированных наблюдений классифицировано правильно.

** Кросс-проверка проводится только для наблюдений в анализе. При кросс-проверке каждое наблюдение классифицируется функциями, выведенными по всем наблюдениям, за исключением его самого.

150 несгруппированных наблюдений — это потенциальные клиенты. Приведенные здесь результаты — частотная таблица, количество наблюдений по каждой из предсказанных групп этих клиентов.

Поскольку тест М Бокса статистически значим, это может пригодиться для последующего анализа, цель которого — ответить на вопрос, внесет ли изменения в классификацию использование ковариационной матрицыдля отдельных групп.

Чтобы провести классификацию с использованием ковариационной матрицы для отдельных групп:

Английская версия SPSS

Выберите в меню Discriminant Analysis → Нажмите Classify → Выберите Separate-groups > Обратите внимание, что с включенной опцией Separate-groups опция Leave-one-out classification недоступна → Нажмите Continue →Нажмите OK в диалоговом окне Discriminant Analysis

Русская версия SPSS

Выберите в меню Дискриминантный анализ → Нажмите Классифицировать → Выберите Для отдельных групп → Обратите внимание, что с включенной опцией Для отдельных групп опция Скользящий контроль недоступна → Нажмите Продолжить → Нажмите OK в диалоговом окне Дискриминантный анализ

Результаты классификации изменились незначительно (табл. 2). Можно заключить, что использование отдельных ковариационных матриц не несет особой ценности для анализа. Тест М Бокса слишком чувствителен к отклонениям от многомерной нормальности, что, вероятно, и произошло в нашем случае.

Таблица 2. Результаты классификации*

Факт долга по кредиту Предсказанная принадлежность к группе Итого

не было долгов по кредиту были долги по кредиту

Выбранные наблюдения Исходные Частота Не было долгов по кредиту 287,0 88,0 375,0

Были долги по кредиту 31,0 93,0 124,0

% Не было долгов по кредиту 76,5 23,5 100,0

Были долги по кредиту 25,0 75,0 100,0

Невыбранные наблюдения Исходные Частота Не было долгов по кредиту 107,0 35,0 142,0

Были долги по кредиту 10,0 49,0 59,0

Несгруппированные наблюдения 96,0 54,0 150,0

% Не было долгов по кредиту 75,4 24,6 100,0

Были долги по кредиту 16,9 83,1 100,0

Несгруппированные наблюдения 64,0 36,0 100,0

Факт долга по кредиту	Предсказанная принадлежность к группе	Итого
не было долгов по кредиту	были долги по кредиту
Выбранные наблюдения	Исходные	Частота	Не было долгов по кредиту	287,0	88,0	375,0
Были долги по кредиту	31,0	93,0	124,0
%	Не было долгов по кредиту	76,5	23,5	100,0
Были долги по кредиту	25,0	75,0	100,0
Невыбранные наблюдения	Исходные	Частота	Не было долгов по кредиту	107,0	35,0	142,0
Были долги по кредиту	10,0	49,0	59,0
Несгруппированные наблюдения	96,0	54,0	150,0
%	Не было долгов по кредиту	75,4	24,6	100,0
Были долги по кредиту	16,9	83,1	100,0
Несгруппированные наблюдения	64,0	36,0	100,0

* 76,2% выбранных исходных сгруппированных наблюдений классифицировано правильно.

77,6% невыбранных исходных сгруппированных наблюдений классифицировано правильно.

В табл. 3 приводятся априорные вероятности принадлежности к группам. Априорные вероятности (Prior Probabilities) — это вероятности того, что наблюдение принадлежит соответствующей группе, без использования какой-либо информации о значениях переменных в модели. Пока вы не определите ее, по умолчанию предполагается, что наблюдение может быть с равной степенью вероятности отнесено как к клиенту, у которого не было долгов по кредиту, так и к клиенту, у которого были долги. Однако вы можете знать априори, что в популяции больше ненадежных заемщиков и поэтому априорные вероятности для заемщика принадлежать к группе «плохих» заемщиков выше, чем принадлежать к группе «хороших» заемщиков. Подгонка априорных вероятностей пропорционально размерам групп может улучшить общую точность классификации, что мы и выполним для новых данных.

Таблица 3. Априорные вероятности для групп

Факт долга по кредиту Априорные вероятности Наблюдения, использованные для анализа

невзвешенные взвешенные

Не было долгов по кредиту 500 375 375,000

Были долги по кредиту 500 124 124,000

Итого 1,000 499 499,000

Факт долга по кредиту	Априорные вероятности	Наблюдения, использованные для анализа
невзвешенные	взвешенные
Не было долгов по кредиту	500	375	375,000
Были долги по кредиту	500	124	124,000
Итого	1,000	499	499,000

Чтобы провести классификацию, используя неодинаковые априорные вероятности:

Английская версия SPSS

Выберите в меню Discriminant Analysis → Нажмите Classify → Выберите Compute from group sizes → Выберите Within-groups → Нажмите Continue → Нажмите OK в диалоговом окне Discriminant Analysis

Русская версия SPSS

Выберите в меню Дискриминантный анализ → Нажмите Классифицировать → Выберите Вычислить по размерам групп → Выберите Внутригрупповая → Нажмите Продолжить → Нажмите OK в диалоговом окне Дискриминантный анализ

Априорные вероятности (табл. 4) вычислены исходя из размеров групп. 75,2% наблюдений — это клиенты, у которых не было долгов по кредиту, и теперь классифицирующие функции взвешиваются в пользу наблюдений по клиентам, у которых не было долгов.

Таблица 4. Априорные вероятности для групп

Факт долга по кредиту Априорные вероятности Наблюдения, использованные для анализа

невзвешенные взвешенные

Не было долгов по кредиту 752 375 375,000

Были долги по кредиту 248 124 124,000

Итого 1,000 499 499,000

Факт долга по кредиту	Априорные вероятности	Наблюдения, использованные для анализа
невзвешенные	взвешенные
Не было долгов по кредиту	752	375	375,000
Были долги по кредиту	248	124	124,000
Итого	1,000	499	499,000

Результаты классификации представлены в табл. 5.

Таблица 5. Результаты классификации*

Факт долга по кредиту Предсказанная принадлежность к группе Итого

не было долгов по кредиту были долги по кредиту

Выбранные наблюдения Исходные Частота Не было долгов по кредиту 356,0 19,0 375,0

% Были долги по кредиту 75,0 49,0 124,0

Не было долгов по кредиту 94,9 5,1 100,0

Были долги по кредиту 60,5 39,5 100,0

Кросс-проверенные** Частота Не было долгов по кредиту 355,0 20,0 375,0

Были долги по кредиту 77,0 47,0 124,0

% Не было долгов по кредиту 94,7 5,3 100,0

Были долги по кредиту 62,1 37,9 100,0

Невыбранные наблюдения Исходные Частота Не было долгов по кредиту 137,0 5,0 142,0

Были долги по кредиту 31,0 28,0 59,0

Несгруппированные наблюдения 130,0 20,0 150,0

% Не было долгов по кредиту 96,5 3,5 100,0

Были долги по кредиту 52,5 47,5 100,0

Несгруппированные наблюдения 86,7 13,3 100,0

Факт долга по кредиту	Предсказанная принадлежность к группе	Итого
не было долгов по кредиту	были долги по кредиту
Выбранные наблюдения	Исходные	Частота	Не было долгов по кредиту	356,0	19,0	375,0
%	Были долги по кредиту	75,0	49,0	124,0
Не было долгов по кредиту	94,9	5,1	100,0
Были долги по кредиту	60,5	39,5	100,0
Кросс-проверенные**	Частота	Не было долгов по кредиту	355,0	20,0	375,0
Были долги по кредиту	77,0	47,0	124,0
%	Не было долгов по кредиту	94,7	5,3	100,0
Были долги по кредиту	62,1	37,9	100,0
Невыбранные наблюдения	Исходные	Частота	Не было долгов по кредиту	137,0	5,0	142,0
Были долги по кредиту	31,0	28,0	59,0
Несгруппированные наблюдения	130,0	20,0	150,0
%	Не было долгов по кредиту	96,5	3,5	100,0
Были долги по кредиту	52,5	47,5	100,0
Несгруппированные наблюдения	86,7	13,3	100,0

* 82,1% невыбранных исходных сгруппированных наблюдений классифицировано правильно;

81,2% выбранных исходных сгруппированных наблюдений классифицировано правильно;

80,6% выбранных кросс-проверяемых сгруппированных наблюдений классифицировано правильно.

Точность классификации получилась более высокой, чем при подходе, основанном на равных априорных вероятностях. К сожалению, часто эта точность достигается ценой завышения процентной доли клиентов, у которых были долги по кредиту (выделено жирным в таблице). Как же поступить в этой ситуации? Если вы придерживаетесь «оптимистического» подхода к оценке кредитоспособности клиента (расширение клиентской базы, особенно когда речь идет об открытии банком нового, «пилотного» кредитного продукта) и вам необходимо составить портрет проблемного заемщика, то лучше использовать метод, основанный на равных априорных вероятностях. Если же вы придерживаетесь «скептического» подхода (минимизация кредитных рисков), то целесообразнее использовать метод, основанный на неравных априорных вероятностях.

Используя дискриминантный анализ, мы создали модель, которая позволяет классифицировать заемщиков на «хороших» и «плохих». Использование критерия М Бокса показало возможную проблему неоднородности ковариационных матриц, хотя в ходе дальнейшего анализа выяснилось, что это может быть вызвано чувствительностью теста к нарушению многомерной нормальности. Использование метода, основанного на неравных априорных вероятностях, повысило точность классификации, но за счет искажения данных (завышения числа «плохих» заемщиков). В нашем примере предпочтение было отдано методу равных априорных вероятностей¹.

¹ - Для самостоятельного проведения дискриминантного анализа можно использовать данные настоящего исследования (http://narod.ru/disk/22240614001/Скоринг.sav.html).

Корпоративный менеджмент, https://www.cfin.ru