Korean Institute of Information Technology

Current Issue

The Journal of Korean Institute of Information Technology - Vol. 22 , No. 3

[ Article ]
The Journal of Korean Institute of Information Technology - Vol. 22, No. 3, pp. 11-21
Abbreviation: Journal of KIIT
ISSN: 1598-8619 (Print) 2093-7571 (Online)
Print publication date 31 Mar 2024
Received 11 Dec 2023 Revised 09 Jan 2024 Accepted 12 Jan 2024
DOI: https://doi.org/10.14801/jkiit.2024.22.3.11

개인신용평가 모델을 위한 데이터 증강과 전이학습
김명국* ; 정호성** ; 민찬호***
*아주대학교 금융공학과 석사과정
**한국은행 경제연구원 금융통화연구실 연구위원
***아주대학교 금융공학과 교수(교신저자)

Data Augmentation and Transfer Learning for Personal Credit Evaluation Model
Myeongkuk Kim* ; Hosung Jung** ; Chanho Min***
Correspondence to : Chanho Min Dept. of Financial Engineering, School of Business, Ajou University, Korea Tel: 82+31-219-3668, Email: chanhomin@ajou.ac.kr

Funding Information ▼

초록

본 연구는 개인 신용 평가의 정확도를 개선하기 위해 SMOTE와 TabNet 딥러닝 모델을 사용했다. 신용 평가 모델에서의 주된 문제는 지급 이행 데이터에 대한 과적합 경향이다. 이는 채무 불이행 사례가 적어 발생하는 문제로, SMOTE를 적용해 채무 불이행 데이터를 인위적으로 늘려 이 불균형을 해소했다. 연구에서는 TabNet 모델을 사용하여 복잡한 금융 데이터를 처리하고 전이학습으로 모델의 범용성을 향상시켰다. 이 방식은 모델이 새로운 데이터에서 보다 정확한 예측을 가능하게 하고 과적합 위험을 줄인다. 성능 평가는 불균형 데이터에 적합한 지표를 사용해 TabNet의 SMOTE 적용 효과를 비교 분석했다. 결과적으로, SMOTE와 전이학습이 통합된 TabNet 모델이 다른 버전들보다 우수한 성능을 나타냈다.

Abstract

This study aimed to enhance the accuracy of personal credit scoring models by utilizing the SMOTE technique and the TabNet deep learning model. A primary issue in personal credit scoring is the tendency of models to overfit on payment compliance data. This overfitting arises due to the relative scarcity of default cases. To address this, the SMOTE method was employed to artificially increase the data of the default class, mitigating the problem of data imbalance. The research adopted the TabNet deep learning model for efficiently processing high-dimensional financial data and enhanced the model's generalization capabilities through transfer learning. This approach enables the model to perform better predictions on new data and reduces the risk of overfitting. The performance evaluation used metrics suitable for imbalanced data to compare and analyze the effectiveness of TabNet with and without SMOTE. The study results indicated that the TabNet model combined with SMOTE and transfer learning exhibited superior performance compared to other models.


Keywords: credit evaluation, machine learning, SMOTE, transfer learning

Ⅰ. 서 론

개인 신용 평가는 대출 신청이나 신용카드 발급 등 금융 서비스를 이용할 때 금융기관에 의해 중요하게 활용된다. 이는 소비자의 채무 불이행 가능성을 평가하기 위한 과정으로, 금융기관들은 이를 통해 중요한 결정을 내린다. 예를 들어, 은행은 신용 평가 시스템을 사용하여 대출 승인, 한도, 이자율을 결정하며, 만기 시에는 연장 여부나 조건 변경에도 적용한다. 바젤 II 도입 이후에는 대손충당금과 위험가중자산 평가에도 사용된다. 신용카드 회사들 역시 카드 발급 및 한도, 수수료 결정에 신용 평가 모델을 적용한다. 이와 같이 여신을 다루는 금융 기관들은 위험 관리와 규제 준수를 위해 다양한 신용 평가 모델을 개발하고 활용한다. 이들은 자체 데이터 및 외부 신용 평가 기관의 점수를 결합해 통계적 방법론을 적용한 모델을 사용하고 있다[1].

기계 학습의 관점에서 신용 평가 문제는 주로 두 가지 범주로 나누어지는 이진 분류 문제로 간주될 수 있다. 대다수의 데이터가 한쪽 범주에 치우친 경향이 있다[2]. 이러한 불균형 데이터를 다루는 데 있어, 소수 클래스의 정확한 분류가 매우 중요하다. 이에 본 연구에서는 불균형 데이터 처리를 위해 오버 샘플링 기법을 사용할 것을 제안한다.

SMOTE(Synthetic Minority Over-sampling Technique)는 불균형 데이터 세트에서 소수 클래스의 샘플을 인공적으로 증가시키는 오버 샘플링 기법으로, 모델의 성능을 개선하는데 중요한 역할을 한다[3]. 이 기법은 소수 클래스의 기존 샘플을 기반으로 새로운 합성 샘플을 생성하여 데이터의 균형을 맞추는데 사용된다. 이 과정은 모델이 소수 클래스를 더 잘 인식하고, 일반화 성능을 향상시키는 데 도움을 준다. 이는 특히 신용 평가와 같은 분야에서 중요한 의미를 가진다. 신용 평가에서는 소수의 부도 사례를 정확히 예측하는 것이 중요한 영향을 미칠 수 있으므로, SMOTE를 활용한 균형 잡힌 데이터는 보다 신뢰할 수 있는 예측 모델을 구축하는 데 핵심적인 요소가 된다.

또한 본 연구에서는 테이블 형식 데이터의 분석에 TabNet을 사용하는 것의 중요성을 강조한다[4]. TabNet의 핵심 장점은 구조화된 데이터에 대한 높은 예측 정확도와 모델의 결정 과정을 명확하게 해석할 수 있는 능력에 있다. 특히 금융 분야는 규제가 많은 산업이기 때문에 직원의 이해도 향상과 소비자에게 충분한 설명을 제공하는 것이 중요하다[5]. 이 모델은 각 예측에 필요한 특성을 동적으로 선택하여 중요한 데이터에 집중함으로써 더 정확하고 효율적인 예측을 가능하게 한다. 특히, 사전 훈련된 모델(Pretrained model)의 사용은 TabNet에서 유독 효과적이며, 이는 다양한 데이터셋과 문제에 대해 모델의 학습 시간을 단축시키고, 빠른 수렴과 더욱 개선된 성능을 제공한다. TabNet의 유연성은 다양한 유형의 테이블 데이터와 다양한 예측 문제에 적용될 수 있어, 이러한 접근 방식은 테이블 데이터를 활용하는 금융 분야에서 효과적인 데이터 분석 및 의사결정 지원 도구로서 TabNet의 사용이 효과적이다.

본 연구는 SMOTE와 TabNet을 결합하여 신용 평가 분야에 새로운 방법론을 제시하는 것이 핵심이다. 이 연구는 SMOTE를 활용해 신용 데이터의 불균형 문제를 해결하고, 사전 학습된 TabNet을 통해 신용 데이터의 비정형적 특성을 고려하여 모델의 해석 가능성과 정확성을 높이는 방법론을 개발한다. 이 통합적인 접근법은 기존의 방법론이 해결하지 못한 문제점들을 극복하고, 보다 효과적인 신용 평가 모델을 구축하는 데 기여한다.

본 연구 논문은 다음과 같은 구조로 짜여졌다. 먼저, 제2장에서는 기존의 개인 신용평가에 관한 분석 연구 및 다양한 모델에 대한 선행 연구들을 검토한다. 이를 통해 연구의 배경과 이론적 기반을 제공한다. 제3장에서는 본 연구에서 사용될 세 가지 데이터셋과 불균형 데이터를 평가하기 위한 지표들에 대해 소개하며, 이를 통해 연구 방법론의 기반인 SMOTE와 TabNet의 소개를 한다. 이어서 제4장에서는 각 데이터셋 별로 다양한 방법의 예측 성능을 분석하고 비교한다. 이 과정에서 데이터의 특성과 방법론의 성능 간의 상호작용을 검토한다. 마지막으로, 결론 부분에서는 연구의 주요 발견 사항을 요약하고, 이 논문의 의의와 향후 연구 방향에 대해 논의한다.


Ⅱ. 관련 연구

정량적 신용평가는 금융소비자들 사이에서 채무 불이행 가능성을 가진 이들과 상환 능력이 있는 이들을 정확히 구별하는 모델을 개발하는 것을 목적으로 한다. 개인신용평가 모델의 정확도를 단 1%만 개선해도 미래에 큰 비용 절감 효과가 예상된다[6]. 신용평가에 대한 최초의 정량적 방법론적 접근은 선형 판별분석에 의해 이루어졌으며, 이 방법론은 금융 회사의 신용 데이터를 활용하여 모델을 구축하는 데 사용되었다[7]. 이후, 소비자 신용 데이터를 활용한 정량적 신용 평가 연구가 활발히 진행되었다. 대부분의 전통적 모델들은 통계적으로 유의미한 선형 모델 계수를 이용해 점수를 산정하지만, 로지스틱 회귀 모델을 대체 방안으로 제시하며 선형 모델과의 비교를 통해 로지스틱 모델의 우수성을 주장하기도 하였다[8].

또한 다층 퍼셉트론 신경망이 선형 판별분석이나 로지스틱 회귀분석보다 우수한지에 대한 연구도 진행되었다[9]. 판별 분석, 로지스틱 회귀분석, KNN(K-Nearest Neighbor), 커널 밀도 추정, 의사결정나무, 다층 퍼셉트론 모형 등 다양한 모형의 성능을 비교했으며, 다층 퍼셉트론이 가장 정확한 모델은 아니며, MoE(Mixture-of-Experts)와 방사형 기저 함수(Radial basis function) 신경망을 고려할 필요가 있다고 밝혔다[10]. SVM(Support Vector Machine)을 사용한 신용평가 모델을 또한 개발하고, 다층퍼셉트론에 비해 분류 성능이 뛰어난 것을 통계적으로 입증한 연구와 SVM 모델에 Rule Extraction 기법을 추가하여 모델의 해석 가능성을 높인 연구 또한 진행되었다[11][12]. 더 나아가 P2P 대출 플랫폼인 Lending Club의 데이터를 학습한 랜덤 포레스트 기반의 분류 방법을 제안하였고, 이 모델은 SVM, 로지스틱 회귀분석, KNN을 넘어서는 78%의 분류 정확도를 보였다[13]. 몇몇 연구에서는 기존 연구의 알고리즘을 종합적으로 정리하여서 인공신경망이 ELM(Extreme Learning Machine)보다 우수하고, 랜덤 포레스트가 RotFor(Rotation Forest)보다 나은 성능을 보이며, 동적 선택 앙상블이 거의 모든 다른 분류 모형보다 낮은 성능을 보인다고 밝혔다[14]. 마지막으로, Boosting 계열의 Sequential Ensemble 방법인 XGBoost 기반 신용평가 모델을 제안하고, 다른 앙상블 모델인 AdaBoost와 Bagging과의 성능 비교를 통해 XGBoost의 우수성을 입증했다[15].

그러나 기존의 머신러닝 기반 신용 평가 방법론들은 데이터의 불균형 문제를 충분히 해결하지 못했다. 이에, 불균형 데이터에서도 효과적인 학습을 가능하게 하기 위해 다양한 비대칭 데이터 처리 기법에 대한 연구가 진행되었다. 실증 연구를 통해 소비자 상환 행동을 예측하는 데 다양한 인스턴스 샘플링 기술의 효과가 평가되었으며, 전통적으로 권장되는 것보다 더 큰 샘플 크기를 사용하는 것이 로지스틱 회귀, 판별 분석, 의사결정 트리 및 신경망과 같은 알고리즘을 통한 신용 평가 모델의 정확성을 크게 향상시킴을 보여주었다[16]. 균형 잡힌 훈련 데이터셋의 생성을 위한 효과적인 해결책으로 균형 교차 검증 방법을 제안됐다[17].

신용 평가 모델에서 전이 학습을 적용하는 연구가 수행되었다. 특히, 신용 점수 데이터가 제한적인 상황에서 모델 성능을 향상시키는 것이 필요하기 때문에 전이 학습이 중요한 역할을 한다. 그러나 다양한 데이터셋에 대한 전이 학습의 무분별한 적용은 모델 훈련의 실패로 이어질 수 있다[18]. 이러한 위험을 완화하고 전이 학습을 효과적으로 활용하기 위해, 우리는 TabNet을 사용하기로 결정했다.


Ⅲ. 연구 방법
3.1 데이터

이 연구에서는 FICO의 Explainable Machine Learning Challenge에서 제공하는 HELOC(Home Equity Line of Credit) 데이터와 UCI Machine Learning Repository에서 제공한 신용카드 고객 채무 불이행 데이터셋, 그리고 한국은행 가계부채 데이터를 활용한다[19][20]. 그림 1과 같이 각각의 데이터마다 종속 변수인 부채와 상환의 분포가 다른 것을 확인 할 수 있다.


Fig. 1. 
Frequency of payment and default in HELOC, UCI and Bank of Korea

3.1.1 HELOC

HELOC는 주택 자본을 담보로 한 신용 대출 형태이다. 이용 가능한 신용 한도는 주택 자본, 신용 점수, 그리고 부채 대 소득 비율에 따라 결정되며, 보통 일반 신용 대출보다 더 높은 한도와 낮은 이자율을 제공한다.

HELOC 데이터셋은 총 10,459건의 데이터와 23개의 변수를 포함하고 있다. 이 연구에서 중점을 둔 예측 변수는 ‘RiskPerformance’이다. 이 변수는 24개월 동안 90일 이상 연체된 경우를 'Bad'로, 그렇지 않은 경우를 'Good'으로 분류하는 종속변수로, 데이터 상에서 'Bad'는 5,459건, 'Good'는 5,000건으로 나타난다. 이는 대략 1.1 대 1 비율로 균형 잡힌 종속변수 분포를 보여준다. 모델 학습을 위해 'Bad'는 1로, 'Good'는 0으로 변환되었다.

23개 변수 중 ‘MaxDelq2PublicRecLast12M’, ‘MaxDelq2PublicRecLast12M’는 범주형 변수로 분류된다. ‘MaxDelq2PublicRecLast12M‘은 0부터 7까지, ’MaxDelqEver‘는 2부터 8까지의 범위를 가지며, 숫자가 낮을수록 연체 기간이 긴 것을 의미한다. -9는 신용거래 정보가 없는 결측치로 처리되었다. HELOC 데이터에는 -9 외에도 독특한 값들이 존재하는데, -7은 조건 불만족을 나타내며, 이는 0으로 대체되었다. -8은 활성화된 거래나 문의가 없는 상태를 나타내지만, 다른 변수들에서 중요한 정보를 포함하고 있기 때문에 NaN 값으로 대체한 후 결측치 대체 과정을 진행했다.

데이터의 기술 통계량과 분포를 모델링하기 전에 분석했다. HELOC 데이터의 수치형 변수들에 대한 평균, 분산, 표준편차, 왜도, 첨도 등의 기술 통계량을 계산했다. 일부 변수는 평균이 1 미만이거나 200 이상으로 큰 차이를 보여주었다. 이러한 변수 간 범위 차이를 고려하여 모델 학습 전에 데이터를 정규화하는 전처리 작업을 수행했다.

3.1.2 UCI

UCI 데이터는 Yeh과 Lien(2009)이 대만의 주요 은행에서 신용카드 고객의 채무 불이행 데이터를 기반으로 한 것으로, 총 30,000개의 데이터와 24개의 변수로 구성되어 있다. 독립변수는 X1부터 X23까지로, 여기에는 신용 한도(X1), 성별(X2), 교육(X3), 결혼 상태(X4), 나이(X5) 등의 정보가 포함되어 있다. X6부터 X11은 과거의 상환 상태를, X12부터 X17은 과거 청구서 총액을, 그리고 X18부터 X23은 과거 지불 총액을 나타낸다. 성별, 교육, 결혼, 과거 상환 상태 등은 범주형 데이터로, 이에 대한 자세한 정보는 Yeh의 논문에서 확인할 수 있다[21]. 종속변수는 다음 달 채무 불이행 여부를 나타내며, 이 데이터는 불균형하게 분포되어 있어, 정상 거래가 23,364건, 채무 불이행이 6,636건으로 구성되어 있다.

데이터 분석에 앞서, UCI 데이터의 수치형 변수에 대한 기술 통계량을 살펴보았다. 여기에는 평균, 분산, 표준편차, 왜도, 첨도 등이 포함되어 있다. 마찬가지로 각 변수 간에 큰 범위 차이를 보이기 때문에, 모델 학습 전에 데이터를 정규화하는 과정을 거쳤다.

3.1.3 한국은행 가계부채 DB

한국은행의 가계부채 데이터베이스는 2016년 3월을 기준으로 개인 신용 관련 데이터를 포함하고 있으며, 총 14,296명의 데이터로 구성되어 있다. 이 데이터베이스에는 종속변수를 제외하고 33개의 신용 정보 변수가 포함되어 있으며, 그 중 범주형 데이터로는 채무 불이행 여부, 성별, 연령, 기준금리, 코픽스 금리, 대출 총액, 부채비율, 기타 금융 대출 여부 등 50개의 변수가 존재한다. 본 연구에서는 이중 33개의 유의미한 데이터를 선별하여서 학습을 하였다. 데이터는 불균형이 매우 심하여 정상 신용자 데이터가 12,515개, 불량 신용자 데이터가 1,781개로 구성되어 있다. 이러한 데이터의 비대칭성은 분석 시 특별히 고려해야 할 중요한 요소이다.

3.2 불균형 데이터 처리 – SMOTE

불균형 데이터란 한 클래스의 데이터가 다른 클래스에 비해 현저히 적은 경우를 말하며, 이는 기계학습에서 중요한 문제로 여겨진다. 주로 모델이 다수 클래스의 데이터를 기반으로 학습되어 소수 클래스의 데이터를 제대로 예측하지 못하는 경향이 있다. 이러한 문제를 해결하기 위한 방법으로 언더 샘플링과 오버 샘플링이 연구되고 있다. 언더 샘플링은 다수 클래스의 데이터 수를 줄이는 방식으로, 이 과정에서 중요한 정보가 손실될 수 있다는 단점이 있다. 반면, 오버 샘플링은 소수 클래스의 데이터를 증가시키는 방식으로, 여기서는 적절한 복원 비율을 설정하지 않으면 모델이 과적합될 위험이 있다.

SMOTE을 사용하여 클래스 불균형을 해결할 때, 모델이 과적합(Overfitting)할 위험이 있다. SMOTE는 소수 클래스의 새로운 합성 샘플을 생성하여 균형 잡힌 데이터셋을 만드는 데 도움이 되지만, 이 과정에서 모델이 인위적으로 생성된 패턴을 지나치게 정확하게 학습할 수 있다. 이를 방지하기 위해 별도의 모델 훈련에 사용되지 않는 이 검증 세트를 통해 모델의 성능을 확인 하는 것이 중요하다. 훈련 데이터셋과 검증 데이터셋 모두에서 모델의 성능을 모니터링함으로써, 모델을 조정하여 과적합을 완화하고 새로운 데이터에 대한 일반화 능력을 보장할 수 있습니다.

SMOTE는 기존 데이터를 단순히 복제하는 기본 오버 샘플링 기법보다 불균형 데이터셋을 처리하는 데 종종 선호된다. 이 기법은 소수 클래스 데이터 주변에서 새로운 데이터 포인트를 합성하는 방식으로 작동한다. 구체적으로는 소수 클래스의 개별 데이터 포인트를 선택하고, 그 데이터와 k개의 가장 가까운 이웃 데이터 포인트 사이의 거리를 계산한다. 그런 다음, 이 거리에 임의의 비율을 적용하여 새로운 데이터 포인트를 생성한다. 단순 복제와 달리 SMOTE는 클래스 간의 더 나은 결정 경계를 촉진하며 모든 원본 데이터를 유지하여 정보 손실을 방지한다.

본 연구에서는 SMOTE를 활용하여 HELOC 데이터셋에서 ‘Good’ 데이터를 약 10% 증강시켰다. 이와는 별개로, UCI 데이터셋에서는 채무 불이행 데이터를 추가로 30% 증가시켰다. 마지막으로 가장 불균형이 심한 한국은행 개인신용 데이터에서는 채무 불이행 데이터를 50% 증가시켰다. 이러한 구체적인 증강 비율은 일련의 실험을 통해 결정되었다. 주요 TabNet 모델이 과적합하지 않으면서도 성능이 증가하는 비율을 검증 데이터를 바탕으로 찾았다. 이러한 모든 데이터 증강과정에서 k 값은 5로 고정하였다. 이렇게 데이터를 증강시킨 후, 모델의 성능을 데이터 증강 전과 비교 분석하여 SMOTE가 모델의 분류 성능에 어떠한 영향을 미치는지 평가하였다. 이러한 접근 방식은 불균형 데이터 문제를 해결하고 모델의 예측 능력을 강화하는데 중점을 두었다.

3.3 모델 – TabNet

본 연구에서 활용한 딥러닝 네트워크는 TabNet이다. TabNet은 Google Cloud AI의 Arik과 Pfister에 의해 개발된 모델로, 정형 데이터 분류에 특화되어 있다. 전통적으로, 정형 데이터 분류 모델링에서는 의사결정나무 기반의 앙상블 모델이 선호되었다. 이러한 모델들은 노드 추적을 통해 특성 중요도를 파악하고, 이를 해석할 수 있는 장점이 있다.

TabNet은 신용 평가 분야에서 해석 가능성, 구조화된 데이터 처리에 특화된 설계, 그리고 효율적인 훈련 및 추론 능력으로 효과적입니다. 이 모델의 해석 가능성은 보수적인 금융 규제 준수를 보장하며, 신용 평가에서 중요한 대출 승인 또는 거절과 같은 의사결정 과정을 명확하게 이해하고 설명할 수 있게 한다. TabNet은 특히 테이블 형태의 데이터를 효율적으로 처리하도록 설계되었으며, 이는 신용 평가에서 사용되는 소득, 신용 기록과 같은 구조화된 데이터 형식을 효과적으로 처리한다. 이러한 특성들은 TabNet을 신용 평가 분야에서 기술적 정확성과 금융 분야의 투명성 요구를 모두 충족하는 강력한 도구로 만든다.

TabNet은 표 형식 데이터를 모델링하기 위해 개발된 독창적인 딥러닝 아키텍처로, NLP에서 사용되는 트랜스포머 모델과 유사한 Feature Transformer를 핵심 구성 요소로 사용한다. 이는 입력 특징을 표현력 있게 변환하며, 각 결정 단계마다 적용되어 데이터에 대한 이해를 점진적으로 개선한다. TabNet은 Attentive Transformer를 사용하여 어떤 특징에 집중할지 결정한다. 이는 주의 메커니즘을 통해 모델이 각 단계에서 데이터의 다양한 측면을 고려하도록 한다. 모델은 또한 여러 결정 단계를 통해 입력을 처리한다. 각 단계에서 일부 특징을 선택하고 이를 사용하여 입력의 표현을 업데이트한다. 이 과정은 그라디언트 부스팅 모델과 유사하며 데이터의 다양한 측면을 고려한다. 이러한 구조적 요소들의 결합은 TabNet이 복잡한 표 형식 데이터를 효과적으로 모델링하면서도 중요한 특징에 대한 해석을 제공할 수 있게 한다.

본 연구에서는 전이학습의 중요성을 입증하기 위해 두 가지 접근 방식을 비교하는 실험을 설계했다. 첫 번째 접근 방식은 비지도 사전학습을 통한 전이학습 모형이고, 두 번째는 지도학습만을 사용하여 인코더를 학습한 TabNet 모형이다.

첫 번째로 비지도 사전학습을 통한 전이학습 모형은 그림 2에 설명된 것처럼, 비지도 사전학습 또는 자기 지도학습을 통해 인코더와 디코더를 사전 학습한다. 정형 데이터에는 서로 상호의존적인 특성들이 존재하기 때문에, 이 사전학습 과정은 인코더의 초기 가중치를 효과적으로 학습하는 데 중요하다. 이러한 사전학습 모델은 TabNet 라이브러리에 제공되는 모델을 사용하였다. 이후 그림 3과 같이, 사전 학습된 인코더를 각각의 데이터에서 전이학습을 수행한다. 이 접근 방식은 사전학습을 통해 획득한 지식을 새로운 문제에 적용하여 모델의 성능을 향상하는 데 초점을 맞춘다.


Fig. 2. 
Pre-training of TabNet


Fig. 3. 
Supervised fine-tuning of TabNet

두 번째로 사전학습없이 데이터에서의 지도학습으로만 학습한 TabNet 모형이다. 이 모델은 전통적인 지도학습 방식을 사용하여 인코더만을 학습한다. 이 경우, 모델은 주어진 레이블과 함께 훈련 데이터에서 직접 학습하여 특성을 추출하고 예측을 수행한다. 이 방식은 비지도 사전학습이 없기 때문에, 모델이 훈련 데이터로부터 직접적으로만 학습하게 된다.

이 실험의 목적은 전이학습이 TabNet 모델의 성능에 어떠한 영향을 미치는지 평가하는 것이다. 전이학습 모형과 지도학습 모형을 비교함으로써, 비지도 사전학습이 모델의 일반화 능력과 성능에 어떤 이점을 제공하는지 확인할 수 있다. 이는 전이학습이 복잡한 정형 데이터를 다루는 데 있어 중요한 역할을 할 수 있음을 시사한다. Ablation study(제거 연구)를 통해, 각 구성 요소가 전체 모델 성능에 미치는 영향을 분석하고, 전이학습의 중요성을 입증하는 근거를 제공한다.


Ⅳ. 연구 결과

본 연구에서는 SMOTE와 전이학습 전후 성능을 비교하기 위하여 사전학습을 수행하지 않은 기본 TabNet 모형과 SMOTE를 추가한 TabNet 모형, 사전학습을 수행한 TabNet 모형, 마지막으로 SMOTE와 사전학습을 모두 수행한 모형 4가지를 비교하였다.

본 연구에서 사용된 TabNet 모델의 구성에 있어서, 결정 예측 계층(Decision prediction layer)과 주의 집중 임베딩 계층(Attention embedding layer)은 모두 8로 설정하고 이 layer를 3번 구성을 하였다. 학습 과정에서는 학습률을 0.01로 설정하고, 최적화 알고리즘으로는 Adam Optimizer를 채택하여 모델의 성능을 극대화하였다. 각 모델의 학습은 트레이닝 손실(Training loss)이 수렴하는 지점에 도달할 때까지 진행되었다. 이 실험들에서 데이터의 70%는 훈련용으로 할당되었고, 15%는 검증을 위해 사용되었으며, 나머지 15%는 테스트용으로 지정되었다. 전체 데이터의 15%를 차지하는 검증 세트는 성능을 최적화하기 위해 이전에 언급된 데이터 증강 비율을 조정하는 데 사용되었다.

4.1 분류 모형 평가 지표

분류 성능이 얼마나 우수한지 평가하고, 최적의 모형을 선택하기 위해서 다양한 평가 지표들을 사용한다. 신용평가 모델링은 이진 분류 모형으로 채무 불이행 1이 발생할 확률이 계산된다. 그 값이 임계치인 0.5보다 높으면 1로 분류하고, 낮으면 0으로 분류하고 표 1의 분류 모형 오분류표로 나타낼 수 있다. 여기서 구한 TN(True Negative), FN(False Negative), TP(True Positive), FP(False Positive)를 기반으로 평가 지표들을 계산한다.

Table 1. 
Confusion matrix
Actual Predicted
0 1
0 True Negative False Positive
1 False Negative True Positive

표 2의 True Positive Rate은 재현율(Recall)로도 말한다. 마찬가지로 TNR(True Negative Rate)를 특이도(Specificity)라고도 말한다. F1-score는 정밀도(Precision)와 재현율의 조화평균으로 산출한다. 이외에도 AUROC와 AUPRC라는 불균형 데이터에 적합한 평가 지표도 존재한다. AUROC는 x축이 False Positive Rate, y축이 재현율인 그래프 위에 그려진 ROC 커브의 아래 면적이다. AUPRC는 x축이 재현율, y축이 정밀도인 그래프에 그려진 PRC 커브의 아래 면적이다.

Table 2. 
Formula of the performance measure
Measure Formula
True positive rate TPTP+FN
False positive rate FPTN+FP
Precision TPTP+FP
TNR TNTN+FP
Balanced accuracy TPR+TNR2
Accuracy TP+TNTP+TN+FP+FN
F1-score 2×Precision×TPRPrecision+TPR

본 연구에서는 AUROC, AUPRC, 균형 정확도(Balanced accuracy), 정확도(Accuracy), F1-Score로 5가지 지표를 통해서 모형을 비교하였다.

4.2 HELOC 결과

표 3의 결과를 보면 HELOC 데이터에서 SMOTE & 사전학습 TabNet 모델이 AUROC와 AUPRC가 높은 것을 확인하였다. 그 외 균형 정확도와 정확도, F1-score는 사전학습 TabNet이 가장 높았다.

Table 3. 
Performance of model in HELOC data
Data Measure TabNet SMOTE TabNet Transfer TabNet SMOTE transfer TabNet
HELOC AUROC 78.33 78.09 80.52 80.69
AUPRC 75.63 76.00 78.34 78.58
Balanced accuracy 69.88 70.10 73.27 72.69
Accuracy 69.84 70.12 73.23 72.69
F1-score 70.00 69.37 73.26 72.61

TabNet 모형과 SMOTE TabNet 모형을 비교했을 때 SMOTE를 추가한 모형이 AUPRC와 균형 정확도, 정확도는 높아지고, AUROC와 F1-score는 낮아진 것을 확인할 수 있었다. 불균형도가 낮은 데이터에서 SMOTE를 수행했을 때 큰 이점을 얻지 못했다. 하지만 사전학습을 수행한 모형은 기본 TabNet 모형보다 모든 지표에서 우월한 성능을 보였다.

4.3 UCI 결과

표 4을 보면 UCI 데이터에서 SMOTE & 사전학습 TabNet이 모든 지표에서 가장 높은 성능을 보였다. HELOC에서와 두드러지는 차이점으로는 AUPRC와 F1-score가 다른 평가 측도 대비 낮은 것을 확인하였다. 불균형 데이터를 학습하여 모델링 하면 나타나는 특징이다.

Table 4. 
Performance of model in UCI data
Data Measure TabNet SMOTE TabNet Transfer TabNet SMOTE transfer TabNet
UCI AUROC 78.21 78.35 79.57 79.70
AUPRC 53.01 53.47 56.61 56.67
Balanced accuracy 70.98 71.14 72.12 72.35
Accuracy 75.30 76.70 77.10 78.52
F1-score 52.04 52.71 53.92 54.79

TabNet 모형과 SMOTE TabNet 모형을 비교했을 때 SMOTE를 추가한 모형이 모든 평가 측도에서 기본 TabNet 모형보다 우수하였다. 불균형이 심한 데이터에 SMOTE를 수행했을 때 확실한 성능 향상을 확인할 수 있었다. 사전학습을 수행한 모형 또한 기본 TabNet 모형보다 모든 지표에서 우월한 성능을 확인하였다.

4.4 한국은행 신용 DB 결과

마찬가지로 표 5에서 AUROC 및 AUPRC는 SMOTE와 전이학습을 결합한 TabNet 모델에서 가장 높게 나타났다. 이는 SMOTE 기법을 통해 소수 클래스의 데이터를 증강함으로써, 불균형 데이터 상황에서 모델이 소수 클래스를 보다 정확하게 예측할 수 있도록 한 결과로 볼 수 있다. 따라서 데이터 불균형 상황에서 정확도를 측정하는 데 중요한 AUROC와 AUPRC 지표가 크게 향상되었다는 점을 확인할 수 있었다.

Table 5. 
Performance of model in Bank of Koreadata
Data Measure TabNet SMOTE TabNet Transfer TabNet SMOTE transfer TabNet
Bank of Korea DB AUROC 52.05 61.78 68.40 69.79
AUPRC 87.58 89.26 91.07 91.73
Balanced accuracy 80.38 80.72 76.80 80.39
Accuracy 83.94 85.82 91.86 90.84
F1-score 53.60 56.13 63.15 64.04

균형정확도에 있어서는 전이학습을 적용하지 않고 단지 SMOTE를 통한 데이터 전처리만을 수행한 모델이 가장 높은 성과를 보였으나, 이 차이가 통계적으로 유의미한 수준은 아니었다. 단순 정확도 지표에서는 SMOTE를 통한 데이터 증강을 하지 않은 모델이 더 나은 성능을 보였다. 이러한 현상은 데이터의 빈도 불균형으로 인해 다수를 차지하는 라벨을 단순히 따라가기만 해도 85%에 가까운 정확도를 달성할 수 있기 때문으로 해석할 수 있다. 다시 말해, SMOTE를 통해 데이터의 불균형을 해소하였을 때 오히려 전체 정확도가 감소하는 경향을 보여주었다. 이와같이 단순 정확도는 비대칭 데이터 상황에서의 모델 성능 평가에 부적합한 지표로 여겨진다. 이는 다수 클래스의 데이터가 우세한 불균형 데이터셋에서 모델이 주로 다수를 차지하는 클래스를 예측하는 경향이 있기 때문에, 실제로는 소수 클래스의 중요한 패턴을 간과하고 있는 경우에도 높은 정확도를 보일 수 있기 때문이다.


V. 결 론

본 연구에서는 HELOC와 UCI 그리고 한국은행 신용 DB 세 가지 데이터 셋을 통해서 개인신용평가 모델링을 하였다. 신용 평가 데이터에 존재하는 불균형을 완화하기 위해 SMOTE 방법론을 사용하였다. HELOC, UCI 그리고 한국은행 신용 데이터에서 소수 클래스를 각각 10%, 30%, 50% 증가시켰다. TabNet의 비지도 사전학습을 통해서 전이학습까지 수행한 모형을 최종 제안 모형으로 하고 이전 단계 모형들과 결과를 비교하였다. 이어지는 분석에서는 대부분의 데이터셋과 성능 지표에서 전이학습이 효율적임을 확인하였다. 단순 정확도가 아닌, 데이터의 불균형을 고려한 AUPRC, AUROC, 그리고 F1 스코어에서 SMOTE에 의한 데이터 증강이 모델 성능 향상에 상당한 기여를 하였음이 명확해졌다.

한국은행 신용 데이터베이스에 대한 본 연구의 분석은 금융기관의 위험 관리와 대출 결정 과정에 특별한 기여를 한다. 파산 위험 예측 모델의 정확도 향상은 금융기관에게 리스크를 효과적으로 예측하고 관리할 수 있는 능력을 부여한다. 이는 대출 조건 설정, 자산 관리, 그리고 잠재적인 손실 최소화에 있어서 필수적인 요소이다. 또한, 이러한 예측 모델은 고객 관계의 질을 향상시키고, 금융기관의 상품 및 서비스를 맞춤화하여 경쟁력을 강화하는 데 기여할 수 있다.

결론적으로, 본 연구는 금융기관이 신용 위험을 평가하고 관리하는 방법을 재고할 수 있는 토대를 마련하였다. 이는 금융기관의 신용평가 시스템이 향후 발생할 수 있는 위험을 보다 정교하게 예측하고 대응할 수 있도록 하는 전략적 자산으로서의 가치를 입증한다.


Acknowledgments

This work was supported by National Research Foundation of Korea (grant number NRF-2021R1G1A1095140).


References
1. K. C. Lee, I. G. Han, and M. J. Kim, "A Study on the Credit Evaluation Model Integrating Statistical Model and Artificial Intelligence Model", Journal of the Korean Operations Research and Management Science Society, Vol. 21, No. 1, pp. 81-100, 1996.
2. L. Zhou and H. Wang, "Loan default prediction on large imbalanced data using random forests", Telkomnika Indonesian Journal of Electrical Engineering, Vol. 10, No. 6, pp. 1519-1525, Oct. 2012.
3. N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, "SMOTE: Synthetic Minority Over-sampling Technique", The Journal of Artificial Intelligence Research, Vol. 16, pp. 321-357, Jun. 2002.
4. S. O. Arik and T. Pfister, "TabNet: Attentive Interpretable Tabular Learning", Proc. of the AAAI Conference on Artificial Intelligence, California USA, Vol 35, No. 8, Feb. 2021.
5. J. W. Won, T. H. Hong, and K. I. Bae, "A Personal Credit Rating Using Convolutional Neural Networks with Transformation of Credit Data to Image Data and eXplainable Artificial Intelligence (XAI)", Journal of Information Systems, Vol. 30, No. 4, pp. 203-226, Dec. 2021.
6. B. Baesens, T. V. Gestel, S. Viaene, M. Stepanova, J. Suykens, and J. Vanthienen, "Benchmarking State-of-the-Art Classification Algorithms for Credit Scoring", The Journal of the Operational Research Society, Vol. 54, No. 6, pp. 627-635, Jun. 2003.
7. D. Durand, "Risk Elements in Consumer Installment Financing", National Bureau of Economic Research, Jan. 1941.
8. J. C. Wiginton, "A Note on the Comparison of Logit and Discriminant Models of Consumer Credit Behavior", Journal of Financial and Quantitative Analysis, Vol. 15, No. 3, pp. 757-770, Sep. 1980.
9. V. S. Desai, J. N. Crook, and G. A. Overstreet, "A comparison of neural networks and linear scoring models in the credit union environment", European Journal of Operational Research, Vol. 95, No. 1, pp. 24-37, Nov. 1996.
10. D. West, "Neural network credit scoring models", Computers & Operations Research, Vol. 27, No. 11-12, pp. 1131-1152, Sep. 2000.
11. S. Li, W. Shiue, and M. Huang, "The evaluation of consumer loans using support vector machines", Expert Systems with Applications, Vol. 30, No. 4, pp. 772-782, May 2006.
12. D. Martens, B. Baesens, T. V. Gestel, and J. Vanthienen, "Comprehensible credit scoring models using rule extraction from support vector machines", European Journal of Operational Research, Vol. 183, No. 3, pp. 1466-1476, Dec. 2007.
13. M. Malekipirbazari and V. Aksakalli, "Risk assessment in social lending via random forests", Expert Systems with Applications, Vol. 42, No. 10, pp. 4621-4631, Jun. 2015.
14. S. Lessmann, B. Baesens, H. Seow, and L. C. Thomas, "Benchmarking state-of-the-art classification algorithms for credit scoring: An update of research", European Journal of Operational Research, Vol. 247, No. 1, pp. 124-136, Nov. 2015.
15. Y. Xia, C. Liu, Y. Li, and N. Liu, "A boosted decision tree approach using Bayesian hyper-parameter optimization for credit scoring", Expert Systems with Applications, Vol. 78, pp. 225-241, Jul. 2017.
16. S. F. Crone and S. Finlay, "Instance sampling in credit scoring: An empirical study of sample size and balancing", International Journal of Forecasting, Vol. 28, No. 1, pp. 224-238, Jan. 2012.
17. H. Kim, "Balanced Cross Validation for Improving the Classification of Imbalanced Credit Scoring Data", Journal of Korean Institute of Information Technology, Vol. 11, No. 4, pp. 169-175, Apr. 2013.
18. Y. Bengio, "Deep learning of representations for unsupervised and transfer learning", Proc. of the 2011 International Conference on Unsupervised and Transfer Learning workshop, Washington, USA, Vol. 27, pp. 17-37, Jul. 2011.
19. FICO, "Explainable Machine Learning Challenge", FICO Community, 2023. https://community.fico.com/s/explainable-machine-learning-challenge.
20. I.-C. Yeh, "Default of credit card clients", UCI Machine Learning Repository, Jan. 2016.
21. I.-C. Yeh and C.-H. Lien, "The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients", Expert Systems with Applications, Vol. 36, No. 2, pp. 2473-2480, Mar. 2009.

저자 소개
김 명 국 (Myeongkuk Kim)

2020년 : 가톨릭대학교 수학과(학사)

2022년 : 아주대학교 금융공학과(석사)

2022년 ~ 현재 : 이씨마이너 연구원

관심분야 : 신용평가, 전이학습, 모델 경량화

정 호 성 (Hosung Jung)

2013년 : 고려대학교 경영학과(박사)

2024년 ~ 현재 : 동덕여자대학교 금융융합경영학과 교수

연구분야 : 자산가격결정, 금융산업, 기업재무

민 찬 호 (Chanho Min)

2018년 : 서울대학교 수학과(박사)

2020년 ~ 현재 : 아주대학교 금융공학과 교수

연구분야 : 비선형 동역학, 확률적 동역학