本文分析了台湾某银行客户的违约支付情况,提出了基于数据挖掘技术的预测客户违约可能性。从风险管理的角度来看,预测的违约概率的准确性可以用来对可信的或不可信的客户进行分类。
本文首先对数据集进行了初步处理,将数据拆分为2000个训练集与1000个测试集。每个客户信息中有23个自变量,根据其各个因素的相关性进行了调整然后使用了5挖掘方法,包括KNN,分类树,随机森林,Logistic回归,神经网络进行建模,比较这5种方法中违约概率的预测准确性。其中神经网络的预测效果最好,预测准确率达到了83.3%;其次,分类树(81.8%)和随机森林(80.1%),然后是Logistic回归(78.3%)。KNN的预测结果最不理想(75.8%)。
关键词: 信用卡违约预测、数据分类、Logistic回归、分类树、KNN、神经网络、随机森林。
1