随着“互联网+”概念的普及,我国互联网金融行业迅速发展,个人信贷业务市场份额也
快速增长,使得业务数据变得复杂多样。传统的信贷风控大多是模型驱动的策略,已经不能够满足违约风险预测的需求,导致各类违约事件频发,给机构带来较大的损失。因此,需要引入机器学习算法,来完善信贷风控机制,促进信贷业务市场健康、可持续发展。
本文采用机器学习算法针对信贷风控场景中的两个问题进行解决。第一,在新的信贷产品
投放初期,由于没有业务积累,仅有少量标记数据和大量无标记数据,因此不能建立数据驱动的有监督信贷风控模型;第二,在信贷产品投放一段时间后,积累到了一定量的数据,大多数机构会采用逻辑回归(Logistics Regression,LR)来实现信贷风控建模,LR模型简单且易于实现、训练速度快,但是这种模型属于线性模型,学习能力有限,不能学习到特征间的非线性关系,需要信贷业务经验丰富的风控工程师做人工特征组合,因此需要耗费大量的人工成本。
围绕以上问题,本文主要工作如下:
(1)针对信贷产品投放初期,不能建立数据驱动的有监督信贷风控模型的问题,本文提
出了基于狄利克雷过程混合......