本项目的数据来源于网新银行举办的数据建模比赛的数据,特征包含三类数据,客户基本信息(x1-x11),行为类数据(x12-x56),风险评分类数据(x57-x161),但具体是什么特征我们并无从得知,因此想从特征实际意义入手分析建模是及其困难的。数据包含训练集30000个样本,测试集10000个样本,每个样本除开161个特征变量,还包括干预变量(treatment)和响应变量(y),干预变量把数据集分为两类,实验集(treatment = 1),控制集(treatment = 0),实验集和控制集的比例大致为1:4。
源码包含用随机森林做缺失值填充、画qini曲线、主程序三个文件
原文链接:https://blog.csdn.net/qq_52073614/article/details/136763601
2024-10-29 21:38:07
4.88MB
数据集
1