信用评估是商业银行等机构防范风险的重要途径,为了提高信用评估的准确率,使用随机森林(RF)来建立风险评估模型。针对随机森林模型的性能与参数的选择和数据集不平衡比例密切相关,提出了一种基于随机森林的组合分类算法(KM-GA-RF)。以UCI数据库中的German数据集进行研究,通过K-means算法对标签进行类分解。而对于哪个类分成的簇数(ki)以及随机森林算法自身的参数:树数(n_estimators)、特征数(max_features),使用改进的遗传算法对其进行优化选取。实验结果表明,基于随机森林的组合优化模型与传统RF以及其他算法进行比较,RF的预测精度高于支持向量机等算法,达到0.765,而提出的组合优化模型的预测精度为0.815,提高了5%。
1