本资源为原创论文的word版。
可用于机器学习课程的结课论文。
本文在对Lending Club数据集进行初步数据分析的基础上,通过选取4组不同的特征,采用同一种算法(逻辑回归,LR)进行分类预测,最终确定3个相对较优特征为:loan_amnt,annual_inc,term。随后本文针对“多源数据集”,采用神经网络、贝叶斯分类器和决策树三种算法对数据进行分类预测,最终综合三种算法的模型结果参数,确定决策树为三者最优。最后,本文仍选取Lending Club数据集作为研究对象,经预处理后,选取数据的55个特征,并将二分类问题变为三分类问题。之后,采用单一树类模型——决策树,以及集成树类模型——随机森林和极端随机树对数据进行分类预测,对比模型结果参数,得出结论:集成算法相比较于单一算法有更好的准确度和泛化能力,但是相应模型也会消耗更多计算机资源。
1