贷款违约数据集含有 年龄、教育、工龄、地址、收入、负债率、信用卡负债、其他负债以及违约情况的字段。通过各特征来判断用户的违约情况。用到的技术模型如下
逻辑回归
面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。
k近邻法(k-nearest neighbor,k-NN)
一种基本的分类和回归方法,是监督学习方法里的一种常用方法。k近邻算法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练实例类别,通过多数表决等方式进行预测。
决策树
一种基于树结构来进行决策的分类算法,我们希望从给定的训练数据集学得一个模型(即决策树),用该模型对新样本分类。决策树可以非常直观展现分类的过程和结果,一旦模型构建成功,对新样本的分类效率也相当高。
SVM(Support Vector Machine)
中文名为支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。
模型评估
可以根据混淆矩阵。得到其Accuracy准确率以及F1 score
1