使用机器学习算法进行分析,以使用来自LendingClub的数据集识别信用卡风险。
概述
该分析的目的是了解如何利用Machine Learning统计算法基于提供的数据模式进行预测。 在这一挑战中,我们专注于使用来自P2P借贷服务公司LendingClub的免费数据集进行的监督学习,以评估和预测信用风险。 之所以将其称为“监督学习”,是因为数据包括标记的结果。
为了完成此分析,我们使用不同的Machine Learning技术来训练和评估不平衡类的数据。 LendingClub的数据集存在分类不平衡的问题,因为优质贷款的数量超过了风险贷款的数量。 为了平衡分类以进行更有意义的预测并提高准确性得分,我们需要采用各种Machine Learning算法来对数据进行重新采样。 这些算法包括RandomOverSampler , SMOTE , ClusterCentroids , SMOTE
1