针对传统的过采样算法在增加样本的同时可能使决策域变小和噪声点增加的问题进行了研究,提出了一种基于错分的混合采样算法。该算法是以SVM为元分类器,AdaBoost算法进行迭代,对每次错分的样本点根据其空间近邻关系,采取一种改进的混合采样策略:对噪声样本直接删除;对危险样本约除其近邻中的正类样本;对安全样本则采用SMOTE算法合成新样本并加入到新的训练集中重新训练学习。在实际数据集上进行实验,并与SMOTE-SVM和AdaBoost-SVM-OBMS算法进行比较,实验结果表明该算法能够有效地提高负类的分类准确率。
1
详解easyensemble算法,解决数据正负例样本不平衡问题
2022-06-30 18:11:31 31KB easyensemble算法
睡眠数据中各个阶段的样本数差异较大,睡眠数据的自动分期是一个典型的样本不平衡的机器学习问题。均衡样本方法通过抽样的手段来平衡样本,是解决样本不平衡问题的主要方法。采用均衡样本方法来平衡睡眠数据的不同阶段的样本,并且结合多域特征(时域、频域、时频域以及非线性)和随机森林分类算法进行分类预测。比较分析了样本均衡处理和非均衡处理的分类结果,发现均衡处理后的数据取得了更好的分类效果。
2022-04-27 13:41:00 166KB 睡眠分期
1
使用stacking的方法解决蚂蚁金服开发者风控大赛的代码。
2019-12-21 19:58:52 173KB 样本不平衡 stacking
1