传统的支持向量机(SVM)算法在数据不均衡的情况下,分类效果很不理想。为了提高SVM算法在不均衡数据集下的分类性能,提出随机下采样与SMOTE算法结合的不均衡分类方法。该方法首先利用随机下采样对多数类样本进行采样,去除样本中大量重叠的冗余样本,使得在减少数据的同时保留更多有用信息;而对少数类样本则是利用SMOTE算法进行过采样。实验部分将其应用在UCI数据集中并同其他采样算法比较,结果表明文中算法不但能有效提高SVM算法在不均衡数据中少数类的分类性能,而且总体分类性能也有所提高。
1
smote的matlab代码不平衡 当数据偏向某一类时,最先进的分类算法就会受到影响。 这导致了许多处理不平衡数据的技术的发展。 然而,似乎没有一种技术在所有条件下都能始终如一地发挥作用。 R 包unbalanced为不平衡分类任务实现了一些众所周知的技术,并提供了一种竞赛策略,以自适应地为给定的数据集、分类算法和采用的准确度度量选择最佳方法。 安装 您可以在以下位置安装稳定版本: install.packages('unbalanced', dependencies = TRUE) 或者在 github 中可用的一个: library(devtools) devtools::install_github("dalpozz/unbalanced") 不平衡分类方法 unbalanced包为不平衡分类任务实现了一些最著名的采样和基于距离的方法。 在采样方法系列中,我们有随机欠采样 ( ubUnder ) 和过采样 ( ubOver ) 的函数。 前者从多数类中删除观察,而后者复制少数类实例。 该包还包含一个名为ubSMOTE的函数,它实现了SMOTE ,它通过在观察到的邻域中生成合成少数
2022-03-06 15:38:30 418KB 系统开源
1