不平衡数据在分类时往往会偏向"多数",传统过采样生成的样本不能较好的表达原始数据集分布特征.改进的变分自编码器结合数据预处理方法,通过少数类样本训练,使用变分自编码器的生成器生成样本,用于以均衡训练数据集,从而解决传统采样导致的不平衡数据引起分类过拟合问题.我们在UCI四个常用的数据集上进行了实验,结果表明该算法在保证准确率的同时提高了F_measure和G_mean.
2023-10-30 10:20:07 3.33MB 不平衡数据 分类 变分自编码器 过采样
1
摘要I第一章 绪论 11.1 研究背景及意义 11.2 国内外研究动态 21.3 论文结构 3第二章 支持向量机理论基础 52.1 引言52.2 统计学习理论
2022-08-04 21:00:31 15.39MB 支持向量机
1
传统数据挖掘分类算法在不平衡数据集上分类效果不佳,可以将代价敏感思想与传统分类算法相结合解决不平衡数据分类问题.但在代价敏感学习中,代价的确定需要足够的先验知识,难以把握.针对上述不足,构造针对不平衡数据分布的自适应代价函数,引进全局代价矩阵,对传统的朴素贝叶斯分类算法进行改进.在UCI数据集上的实验结果表明,提出的基于代价敏感的朴素贝叶斯分类算法对于不平衡数据分类是有效可行的.
1
用机器学习中有监督学习模型支持向量机SVM来进行强对流天气的识别和预报。 强对流天气的发生可以看作是小概率事件,因此强对流天气的预警问题可以作为不平衡数据分类问题来处理。在SVM的应用上结合判别准则来对不平衡数据进行处理,更好的对强对流天气进行预警。本文从数据的获取、训练算法的选择、算法的应用、实验结果的评估几个方面进行了详细的描述。通过采用丹佛地区的数据进行大量试验,排除了不平衡数据对分类的干扰,提高了强对流天气识别的准确度。
1
数据分布的不平衡性和数据特征的非线性增加了分类的困难,特别是难以识别不平衡数据中的少数类,从而影响整体的分类效果。针对该问题,结合KFDA(kernel Fisher discriminant analysis)能有效提取样本非线性特征的特性和集成学习中Boosting算法的思想,提出了KFDA-Boosting算法。为了验证该算法对不平衡数据分类的有效性和优越性,以G-mean值、少数类的查准率与查全率作为分类效果的评价指标,选取了UCI中10个数据集测试KFDA-Boosting算法性能,并与支持向量机等六种分类算法进行对比实验。结果表明,对于不平衡数据分类,尤其是对不平衡度较大或呈非线性特征的数据,相比于其他分类算法,KFDA-Boosting算法能有效地识别少数类,并且在整体上具有显著的分类效果和较好的稳定性。
1
针对少数类样本合成过采样技术(synthetic minority over-sampling technique,SMOTE)在合成少数类新样本时会带来噪声问题,提出了一种改进降噪自编码神经网络不平衡数据分类算法(SMOTE-SDAE)。该算法通过SMOTE方法合成少数类新样本以均衡原始数据集,考虑到合成样本过程中会产生噪声的影响,利用降噪自编码神经网络算法的逐层无监督降噪学习和有监督微调过程,有效实现对过采样数据集的降噪处理与数据分类。在UCI不平衡数据集上实验结果表明,相比传统SVM算法,该算法显著提高了不平衡数据集中少数类的分类精度。
2021-11-07 21:56:09 1.47MB 神经网络 过采样 不平衡数据 分类
1
针对非平衡数据分类问题,提出了一种改进的SVM-KNN分类算法,在此基础上设计了一种集成学习模型。该模型采用限数采样方法对多数类样本进行分割,将分割后的多数类子簇与少数类样本重新组合,利用改进的SVM-KNN分别训练,得到多个基本分类器,对各个基本分类器进行组合。采用该模型对UCI数据集进行实验,结果显示该模型对于非平衡数据分类有较好的效果。
1
基于邻域超图的不平衡数据分类新算法
2021-02-26 18:07:15 1.37MB 研究论文
1