用机器学习中有监督学习模型支持向量机SVM来进行强对流天气的识别和预报。 强对流天气的发生可以看作是小概率事件,因此强对流天气的预警问题可以作为不平衡数据分类问题来处理。在SVM的应用上结合判别准则来对不平衡数据进行处理,更好的对强对流天气进行预警。本文从数据的获取、训练算法的选择、算法的应用、实验结果的评估几个方面进行了详细的描述。通过采用丹佛地区的数据进行大量试验,排除了不平衡数据对分类的干扰,提高了强对流天气识别的准确度。
1
集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学习在不平衡数据分类的优势,针对不平衡数据的集成分类算法得到广泛研究。详细分析了不平衡数据集成分类算法的研究现状,比较了现有算法的差异和各自存在的优点及问题,提出和分析了有待进一步研究的问题。
1
数据分布的不平衡性和数据特征的非线性增加了分类的困难,特别是难以识别不平衡数据中的少数类,从而影响整体的分类效果。针对该问题,结合KFDA(kernel Fisher discriminant analysis)能有效提取样本非线性特征的特性和集成学习中Boosting算法的思想,提出了KFDA-Boosting算法。为了验证该算法对不平衡数据分类的有效性和优越性,以G-mean值、少数类的查准率与查全率作为分类效果的评价指标,选取了UCI中10个数据集测试KFDA-Boosting算法性能,并与支持向量机等六种分类算法进行对比实验。结果表明,对于不平衡数据分类,尤其是对不平衡度较大或呈非线性特征的数据,相比于其他分类算法,KFDA-Boosting算法能有效地识别少数类,并且在整体上具有显著的分类效果和较好的稳定性。
1
文章目录数据集介绍代码实现1、导入需要的库2、导入数据集查看数据集中正样本(欺诈)和负样本(未欺诈)的数量对数据集进行稍微处理3、划分数据集划分训练集、验证集和测试集划分出特征和标签4、标准化处理5、查看正负样本的相关信息区分正负样本在’V5’,’V6’两个维度上比较正负样本6、构建模型7、对比:有bias_initializer vs 没有bias_initializer没有bias_initializer构建模型用模型预测前十个样本将训练集输入模型来评价模型有bias_initializer计算bias_initializer构建模型用模型预测前十个样本将训练集输入模型来评价模型8、保存初
2021-11-30 10:22:33 476KB auc ens fl
1
决策树matlab实例代码赫林格树Matlab 注意:这仍然是高度实验性的,可能容易出错,请谨慎使用! 基于Cieslak等人的论文“ Hellinger距离决策树是鲁棒且不倾斜的”,该Matlab实现了具有不平衡数据和数值属性的二元决策问题的Hellinger距离决策树和森林。 该库基于以下文章: Cieslak,David A.等人。 “ Hellinger距离决策树既健壮又对偏斜不敏感。” 数据挖掘和知识发现24.1(2012):136-158。 @article {cieslak2012hellinger,标题= {Hellinger距离决策树是健壮且不倾斜的},作者= {Cieslak,David A和Hoens,T Ryan和Chawla,Nitesh V和Kegelmeyer,W Philip},journal = {Data Mining and知识发现},数量= {24},数量= {1},页面= {136--158},年份= {2012},发布商= {Springer}} 该软件的作者与上述研究人员无关,并且该软件并非上述论文中所提及方法的精确复制。 本软件的作者对本
2021-11-23 10:25:29 17KB 系统开源
1
针对传统的机器学习算法对不平衡数据集的少类分类准确率不高的问题,基于支持向量机和模糊聚类,提出一种不平衡数据加权集成学习算法。首先提出加权支持向量机模型(Weighted Support Vector Machine,WSVM),该模型根据不同类别数据所占比例的不同,为各类别分配不同的权重,然后将WSVM与模糊聚类结合提出一种新的集成学习算法。将本文提出的算法应用于人造数据集和UCI数据集实验中,实验结果表明,所提出的算法能够有效地解决不平衡数据的分类问题,具有更好的分类性能。
2021-11-18 16:49:16 1.07MB 不平衡数据集
1
以下附上不平衡数据学习的4篇综述论文,非常有阅读价值。针对不平衡数据集解决方法主要分为两个方面:第一种方案主要从数据的角度出发,主要方法为抽样,既然我们的样本是不平衡的,那么可以通过某种策略进行抽样,从而让我们的数据相对均衡一些;第二种方案从算法的角度出发,考虑不同误分类情况代价的差异性对算法进行优化,使得我们的算法在不平衡数据下也能有较好的效果。
2021-11-15 23:35:19 3.51MB 不平衡数据学习
1
针对少数类样本合成过采样技术(synthetic minority over-sampling technique,SMOTE)在合成少数类新样本时会带来噪声问题,提出了一种改进降噪自编码神经网络不平衡数据分类算法(SMOTE-SDAE)。该算法通过SMOTE方法合成少数类新样本以均衡原始数据集,考虑到合成样本过程中会产生噪声的影响,利用降噪自编码神经网络算法的逐层无监督降噪学习和有监督微调过程,有效实现对过采样数据集的降噪处理与数据分类。在UCI不平衡数据集上实验结果表明,相比传统SVM算法,该算法显著提高了不平衡数据集中少数类的分类精度。
2021-11-07 21:56:09 1.47MB 神经网络 过采样 不平衡数据 分类
1
针对不平衡数据中特征维数高、标记样本缺乏问题,提出一种基于遗传算法和BiasedSVM的不平衡数据半监督特征选择算法。该方法首先利用初始的标记样本集训练处理不平衡数据的Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中,得到新标记样本集,最后采用基于遗传算法的不平衡数据特征选择方法选出最优的特征子集。实验结果表明,所提方法在不同的标记样本率下均具有较高的平均特征子集缩减率和平均小类识别率。
1
#资源达人分享计划#
2021-08-15 13:10:47 235KB 数据处理 大数据 数据分析 参考文献