二元气液相平衡数据的测定.doc
2022-05-04 19:09:14 147KB 文档资料 数据
大数据-算法-非平衡数据下的核方法分.pdf
2022-05-03 14:10:08 2.07MB 算法 big data 文档资料
本数据集适合做不平衡多分类,从KEEL和UCI上下载后处理完,分成数据和标签,每个数据集都有独自名字,数据是.data格式也可以化成csvg格式。
2022-03-24 14:36:06 118KB 机器学习 不平衡数据 多分类
smote的matlab代码不平衡 当数据偏向某一类时,最先进的分类算法就会受到影响。 这导致了许多处理不平衡数据的技术的发展。 然而,似乎没有一种技术在所有条件下都能始终如一地发挥作用。 R 包unbalanced为不平衡分类任务实现了一些众所周知的技术,并提供了一种竞赛策略,以自适应地为给定的数据集、分类算法和采用的准确度度量选择最佳方法。 安装 您可以在以下位置安装稳定版本: install.packages('unbalanced', dependencies = TRUE) 或者在 github 中可用的一个: library(devtools) devtools::install_github("dalpozz/unbalanced") 不平衡分类方法 unbalanced包为不平衡分类任务实现了一些最著名的采样和基于距离的方法。 在采样方法系列中,我们有随机欠采样 ( ubUnder ) 和过采样 ( ubOver ) 的函数。 前者从多数类中删除观察,而后者复制少数类实例。 该包还包含一个名为ubSMOTE的函数,它实现了SMOTE ,它通过在观察到的邻域中生成合成少数
2022-03-06 15:38:30 418KB 系统开源
1
传统数据挖掘分类算法在不平衡数据集上分类效果不佳,可以将代价敏感思想与传统分类算法相结合解决不平衡数据分类问题.但在代价敏感学习中,代价的确定需要足够的先验知识,难以把握.针对上述不足,构造针对不平衡数据分布的自适应代价函数,引进全局代价矩阵,对传统的朴素贝叶斯分类算法进行改进.在UCI数据集上的实验结果表明,提出的基于代价敏感的朴素贝叶斯分类算法对于不平衡数据分类是有效可行的.
1
机器学习对不平衡数据学习处理方案,imbalanced-learn是一个python软件包, 提供了一些数据集中常用的重新采样技术,显示出强烈的不平衡性。它与scikit-learn兼容,是scikit-learn-contrib 项目的一部分。
2022-02-19 05:58:55 622KB 不平衡数据
1
在微博谣言检测中,对微博谣言进行正确标注需要耗费大量的人力和时间,同时数据类别的不平衡也影响了微博谣言的正确识别。为了解决该问题,提出一种基于Co-Forest算法针对不平衡数据集的改进方法,利用SMOTE算法和分层抽样平衡数据分布,并通过代价敏感的加权投票法来提高对未标记样本预测的正确率。该方法只需要对少量训练数据实例进行谣言类别标注即可有效检测谣言。10组UCI测试数据和2组微博谣言的实证实验证明了算法有效性。
1
针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使用交叉、变异算子实现对合成样本质量的控制。结合GA-SMOTE与SVM(support vector machine)算法来处理不平衡数据的分类问题。UCI数据集上的大量实验表明,GA-SMOTE在新样本的整体合成效果上表现
2022-02-07 10:02:28 453KB 工程技术 论文
1
smote的matlab代码 实验室 | 不平衡的数据 我们将使用files_for_lab/customer_churn.csv数据集来构建流失预测器。 指示 加载数据集并探索变量。 我们将尝试使用变量tenure 、 SeniorCitizen 、 MonthlyCharges的逻辑回归来预测变量Churn 。 提取目标变量。 提取自变量并对其进行缩放。 构建逻辑回归模型。 评估模型。 即使是一个简单的模型也会给我们超过 70% 的准确率。 为什么? 合成少数过采样技术(SMOTE)是一种基于最近邻的过采样技术,它在现有点之间添加新点。 将imblearn.over_sampling.SMOTE应用于数据集。 构建和评估逻辑回归模型。 有什么改善吗? Tomek 链接是一对非常接近的实例,但属于相反的类。 删除每对多数类的实例会增加两个类之间的空间,从而促进分类过程。 将imblearn.under_sampling.TomekLinks应用于数据集。 构建和评估逻辑回归模型。 有什么改善吗?
2022-01-03 12:46:31 165KB 系统开源
1
通过平衡数据集来提高蛋白质二级结构预测准确率
2021-12-30 20:39:29 7KB 平衡数据集
1