上传者: 38612568
|
上传时间: 2021-12-11 00:04:28
|
文件大小: 155KB
|
文件类型: -
smote的matlab代码不平衡数据问题
在机器学习中,我们经常会遇到不平衡的数据。
例如,在银行的信用数据中,97%
的客户可以按时还款,而只有
3%
的客户不能。
如果我们忽略
3%
无法按时付款的客户,模型的准确率可能仍然很高,但可能会给银行带来巨大的损失。
因此,我们需要适当的方法来平衡数据。
许多研究论文提供了许多技术,包括过采样和欠采样,以处理数据不平衡。
该存储库实现了其中一些技术。
要求
sklearn
numpy
SMOTE
SMOTE
是
NV
Chawla、KW
Bowyer、LO
Hall
和
WP
Kegelmeyer
的论文中提到的一种合成少数过采样技术
Parameters
----------
sample
2D
(numpy)array
minority
class
samples
N
Integer
amount
of
SMOTE
N%
k
Integer
number
of
nearest
neighbors
k
k
<=
number
of
minority
class
samples
Attributes
----------
newInde