上传者: 38718413
|
上传时间: 2022-01-03 12:46:31
|
文件大小: 165KB
|
文件类型: -
smote的matlab代码
实验室
|
不平衡的数据
我们将使用files_for_lab/customer_churn.csv数据集来构建流失预测器。
指示
加载数据集并探索变量。
我们将尝试使用变量tenure
、
SeniorCitizen
、
MonthlyCharges的逻辑回归来预测变量Churn
。
提取目标变量。
提取自变量并对其进行缩放。
构建逻辑回归模型。
评估模型。
即使是一个简单的模型也会给我们超过
70%
的准确率。
为什么?
合成少数过采样技术(SMOTE)是一种基于最近邻的过采样技术,它在现有点之间添加新点。
将imblearn.over_sampling.SMOTE应用于数据集。
构建和评估逻辑回归模型。
有什么改善吗?
Tomek
链接是一对非常接近的实例,但属于相反的类。
删除每对多数类的实例会增加两个类之间的空间,从而促进分类过程。
将imblearn.under_sampling.TomekLinks应用于数据集。
构建和评估逻辑回归模型。
有什么改善吗?