用于不平衡学习的SMOTE变量 介绍 该软件包实现了综合少数族裔过采样技术(SMOTE)的85个变体。 除了实现之外,还提供了易于使用的模型选择框架,以能够对未见数据集的过采样技术进行快速评估。 所实现的技术: [Borderline_SMOTE1] , [Borderline_SMOTE2] , [ADASYN] , [AHC] , [LLE_SMOTE] , [distance_SMOTE] , [单加氧酶] , [polynom_fit_SMOTE] , [Stefanowski ] , [ADOMS] , [Safe_Level_SMOTE] , [MSMOTE] , [DE_oversampling] , [SMOBD] , [SUNDO] , [MSYN] , [SVM_balance] , [TRIM_SMOTE] , [SMOTE_RSB] , [ProWSyn]
1
加拿大机动车碰撞(1999-2017) 在现实世界的数据集中,类不平衡是一个普遍的问题。 当一个类别(称为多数或否定类别)远远超过另一类别(称为少数或肯定类别)时,就会出现不平衡的数据集。 当正类是关注类时,就会出现类不平衡问题。 我们已经获得了具有固有的不平衡类问题的机动车碰撞的真实世界数据集。 数据集信息: 探索性数据分析 项目目标 了解加拿大公共道路上致命事故的原因,例如车辆型号,年龄段,道路状况等。 建立机器学习预测模型以对致命和非致命碰撞进行分类。 练习技巧 在这个项目中,我们将学习以下技能 数据清理 探索性数据分析 学习不平衡和成本敏感的方法 欠采样 综合少数采样技术(SMOTE) 高级分类模型,例如随机森林分类器和XGBoost 精确调用(PR)曲线和PR曲线下的面积(AUPR) 接收器工作特性(ROC)曲线和ROC下面积(AUROC)
2021-11-02 15:52:16 7.16MB JupyterNotebook
1
深入研究不平衡回归 该存储库包含纸张的实现代码:。 深度失衡回归(DIR)旨在从具有连续目标的失衡数据中学习, 处理某些区域的潜在缺失数据,并推广到整个目标范围。 超越不平衡分类:DIR简介 从不平衡数据中学习的现有技术集中于具有分类索引的目标,即目标是不同的类别。 但是,许多实际任务涉及连续甚至无限的目标值。 我们系统地研究了深度失衡回归(DIR) ,其目的是从自然失衡数据中学习连续目标,处理某些目标值的潜在缺失数据,并推广到整个目标范围。 我们为计算机视觉,自然语言处理和医疗保健领域中常见的现实世界任务设计和基准化大规模DIR数据集,范围从单值预测(例如年龄,文本相似性得分,健康状况得分到密集值预测)例如深度。 更新 [02/18/2021]发布了。 该代码目前正在清理中。 请随时关注更新。 引文 @article { yang2021delving , title = {
1