近几十年来,人们生活水平显著提高,但是健康意识依旧薄弱,不良的生活习惯和饮食习惯导致糖尿病发病人数急剧增加,由糖尿病导致的各种并发症严重威胁了人们的健康.由于糖尿病具有知晓率低的特点,很多糖尿病患者未能及时发现病症,导致出现并发症.本文通过分析糖尿病的特点,针对医疗数据样本量小、容易缺失的特点,选择IV值分析进行特征选择、使用一种新型的Boosting算法CatBoost进行糖尿病患者预测,取得了显著的预测效果.
2021-12-05 17:36:46 853KB 糖尿病 IV值分析 特征选择 集成学习
1
集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学习在不平衡数据分类的优势,针对不平衡数据的集成分类算法得到广泛研究。详细分析了不平衡数据集成分类算法的研究现状,比较了现有算法的差异和各自存在的优点及问题,提出和分析了有待进一步研究的问题。
1
数据分布的不平衡性和数据特征的非线性增加了分类的困难,特别是难以识别不平衡数据中的少数类,从而影响整体的分类效果。针对该问题,结合KFDA(kernel Fisher discriminant analysis)能有效提取样本非线性特征的特性和集成学习中Boosting算法的思想,提出了KFDA-Boosting算法。为了验证该算法对不平衡数据分类的有效性和优越性,以G-mean值、少数类的查准率与查全率作为分类效果的评价指标,选取了UCI中10个数据集测试KFDA-Boosting算法性能,并与支持向量机等六种分类算法进行对比实验。结果表明,对于不平衡数据分类,尤其是对不平衡度较大或呈非线性特征的数据,相比于其他分类算法,KFDA-Boosting算法能有效地识别少数类,并且在整体上具有显著的分类效果和较好的稳定性。
1
销量预测一直是一个热点研究的课题,对于各个企业有着重要的意义.近年来,随着深度学习的崛起,用于销量预测的模型越来越多,而单一模型的预测性能往往不够理想,所以出现了越来越多的组合模型.本文利用Stacking策略将XGBoost、支持向量回归(Support Vector Regression,SVR)、GRU神经网络作为基础模型,然后将LightGBM作为最终的预测模型,并且融合了新的特征.集中了几种模型的优势,大大提高了模型的预测性能,更加接近真实的销量数据,为回归预测提供一种新的预测方法.
1
这是一本英文电子书,讲的是分类器组合方法,是对分类器组合方法的综述,内容很全面
1
机器学习 深度学习 pytorch tensorflow 贝叶斯 神经网络 算法
2021-11-30 13:01:25 7.62MB 机器学习 深度学习 tensorflow pytorch
Schapire的理论 定理:如果一个概念是弱可学习的,充要条件是它是强可学习的 这个定理证明是构造性的,派生了弱分类器的概念,即,比随机猜想稍好的分类器 这个定理说明: 多个弱分类器可以集成为一个强分类器 1990年,Schapire证明了一个关键定理,由此,奠定了集成机器学习的理论基础
2021-11-27 11:17:53 1.05MB 集成学习 Bagging ,Boosting ,AdaBoost
1
关于集成学习算法解释较为清晰明了的PPT与代码,非常适合小白入门,以及作为面试的准备,有助于快速提升机器学习基础算法
2021-11-27 11:16:20 2.36MB 集成学习 算法 随机森林 代码及PPT
1
集成学习中, 基分类器之间的多样性对于解释多分类器系统的工作机理和构造有效的集成系统具有重要的作用, 但至今仍没有统一的度量多样性的方法. 首先总结介绍常用的多样性度量方法, 阐述每种方法评估多样性的角度和方式; 然后从对多样性新的解释和度量、多样性度量在选择性集成中的应用、多样性度量和集成学习精度的关系3 个方面探讨多样性度量的研究进展; 最后给出关于多样性度量进一步的研究方向.
1
堆叠(堆叠概括) 总览 简单实用的堆叠库,用Python编写。 用户可以使用scikit-learn,XGboost和Keras的模型进行堆叠。 作为该库的功能,训练后可以保存所有失叠的预测以供进一步分析。 描述 (有时被称为堆叠泛化)涉及训练学习算法的其他几个学习算法的预测结合起来。 基本思想是使用一组基础分类器,然后使用另一个分类器组合其预测,以减少泛化误差。 对于理解堆栈和集成学习非常有帮助。 用法 请参阅工作示例: 要运行这些示例,只需运行sh run.sh 注意: 在数据/输入下设置训练和测试数据集 从原始数据集创建的要素必须位于数据/输出/要素下 堆栈模型在scripts文件夹下的scripts.py中定义 需要在该脚本中定义创建的功能 只需运行sh run.sh ( python scripts/XXX.py )。 详细用法 设置火车数据集及其目标数据和测试数据集。 FEATURE_LIST_stage1 = { 'train' :( INPUT_PATH + 'train.csv'
2021-11-24 09:51:14 2.16MB scikit-learn prediction xgboost ensemble
1