为了利用信息系统对象在数据空间中分布,通过对对象的模糊聚类,计算每一类在坐标轴上的统计值。利用正态概率分布特性,引入重叠度和空隙度选取合适的概率,确定最优的区间端点,实现连续属性离散化。
1
提出一种连续属性值域划分的离散化新方法,该方法定义一个新的离散化函数,依据类与属性之间的相互依赖关系选择最优的离散区间列表;此外,采用变精度粗糙集理论合理地控制数据离散化产生的信息丢失,减少分类错误。仿真结果和统计分析表明,提出的方法有较好的C5.0决策树分类能力。
1
连续属性的多分类决策树
2022-10-19 19:08:21 568KB 决策树连续属性多分类
1
连续属性离散化的Imp-Chi2算法.pdf
2022-07-12 09:12:32 144KB 文档资料
连续属性离散化算法比较研究.pdf
2022-07-12 09:12:32 1.54MB 文档资料
决策树C4.5连续属性分割阈值算法改进及其应用.pdf
2022-07-11 09:11:20 304KB 文档资料
本资源主要是实现了一个处理连续属性的朴素贝叶斯模型并在UCA上的葡萄酒数据集上进行了测评,另外源码中还包含了与数据集预处理、sklearn中的朴素贝叶斯的对比以及降维可视化等操作且注释详细,是一份完整的机器学习入门源码。
2022-01-10 14:16:27 40KB 机器学习 分类 朴素贝叶斯算法
探讨了贪心及其改进算法、基于属性重要性、基于信息熵和基于聚类四类连续属性离散化算法,并通过实验验证这四类算法的离散化效果。实验结果表明,数据集离散化的效果不仅取决于使用算法,而且与数据集连续属性的分布和决策数据值的分类也有密切关系。
1