上传者: 47367099
|
上传时间: 2022-04-29 10:05:38
|
文件大小: 4.03MB
|
文件类型: PDF
聚类分析和分类分析是机器学习的重要领域,K-means算法和随机
森林算法分别是聚类分析和分类分析中最常用的算法之一。然而,
K-means算法和随机森林算法都存在一些限制和缺点。K-means算法中
的群组数目K值需要使用者预先设定,这对使用者提出了较高的要求,
经验不足的使用者设定的K值的准确性也存在一定的问题;随机森林算
法进行分类决策时,无法区别对待每一棵决策树,导致准确性差的决策
树会影响算法整体的准确性。在实际应用中,待分析的数据集存在各种
各样的问题。包含较多孤立点的数据集会增加K-means算法的迭代次数,
提高算法的复杂度,降低算法的准确性;对于包含噪声特征和冗余特征
的数据集,随机森林算法的准确性会受到影响,错误率会提高。上述这
些问题提高了用户使用K-means算法和随机森林算法的难度。
另一方面,基于分布式计算的机器学习框架得到了广泛应用。然而
现有的机器学习框架受限于机器学习算法自身的限制和缺点,要求用户
进行数据挖掘和分析时,需要掌握足够的机器学习算法知识,导致这些
机器学习框架的应用门槛较高。
针对上述问题,本文以实验室承担的某省交通物流云计算平台建设
项