基于Spark的机器学习应用框架研究与实现

上传者: 47367099 | 上传时间: 2022-04-29 10:05:38 | 文件大小: 4.03MB | 文件类型: PDF
聚类分析和分类分析是机器学习的重要领域,K-means算法和随机 森林算法分别是聚类分析和分类分析中最常用的算法之一。然而, K-means算法和随机森林算法都存在一些限制和缺点。K-means算法中 的群组数目K值需要使用者预先设定,这对使用者提出了较高的要求, 经验不足的使用者设定的K值的准确性也存在一定的问题;随机森林算 法进行分类决策时,无法区别对待每一棵决策树,导致准确性差的决策 树会影响算法整体的准确性。在实际应用中,待分析的数据集存在各种 各样的问题。包含较多孤立点的数据集会增加K-means算法的迭代次数, 提高算法的复杂度,降低算法的准确性;对于包含噪声特征和冗余特征 的数据集,随机森林算法的准确性会受到影响,错误率会提高。上述这 些问题提高了用户使用K-means算法和随机森林算法的难度。 另一方面,基于分布式计算的机器学习框架得到了广泛应用。然而 现有的机器学习框架受限于机器学习算法自身的限制和缺点,要求用户 进行数据挖掘和分析时,需要掌握足够的机器学习算法知识,导致这些 机器学习框架的应用门槛较高。 针对上述问题,本文以实验室承担的某省交通物流云计算平台建设 项

文件下载

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明