随着云计算与分布式集群技术的发展,大数据概念在容量、价值等方面都有
了更广的扩展和延伸,机器学习技术近年来也得到了前所未有的重视。本文主要
针对传统数据挖掘算法无法处理海量数据,近年来比较流行的MapReduce对机
器学习算法不能有效并行化运行等问题,提出基于Spark来构建一个用于大规模
机器学习的平台,该平台不仅能够兼容Hadoop集群利用现有计算资源灵活高效
地处理海量数据,而且还具有良好的可扩展性,能够满足各类机器学习任务场景
的需求。
本文完成了如下几个方面的工作:
论文主要针对机器学习任务中的常见场景,基于Spark平台设计和实现了其
中经典的算法,包括并行化的线性回归、支持向量机、KMeans聚类算法,基于
图计算模型抽象的矩阵分解、PageRank算法,以及数据流KMeans聚类算法。
算法工作均以大规模机器学习的相关基础理论为有效支持,充分体现平台的运行
效率和可扩展性;
在算法设计过程中,本文针对大数据场景对经典算法进行一些改进优化工作。
例如,基于集成学习理论方法,采用Bagging策略来提高模型的稳定性;为了提
升计算效率,引入了基于采样的子梯度模型优化方法;