为了提高k-nearest neighbor algorith m(KNN)算法处理大数据集的能力,本文利用Ma pReduce并行编程模型,同时结合KNN算法自身的特点,给出了KNN算法在Hadoop平台下的并行化实现。通过设计Ma p、Co mbine和Reduce 3个函数,实现了KNN算法的并行化。Ma p函数完成每个测试样本与训练样本之间的相似度计算,Co mbine函数作为一个本地的Reduce操作,用以减少中间计算量及通信开销,Reduce函数则根据上述函数得到的中间结果计算出k近邻并作出分
2021-12-03 20:16:41
476KB
工程技术
论文
1