4.K-最近邻(KNN)分类并行化算法
基本算法设计思想
K-最近邻是分类器算法中最通俗易懂的一种,计算测试样本到各训练样本的距离,取其中距离最小的K个,并根据这K个训练样本的标记进行投票得到测试样本的标记。
加权K-最近邻分类算法的思路是,在根据测试样本的标记进行投票表决时,将根据测试样本与每个训练样本间距离(或相似度)的大小决定训练样本标记的作用大小,基本原则是:距离越近的训练样本其标记的作用权重越大,反之则越小。据此,可以建立一个带加权的投票表决计算模型(比如y’ = ∑Si*yi/∑Si, k=[0,k-1],Si为取值0-1的相似度数值,yi为选取出的最邻近训练样本的分类标记值)决定以最终的测试样本的分类标记。
算法的思路清晰简单,然而对于海量数据计算量很大,耗费时间较长。
2021-12-25 13:22:33
24.75MB
大数据
1