上传者: u013111905
|
上传时间: 2022-11-16 09:20:26
|
文件大小: 2.09MB
|
文件类型: PDF
目前,机器学习中的K近邻(KNN)分类算法和支持向量机(SVM)算法被认为是处理文本分类的最好方法。但KNN分类算法有以下的缺陷:
KNN是基于近邻度量的一种模式分类算法,它高度依赖于数据间的相似度度量,简单的欧式距离在实际应用时,由于不考虑不同维度之间对分类的影响以及输入数据数据维数高的问题,往往不能取得良好的分类效果。
KNN 分类算法虽然可以一定情况下克服数据偏斜带来的分类误差,但是这也是造成它对样本密度分布敏感的主要原因,当类间密度高度分布不均时,分类效果会有较大的影响。