常见的主动学习方法分为三类,分别是基于membership的主动学习,基于流的主动学习和基于池的主动学习。本文针对基于池的主动学习方法研究,通过对无标记的数据进行价值评价,然后价值高低的排序,从而得到最佳无标签数据,并且进行对最佳的无标签数据打标,并入到训练集合中,最后进行模型和分类器的训练,以便得到最佳效果。
具体来说,使用基于熵的不确定性方法和基于margin策略的不确定性度量方法进行价值评价,在无标签数据中,找到奇异样本点,也就是最有价值的样本点,然后进行打标,进入到训练样本中。最后进行支持向量机,贝叶斯分类器和最近邻三种分类器训练,并且在UCI的三个数据集合上进行实验,相比随机样本,基于熵的不确定方法和基于margin策略的不确定主动学习方法,其分类准确率更高。
1