协同训练是半监督的一个很好的范例,它要求用两个特征视图来描述数据集。 许多协同训练算法都有一个显着的特征:应以高置信度预测所选的未标记实例,因为高置信度得分通常表示相应的预测是正确的。 不幸的是,使用这些高置信度未标记实例并不总是能够提高分类性能。 本文提出了一种新的半监督学习算法,结合了联合训练和主动学习的优点。 该算法根据高置信度和最近邻两个准则应用协同训练来选择最可靠的实例,以提高分类器的性能,并利用具有人类注释能力的信息量最大的实例来提高分类性能。 在几个UCI数据集和自然语言处理任务上进行的实验表明,我们的方法在牺牲相同的人工量的情况下实现了更显着的改进。
1