3.2 实例匹配
3.2.1 基于人机协作的实例匹配
众包和主动学习等人机协作方法是目前实例匹配的研究热点。这些方法雇佣
普通用户,通过付出较小的人工代价来获得丰富的先验数据,从而提高匹配模型
的性能。
Hike [Zhuang et al., 2017] 是一个解决大规模知识库间实例匹配的众包方法,
其框架流程如图 3 所示。该方法为实例对之间定义偏序关系,根据构建的偏序结
构和已知问题答案可以推断未知问题答案。之后基于假设定义实例对和问题集的
推断期望,根据推断期望选出最佳问题分发给众包参与者。
与通过众包直接解决大规模实例匹配不同,链接发现工具 Silk [Isele & Bizer,
2013]和 LIMES [Ngonga Ngomo & Lyko, 2012]均通过结合主动学习和遗传算法来
生成链接规约(link specification)。链接规约由以下两种操作组合得到:求值操
作和相似度操作。求值操作根据输入的实例输出一组值,例如取出一组特定属性
或者对特定属性、数据做小写、分词等变换处理;相似度操作则是针对输入的一
对实例求得或者聚合相似度。Silk 和 LIMES 将学习到的链接规约组织成树的结
构。在向用户提问的策略上,LIMES 选择能够最大化投票熵的候选,而 Silk 则
1