3.2 知识图谱研究现状 3.2.1 通用知识图谱案例 国外的 DBpedia [Auer et al,2007]使用固定的模式从维基百科中抽取信息实 体,当前拥有 127 种语言的超过两千八百万实体以及数亿 RDF 三元组;Yago [Suchanek et al,2007]则整合维基百科与 WordNet 的大规模本体, 拥有 10 种语言 约 459 万个实体,2400 万个事实;Babelnet [Navigli et al,2012]则采用将 WordNet 词典与 Wikipedia 百科集成的方法,构建了一个目前最大规模的多语言词典知识 库,包含 271 种语言 1400 万同义词组、36.4 万词语关系和 3.8 亿链接关系。 国内的 Zhishi.me 从开放的百科数据中抽取结构化数据,当前已融合了包括 百度百科、互动百科、中文维基三大百科的数据,拥有 1000 万个实体数据、一 亿两千万个 RDF 三元组;以通用百科为主线,结合垂直领域的 CN-DBPedia [Xu et al,2017],则从百科类网站的纯文本页面中提取信息,经过滤、融合、推断等操 作后形成高质量的结构化数据;XLore[Wang et al,2013]则是基于中文维基百科、 英文维基百科、百度百科、互动百科构建的大规模中英文知识平衡知识图谱。 3.2.2 领域知识图谱案例 领域知识图谱常常用来辅助各种复杂的分析应用或决策支持,如下图所示, 在多个领域均有应用,不同领域的构建方案与应用形式则有所不同,本文将以电 商、企业商业、图情、创投四个领域为例,从图谱构建与知识应用两个方面介绍 领域知识图谱的技术构建应用与研究现状。 图2 行业知识图谱应用一览15 15 引自 2017CCKS《行业知识图谱的构建与应用》
2021-11-10 22:50:05 4.66MB 知识图谱 CCKS2018
1
3.2 实例匹配 3.2.1 基于人机协作的实例匹配 众包和主动学习等人机协作方法是目前实例匹配的研究热点。这些方法雇佣 普通用户,通过付出较小的人工代价来获得丰富的先验数据,从而提高匹配模型 的性能。 Hike [Zhuang et al., 2017] 是一个解决大规模知识库间实例匹配的众包方法, 其框架流程如图 3 所示。该方法为实例对之间定义偏序关系,根据构建的偏序结 构和已知问题答案可以推断未知问题答案。之后基于假设定义实例对和问题集的 推断期望,根据推断期望选出最佳问题分发给众包参与者。 与通过众包直接解决大规模实例匹配不同,链接发现工具 Silk [Isele & Bizer, 2013]和 LIMES [Ngonga Ngomo & Lyko, 2012]均通过结合主动学习和遗传算法来 生成链接规约(link specification)。链接规约由以下两种操作组合得到:求值操 作和相似度操作。求值操作根据输入的实例输出一组值,例如取出一组特定属性 或者对特定属性、数据做小写、分词等变换处理;相似度操作则是针对输入的一 对实例求得或者聚合相似度。Silk 和 LIMES 将学习到的链接规约组织成树的结 构。在向用户提问的策略上,LIMES 选择能够最大化投票熵的候选,而 Silk 则
2021-08-24 20:24:01 4.66MB 知识图谱 CCKS2018
1
知识图谱CCKS2018论文集
2021-08-23 20:28:11 33.61MB 知识图谱
1
CCKS 2018 微众银行智能客服问句匹配大赛 语料库 数据集
2021-08-11 09:18:55 4.95MB CCKS2018
1
中文文本相似度/文本推理/文本匹配数据集——CCKS2018
2021-05-22 20:41:02 2.28MB 文本匹配
1
CCKS2018论文集,全集!
2019-12-21 21:10:36 33.61MB CCSK CCSK2018 知识图谱 自然语言处理
1
该文档为ccks2018(全国语义计算与知识图谱大会)自动问答评测任务的语料集,包含训练集开发集和测试集,该问答评测基于PKUbase知识库。
2019-12-21 19:41:08 149KB 问答系统 语料集 评测 ccks
1