数据分为三大部分,即训练集、验证集、测试集。数据分为两种颗粒度,一种是句子级别的关系和包(若干个句子)级别的关系。以及用于训练词向量和语言模型的大规模无标注语料。
2023-04-23 12:40:17 515.63MB 人物关系抽取
CCKS2019金融领域篇章级事件主体抽取数据集.zip
2022-06-29 09:06:43 2.04MB 数据集
2019年百度的实体链指比赛(ccks2019),一个baseline
2022-01-12 20:07:46 5KB Python开发-机器学习
1
el-2019-基准 2019年百度的实体链指比赛(ccks2019, ://biendata.com/competition/ccks_2019_el/),一个基准 注:正式版已经更新至 模型 用BiLSTM做实体标注,然后匹配实体id。 1,标注结构是“半指针-半标注”结构,以前也曾介绍过( , 。)标注因此,如果您基于此模型做出后的修改,最终获奖了或者发表论文什么的,烦请注明一下(其实也不是太奢望) @misc{ jianlin2019bdel, title={Hybrid Structure of Pointer and Tagging for Entity Recognition and Linking: A Baseline}, author={Jianlin Su}, year={2019}, publisher={GitHub}, howp
2022-01-12 20:00:21 5KB Python
1
CCKS2019-任务5 引言 目前,PDF已成为电子文档发行和数字化信息传播的一个标准,其广泛的学术界的交流以及各类公告的发行。如何从非结构化的PDF文档中抽取结构化数据是知识图谱领域所面临的的一大挑战。此处利用Adobe公司开发的Acrobat DC SDK对PDF进行格式转换,从半结构化的中间文件进行信息转移。引用现有的开源PDF解析方法,Acrobat导出的中间文件保存了更完整在CCKS 2019年公众公司公告评论中,我们的方法获得总成绩第三名。在本次评估中,我们将公告文件(PDF)格式)转换成XML。对于任务一,我们通过查找表标签,获取PDF中所有的表格;然后根据表格的一部分,确定其
2021-12-28 14:36:08 54.12MB flask web-api event-extraction ner
1
中国临床神经内科 CCKS2019中文命名实体识别任务。从医疗文本中识别疾病和诊断,解剖部位,影像检查,实验室检查,手术和药物6种命名实体。实现基于捷巴和AC自动机的基线构建,基于BiLSTM和CRF的序列标注模型构造。伯尔尼的部分代码源于感谢作者。模型最终测试集重叠0.81,还有更多改进空间。
2021-10-04 20:01:00 42.36MB 系统开源
1
ccks2019-ckbqa-4th代码 中文知识库问答代码,CCKS2019 CKBQA评价获得第四名解决方案 任务介绍 这个评估任务主要是基于中文开放域知识库的智能问答,主办方是北京大学的邹磊,胡森老师。秘书处是他们建造的PKUBASE,语料在上。我们主要是参考了ccks2018 COQA评价第二名的方法,在此基础上加入了基于Bert的序列标注,语义匹配等模型,以及替代等回答复杂问题的替代。具体方法在评估论文里,和本次比赛前三名的方法一起放在了/ pdf下供参考。 注意:因为这个程序依赖自己在本地服务器搭接的副本,所以不搭好合并的话,entity_extractor及之后的程序都是无法运行
2021-09-16 21:02:43 3.4MB python tensorflow kbqa TensorflowPython
1
CCKS2019赛题《面向金融的事件主题》数据,为了方便以后下载,所以上传到CSDN上,因为在查找数据的时候发现只有train数据集,而没有eval数据集,所以上传上去,方便以后学习的时候下载。
2021-07-03 12:45:48 762KB CCKS2019
1
本次评测设立六项知识图谱方面的评测任务,共有1666支队伍参赛,该报告叙述了本次评测的任务描述,获奖队伍的使用方法和具体结果。
2021-05-20 12:53:39 1.75MB 知识图谱 人工智能 会议 报告
1
本资源包含CCKS2019的录用中英论文(pdf),以及CCKS的前沿技术讲习班PPT和部分大会讲者PPT
1