上传者: 42135754
|
上传时间: 2021-12-28 14:36:08
|
文件大小: 54.12MB
|
文件类型: -
CCKS2019-任务5
引言
目前,PDF已成为电子文档发行和数字化信息传播的一个标准,其广泛的学术界的交流以及各类公告的发行。如何从非结构化的PDF文档中抽取结构化数据是知识图谱领域所面临的的一大挑战。此处利用Adobe公司开发的Acrobat DC SDK对PDF进行格式转换,从半结构化的中间文件进行信息转移。引用现有的开源PDF解析方法,Acrobat导出的中间文件保存了更完整在CCKS 2019年公众公司公告评论中,我们的方法获得总成绩第三名。在本次评估中,我们将公告文件(PDF)格式)转换成XML。对于任务一,我们通过查找表标签,获取PDF中所有的表格;然后根据表格的一部分,确定其