CCKS2019-任务5 引言 目前,PDF已成为电子文档发行和数字化信息传播的一个标准,其广泛的学术界的交流以及各类公告的发行。如何从非结构化的PDF文档中抽取结构化数据是知识图谱领域所面临的的一大挑战。此处利用Adobe公司开发的Acrobat DC SDK对PDF进行格式转换,从半结构化的中间文件进行信息转移。引用现有的开源PDF解析方法,Acrobat导出的中间文件保存了更完整在CCKS 2019年公众公司公告评论中,我们的方法获得总成绩第三名。在本次评估中,我们将公告文件(PDF)格式)转换成XML。对于任务一,我们通过查找表标签,获取PDF中所有的表格;然后根据表格的一部分,确定其
2021-12-28 14:36:08 54.12MB flask web-api event-extraction ner
1
srt是一个小巧但功能强大的Python库,用于解析,修改和组成。 查看,以获取库的基本概述。 还提供了。 想看一些使用它的例子吗? 看一下的。 该库还被 , 等项目内部使用。 为什么选择这个图书馆? 可以解析许多其他SRT库无法处理的损坏的SRT文件,并修复它们 极轻量级,不包括文档字符串) 简单直观的API 使用高质量测试套件 (包括分支机构) 高水平和低水平的文档齐全的API 在典型的工作负载上比pysrt快30% 全面支持PyPy 标准库之外没有依赖项 忍受现实世界中的SRT文件中发现的许多常见错误 支持亚洲风格的SRT格式(即“全宽” SRT格式) 完全符合Unicode 根据高度宽松的许可证(MIT)发布 经过真实世界测试-在生产中用于每天处理数千个SRT文件 便携式-在Linux,OSX和Windows上运行 包含的工具-包含轻量级工具,用于执行库中的常规
2021-12-23 15:15:21 35KB python text-extraction subtitles public-domain
1
从视网膜眼底图像中提取血管 参见项目演示: 进行该研究项目是为了对视网膜图像中的血管进行比较研究。 视网膜血管的分割以及视网膜血管的不同形态属性(例如宽度,长度,分支模式,曲折度和角度)的描绘用于各种眼科和心血管疾病的筛查,治疗,诊断和评估例如糖尿病,动脉硬化,高血压和脉络膜新生血管形成。 对于视网膜图像镶嵌合成以及多峰或时间图像配准,已经使用了视网膜图的自动生成和分支点的提取。 脉管系统的自动检测和分析可以帮助眼科医生实施糖尿病性视网膜病变和糖尿病性黄斑水肿的筛查程序。 它还可以帮助研究高血压性视网膜病变与血管曲折之间的关系,计算机辅助激光手术以及与高血压诊断有关的血管直径测量。 为此项目执行了以下任务。 •受过训练的CNN架构(修改了著名的U-Net:用于生物医学图像分割的卷积网络),用于血管分割。 •通过AUC-ROC(接收器工作特性下的面积)性能测量指标来测量视网膜血管分割性能
2021-12-18 10:36:28 177KB Python
1
血管中心线提取
2021-12-13 12:02:28 1.36MB c++ vtk 医学影像
1
多说话者语音的目标说话人提取和验证 此处的代码是说话人提取,其中鉴于目标说话人的特征,只会提取目标说话人的声音。 在论文2)中,我们使用小型网络从目标说话者的不同话语中共同学习目标说话者的特征。 您也可以使用i-vector或x-vector网络替换网络。 如果您对语音分离感兴趣,希望将所有说话者的声音都融入到混音中,请转到 文件 请引用: 徐成林,饶伟,肖雄,Ch昂崇和李海洲,“使用网格LSTM对单个通道语音进行分离,并限制了其对钢琴水平的渗透性,”,Proc。 见ICASSP 2018,第6-10页。 徐成林,饶伟,Ch昂崇和李海洲,“基于幅度和时间谱近似损失的说话人提取神经网络的优化”,Proc.Natl.Acad.Sci.USA。 见ICASSP 2019,第6990-6994页。 饶饶,徐成林,郑昂松和李海洲,“多说话者说话人验证的目标说话人提取”,Proc.Natl.A
1
瑞金医院MMC人工智能辅助内置知识图谱大赛(第一赛季) :warning:由于可能存在的版权问题,请自行联系大赛主办方索要数据,在问题中索要数据的请求将不再回复,谢谢! :light_bulb: github对.ipynb渲染效果不是很好,代码建议通过查看。 复赛代码见 背景 本次大赛逐步通过糖尿病相关的教科书,研究论文来做糖尿病文献挖掘和发展糖尿病知识图谱。 初赛赛题在学术论文和临床指南的基础上,做实体的标注。实体类别共十五类。 类别名称和实体定义: 实体类型 标注名称 说明 疾病名称 疾病 如I型糖尿病 病因 原因 疾病的成因,危险因素及机制。某些“糖尿病是由于糖尿病抵抗导致”,胰岛素抵抗是属于病因 临床表现 症状 包
1
matlab心电图程序代码心电图小波特征提取 可以下载表格 可以将模拟代码转换为以下形式 结果 matlab代码在文件夹中matlabcode&程序以main2d.m开头
2021-12-08 09:54:05 241KB 系统开源
1
您的数据科学技术是否实际上可以跨越数百座建筑物? 它实际上更快或更准确吗? 这些是研究人员在开发数据驱动方法时应该提出的问题。 建筑性能预测,分类和聚类算法已成为异常检测,控制优化和需求响应分析的重要组成部分。 但是,我们如何实际比较每种技术与以前创建的方法呢? 时序数据挖掘社区早在2003年就发现了这个问题:“许多工作的效用很小,因为做出了贡献……”提供了一些改进,而这些改进本可以使差异完全相形见have。是通过在许多现实世界的数据集上进行测试而观察到的,或者通过更改次要(未声明的)实施细节而观察到的差异。” ( ) 。 该数据集使您能够对各种实际数据集进行新技术测试。 对于商业建筑数据,我们正在做同样的事情! 非住宅建筑数据分析对基准数据集的需求 现有的大多数建筑性能数据科学研究都依赖于每个研究人员创建自己的方法,查找案例研究数据集并自行确定功效。 毫不奇怪,大多数研究人员发现了积极但有意义的结果。 使用来自数百个(或数千个)建筑物的大型,一致的基准数据集,研究人员可以确定其方法在异构数据集中的实际性能如何。 如果多个研究人员使用相同的数据集,则可以在准确性,速度和易用性
1
百度aistudio 2020 事件抽取赛道 update on 2020.07.09 优化了gen_kfold_data.py,重构了代码,能够生成event type分类任务的数据index_type_fold_data_{},以及role extraction阶段任务的数据verfify_neg_fold_data_{},注意所有文件的对应路径要与自己在config中配置的相同。另外,neg_fold_data_{}为之前老版本的数据存储格式,与verify_neg_fold_data_{}是一样的,可以一样使用 依赖包:主要是tensorflow 1.12.0,另外使用了bojone的bert4keras,详见 ,其余见requirements.txt 目前主要集中使用机器阅读理解的方式来尝试解决事件抽取任务。主要分为两个阶段: 1、事件类型抽取 2、事件论元抽取,使用MRC的方式
2021-12-06 17:52:52 116KB Python
1
利用Word2Vec和Pagerank算法的关键词提取方法 分布语义的最常见表示形式是一维表示,其中维数等于词汇表的基数。 此向量空间表示的元素由0和1组成。 但是,这种表示有一些缺点。 例如,在这些表示中,很难对单词相似度进行推论。 由于尺寸高,它们也可能导致过拟合。 而且,它在计算上是昂贵的。 单词嵌入旨在捕获词汇表项之间的归因相似之处。 在相似的上下文中出现的单词在投影向量空间中应该彼此靠近。 这意味着矢量空间中的单词分组必须共享相同的语义属性。 在单词嵌入中,潜在语义分析(LSA)使用计数基维减少方法。 创建Word2Vec作为替代。 它的低维度可以帮助降低计算复杂度。 与分布语义方法相比,它也减少了过拟合。 Word2Vec还可以检测单词之间的类比。 我们的模型采用向量空间中单词的Word2Vec表示形式。 在构建Word2Vec模型时,我们要确定单词计数的阈值,因为在大型语
2021-11-29 14:22:20 4KB Python
1