上传者: 42143221
|
上传时间: 2021-11-28 13:41:48
|
文件大小: 65KB
|
文件类型: -
DocSum
使用BART或PreSumm机器学习模型自动汇总文档(或纯文本)的工具。
BART ( )是截至02/02/2020的最新文本摘要。 它是“以降噪为预训练目标进行训练的序列到序列模型”()。
PreSumm (文本汇总)通过使用“基于BERT的新颖文档级编码器,能够表达文档的语义并获得其句子的表示形式”,将BERT(来自变形器的双向编码器表示形式)应用于文本汇总。 BERT在撰写本文时表示“预训练语言模型的最新化身,该模型最近已推进了广泛的自然语言处理任务”()。
任务
将PDF转换为XML,然后使用使用每个text元素的font属性解释该XML文件。 使用 python库