伯特提取摘要器
此存储库是演讲摘要存储库的一般化。 该工具利用HuggingFace Pytorch变压器库来进行提取性汇总。 通过首先嵌入句子,然后运行聚类算法,找到最接近聚类质心的句子,可以实现这一目的。 该库还使用共指技术,利用库解析需要更多上下文的摘要中的单词。 可以在CoreferenceHandler类中调整Neurocoref库的贪婪性。
论文: :
尝试在线演示:
安装
pip install bert-extractive-summarizer
使用Neurocoref的共指功能需要一个spaCy模型,该模型必须单独下载。
默认模型是小型英语spaCy模型(en_core_web_sm,11Mb),并随此软件包自动安装。 要使用其他型号,您必须手动安装。
示例:安装中型(91 Mb)英文模型(有关更多模型,请参见)。
pip install spacy
pi
1