SIFRank_zh 这是我们论文的相关代码原文是在对英文关键短语进行抽取,这里迁移到中文上,部分管道进行了改动英文原版在。。 版本介绍 2020/03 / 03——最初最初版本本版本中只包含了最基本的功能,部分细节还有待优化和扩展。 核心算法 预训练模型ELMo +句向量模型SIF 词向量ELMo优势:1)通过大规模预训练,较早的TFIDF,TextRank等基于统计和图的具有更多的语义信息; 2)ELMo是动态的,可以改善一词多义问题; 3)ELMo通过Char -CNN编码,对生隐词非常友好; 4)不同层的ELMo可以捕捉不同层次的信息 句子矢量SIF优势:1)根据词频对词向量进行平滑逆频率变换,能更好地捕捉句子的中心话题; 2)更好地过滤通用词 最终关键焦点识别 首先对句子进行分词和词性标注,再利用正则表达式确定确定名词短语(例如:形容词+名词),将名词作为前缀关键字 最终关键利率
1
PositionRank PositionRank是ACL 2017论文关键字方法中描述的关键字提取方法。 该方法通过基于图的算法来搜索关键词,并通过共生词的位置信息对PageRank进行偏置。 如果为其他语言创建令牌生成器,则不仅可以使用英语学术文档,还可以使用任何其他语言的文档。 >> > from position_rank import position_rank >> > from tokenizer import StanfordCoreNlpTokenizer >> > title = "PositionRank: An Unsupervised Approach to Ke
2021-11-23 15:15:04 8KB nlp graph-algorithms acl keyphrase-extraction
1
基伯特 KeyBERT是一种最小且易于使用的关键字提取技术,它利用BERT嵌入来创建与文档最相似的关键字和关键字短语。 相应的媒体帖子可以在 找到。 目录 2.1。2.2。2.3。2.4。2.5。 1.关于项目 尽管已经有很多方法可用于关键字生成(例如 , ,TF-IDF等),但我想创建一种非常基本但功能强大的方法来提取关键字和关键字。这就是KeyBERT进来的地方!它使用BERT嵌入和简单的余弦相似性来查找文档中与文档本身最相似的子短语。 首先,使用BERT提取文档嵌入,以获得文档级表示。然后,针对N元语法词/短语提取词嵌入。最后,我们使用余弦相似度来查找与文档最相似的词/短语。然后,可以将最相似的词识别为最能描述整个文档的词。 KeyBERT绝不是唯一的,它是一种用于创建关键字和关键词的快速简便的方法。虽然有许多伟大的论文和解决方案,在那里,使用BERT-嵌入物(如, , ,
2021-09-22 21:15:31 77KB mmr keyword-extraction bert keyphrase-extraction
1