SIFRank_zh 这是我们论文的相关代码原文是在对英文关键短语进行抽取,这里迁移到中文上,部分管道进行了改动英文原版在。。 版本介绍 2020/03 / 03——最初最初版本本版本中只包含了最基本的功能,部分细节还有待优化和扩展。 核心算法 预训练模型ELMo +句向量模型SIF 词向量ELMo优势:1)通过大规模预训练,较早的TFIDF,TextRank等基于统计和图的具有更多的语义信息; 2)ELMo是动态的,可以改善一词多义问题; 3)ELMo通过Char -CNN编码,对生隐词非常友好; 4)不同层的ELMo可以捕捉不同层次的信息 句子矢量SIF优势:1)根据词频对词向量进行平滑逆频率变换,能更好地捕捉句子的中心话题; 2)更好地过滤通用词 最终关键焦点识别 首先对句子进行分词和词性标注,再利用正则表达式确定确定名词短语(例如:形容词+名词),将名词作为前缀关键字 最终关键利率
1
神策杯2018高校算法大师赛(中文关键词提取)第二名代码方案
2021-11-17 13:52:23 34.84MB Python开发-机器学习
1
神策杯2018高校算法大师赛(中文关键词提取)第二名代码方案
2021-01-28 04:58:26 35.1MB 中文关键词提取
1
中文关键词提取算法简述
2019-12-21 21:13:25 20KB 语义分析 关键词 提取
1