关键词提取是自然语言研究领域的基础和关键点,在很多领域都有广泛的应用。以本校图书馆提供的8045篇《红色中华》新闻为源数据,首先对数据进行数据清理,去除其中的噪声数据,然后对每篇新闻进行数据结构解析,在解析的基础上计算了词语的TFIDF权重、词位置权重、词性权重、词长权重和词跨度权重,综合考虑这些权重计算出词语的综合权重,以综合权重最大的前8个词语作为新闻的关键词。从准确度、召回率及F1值3个指标对改进算法、经典的TFIDF算法和专家标注进行对比,发现改进算法在3个指标上均优于经典的TFIDF算法,与专家标注比较接近,值得推广应用。
2022-03-06 15:04:53 1.61MB TFIDF; 词性; 词跨度; 词长;
1
英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。
2022-03-05 11:56:03 384KB 词性标注训练资料
1
用于临床文本的细粒度中文分词和词性标注语料库
2022-02-24 16:40:25 495KB 研究论文
1
从官方文档中转换到本地excel表格,有需要的自取
2022-02-17 14:16:28 13KB 中文词性 HANLP
1
nlp词性标注pos tag的demo含训练集, 将英文句子的词性标注,并解释词性例如trying to keep pace with rival Time magazine 运行结果为 word: trying result: VBG explain: Verb, gerund or present participle 动名词和现在分词 ----------------------------- word: to result: TO explain: to 作为介词或不定式格式 ----------------------------- word: keep result: VB explain: Verb, base form 动词基本形式 ----------------------------- word: pace result: NN explain: Noun, singular or mass 常用名词 单数形式 ----------------------------- word: with result: IN explain: Preposition or subordinating conjunction 介词或从属连词 ----------------------------- word: rival result: JJ explain: Adjective 形容词或序数词 ----------------------------- word: Time result: NNP explain: Proper noun, singular 专有名词,单数形式 ----------------------------- word: magazine result: NN explain: Noun, singular or mass 常用名词 单数形式 -----------------------------
2022-02-16 15:48:13 461KB nlp
1
大约94000个单词。文档为txt格式,例子: #单词$[音标1][音标2]>词性1^解释1;解释2;>词性2^解释1;(回车) #单词2.....@end(文档结尾) 数据库格式和Excel格式联系我
2022-01-30 12:19:52 10.14MB 英语单词 单词 单词表 单词数据库
1
汉字释义与词性excel表
2022-01-10 16:01:38 984KB 汉字释义与词性
1
七年级英语上册单词词性分类表.docx
2022-01-02 09:02:08 45KB 事业编
此词典为综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。 词典结构为:词语\t词性\t词频。
2021-12-29 20:08:26 23.44MB 中文词表 词性 词频
1
2014年的人民日报数据,总共有28万行,可直接做词性标注训练使用,处理后也可以做实体识别模型训练用。
2021-12-27 19:55:45 124.07MB nlp 词性标注 NER 命名实体识别
1