最近跑代码在数据处理分词部分总是需要停用词表,一样一样找太麻烦了,干脆整个合集,方便后续使用。
2023-09-23 21:10:09 49KB 停用词 中文自然语言处理 分词
1
四川大学机器智能实验室停用词库+百度停用词+哈工大停用词表 四川大学机器智能实验室停用词库+百度停用词+哈工大停用词表 四川大学机器智能实验室停用词库+百度停用词+哈工大停用词表
2022-08-04 09:05:20 17KB 停用词
1
最全哈工大停用词表~ 中文分词~ 去停止词~ txt格式 UTF-8编码 盆友们有需自取~ 宝宝们快乐分词,冲冲冲!
2022-01-20 10:59:44 5KB 停止词 UTF-8 分词 哈工大
1
哈工大停用词表扩展去停用词用!
2021-11-09 15:23:42 4KB 停用词 去停用词 自言语言
1
综合多种停用词表,进行合并去重处理,http://blog.csdn.net/kevinelstri/article/details/70227981
2021-08-22 19:50:58 21KB 停用词 文本分析
1
结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表、以及网络上较大的一份无名称停用词表,整理的停用词表
2021-08-15 21:26:50 13KB 停用词
1
哈工大停用词表、中文停用词表、百度停用词表(全).zip
1
此为哈工大停用词表,可用于分词使用。语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。经过 哈工大社会计算与信息检索研究中心 11 年的持续研发和推广,LTP 已经成为国内外最具影响力的中文处理基础平台,曾获 CoNLL 2009七国语言句法语义分析评测 总成绩第一名,中文信息学会钱伟长一等奖等重要成绩和荣誉。目前,LTP 已经被 500 多家国内外研究机构和企业使用,多家大企业和科研机构付费使用。
2021-04-17 15:04:13 39KB 分词
1
由中文停用词表:cn_stopwords.txt,哈工大停用词表:hit_stopwords.txt,百度停用词表:baidu_stopwords.txt,四川大学机器智能实验室停用词库:scu_stopwords.txt(https://github.com/goto456/stopwords)合并而得,包含2690个停用词,编码格式为utf-8,python可以直接读取。
1
哈工大停用词表hit_stopwords
1