对于NLP中,需要要一些停用字典来对一些没有用的词删除,这里列了一些停用词。 包含: 1、哈工大停用词表, 百度停用词表, 四川大学机器智能实验室停用词库,而且将其进行了合并去重, 共计2311个停用词; 2、3500个常用汉字, 5000+生僻字集合; 3、一般常用停用此表1800多个。
2022-02-11 18:32:36 47KB NLP 中文停用词 整合多个停用此表
1
停用词 再生成词云的时候可以使用到
2022-02-09 09:11:34 13KB 停用词
1
压缩包里含四个文本文档 1、符号stopWord.txt (1KB) 2、英文stopWord.txt (3KB) 3、中文stopWord.txt (8KB) 4、集合stopWord.txt (11KB) 其中第四个文档是前三个文档的集合。 此是本人实验过程中搜集整理的结果(以前的老版本加上自己整合的)。 已做预处理等,保证不重复。
2022-02-06 22:53:59 11KB NLP 应删除词 stopwords 停用词表
1
哈工大停用词表 川大智能实验室停用词表 中文停用词词表
2022-02-06 14:11:22 9KB python 自然语言处理 开发语言 后端
1
在使用TF-IDF算法进行自然语言处理时,大家在处理文本时会首先进行切割,生成包含所有词的词典,但此时往往会有许多重复的词,这些词可能是经常使用的词,比如”的“,这样的词语太多会影响处理效果,因此需要去掉这些停用词在进行处理,在此提供停用词表!
2022-01-30 17:40:38 21KB TF-IDF 停用词
1
修复之前一个错误 需要开启调试模式 要安装 Android Composite ADB Interface 驱动
2022-01-28 14:04:56 969KB 易语言安卓手机+系统自带APP+
无介绍不输入不行吗?
2022-01-28 14:00:56 104KB API C# 启用停用设备 设备管理器
1
整合 使用ICTCLAS2013(NlPIR) x64 的中文分词,分词的速度和效果都不错。然后就是对文本进行的去停用词以及特殊符号(哈工大停用词库)的去除,这些特殊符号还有标点符号,以及文本中夹杂的数字和字母会对分词的效果产生影响。eclipse GBK 编码
2022-01-21 17:55:12 5.53MB NLPIR 分词 过滤停用词
1
es5.3.2热词、停用词、同义词词典,包括插件压缩包,插件源码,远程词典服务端示例,配置说明等
2022-01-20 14:01:16 8.32MB es热词 es同义词 es远程词典
1
最全哈工大停用词表~ 中文分词~ 去停止词~ txt格式 UTF-8编码 盆友们有需自取~ 宝宝们快乐分词,冲冲冲!
2022-01-20 10:59:44 5KB 停止词 UTF-8 分词 哈工大
1