最新简体中文常见停用词表:stopwords.txt
2019-12-21 19:58:35 20KB 简体 中文 停用词 stopwords
1
中文文本停用词
2019-12-21 19:47:42 6KB 中文停用词
1
哈工大停用词 四川大学机器智能实验室停用词库 百度停用词
2019-12-21 19:47:27 16KB 哈工大 四川大学 停用词
1
资料包里面含有完整版的复旦大学语料库,外加上本人针对这个语料库而收集整理的分词表,还包括本人精选10类各100篇,以及对其进行分词后的文件,以及只筛选名词后的文件
2019-12-21 18:57:19 105.44MB 复旦 完整版 语料库 停用词
1
中文敏感词库、各种停用词表以及各种分词词库,txt格式方便实用
2019-12-21 18:55:31 21.62MB 敏感词库 停用词 各种词库
1
内含7kb的停用词词典、源码、测试数据;词典共收录了1208个常见停用词,源码基于python3,下载解压后即可运行测试数据,且效率非常高。欢迎下载使用,如在使用过程中有任何问题,欢迎留言交流。
2019-12-21 18:53:42 5KB 去停用词 python3 源代码 高效
1
因为比赛需要用到结巴分词,所以写了一个关于结巴分词、词性标注以及停用词过滤的python程序。
2019-12-21 18:53:25 7.15MB python jieba
1
在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。
2019-12-21 18:53:10 20KB 停用词 中文
1
包含常见的停用词(包括英文通用词)。在做NLP时,停用词过滤可以用。
2019-12-21 18:50:12 17KB NLP
1
在最新版的中科分词系统基础上,进行了改进,加入用户词典和停用词,并进行文件无乱码读写,输出分词结果,效果不错,是情感分析的良好基础。这一部分,我用来写作为硕士论文的数据处理基础。在此分享给各位,欢迎指教
2019-12-21 18:49:57 3KB 分词系统 用户词典 停用词
1