中英文停用词stop_words,共3018个
2021-11-25 18:01:56 23KB 停用词 stopword nlp 数据预处理
1
NLP民工的乐园 最强大的NLP武器库 NLP民工的乐园:几乎最全的中文NLP资源库 词库 工具包 学习资料 在入门到熟悉NLP的过程中,用到了很多github上的包,遂整理了一下,分享在这里。 很多包非常有趣,值得收藏,满足大家的收集癖!如果觉得有用,请分享并star,谢谢! 长期不定时更新,欢迎手表和叉子! 涉及内容包括但不限于:中英文敏感词,语言检测,中外手机/电话归属​​地/运营商查询,名字,名称,性别,手机号撤回,身份证删除,邮箱删除,中日文人名库,中文缩写库,拆字字典,词汇情感值,替换词,反动词表,暴恐词表,繁简体转换,英文模拟中文最佳,汪峰歌词生成器,职业名称词库,词典库,反义词库,否定词库,汽车品牌词库,汽车零件词库,连续英语切割,各种中文词向量,公司名称大全,古诗词库,IT词库,财经词库,成语词库,地名库,历史名人词库,诗词词库,医学词库,饮食词库,法律词库,汽车词库,动
2021-11-25 15:48:32 69.21MB Python
1
前言 jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。 分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 支持三种分词模式       1 精确模式,试图将句子最精确地切开,适合文本分析;       2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快
2021-11-24 22:49:33 50KB ie jieba python
1
用于文本数据预处理的去除停用词,每个词以换行的形式分割
2021-11-23 19:15:40 41KB 停用词 分词 预处理
1
英文文本词根还原+去停用词小工具,非常好用
2021-11-20 22:15:33 7.1MB 词根还原 去停用词
1
用于中文自然语言处理的最新简体繁体停用词表以及中文解码文件
2021-11-17 23:44:06 12KB 自然语言处理
1
分词、自然语言处理中用的中文停用词。
2021-11-14 18:05:36 15KB 停用词 分词 nlp python
1
stopword 中文停用词 做文本分类器所需要的。 stopword 中文停用词 做文本分类器所需要的。
2021-11-12 11:31:05 3KB stopword 中文停用词
1
四川大学机器智能实验室停用词库.txt
2021-11-10 19:02:05 8KB 机器学习停用词库
文本数据挖掘——中文停用词库
2021-11-10 18:07:19 5KB 中文停用词库 文本挖掘