前言 jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。 分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 支持三种分词模式       1 精确模式,试图将句子最精确地切开,适合文本分析;       2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快
2021-11-24 22:49:33 50KB ie jieba python
1
用于文本数据预处理的去除停用词,每个词以换行的形式分割
2021-11-23 19:15:40 41KB 停用词 分词 预处理
1
英文文本词根还原+去停用词小工具,非常好用
2021-11-20 22:15:33 7.1MB 词根还原 去停用词
1
用于中文自然语言处理的最新简体繁体停用词表以及中文解码文件
2021-11-17 23:44:06 12KB 自然语言处理
1
分词、自然语言处理中用的中文停用词
2021-11-14 18:05:36 15KB 停用词 分词 nlp python
1
stopword 中文停用词 做文本分类器所需要的。 stopword 中文停用词 做文本分类器所需要的。
2021-11-12 11:31:05 3KB stopword 中文停用词
1
哈工大停用词表扩展去停用词用!
2021-11-09 15:23:42 4KB 停用词 去停用词 自言语言
1
监督学习的训练集+测试集+停用词。可以直接下载。数据集中有四个分类,每个1000+个。停用词是哈工大停用词
2021-11-04 18:17:01 957KB 监督学习
1
自然语言处理 / jieba分词自定义停用词,共2600行 / txt文件 / stopwords / 学习工作都用得上
2021-10-29 17:52:50 20KB stopwords jieba nlp jieba分词停用词
1
英文停用词词典(进行文本分词时使用),亲测可用,较全
2021-10-28 22:02:13 2KB 停用词 分词 英文语料