中文敏感词库、各种停用词表以及各种分词词库,txt格式方便实用
2019-12-21 18:55:31 21.62MB 敏感词库 停用词 各种词库
1
香港城市大学语料库(1 772 202 字,训练集)、微软亚洲研究院语料库(1 089 050 字,训练集)、北京大学语料库(1 833 177 字,训练集)
2019-12-21 18:55:23 41.84MB 分词语料库
1
这是目前来说最新的ansj分词jar包,导入即可使用
2019-12-21 18:55:21 6.64MB ansj;分词
1
结巴分词包软件
2019-12-21 18:54:23 11.83MB 结巴分词包软件
1
用于HMM中文分词训练,代码可以参见:https://blog.csdn.net/qq_38593211/article/details/81637029
2019-12-21 18:53:49 16.62MB NLP NER
1
金融方面的常见词汇形成的词典/语料库,jieba.load_userdict()即可使用
2019-12-21 18:53:33 15KB NLP 语料库 jieba 分词词典
1
仅供学习和研究使用,禁止用于商业行为
2019-12-21 18:53:29 4.64MB 中文分词
1
因为比赛需要用到结巴分词,所以写了一个关于结巴分词、词性标注以及停用词过滤的python程序。
2019-12-21 18:53:25 7.15MB python jieba
1
可以实现网页的爬取,到分词,词语的向量化
2019-12-21 18:53:13 8.74MB 爬虫,分词
1
jieba和百度分词词库;
2019-12-21 18:53:13 2.51MB jieba词库 百度分词词库 分词词库
1