金融方面的常见词汇形成的词典/语料库,jieba.load_userdict()即可使用
2019-12-21 18:53:33 15KB NLP 语料库 jieba 分词词典
1
仅供学习和研究使用,禁止用于商业行为
2019-12-21 18:53:29 4.64MB 中文分词
1
因为比赛需要用到结巴分词,所以写了一个关于结巴分词、词性标注以及停用词过滤的python程序。
2019-12-21 18:53:25 7.15MB python jieba
1
可以实现网页的爬取,到分词,词语的向量化
2019-12-21 18:53:13 8.74MB 爬虫,分词
1
jieba和百度分词词库;
2019-12-21 18:53:13 2.51MB jieba词库 百度分词词库 分词词库
1
搜狗实验室新闻数据精简版,将xml文本进行处理后分类如下: 奥运 5595个txt 房产 14695 个txt 互联网 2200个txt 健康 1153个txt 教育 2075个txt 旅游 1802个txt 汽车 1405个txt 商业 12465个txt 时尚 3490 个txt 体育 17237 个txt 文化 628个txt 娱乐 6757个txt 招聘 18个txt 由于是个人xml文本处理过的,处理了部分文档,如果需要更多可以联系我。 免费下载链接:https://share.weiyun.com/X0prakLr
2019-12-21 18:52:17 83.69MB 搜狗语料库 jieba分词 文本分类
1
https://github.com/helloMickey/project_previous/tree/master/judicial-data-analysis 爬取法律判决书的日期、年份、处理法院,并下载相应文书。 代码简单修改参数即可爬取不同的案件
2019-12-21 18:52:00 11KB 判决文书爬虫
1
最大概率分词算法,带详细源码 基于最大概率的汉语切分 目标:采用最大概率法进行汉语切分。 其中:n-gram用bigram,平滑方法至少用Laplace平滑。 输入:接收一个文本,文本名称为:corpus_for_test.txt 输出:切分结果文本, 其中:切分表示:用一个字节的空格“ ”分隔,如:我们 在 学习 。 每个标点符号都单算一个切分单元。 输出文件名为:学号.txt
2019-12-21 18:51:56 220KB 分词 算法
1
利用knn算法实现了一个中文网页自动分类器, 包括网页预处理,ictclas中文分词,基于tf-idf的文本特征表示,基于df的特征选取和基于knn的分类算法,最后通过struts2框架web发布
2019-12-21 18:51:55 173KB ictclas knn struts2 中文分词
1
小黄鸡语料库,包含分词以及未分词,可以用于自然语言处理。
2019-12-21 18:50:16 12.25MB 语料库 小黄鸡
1