搜狗实验室新闻数据精简版,将xml文本进行处理后分类如下: 奥运 5595个txt 房产 14695 个txt 互联网 2200个txt 健康 1153个txt 教育 2075个txt 旅游 1802个txt 汽车 1405个txt 商业 12465个txt 时尚 3490 个txt 体育 17237 个txt 文化 628个txt 娱乐 6757个txt 招聘 18个txt 由于是个人xml文本处理过的,处理了部分文档,如果需要更多可以联系我。 免费下载链接:https://share.weiyun.com/X0prakLr
2019-12-21 18:52:17 83.69MB 搜狗语料库 jieba分词 文本分类
1
https://github.com/helloMickey/project_previous/tree/master/judicial-data-analysis 爬取法律判决书的日期、年份、处理法院,并下载相应文书。 代码简单修改参数即可爬取不同的案件
2019-12-21 18:52:00 11KB 判决文书爬虫
1
最大概率分词算法,带详细源码 基于最大概率的汉语切分 目标:采用最大概率法进行汉语切分。 其中:n-gram用bigram,平滑方法至少用Laplace平滑。 输入:接收一个文本,文本名称为:corpus_for_test.txt 输出:切分结果文本, 其中:切分表示:用一个字节的空格“ ”分隔,如:我们 在 学习 。 每个标点符号都单算一个切分单元。 输出文件名为:学号.txt
2019-12-21 18:51:56 220KB 分词 算法
1
利用knn算法实现了一个中文网页自动分类器, 包括网页预处理,ictclas中文分词,基于tf-idf的文本特征表示,基于df的特征选取和基于knn的分类算法,最后通过struts2框架web发布
2019-12-21 18:51:55 173KB ictclas knn struts2 中文分词
1
小黄鸡语料库,包含分词以及未分词,可以用于自然语言处理。
2019-12-21 18:50:16 12.25MB 语料库 小黄鸡
1
在最新版的中科分词系统基础上,进行了改进,加入用户词典和停用词,并进行文件无乱码读写,输出分词结果,效果不错,是情感分析的良好基础。这一部分,我用来写作为硕士论文的数据处理基础。在此分享给各位,欢迎指教
2019-12-21 18:49:57 3KB 分词系统 用户词典 停用词
1
2016年上传过搜狗12个分类词库,两年没更新了,今天用程序重新跑了下数据获取到2018最新的数据,导出为txt格式,方便大家做分词用,我不生成词,我只是词的搬运工,版权归搜狗公司所有。
2019-12-21 18:49:26 37.08MB 搜狗 词库 分词 2018
1
中文分词用统计词频词典,一词一行,txt文本保存
2019-12-21 18:49:03 2.46MB 中文 分词 词频 词典
1
结巴分词,很不错的分词工具,python写的,亲身试用,不管英文还是中文分得很准!
2019-12-21 18:49:02 6.09MB 中文 英文 分词
1
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
2019-12-21 18:47:48 70KB 词频计算
1