搜狗实验室新闻数据精简版,将xml文本进行处理后分类如下: 奥运 5595个txt 房产 14695 个txt 互联网 2200个txt 健康 1153个txt 教育 2075个txt 旅游 1802个txt 汽车 1405个txt 商业 12465个txt 时尚 3490 个txt 体育 17237 个txt 文化 628个txt 娱乐 6757个txt 招聘 18个txt 由于是个人xml文本处理过的,处理了部分文档,如果需要更多可以联系我。 免费下载链接:https://share.weiyun.com/X0prakLr
2019-12-21 18:52:17 83.69MB 搜狗语料库 jieba分词 文本分类
1
2016年上传过搜狗12个分类词库,两年没更新了,今天用程序重新跑了下数据获取到2018最新的数据,导出为txt格式,方便大家做分词用,我不生成词,我只是词的搬运工,版权归搜狗公司所有。
2019-12-21 18:49:26 37.08MB 搜狗 词库 分词 2018
1
词库的各分类数据(已去重)来源于搜狗,考虑到各行各业需要的分词规则不同,故没有合并,需要的可以下载下来自行合并
2019-12-21 18:49:26 48.76MB 搜狗 词库
1
solr6.0需要的IK分词资料,其中包括IK分词的jar和配置文件还有搜狗词库
2016-06-01 00:00:00 16.16MB solr6.0 IK分词 搜狗词库
1
采用 vs2008基于wininet开发的一款仿搜狗下载的vc++版的文件下载程序。对学习VC++,MFC 的很有帮助。 采用 vs2008基于wininet开发的一款仿搜狗下载的vc++版的文件下载程序。对学习VC++,MFC 的很有帮助。 采用 vs2008基于wininet开发的一款仿搜狗下载的vc++版的文件下载程序。对学习VC++,MFC 的很有帮助。 采用 vs2008基于wininet开发的一款仿搜狗下载的vc++版的文件下载程序。对学习VC++,MFC 的很有帮助。
2013-07-29 00:00:00 5.34MB 文件下载 wininet MFC vc++
1
搜狗最新文本分类语料库 C000007 汽车 C000008 财经 C000010 IT C000013 健康 C000014 体育 C000016 旅游 C000020 教育 C000022 招聘 C000023 文化 C000024 军事
1