机器学习中搜狗实验室发布的搜狗新闻数据集
2022-11-02 01:58:32 366.47MB 数据集 搜狗新闻
1
文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。 语料库统计的意义:提供一个较大规模的标准中文文本分类测试平台。 应用案例:中文文本分类,主题跟踪与检测等。
2021-08-04 18:11:29 158KB 语料库 自然语言处理 分词
其中包含的val(已整理的搜狗实验室新闻文本数据)、stopwords数据来源于网课资源,能够帮助新手尽快完成一次新闻文本分类的实战项目
1
搜狗实验室1个月数据,我已经整理过,做好了分类,并且去除了无用数据
2021-05-17 22:39:00 51.76MB 搜狗实验室
1
搜狗实验室(用户查询日志)SogouQ.reduced,用于做大数据分析的数据
2021-04-09 22:16:33 144.96MB spark hadoop
1
搜狗实验室新闻数据 文本分类
2021-03-08 09:14:32 711.76MB 大数据 自然语言处理
1
用来测试word2vec的数据样本,从搜狗实验室全网新闻数据库http://www.sogou.com/labs/resource/list_news.php 下载并提取出新闻内容的数据。
2020-01-03 11:18:59 258KB 搜狗实验室 word2vec
1
搜狗实验室新闻分类语料库,主要有10个分类,共50多万条记录 0 汽车 1 财经 2 IT 3 健康 4 体育 5 旅游 6 教育 7 招聘 8 文化 9 军事
2019-12-21 21:54:07 25.78MB 搜狗 语料库 分类
1