整理自搜狗实验室中的新闻分类。含有金融、体育、军事等11个分类集。
2023-11-24 21:13:33 33.86MB 自然语言处理 新闻分类语料
1
中文word2vector词向量实现 说明:背后的原理暂时不做深究, 主要目的就是尽可能快的训练一个中文词向量模型。 环境 笔记本 i5-4210M CPU @ 2.60GHz × 4 , 8G RAM ubuntu16.04lts 独立系统, python 3.6.1 依赖:numpy, scipy, gensim, opencc, jieba 1.获取语料库 1.1维基百科 原始语料文件:zhwiki-latest-pages-articles.xml.bz2 1.6G 1.2 SogouCA 全网新闻数据(SogouCA) 原始语料文件:'news_tensite_xml.full.tar.gz' 746.3 M 2.语料库预处理 2.1 搜狗新闻语料处理 来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息 格式说明:
2022-11-30 15:36:28 345KB 附件源码 文章源码
1
机器学习中搜狗实验室发布的搜狗新闻数据集
2022-11-02 01:58:32 366.47MB 数据集 搜狗新闻
1
1. 资源内容:大数据数据分析机器学习-搜狗新闻行业分类-数据集-训练集-验证集-机器学习数据分析师必备 2. 使用目标:数据分析,机器学习学习用数据集 3. 应用场景:数据分析,机器学习学习 4. 特点:学习 5. 适用人群:学生,算法工程师,研究生 6. 使用说明:压缩包,里面有6个文件,分别是训练集测试集和验证集。分别有文本文件格式和Excel格式。两种格式内容一样。可以根据自己的需求重新划分。
2022-02-08 14:11:37 123.75MB 机器学习 数据分析 数据集 搜狗新闻
搜狗的新闻中文语料库,可用于word2vec训练用的。。。。。。。。。。。。。。。。。。。。。。。。
2021-12-10 15:34:20 45.5MB 中文语料库
1
SougoCS数据集,内含11类搜狐新闻文本,近10万条。 搜狗提供的数据为未分类的XML格式。 此资源已经将XML解析并分类完毕,方便使用。
2019-12-21 22:23:09 94.29MB NLP 自然语言处理 文本分类 搜狗
1
想要学习自动摘要的数据集,可以从这进行下载。里面有生成好的自动摘要
2019-12-21 21:53:28 13KB 自动摘要 搜狗
1