搜索【搜狗新闻】的结果

text-classification-cn：中文文本分类实践，基于搜狗新闻语料库，采用传统机器学习方法以及预训练模型等方法

文字分类文本分类（文本分类）是自然语言处理中的一个重要应用技术，根据文档的内容或主题，自动识别文档所属的预先定义的类别标签。文本分类是很多应用场景的基础，某些垃圾邮件识别，舆情分析，情感识别，新闻自动分类，智能客服机器人的合并分类等等。此处分为两个部分：第1部分：基于scikit学习机器学习的Python库，对比几个传统机器学习方法的文本分类第2部分：基于预训练词向量模型，使用Keras工具进行文本分类，用到了CNN 本文语料：，密码：P9M4。更多新闻标注语料，。预训练词向量模型来自，下载地址：。第1部分：基于scikit-learn机器学习的文本分类方法基于scikit-

2024-06-24 14:49:13 208KB python nlp machine-learning deep-learning

1

搜狗新闻分类语料

整理自搜狗实验室中的新闻分类。含有金融、体育、军事等11个分类集。

2023-11-24 21:13:33 33.86MB 自然语言处理 新闻分类语料

1

word2vector:用百科数据和搜狗新闻数据训练word2vec模型

中文word2vector词向量实现说明：背后的原理暂时不做深究，主要目的就是尽可能快的训练一个中文词向量模型。环境笔记本 i5-4210M CPU @ 2.60GHz × 4 , 8G RAM ubuntu16.04lts 独立系统, python 3.6.1 依赖：numpy, scipy, gensim, opencc, jieba 1.获取语料库 1.1维基百科原始语料文件：zhwiki-latest-pages-articles.xml.bz2 1.6G 1.2 SogouCA 全网新闻数据(SogouCA) 原始语料文件：'news_tensite_xml.full.tar.gz' 746.3 M 2.语料库预处理 2.1 搜狗新闻语料处理来自若干新闻站点2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据，提供URL和正文信息格式说明：

2022-11-30 15:36:28 345KB 附件源码 文章源码

1

机器学习中搜狗实验室发布的搜狗新闻数据集

2022-11-02 01:58:32 366.47MB 数据集 搜狗新闻

1

大数据数据分析机器学习-搜狗新闻行业分类-数据集-训练集-验证集-机器学习数据分析师必备

1. 资源内容：大数据数据分析机器学习-搜狗新闻行业分类-数据集-训练集-验证集-机器学习数据分析师必备 2. 使用目标：数据分析，机器学习学习用数据集 3. 应用场景：数据分析，机器学习学习 4. 特点：学习 5. 适用人群：学生，算法工程师，研究生 6. 使用说明：压缩包，里面有6个文件，分别是训练集测试集和验证集。分别有文本文件格式和Excel格式。两种格式内容一样。可以根据自己的需求重新划分。

2022-02-08 14:11:37 123.75MB 机器学习 数据分析 数据集 搜狗新闻

搜狗新闻语料库

搜狗的新闻中文语料库，可用于word2vec训练用的。。。。。。。。。。。。。。。。。。。。。。。。

2021-12-10 15:34:20 45.5MB 中文语料库

1

搜狗新闻文本分类数据集SougoCS

SougoCS数据集，内含11类搜狐新闻文本，近10万条。搜狗提供的数据为未分类的XML格式。此资源已经将XML解析并分类完毕，方便使用。

2019-12-21 22:23:09 94.29MB NLP 自然语言处理 文本分类 搜狗

1

搜狗新闻的自动文本摘要的数据集

想要学习自动摘要的数据集，可以从这进行下载。里面有生成好的自动摘要

2019-12-21 21:53:28 13KB 自动摘要 搜狗

1

个人信息

热门下载

最新下载

其他资源