中文新闻分类数据集
2022-11-02 02:12:57 164KB 中文新闻分类数据集
1
常规赛:中文新闻文本标题分类 一.方案介绍 1.1 赛题简介: 文本分类是借助计算机对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。本次比赛为新闻标题文本分类 ,选手需要根据提供
2022-09-19 09:00:26 122KB 技术
1
中文新闻信息分类与代码 本标准规定了中文新闻分类的原则、方法、体系和类目代码
2022-05-27 10:29:29 8.96MB 中文新闻信息分类
1
今日头条中文新闻文本(多层)分类数据集
2022-01-02 20:47:51 294.66MB Python开发-自然语言处理
1
NLPCC2017(中文)新闻标题分类示例代码以及数据描述
2021-12-30 15:10:53 19.93MB Python开发-机器学习
1
引入Attention 机制,对 LSTM 模型进行改进,设计了LSTM-Attention 模型。 实验环境:开python3.6.5、tensorflow==1.12、keras==2.2.4 本文的实验数据集来源于搜狗实验室中的搜狐新闻 数据,从中提取出用于训练中文词向量的中文语料, 大小约为 4GB 左右.然后选取了10 个类别的新闻数据,分别为体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐.每个类别 新闻为5000 条,共 50000 条新闻,利用这 50000 条 数据来训练模型.其测试集和验证集如下 验证集: 500*10 测试集: 1000*10
头条中文新闻数据集(来源:https://github.com/aceimnorstuvwxz/toutiao-text-classfication-dataset),已按照8:1:1的比例划分为训练集、测试集、验证集,并将格式整理为 新闻内容 + '\t' + 新闻标签 + '\n'的形式,可直接利用AI Studio训练模型
1
中文文本分类数据集 数据来源: 今日头条客户端 数据格式: 6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们 每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词 分类code与名称: 100 民生 故事 news_story 101 文化 文化 news_culture 102 娱乐 娱乐 news_entertainment 103 体育 体育 news_sports 104 财经 财经 news_finance 106 房产 房产 news_house 107 汽车 汽车 news_car 108 教育 教育 news_edu 109 科
2021-07-12 16:12:23 25.67MB Python
1
资源导出成html了,能用百度aistudio上运行,可直接复制粘贴,数据集在百度平台能搜到。开头的数据路径需自己修改。
2021-06-30 18:25:27 319KB cnn 神经网络 新闻标题分类 aistudio
1
经典的LSTM分类模型,一种是利用LSTM最后时刻的输出作为高一级的表示,而另一种是将所有时刻的LSTM输出求平均作为高一级的表示.这两种表示都存在一定的缺陷,第一种缺失了前面的输出信息,另一种没有体现每个时刻输出信息的不同重要程度.为了解决此问题,引入 Attention 机制,对 LSTM 模型进行改进,设计了 LSTM-Attention 模型.实验结果表明: LSTM 分类模型比传统的机器学习方法分类效果更好,而引入 Attention 机制后的 LSTM 模型相比于经典的文本分类模型,分类效果也有了一定程度的提升.
2021-04-14 13:05:15 468KB LSTM Attention
1