基于tensorflow+CNN的新闻文本分类-附件资源
2022-04-10 23:20:40 23B
1
在文本分类中,基于Word2Vec词向量的文本表示忽略了词语区分文本的能力,设计了一种用TF-IDF加权词向量的卷积神经网络(CNN)文本分类方法.新闻文本分类,一般只考虑正文,忽略标题的重要性,改进了TF-IDF计算方法,兼顾了新闻标题和正文.实验表明,基于加权词向量和CNN的新闻文本分类方法比逻辑回归分类效果有较大提高,比不加权方法也有一定的提高.
1
基于tensorflow+CNN的搜狐新闻文本分类-附件资源
2021-12-25 18:06:27 106B
1
有搜狗分类新闻语料库得出的libsvm格式数据,特征词选择方法为IG,更多了解请参阅个人博客http://hi.baidu.com/finallyliuyu/home 查阅相关文章
2021-12-22 11:26:12 8.72MB libsvm数据
1
引入Attention 机制,对 LSTM 模型进行改进,设计了LSTM-Attention 模型。 实验环境:开python3.6.5、tensorflow==1.12、keras==2.2.4 本文的实验数据集来源于搜狗实验室中的搜狐新闻 数据,从中提取出用于训练中文词向量的中文语料, 大小约为 4GB 左右.然后选取了10 个类别的新闻数据,分别为体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐.每个类别 新闻为5000 条,共 50000 条新闻,利用这 50000 条 数据来训练模型.其测试集和验证集如下 验证集: 500*10 测试集: 1000*10
基于tensorflow+CNN的新闻文本分类-附件资源
2021-12-07 21:36:45 106B
1
NLP新闻文本分类新人赛数据集
2021-12-07 14:30:50 295.38MB 数据集
1
新闻文本分类数据集,详情见https://editor.csdn.net/md/?articleId=121462685
2021-11-26 09:11:06 243.3MB 新闻文本分类
1
基于tensorflow、CNN、清华数据集THUCNews的新浪新闻文本分类-附件资源
2021-11-23 11:40:04 106B
1
中文文本分类数据集 数据来源: 今日头条客户端 数据格式: 6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们 每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词 分类code与名称: 100 民生 故事 news_story 101 文化 文化 news_culture 102 娱乐 娱乐 news_entertainment 103 体育 体育 news_sports 104 财经 财经 news_finance 106 房产 房产 news_house 107 汽车 汽车 news_car 108 教育 教育 news_edu 109 科
2021-07-12 16:12:23 25.67MB Python
1