表 5.2 选取的部分搜狗语料库文章类别及数目表 类别 奥运 房产 娱乐 健康 教育 体育 旅游 汽车 商业 时尚 总计 文章 数目 19940 52405 24233 4049 7539 62751 6480 4889 45616 12342 240244 数据处理及特征提取过程与上节类似,这里只介绍不同过程。 在数据预处理阶段,针对本数据集加入了新的无关词表,如图 5.39所示。 图 5.39 自建无关词表示意图 筛选每个类别中的特征词,所有类别内的保留词情况如图 5.40所示。 图 5.40 所有类别内的保留词情况示意图 利用朴素贝叶斯分类方法,2折交叉验证中每次的 classification_report、分类正确率 以及混淆矩阵如图 5.41-图 5.43所示。
2022-06-14 10:41:19 4.05MB 数据挖掘 文本分类
1
机器学习课设大作业基于BERT和朴素贝叶斯算法的新闻文本分类项目(源码+大作业+数据集)。一个很完整的项目源码,操作没难度,新手也可放心下载。 data文件夹中已经包括了初始的数据集和处理之后的数据集。.csv文件初始数据集,另外两个是经过News_prediction.ipynb代码处理过的。在Bert和NaiveBayes训练函数中直接加载上来。 result文件夹中的文件是朴素贝叶斯和Bert模型训练后的输出文件 互联网假新闻分类 一共三种类别:真新闻、假新闻、不用判断 40000条训练文本数据,10000条测试数据。 基于正则表达式和Jieba完成特征工程 朴素贝叶斯:tf-idf词嵌入。87.4% BERT:cn-wmm预训练词向量。5-epoch,91.4%
用朴素贝叶斯分类算法做中文文本分类-附件资源
2022-06-10 09:03:29 23B
1
半监督文本分类的变体自动编码器 所有这些存储库都在标题为“用于半监督文本分类的可变自动编码器”的论文中使用。 列表: data:所有数据文件都保存在此目录中,包括数据,单词嵌入,pretrained_weights。 结果:保存结果模型的目录。 assistant_vae和avae_fixed:在VAE中使用辅助变量的模型,可以产生良好的结果。 它们的不同之处在于是否在生成中固定潜在变量。 SemiSample-S1是带有基于EMA基准的基于采样的优化器的模型 SemiSample-S2是带有VIMCO基线的基于采样的优化器的模型 笔记 该代码有点多余,因为最初的模型是使用辅助变量提出的,但是事实证明,如果没有辅助变量,它也可以很好地工作。 要运行此代码,您可能需要预处理的数据,可以通过给我发送电子邮件(pku.edu.cn上的wead_hsu)获得这些数据。 或者,您也可以使用
2022-06-09 15:45:56 485KB Python
1
深度学习大作业文本分类任务源代码。 使用说明如下: Baselines baseline运行方法:运行 codes/baselines/run.py , 用 --model参数指定需要运行的模型(必选),用 --dataset 参数指定数据集(可选,默认为AGNews) baseline中各模型的超参数设置见各模型定义文件中 预训练参数下载地址: 链接:https://pan.baidu.com/s/1wqxUAA4LpE3LIgF3kP-6QQ 提取码:gaw3 下载后放入 codes/baselines/pre_trained 中即可 数据集: 中文数据集,原作者从THUCNews中抽取的20万条新闻标题。一共10个类别,每类2万条。 类别:财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐。 英文数据集,来自文本分类经典数据集AG News,包含新闻的标题、内容和标签。使用中对数据进行了简单处理,将标题和内容进行了拼接作为一列,并将训练数据划分为了训练集和验证集。一共4个类别,每类13900条。 类别:世界、体育、商业、科技。
新闻数据集文本分类实战源代码。通过学习 深度学习框架-PyTorch实战 用中文命名改写代码,使用前请添加形参 模型文件名。使用中文命名编程新闻数据集文本分类,新闻数据集文本分类实战源代码。通过学习 深度学习框架-PyTorch实战 用中文命名改写代码,使用前请添加形参 模型文件名。使用中文命名编程新闻数据集文本分类,新闻数据集文本分类实战源代码。通过学习 深度学习框架-PyTorch实战 用中文命名改写代码,使用前请添加形参 模型文件名。使用中文命名编程新闻数据集文本分类,新闻数据集文本分类实战源代码。通过学习 深度学习框架-PyTorch实战 用中文命名改写代码,使用前请添加形参 模型文件名。使用中文命名编程新闻数据集文本分类,新闻数据集文本分类实战源代码。通过学习 深度学习框架-PyTorch实战 用中文命名改写代码,使用前请添加形参 模型文件名。使用中文命名编程新闻数据集文本分类
2022-06-07 09:12:15 15.92MB python 分类 pytorch 人工智能
使用keras-bert实现 谭松波 酒店评论 文本分类(情感分析)-附件资源
2022-06-06 17:00:10 106B
1
朴素贝叶斯估计 朴素贝叶斯是基于贝叶斯定理与特征条件独立分布假设的分类方法。首先根据特征条件独立的假设学习输入/输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。 具体的,根据训练数据集,学习先验概率的极大似然估计分布 以及条件概率为 Xl表示第l个特征,由于特征条件独立的假设,可得 条件概率的极大似然估计为 根据贝叶斯定理 则由上式可以得到条件概率P(Y=ck|X=x)。 贝叶斯估计 用极大似然估计可能会出现所估计的概率为0的情况。后影响到后验概率结果的计算,使分类产生偏差。采用如下方法解决。 条件概率的贝叶斯改为
2022-06-06 02:13:44 92KB python python for循环
1
随着垃圾邮件数量日益攀升,如何有效识别垃圾邮件已成为一项非常重要的课题。为克服k最近邻(k-nea-rest neighbor,kNN)分类法在垃圾邮件识别中的缺陷,本文基于聚类算法提出了一种改进kNN识别方法。首先使用基于最小距离原则的一趟聚类算法将训练邮件集合划分为大小几乎相同的超球体,每个超球体包含一个类别或多个类别的文本;其次,采用投票机制对得到的聚类结果进行簇标识,即以簇中最多文本的类别作为簇的类别,得到的识别模型由具有标识的簇组成;最后,结合最近邻分类思想,对输入的邮件进行自动识别。实验结果表明,该方法可大幅度地降低邮件相似度的计算量,较TiMBL、Nave Bayesian、Stacking等算法效果要好。同时,该方法是一种可增量式更新识别模型的方法,具有一定的实用性。
1
零基础入门NLP-新闻文本分类 test_b.csv test_a_sample_submit.csv test_a.csv test_b_sample_submit.csv train_set.csv
2022-05-31 17:44:08 354.74MB 数据集
1