随 着 大数据 时 代 的 快速发 展 , 文 本 信 息 数据 量 急 剧 增 加 , 为 了 获 取有 价值 的 信 息 , 提升 信 息 获取 效 率 , 就 需 对这些文本信 息进 行分类 。 因 此 , 文 本分类系 统 的 研 究 与 实 现具 有 重要 意 义 。 新 闻 文本 是 文本信 息 的一个重 要组成部分 , 也 是人 们 获取 信 息 的重要 方式 。 本 文 以 新 闻 文本 分类为依 托 , 对 当 下 文本分类算法进 行 改进 , 以 新 闻 文本分类系 统 为 实例 对文 本 分类系 统 的 设计 与 实 现进 行 说 明 , 完 成 文 本 分类算法 的 研 究工 作 。 本文 以 大数据 时代背 景及 分类技术 的 发 展为背景 , 对 贝 叶斯 分类 算 法 以 及 卷积 神 经 网 络 分类 算 法进 行 了 改进 , 以 提升 分类 的 准确 度 , 主 要 工作 内 容 有 以 下 几个方面 : 第一, 本 文 针对 不 同 种 类 的 文本 分类方 法做 了 调 研 , 通过 阅 读 文
2022-04-28 09:09:16 7.18MB 机器学习 分类 人工智能 数据挖掘
matlab 实现SVM文本分类和关键字检索,有界面,能够方便的进行操作,不只是算法,是做毕业设计和project的比较好的选择。
2022-04-27 23:09:51 46.84MB 机器学习 SVM matlab
1
随着互联网技术的快速发展,互联网上的文本数据变得越来越多,传统的人工文本类 别划分方法已经无法应对当前的数据量,自动文本分类技术成为研究的热点。作为文本挖 掘技术的主要分支,文本分类技术可以有效解决大数据发展下的文本自动分类需求。特征 选择和文本分类算法是文本分类技术的两个关键部分,本文主要针对这两个部分进行研究。 在特征选择部分,本文提出一种基于卡方统计量(CHI)和互信息(MI)的混合特征 选择方法(CHMI),该方法首先针对卡方统计量方法对低频词敏感的缺点,引入词频因子 进行改进,然后使用调节参数改善互信息方法对类别敏感的不足,最终结合改进后的两种 方法,得到对低频词和类别均有较好处理效果的混合特征选择方法。实验结果表明,与传 统的卡方统计量方法和互信息方法相比,本文方法在支持向量机、朴素贝叶斯和K最近邻 分类器上,均可以有效提高文本分类的准确率。 在文本分类算法部分,分类器采用支持向量机,支持向量机的核心是核函数,本文提 出一种基于多项式核函数和高斯核函数的混合核函数。该核函数具有多项式核函数和高斯 核函数的优点,既具有多项式核函数能够提取整体特征的能力,又利用高斯核函数对局部
2022-04-27 20:07:01 2.93MB 机器学习 分类 人工智能 数据挖掘
文本分类,使用机器学习算法,如朴素贝叶斯、逻辑回归、支持向量机等
2022-04-27 11:05:47 204KB 算法 机器学习 分类 逻辑回归
这个链接是测试集,训练集请见这个链接: 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试各50多兆),下载时请耐心等待。
2022-04-26 22:51:22 51.14MB 中文文本分类 文本分类语料
1
1、内容概要:本资源主要基于bert(keras)实现文本分类,适用于初学者学习文本分类使用。 2、数据集为电商真实商品评论数据,主要包括训练集data_train,测试集data_test ,经过预处理的训练集clean_data_train和中文停用词表stopwords.txt,可用于模型训练和测试,详细数据集介绍见商品评论情感数据说明文档。 3、源代码:word2vec_analysis.py 是基于Word2Vec进行词向量的生成,采用向量平均求得句向量,然后分别构建RandomForest和GBDT分类模型进行文本分类。 4、源代码:bert_model.py是基于keras-bert构建Bert模型对文本进行分类。
2022-04-21 00:11:16 11.13MB bert keras 自然语言处理 人工智能
disp('展示BP的训练集分类') bp_train_accuracy=sum(J==J1)/length(J) figure stem(J,'bo'); grid on hold on plot(J1,'r*'); legend('网络训练输出','真实标签') title('BP神经网络训练集') xlabel('样本数') ylabel('分类标签') hold off %% 测试集准确率 tn_bp_sim = sim(net_bp,P_test);%测试 [I J]=max(tn_bp_sim',[],2); [I1 J1]=max(T_test',[],2); disp('展示BP的测试集分类') bp_test_accuracy=sum(J==J1)/length(J) figure stem(J,'bo'); grid on hold on plot(J1,'r*'); legend('测试输出','真实标签') title('BP神经网络测试集') xlabel('样本数') ylabel('分类标签') hold off
2022-04-20 09:06:52 3.91MB 分类 自然语言处理 人工智能 数据挖掘
1、内容概要:本资源主要基朴素贝叶斯算法实现垃圾邮件过滤分类,适用于初学者学习文本分类使用。 2、主要内容:邮件数据集email,email文件夹下有两个文件夹ham和spam,其中ham文件夹下的txt文件为正常邮件,spam文件下的txt文件为垃圾邮件;停用词文件stopwords_cn.txt;Naive_Bay.py 朴素贝叶斯算法实现源码;Email_NB.py垃圾邮件分类实现源码。
文本的二进制分类 这是将短信分类为垃圾邮件或非垃圾邮件的示例预热。 这是一个通用实现,可以用作基准和进一步的开发。 该实现包括对文本和Naive Bayes分类器的一些粗略清理。 还可以使用Flask应用程序进行部署。 如何开始 创建环境 我使用conda在Unix环境中创建环境。 $ conda init $ conda create -n ENV_NAME python=3.8.5 $ conda activate ENV_NAME 安装要求 需求已经放在单独的requirements.txt文件中。 要安装它们,请运行以下命令: $ pip install -r requirements.txt 要下载英语的spacy实用程序,请执行以下操作: $ python -m spacy download en_core_web_sm 跑步 要分别训练和创建模型,您应该转到src :
2022-04-16 20:02:53 1.31MB JupyterNotebook
1
1、内容概要:本资源主要基于XGBoost与LightGBM实现文本分类,适用于初学者学习文本分类使用。 2、数据集为电商真实商品评论数据,主要包括训练集data_train,测试集data_test ,经过预处理的训练集clean_data_train,训练好的word2vec词向量模型w2v_model.pkl和中文停用词表stopwords.txt,可用于模型训练和测试,详细数据集介绍见商品评论情感数据说明文档。 3、源代码:word2vec_analysis.py 是基于Word2Vec进行词向量的生成,采用向量平均求得句向量,然后分别构建RandomForest和GBDT分类模型进行文本分类。 4、源代码:xgboost_model.py是基于xgboost模型对文本进行分类。 5、源代码:lightGBM_model.py是基于lightGBM模型对文本进行分类。
2022-04-16 14:07:38 37.99MB 机器学习 xgboost lightGBM word2vec