使用到的数据集是I. Androutsopoulos, J. Koutsias, K.V. Chandrinos, George Paliouras和 C.D. Spyropoulos的 "An Evaluation of Naive Bayesian Anti-Spam Filtering"中使用到的垃圾邮件语料库:lingspam_public。 stopwords我是直接调用的,后续在文件中有另外增加无效词。 详细信息可以参看我的博文:https://blog.csdn.net/qq_43262059/article/details/117379888
2021-05-29 14:10:19 3.65MB KNN 垃圾邮件分类 机器学习 数据挖掘
1
BayesSpam python实现基于贝叶斯的简单垃圾邮件分类 在400封邮件(正常邮件与垃圾邮件各一半)的测试集中测试结果为分类准确率95.15%,在仅仅统计词频计算概率的情况下,分类结果还是相当不错的。 1、准备工作 python3.4开发环境; 结巴分词工具: 2、贝叶斯公式 我们要做的是计算在已知词向量$w=(w_1,w_2,...,w_n)$的条件下求包含该词向量邮件是否为垃圾邮件的概率,即求: $P(s|w),w=(w_1,w_2,...,w_n)$ 其中,$s$表示分类为垃圾邮件 根据贝叶斯公式和全概率公式, $P(s|w_1,w_2,...,w_n)$ $=\frac {P(s,w_1,w_2,...,w_n)}{P(w_1,w_2,...,w_n)}$ $=\frac {P(w_1,w_2,...,w_n|s)P(s)}{P(w_1,w_2,...,w_n)}$ $=\
2021-05-26 13:22:05 17.55MB 附件源码 文章源码
1
从外网中得到的56m中文邮件语料,供垃圾邮件分类的数据集
2021-05-25 16:32:05 12KB 邮件分类 中文 语料 贝叶斯
1
该论文中详细介绍了基于朴素贝叶斯的垃圾邮件分类过程,以及五折交叉验证的评价指标,并包含完整的代码,python格式,是一个学习朴素贝叶斯方法不错的实例。
2021-05-15 21:32:40 325KB 朴素贝叶斯 交叉验证 垃圾邮件分类
1
使用朴素贝叶斯的垃圾邮件分类器 垃圾邮件检测是NLP的主要应用之一。 所有主要的电子邮件服务提供商都内置了垃圾邮件检测系统,并将这些邮件自动分类为“垃圾邮件”。 在这里,基于我们对模型的训练,朴素贝叶斯算法用于创建一个模型,该模型可以将数据集SMS消息分类为垃圾邮件或非垃圾邮件。 能够识别垃圾邮件是一个二进制分类问题,因为邮件被分类为“垃圾邮件”或“非垃圾邮件”,别无其他。 同样,这是一个有监督的学习问题,正如我们知道要预测的那样。 我们将标记的数据集输入模型中,以供将来进行预测,该模型可以从中学习。 使用最初编译并发布在UCI机器学习存储库中的数据集,该库具有用于实验研究目的的非常好的数据集。
2021-05-09 05:05:21 14KB JupyterNotebook
1
该数据集内容为垃圾邮件分类数据集,用于自然语言处理>02.朴素贝叶斯-垃圾邮件分类中的案例数据,该数据集仅供参考
2021-05-08 09:27:55 119KB 朴素贝叶斯算法
1
具有中文垃圾邮件,正常邮件,测试邮件等资料,可以用于朴素贝叶斯分类来检测垃圾邮件
2021-05-07 17:13:24 17.06MB 机器学习
1
打包Matlab博士论文关于垃圾邮件分类-基于文本分类技术的垃圾邮件识别系统.pdf 改进的贝叶斯分类对垃圾邮件识别探讨.pdf 基于NP的垃圾邮件分析系统的设计与实现.pdf 基于文本分类技术的垃圾邮件识别系统.pdf 基于信息熵和决策分类技术的邮件识别研究.pdf 简体中文垃圾邮件分类的实验设计及对比研究.pdf 结合词相关特征与流行学习的中文问句分类.pdf 一种基于支持向量机的垃圾邮件识别方法.pdf 基本都是去年的论文,我去国家图书馆偷来的。那里清华同方还有各种数据库可以一天上网半小时偷。。。
2021-05-04 23:35:43 284KB matlab
1
基于贝叶斯公式的垃圾邮件分类 包含邮件数据以及R语言代码,有视频演示,有讲解ppt
2021-04-17 15:31:42 30.60MB 垃圾邮件 贝叶斯 R语言
1
CNN 中文文本挖掘 文本分类 python 深度学习 机器学习 CNN 中文文本挖掘 文本分类 python 深度学习 机器学习
2021-04-06 09:02:57 12.23MB 垃圾邮件分类 CNN 机器学习
1