matlab实现垃圾邮件分类代码过滤器
使用机器学习过滤垃圾邮件
该项目专注于开发电子邮件垃圾邮件过滤器,该过滤器学习使用各种机器学习技术对垃圾邮件和非垃圾邮件进行分类。
机器学习系统将接受电子邮件消息的训练,以学习区分垃圾邮件和非垃圾邮件。
在这里学习代表观察垃圾邮件模式的行为,该模式建立在一个足够好的模型上,该模型做出的预测适合训练集并在新数据上很好地泛化。
我们采用基于机器学习技术的不同基于监督分类的算法技术,在预先分类的垃圾邮件和非垃圾邮件的某些数据集上训练系统,并对比它们在测试数据集上的性能,以找到具有更好过滤能力的最佳技术。
我们的方法深入研究了不同风格的机器学习算法。
首先我们实现了基于超平面分类模型的感知器算法。
然后我们主动检查我们在
K
最近邻算法中实现的基于实例的学习模型的性能。
我们的最终方法基于概率模型,我们为此实现了朴素贝叶斯算法。
我们从基于原始文本的数据集生成特征向量。
对于每种学习技术,我们准备了一个训练集,其分类标签也提供给算法,并期望它在测试集上返回足够好的预测。
然后我们通过比较平均错误率、学习率和误报率来对比这些算法的性能。
结合计算资源限制的
2022-01-03 13:59:43
1.63MB
系统开源
1