matlab实现垃圾邮件分类代码垃圾邮件分类
该项目旨在将垃圾邮件和非垃圾邮件从
.
学习目标是熟悉MATLAB上的CVX工具箱,从头开始编码SVM优化问题。
需要在
MATLAB
上运行代码。
然而,工作可以分为三个步骤——
1.
Feature
Extraction
2.
Email
Classification
3.
Parameter
Tuning
下面简要说明这些步骤。
但是,请参阅详细说明。
1.特征提取
调用函数
该数据库包含
6,050
封电子邮件,垃圾邮件比率为
30%。
首先,使用
rename.m
代码将所有电子邮件重命名为
.txt
文件。
在所有文件都可以访问后,为每封电子邮件提取一个特征向量,而特征标签为
1
代表垃圾邮件,0
代表非垃圾邮件。
对于此任务,每封电子邮件都会调用
processEmail.m。
然后,它会按照问题描述中给出的规范化程序截取调用
porterStemmer.m
的电子邮件中的单词。
然后将每个词干词与
vocabList.txt
文件中的字典词进行比较。
字典里有1899个字。
初始特征向量是一列零。
如果字典中的单词出现在电子
2022-06-23 14:52:05
2.34MB
系统开源
1