垃圾邮件分类项目
理想情况下,模型的估计性能可以告诉我们它在看不见的数据上的表现如何。 对未来数据进行预测通常是我们要解决的主要问题。 选择度量标准之前了解上下文非常重要,因为每种机器学习模型都会尝试使用不同的数据集来解决具有不同目标的问题。 Logistic回归没有改变,因为它的参数已经是最好的了。 即使SVC取得了很大的进步,但它的速度仍然很慢,但仍然不是最好的。 朴素贝叶斯(Naive Bayes)成功预测了4945个实际垃圾邮件中的4894个。 但是,Logistic回归和朴素贝叶斯彼此接近,不准确的足球我还是选择NaïveBayes模型作为数据集的最佳垃圾邮件分类器,因为朴素贝叶斯比Logistic回归要快。 与更复杂的方法相比,朴素贝叶斯学习者和分类器可以快速得到实现。 类条件特征分布的解耦意味着可以将每个分布独立地估计为一维分布。 反过来,这有助于减轻因维数的诅咒而产生的问题
1