机器学习数据资源可用于朴素贝叶斯垃圾邮件过滤器中的一些训练文本数据集。使用朴素贝叶斯解决一些现实生活的问题时,需要先从文本内容得到字符串列表,然后生成词向量。其中朴素贝叶斯的一个最著名的应用:电子邮件垃圾过滤。
1
建筑装饰行业专题研究:爆款手游《家国梦》里蕴含的朴素建筑哲理【天风建筑国庆特辑】.pdf
2021-07-09 09:06:11 2.74MB 工程建设 行业数据 数据分析 行业报告
实验要求 文本类别数:>=10类。 训练集文档数:>=500000篇;每类平均50000篇。 测试机文档数:>=500000篇;每类平均50000篇。 实验内容 利用朴素贝叶斯算法实现对文本的数据挖掘,主要包括: 语料库的构建,主要包括利用爬虫收集Web文档等。 语料库的数据预处理,包括文档建模,如去噪,分词,建立数据字典。 自行实现朴素贝叶斯,训练文本分类器。 对测试集的文本进行分类 对测试集的分类结果利用正确率和召回率进行分析评价。
2021-07-08 15:02:40 94.13MB 朴素贝叶斯 文本数据
基于朴素贝叶斯分类的研究,c++语言源代码,
2021-07-08 11:06:32 1KB 贝叶斯分类
1
基于餐饮评论数据的情感分析(主要涉及到短文分类,分别使用朴素贝叶斯、支持向量机、Xgboost 进行情感值的二分类) 本文主要通过情感分析来挖掘评论中有价值的信息。 获取所研究数据,即大众点评餐饮评论数据,通过分词去除停用词、词性标注等操作进行数据预处理,然后通过机器学习的方法来分析餐饮评论的情感极性,来进一步挖掘评论中有价值的信息。 使用python的结巴分词工具对中文文本进行分词。可用TF-IDF、词袋方法提取文本数据的特征。然后使用机器学习的方法进行文本分类,可以运用朴素贝叶斯(NB)、支持向量机(SVM)、随机森林等算法。查询了资料,考虑了速度、容错性、变量筛选能力、共性容忍度等因素,初步设想选用SVM算法。 ===》SVM算法优于NB 优于随机森林
2021-07-02 20:02:33 10.92MB 情感分析
博客https://blog.csdn.net/colourful_sky/article/details/72793254中的代码,Nbayes_lib.py,以及Nbayes.py
2021-07-02 12:29:08 2KB 文本分类
1
使用python进行朴素贝叶斯的数据分析,使用TF-IDF方法整理数据
2021-07-02 11:02:43 13.27MB python TF-IDF
1
针对传统朴素贝叶斯算法对高维复杂的入侵行为检测效率低下的状况,提出一种基于粒子群的加权朴素贝叶斯入侵检测模型。模型首先用粗糙集理论对样本属性特征集进行约简,再利用改进的粒子群算法优化加权朴素贝叶斯算法的属性权值,获得属性权值的最优解,用获得的最优解构造贝叶斯分类器完成检测。其中,改进的粒子群是采用权衡因子方法更新其速度和位置公式,避免产生局部最优。两种算法的结合,既能解决传统朴素贝叶斯算法的特征项冗余问题,同时也可以优化特征项间的强独立性问题。通过实验证实了该模型的实效性,提高了检测率。
2021-06-30 16:39:37 598KB 论文研究
1
这是改进的朴素贝叶斯算法的垃圾邮件过滤算法,论文,希望对你的学习有帮助。
2021-06-25 20:23:57 381KB 贝叶斯算法 垃圾邮件
1