朴素贝叶斯(naive Bayes)是基于贝叶斯定理和条件独立假设的分类方法。该方法是生成方法,即通过数据学习输入/输出的联合概率分布,然后基于此模型,对于给定的输入x,求出后验概率最大的输出y。 1.模型 联合概率分布:P(X,Y) 先验概率(边缘概率)分布: 条件概率分布: 三者关系:条件概率分布=联合概率分布/先验概率。 条件概率分布有指数级数量参数,通过条件独立假设(用于分类的特征在类确定的条件下都是条件独立的),将朴素贝叶斯法变得简单,但会牺牲一定的分类准确率。 条件独立性假设得到: 2.策略 贝叶斯公式: 朴素贝叶斯法分类时,对给定的输入x,通过学习计算后验概率分布,将后验
2022-11-09 07:52:37 221KB 学习 朴素贝叶斯 朴素贝叶斯算法
1
1.对微博的高校舆情话题进行爬取并保存,内容包括用户名、发布时间、发布内容、点赞数、评论数、转发数。 2.对爬取的信息进行去重和预处理,去掉爬取到的内容相同的博文,并将博文内容中的话题、用户名过滤掉,以便进行词频统计。 3.对经过预处理的数据进行分词和词频统计,生成词云图。 4.先对五百多条数据进行人工标记作为训练集,再将所有数据都进行标记以便计算准确率,随后运行程序对所有数据进行贝叶斯情感倾向分析,根据分析结果和人工标记结果进行对比,计算准确率。 5.对实验方法进行分析和改进,或提出改进方案。 包含源码:爬虫+分词+数据预处理+词云+朴素贝叶斯情感倾向分析+可视化结果显示
2022-07-01 21:03:39 10.81MB 机器学习 情感倾向分析 高校舆情
本文基于朴素贝叶斯构建一个分类垃圾邮件的模型,研究对象是英文的垃圾邮件。 邮件内容保存在txt文件中,其中分为训练样本train和测试样本test。 在训练样本中正常邮件命名为:pos;垃圾邮件命名为:neg。 同时,可以将待分类的测试样本放入测试文件test中的对于pos,或者neg下,用来进行测试,如果是垃圾邮件则类别为0,反之类别为1。 在朴素贝叶斯法进行垃圾邮件的分类的思想中:有一个方法与一个假设:   贝叶斯定理:求解p(c|x)的问题变成了求解p(x|c)的问题   特征条件独立假设 :X的n个特征在某类确定的条件下都是条件独立的。 具体可以看:[监督学习] 朴素贝叶斯法. 在Gi
2022-05-16 16:30:45 61KB 分类 朴素贝叶斯 贝叶斯
1
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法[1]。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。
2022-03-15 08:50:06 1.05MB 机器学习 深度学习 人工智能 AI
1
【清华大学大数据 数据分析 统计学 系列课程】 全套清华大学数据分析 统计学 系列课程 01 第一章 统计学习方法概论 (共32页).pptx 全套清华大学数据分析 统计学 系列课程 02 第二章 感知机 (共28页).pptx 全套清华大学数据分析 统计学 系列课程 03 第三章 k 近邻法 (共20页).pptx 全套清华大学数据分析 统计学 系列课程 04 第四章 朴素贝叶斯法 (共17页).pptx 全套清华大学数据分析 统计学 系列课程 05 第五章 决策树-2016-ID3CART (共85页).pptx 全套清华大学数据分析 统计学 系列课程 06 第六章 Logistic回归 逻辑斯的回归与最大熵模型(共54页).pptx 全套清华大学数据分析 统计学 系列课程 07 第七章 支持向量机 (共95页).pptx 全套清华大学数据分析 统计学 系列课程 08 第八章 提升方法 (共58页).pptx 全套清华大学数据分析 统计学 系列课程 09 第九章 EM算法及其推广 (共46页).pptx 全套清华大学数据分析 统计学 系列课程 10 第十章 隐马尔科夫模型 (共50页).pptx 全套清华大学数据分析 统计学 系列课程 11 第十一章 条件随机场 (共60页).pptx 全套清华大学数据分析 统计学 系列课程 12 第十二章 统计学习方法总结.pptx
2021-10-04 18:07:23 870KB 大数据 统计学 统计模型 统计算法
这是一个运动检测,背景建模的程序,实现了多种方法,使用了opencv。 用源代码,以及编译好的可运行的程序。
1