使用sklearn库实现朴素贝叶斯算法。使用词向量算法对文本数据进行处理。
资源内容包括:
1、完整的用于实现新闻分类任务的源码文件(ipynb格式)
2、哈工大停用词表
3、四川大学机器智能实验室停用词表
4、用于测试的新闻数据
贝叶斯定理由英国数学家贝叶斯(Thomas Bayes 1702-1761)发展
用来描述两个条件概率之间的关系
在B条件下A发生的概率: P(A∣B)=P(AB)/P(B)
在A条件下B发生的概率: P(B∣A)=P(AB)/P(A)
则:P(A∣B)P(B) = P(B∣A)P(A)
可导出:P(A∣B)=P(B∣A)P(A)/P(B) 或 P(A∣B) P(B) = P(B∣A)P(A)
贝叶斯公式: P(Y|X)=P(X|Y)P(Y) / P(X)
在机器学习中:
X:代表特征向量 Y:代表类别
P(X):先验概率,是指根据以往经验和分析得到的概率。
P(Y|X):后验概率,事情已经发生,这件事情发生的原因是由某个因素引起的可能性的大小
P(X|Y):条件概率,在已知某类别的特征空间中,出现特征值X的概率