大数据期末大作业 数据挖掘, 爬虫相关,朴素贝叶斯分类器python
简介: 运用爬虫技术以及朴素贝叶斯分类对抓取的新闻进行分类, 分析每种新闻在网站中的占比
已定义的新闻类别: 财经 科技 汽车 房产 体育 娱乐 其他
1. 环境以及依赖
python环境
python==3.9
依赖的第三方库:
jieba
parseurl
bs4
numpy
2. 使用模型
朴素贝叶斯分类器
实现:纯python实现
3. 数据来源
新闻共分7类,新闻信息在此采集: 1 财经 http://finance.qq.com/l/201108/scroll_17.htm 2 科技 http://tech.qq.com/l/201512/scroll_02.htm 3 汽车 http://auto.qq.com/l/201512/scrollnews_02_2.htm 4 房产 http://gd.qq.com/l/house/fcgdxw/more_7.htm 5 体育 http://sports.qq.com/l/201512/scrollnews_01_2.htm 6 娱乐 http
1