分析并写下爬取过程 1.打开豆瓣影评url=https://movie.douban.com/review/best/ 分析页面发现一页有十部电影,循环获取这十部电影的url 2.打开其中一部电影url发现其所有短评皆在此页面的一个子url中,获取此url 3.进入短评页面获取数据,并存储 代码步骤实现 我这里用的是定义一个类来实现首先声明__init__ class DouBanSpider(object): driver_path = r"C:\Downloads\driver\chromedriver.exe"#谷歌自动测试机器人的存储路径 def __init__(se
2022-04-08 21:34:27 120KB go god le
1
Scrapy 爬虫 + 数据清理 + 数据分析 + 构建情感分析模型 一、爬取豆瓣Top250的短评数据 movie_item movie_comment movie_people 二、数据清理与特征工程+统计分析 movie_item 总评分最高的前10部电影 最受欢迎的电影类别排名 最受欢迎的电影出品国家排名 最受欢迎的电影导演排名 最受欢迎的电影演员排名 最受欢迎的电影语言排名 根据电影时长的电影排名 根据电影投票数的电影排名 根据电影评价数的电影排名 根据电影提问数的电影排名 根据电影发布时间的规律 1~5星级投票的百分比 电影简介的情感分析 movie_comment 就肖申克的救赎这个电影而言 短评词云 用朴素贝叶斯完成中文文本分类器 用svc完成中文文本分类器 用facebook-fasttext有监督完成中文文本分类 用facebook-fasttext无监督学习 用cnn做中文文本分类 用rnn做中文文本分类 用gru来完成中文文本分类 全部影片的短评数据分析 movie_people 短评人常居地按照国家分布 中国短评人常居地按照省份分布 每个短评人的被关注数与好友数 中国短评人的被关注数和好友数的人均地域分布 根据点评人个人简介构建中文文本分类模型 三、movie_item + movie_comment + movie_people 三个数据集间的协同分析 通过短评来预测被评价电影是什么类型 小结
2021-07-08 15:02:44 73.43MB TOP250 豆瓣电影短评 Scrapy
爬取豆瓣电影短评并制作词云
2021-06-23 19:07:35 8.41MB 词云 豆瓣电影
1
TOP250豆瓣电影短评:Scrapy 爬虫 数据清理/分析 构建中文文本情感分析模型
2021-04-21 07:08:22 73.43MB Python开发-Web爬虫
1
数据存储使用的是SQlite数据库。使用起来应该比较方便。要浏览的话下个可视化软件就行,我用的是SQLiteStudio。 自己爬的豆瓣电影短评。目前豆瓣似乎对一部电影下能够显示的短评数量做了限制,不登录的话只能爬取少量的短评。 每条短评都有1~5星的用户评分。因为爬取是为了做情感分析,所以我只爬了1~2星和4~5星的评论。总计1~2星评论177714条,4~5星评论224229条。每条评论都注明了所属的电影ID,评论者,评分和评论时间。
2019-12-21 21:32:30 74.82MB 豆瓣电影 短评 情感分析
1
爬虫获取的豆瓣电影短评,仅包含电影名,用户名,日期,评分,短评内容
2019-12-21 19:22:13 16.57MB 豆瓣电影 短评 情感分析 数据集
1