豆瓣电影相关数据集有12W,用户的影评有40W,还有爬虫程序:两个csv和一个db数据库,爬了几天了,在此分享给大家,可以做推荐系统使用,希望可以帮助到大家
1
这是一份豆瓣电影评论分析,包含用户评论、不同国随着时间增长,电影流行趋势变化 为由用户电影评论构建tf-idf模型抽取的关键短语。由电影风格标签抽取的关联规则。通过kmeans算法聚类电影,样本通过one-hot编码为特征,然后再使用kmeans算法聚类
2022-04-11 14:10:33 145.23MB 数据分析 机器学习 python 关联规则
分析并写下爬取过程 1.打开豆瓣影评url=https://movie.douban.com/review/best/ 分析页面发现一页有十部电影,循环获取这十部电影的url 2.打开其中一部电影url发现其所有短评皆在此页面的一个子url中,获取此url 3.进入短评页面获取数据,并存储 代码步骤实现 我这里用的是定义一个类来实现首先声明__init__ class DouBanSpider(object): driver_path = r"C:\Downloads\driver\chromedriver.exe"#谷歌自动测试机器人的存储路径 def __init__(se
2022-04-08 21:34:27 120KB go god le
1
微信小程序-豆瓣电影2 说明: 实现热映,待映,搜索,口碑等功能,特色: 实现图片集水平滚动 实现图片上覆盖文字等内容 实现下拉加载 数据接口: https://api.getweapp.com/vendor/douban/subject https://api.getweapp.com/vendor/douban/in_theaters https://api.getweapp.com/vendor/douban/search https://api.getweapp.com/vendor/douban/top250 https://api.getweapp.com/vendor/douban/coming_soon 目录结构: comm — 存放项目数据接口等公共文件 component — 存放项目公共组件文件 pages — 存放项目页面文件 dist — 存放项目图片文件 开发环境: 微信web开发者工具 v0.11.112301 项目截图: https://www.getweapp.com/project?projectId=583ed5d6e8ff074c22
2022-04-04 14:25:37 125KB 微信小程序
1
文章目录一、需求二、分析三、Code准备工作main.pyspider.py 一、需求 使用任意代理 IP 进行如下操作 使用requests模块进行豆瓣电影的个人用户登录操作 使用requests模块访问个人用户的电影排行榜->分类排行榜->任意分类对应的子页面 爬取需求3对应页面的电影详情数据 爬取需求3对应页面中滚动条向下拉动2000像素后加载出所有电影详情数据,存储到本地json文件中或者相应数据库中 【备注】电影详情数据包括:海报url、电影名称、导演、编剧、主演,类型,语言,上映日期,片长,豆瓣评分 二、分析 使用任意代理 IP 进行如下操作 编写一个基本信息类,其中存储代理 IP
2022-04-02 02:42:00 269KB 动态 数据 豆瓣
1
抓取js动态数据的练手之作,项目抓取了豆瓣2019电影排行榜的相关电影信息,并将其改为json格式存储在了txt文档中。
1
微信小程序开发平台开发的豆瓣电影首页和详情页面,作为参考和学习使用。
2022-02-26 09:15:33 1.85MB 微信小程序 demo
1
内附1.程序 2.爬取豆瓣电影Top250数据csv文件
2022-02-08 22:03:33 6KB python 爬虫 开发语言 后端
1
Python3爬虫入门,爬取豆瓣电影Top250的排名、中文名称、豆瓣评分、时间、地区等内容,需要用到requests、bs4
2022-01-04 16:00:57 1KB Python 爬虫
1
Python大作业:网络爬虫,爬取豆瓣电影前100榜单
2022-01-03 13:04:34 2.91MB Python 爬虫
1