学习python实例,主要通过selenium动态爬取说说内容生成txt文件,再利用jieba和wordcloud生成词云图,感兴趣可以下载,里面有详细配置说明,代码也相应注释了
2022-07-03 21:46:21 17.47MB 动态爬取
1
文章目录一、需求二、分析三、Code准备工作main.pyspider.py 一、需求 使用任意代理 IP 进行如下操作 使用requests模块进行豆瓣电影的个人用户登录操作 使用requests模块访问个人用户的电影排行榜->分类排行榜->任意分类对应的子页面 爬取需求3对应页面的电影详情数据 爬取需求3对应页面中滚动条向下拉动2000像素后加载出所有电影详情数据,存储到本地json文件中或者相应数据库中 【备注】电影详情数据包括:海报url、电影名称、导演、编剧、主演,类型,语言,上映日期,片长,豆瓣评分 二、分析 使用任意代理 IP 进行如下操作 编写一个基本信息类,其中存储代理 IP
2022-04-02 02:42:00 269KB 动态 数据 豆瓣
1