该项目大致分为以下步骤:
使用 requests库 获取页面
使用 lxml库 和 XPath 解析页面
爬取电影海报图片
使用 pandas库 将电影的相关信息存储为csv文件
添加循环,保存所有图片以及相关信息
首先,我们构建一个框架来获取豆瓣电影的HTML页面:
import requests
# 获取HTML页面
def get_html(url):
headers = {'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/8
1