1. 需求分析
从重庆市政府采购网自动获取所有的采购公告信息,将其项目名称和采购物资通过可读的方式展示。
2. 实现过程
分析页面布局
第一次爬取到“假网址”
(1)首先,展示第一次爬取到的“假网址”。通过 xpath 匹配该 div。
(2)尝试采集当前页面的所有二级链接。
import requests
from lxml import etree
import json
def getpage(url, headers):
res = requests.get(url, headers=headers)
html = etree.HTML(res.text)
2021-06-22 13:51:49
973KB
异步
数据
爬虫
1