上传者: 38609453
|
上传时间: 2021-11-24 13:28:54
|
文件大小: 177KB
|
文件类型: -
分析
使用CrawlSpider结合LinkExtractor和Rule爬取网页信息
LinkExtractor用于定义链接提取规则,一般使用allow参数即可
LinkExtractor(allow=(), # 使用正则定义提取规则
deny=(), # 排除规则
allow_domains=(), # 限定域名范围
deny_domains=(), # 排除域名范围
restrict_xpaths=(), # 使用xpath定义提取队则
tags=('a', 'area'),
attrs=('href',