分析
使用CrawlSpider结合LinkExtractor和Rule爬取网页信息
LinkExtractor用于定义链接提取规则,一般使用allow参数即可
LinkExtractor(allow=(), # 使用正则定义提取规则
deny=(), # 排除规则
allow_domains=(), # 限定域名范围
deny_domains=(), # 排除域名范围
restrict_xpaths=(), # 使用xpath定义提取队则
tags=('a', 'area'),
attrs=('href',
1