上传者: 38530846
|
上传时间: 2021-12-07 21:46:24
|
文件大小: 40KB
|
文件类型: -
【爬虫实践】用递归获取网站的所有内链和外链
环境:Windows7 +Python3.6+Pycharm2017
目标:从一个网站的顶层开始,爬取该网站所有内链和外链,便于绘制网站地图!
通常网站的深度有5层左右的网页,广度有10个网页,所有大部分网站的页面数量都在10的5次方,就是10万个以内,但是python递归默认限制是1000,这就需要用sys模块的设置突破1000的限制。为了运行控制方便,这里增加了计数器变量iii,可也根据自己需要取消计数器。由于代码不长,也比较简单,直接上代码了!
代码如下:
`.
#coding=utf-8
from urllib.parse import ur