上传者: 38656662
|
上传时间: 2022-06-09 15:57:06
|
文件大小: 44KB
|
文件类型: PDF
功能介绍:
网络爬虫(Web crawler),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以便程序做下一步的处理。
设计思路:
1、下载html页面。
2、解析当前html页面的url和图片url,将他们分别放在hrefUrl队列和imgUrl数组中。
3、下载当前imgUrl下的所有图片,并将他们存放在所对应url的文件夹下。
4、用广度遍历的方法,遍历网站所有的url。
爬虫框架设计分析:
class Cra