使用scrapy创建爬虫程序、使用BeautifulSoup爬取数据、爬取关联网页数据、使用管道存储数据
本项目涉及一个包含多个网页的图书网站,我们使用scrapy爬取各个网页的数据,实现了爬取图书网站数据的爬虫程序。
scrapy是一个优秀的分布式爬取框架,它规定了一系列的程序规则,例如,使用items.py定义数据的格式,使用pipelines.py实现数据的存储,使用spider.py实现数据的爬取,使用settings.py规定各个模块之间的联系,对复杂的爬虫程序进行模块化管理。我们只需按规则填写各个模块即可,各个模块的协调工作由scrapy自动完成。而且scrapy支持使用XPath与CSS方法查找网页数据。使用scrapy可以高效地爬取大多数网站的数据。
但是实际上有些网站的数据是使用JavaScript管理的,一般的scrapy并不能执行JavaScript程序,在后面的项目中将介绍能执行JavaScript程序的爬虫程序技术。
1