功能介绍
京东与1688项目两个项目具有极高的相似度,我首先写的京东爬虫,再写的1688爬虫,1688爬虫基于京东爬虫的构建思路,因此1688爬虫会比京东爬虫更深入,两者也会有一些重复的部分。
1、selenium反侦察。通过自动化工具,可以模拟正常人类的操作,但还是会有一些检测方式,可以检查到selenium之类的工具。这两个项目里配置了一个Chrome浏览器选项,开启了浏览器开发者模式,防止被爬网站通过js代码检查到自动化工具。可能还会有其他的反侦察方法,待我们继续深挖。
2、输入关键字查询,爬取显示页面所有商品。京东项目里面会爬取每个商品的商品名、店铺、价格、好评率。1688项目爬取分两部分,一个商品,一个店铺。商品里包括的信息:商品名、店铺地址、价格(以json字符串存入的数据库)、搜索关键字。店铺里包括的信息:店铺地址、店铺名、货描、响应、发货速度。
3、1688项目有店铺去重的功能。在搜索页面中,有许多店铺重复了,这里用redis的set保存了店铺的地址,如果店铺地址没有在set中,那就插入mysql数据库,反之则不插入。
4、1688项目异常处理。有些地方数据解析不到,解析不到就跳过当前的解析,进行下一次解析,不会出现程序运行停止的情况。
另外内含详细截图+详细部署视频,还对过程中可能出现的问题进行了汇总,对于正在学习这方面的你是一个很好的选择,希望对你有所帮助。
1