jd-spider
爬取京东商品详情页信息:价格,主图,详情图,店铺信息等
反爬策略
通过多次实验发现,京东反爬策略大致如下:
同一IP,同时访问链接次数大于100以上,定义为爬虫,会重定向到京东首页;
爬虫策略
爬取的链接数量过大,采用分批次爬取,每次不超过100个链接数,可以自定义每个批次的数量,在上一个批次全部爬取完之后,进行下一批次的爬取
文本信息,轮播图片来源于相应sku的h5页面,无论提供的链接是pc端还是h5端的,最终都转化为h5链接(因为h5页面比较好爬)
详情图片默认来源于pc页面,若没有,则取对应的h5页面的图片链接
启动方式
默认只爬取页面文本信息,并导出excel
npm run jd
or
一键爬取文本信息和图片信息
npm run jdImg
需要的数据
默认配置下,只需要下载resource的template.xlsx,并替换需要爬取的url链接,然后执行命令
1