Python的爬虫框架Scrapy实例。抓取京东评论代码和视频

上传者: lin6791022 | 上传时间: 2022-01-09 11:07:10 | 文件大小: 161.14MB | 文件类型: -
爬取某狗购物网站评论信息,不知道说出来会不会被封,还是大胆说出来吧,就是X东。本资源本着学习态度,如有冒犯,我也不知道了。 这次爬虫使用的是Python的爬虫框架Scrapy。 主要流程代码如下: # -*- coding: utf-8 -*- import scrapy from scrapy import Request import json import math import time import re class BraSpider(scrapy.Spider): name = 'bra' headers = { ":authority": "sclub.jd.com", ":method": "GET", ":scheme": "https", "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8", "accept-encoding": "gzip, deflate, br", "accept-language:": "zh-CN,zh;q=0.9,en;q=0.8", "cache-control": "max-age=0", "upgrade-insecure-requests": "1", "cookie":"t=8444fb486c0aa650928d929717a48022; _tb_token_=e66e31035631e; cookie2=104997325c258947c404278febd993f7", "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36", } base_url = "https://sclub.jd.com/comment/productPageComments.action?productId=17209509645&score=0&sortType=5&pageSize=10&page;=%d" def start_requests(self): for page in range(1,100): url = self.base_url%page print(url) self.headers[':path'] = url yield Request(url, self.parse,headers = self.headers) #time.sleep(2) def parse(self, response): content = json.loads(response.text) comments = content['comments'] for comment in comments: item = {} item['content'] = comment['content']#评论正文 item['guid'] = comment['guid']#用户id item['id'] = comment['id']#评论id item['time'] = comment['referenceTime']#评论时间 item['color'] = self.parse_kuohao(comment['productColor'])#商品颜色 item['size'] = self.parse_kuohao(comment['productSize'])#商品尺码 item['userClientShow'] = comment['userClientShow']#购物渠道 print(item) yield item #干掉括号 def parse_kuohao(self,text): new_text = text searchObj1 = re.search( r'(.+)', text, re.M|re.I) searchObj2 = re.search( r'\(.+\)', text, re.M|re.I) if searchObj1: text = searchObj1.group().strip() new_text = text.replace(text,'').strip() if searchObj2: text = searchObj2.group().strip() new_text = text.replace(text,'').strip() return new_text 还有视频讲解。特别适合新手

文件下载

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明