使用RNN循环神经网络实现对爬取的京东评论信息进行情感分析 其中包括源代码、数据集、停用词等
2023-03-22 12:02:45 3.41MB 深度学习 NLP 循环神经网络 文本分类
1
某品牌手机的京东评论数据采集与分析(1).ipynb
2023-03-16 14:10:27 1.19MB
1
该代码不需要selenium,直接使用requests大规模爬取指定商品的评论,并保存到csv中,效率高。
2022-10-20 17:17:24 3KB 京东 评论 requests爬取
1
该代码不需要selenium,直接使用requests大规模爬取指定商品的评论,并保存到csv中,效率高,同时使用多线程进一步提高效率。
2022-02-16 02:16:35 3KB 京东 评论 多线程爬取
1
爬取某狗购物网站评论信息,不知道说出来会不会被封,还是大胆说出来吧,就是X东。本资源本着学习态度,如有冒犯,我也不知道了。 这次爬虫使用的是Python的爬虫框架Scrapy。 主要流程代码如下: # -*- coding: utf-8 -*- import scrapy from scrapy import Request import json import math import time import re class BraSpider(scrapy.Spider): name = 'bra' headers = { ":authority": "sclub.jd.com", ":method": "GET", ":scheme": "https", "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8", "accept-encoding": "gzip, deflate, br", "accept-language:": "zh-CN,zh;q=0.9,en;q=0.8", "cache-control": "max-age=0", "upgrade-insecure-requests": "1", "cookie":"t=8444fb486c0aa650928d929717a48022; _tb_token_=e66e31035631e; cookie2=104997325c258947c404278febd993f7", "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36", } base_url = "https://sclub.jd.com/comment/productPageComments.action?productId=17209509645&score=0&sortType=5&pageSize=10&page;=%d" def start_requests(self): for page in range(1,100): url = self.base_url%page print(url) self.headers[':path'] = url yield Request(url, self.parse,headers = self.headers) #time.sleep(2) def parse(self, response): content = json.loads(response.text) comments = content['comments'] for comment in comments: item = {} item['content'] = comment['content']#评论正文 item['guid'] = comment['guid']#用户id item['id'] = comment['id']#评论id item['time'] = comment['referenceTime']#评论时间 item['color'] = self.parse_kuohao(comment['productColor'])#商品颜色 item['size'] = self.parse_kuohao(comment['productSize'])#商品尺码 item['userClientShow'] = comment['userClientShow']#购物渠道 print(item) yield item #干掉括号 def parse_kuohao(self,text): new_text = text searchObj1 = re.search( r'(.+)', text, re.M|re.I) searchObj2 = re.search( r'\(.+\)', text, re.M|re.I) if searchObj1: text = searchObj1.group().strip() new_text = text.replace(text,'').strip() if searchObj2: text = searchObj2.group().strip() new_text = text.replace(text,'').strip() return new_text 还有视频讲解。特别适合新手
2022-01-09 11:07:10 161.14MB python scrapy 源码 爬虫
1
京东评论数据
2021-09-23 19:06:09 1.95MB NLP
1
smote的matlab代码 JD Comment_emotional analysis 京东评论文本挖掘(产品口碑分析) 一、文本挖掘方向及基本思路 文本挖掘方向: 用于分析京东用户对手机的观点、态度、情绪、立场以及其他主观感情的技术。 文本挖掘基本思路: 1、探索性分析:观测数据信息(含数据字段、数据缺失情况、样本分布情况等) 2、数据预处理:包括去除无效标签、编码转换、文档切分、基本纠错、去除空白、大小写统一、去标点符号、去停用词、保留特殊字符等。 3、文本分词及特征提取:jieba中文文本分词模型、文本特征转化未向量空间模型、海量稀疏特征做特征提取。 4、分类建模和效果评估:选择特定分类模型,建立模型并作效果评估和结论分析。 二、探索性分析 1、查看原始数据前4条数据情况 2、查看数据集记录数、维度、数据类型情况 数据集大小21*3637,时间字段为数值型需转化为日期型 3、文本评分分布情况 4、评论发布时间分布情况 5、评论长度与评分关系情况 三、文本预处理 1、中文分词:著名的nltk包对分词有良好的效果,劣势在于对中文不友好。对此选用jieba包进行处理。这里我们把文本通
2021-09-15 21:43:14 592KB 系统开源
1
京东评论爬虫,包含对数据的采集、清洗、可视化、分析等过程,作为数据库课程设计项目
2021-09-03 13:11:43 23.88MB 京东
随着电子商务、社交媒体等信息技术的快速发展,在线评论已经成为影响消费者购买决策和产品市场销量的重要信息资源。从制造企业的视角来看,在线产品评论作为一种新的口碑形式,包含了消费者对产品的全方面评价,有助于制造企业了解消费者的需求。相比较传统的调查问卷和访谈数据,在线产品评论具有数据量大,收集成本低等优势。此外,由于来自消费者的主动分享,而非被动问答,在线评论数据能够更真实地反映消费者的需求。在线评论数据形式主要包括文本、音频、图形等。尽管数据量大,更新速度快,数据种类繁多,但它的主要作用还是体现在其真实性和价值性上。为保证数据的真实性,数据质量的评估是一个重要问题。另外,随着在线评论数据规模的不断扩大,价值稀疏问题也变得越来越重要。通过消除不重要和不相关的数据,提供有用的和有价值的数据,可以帮助企业更好地了解消费者和把握消费市场。
2021-07-21 18:05:28 80B 文本分析 python
1
京东评论情感分析模型,主要包括1、数据获取及探索性分析;2、文本预处理、文本分词、文本向量化、特征提取、
2021-07-08 15:02:46 592KB 情感分析 京东评论