免责声明 此抓取工具作为公共服务提供,因为 Glasdoor 没有用于评论的 API。 Glassdoor TOS 禁止抓取,我不保证如果您使用此程序,您的帐户将不会被禁止。 此外,如果 Glassdoor 联系我要求删除此存储库,我会立即这样做。 介绍 您是否曾经想从 Glassdoor 上抓取评论,但又为该网站缺乏用于评论的公共 API 感到遗憾? 不用担心! 该脚本将浏览一页又一页的评论,并将评论数据抓取到一个整洁的 CSV 文件中。 将其传递给公司页面,并设置刮刮最方便的25条评论的限制,或控制诸如刮擦的评论数和最大/最小评论发布日期之类的控制选项。 每条评论大约需要 1.5 秒才能抓取。 因此,抓取 1,000 条评论大约需要 25 分钟,或者抓取 10,000 条评论需要 4 多小时。 这个脚本需要耐心。 :beaming_face_with_smiling_eyes: 安装 首先,确保您使用的是 Python 3。 克隆或下载此存
2021-06-22 21:45:48 8KB Python
1
爬取股吧评论的scrapy框架爬虫,20分钟10万评论,可供做毕业设计使用,下载即可运行
2021-06-22 19:19:29 9KB scrapy python
京东商品和评论爬虫requests(代码可用)
2021-06-22 19:19:18 7KB 京东 评论
# emotionAnalysis 疫情背景下,基于情感词典和机器学习对新闻和微博评论的情感分析 # Data Science Basics in SWI, NJU, 2020-Fall > ## 计算社会学:基于NLP技术的新冠疫情下的社会心态研究 Cong Jin , YDJSIR, Sugar Xu‘s project of 2020 Data Science Basic Course in SWI, NJU. 此为发布开源的版本而不是开发环境中使用的版本。 ## 文件结构 ```bash │ LICENSE │ README.md ├─Analyze # 分析数据的过程中所使用的所有代码 ├─Data # 原始数据以及处理过后的所有数据 ├─Report # 报告相关源文件以及最终报告的成品 └─Spyder # 爬虫代码 ``` 文件结构经过事后整理,并不是工作时目录的状态,因而代码中所涉及的路径需要稍加修改后运行。 原始报告数据在评分后抹掉相关关键词后后放出。 > ### `Data`目录下文件结构 > > 该目录下共有6个文件夹,分别对应`stage0` - `stage6` > > ##### stage内文件目录结构 > > ```bash > │ COVkeywords-Stage-.json # 人工筛选后的疫情相关关键词 > │ COVkeywords-Stage.json # 未经筛选的疫情关键词 > │ keywords-Stage.json # 从荔枝新闻中获取的原始结果 > │ ratioByDate.png # 该阶段内每日疫情相关重点微博占比 > │ SaveTest.png # 疫情相关度分布拟合结果图1 > │ SaveTest_Fit.png # 疫情相关度分布拟合结果图2 > │ stageCOVWeibo.json # 该阶段内疫情相关重点微博(按时间先后排序) > │ stageCOVWeiboByImportance.json # 该阶段内疫情相关重点微博(按疫情相关度排序) > | SaveTest-热度.png # 各项热度指标占比 > │ stageInfo.json # 该阶段基础信息 > │ weiboPolar.png # 疫情相关重点微博情感极性图 > | weiboEmotion.png # 当前阶段的疫情相关微博情感倾向 > ├─YYYY-MM-DD- > ├─YYYY-MM-DD- > ├─YYYY-MM-DD- > ├─YYYY-MM-DD- > ... > └─YYYY-MM-DD- > ``` > > ##### 每个日期内文件目录结构 > > ```bash > YYYY-MM-DD > | jstvRAW.csv # 疫情相关关键词检索得到的荔枝新闻原始数据 > | keywords.json # 荔枝新闻正文提取出来的关键词及其乘以100以后的TextRank权值 > | wordcloud.html # 由荔枝新闻生成的词云图 > | blog-Scored.json # 每篇微博都有一个疫情相关度 > | blog-COV.json # 筛选后的新冠疫情相关微博 > | blogInfo.json # 当日博客相关基础信息 > | weiboEmotion.png # 基于心态词典的当日疫情相关微博重点评论情感分析生成的雷达图 > └─weiboEmotion.csv # 基于心态词典的当日疫情相关微博重点评论情感分析原始数据 > ``` ======= # emotionAnalysis 疫情背景下,基于情感词典和机器学习对新闻和微博评论的情感分析
2021-06-22 19:18:58 2.09MB 疫情 微博评论 情感分析 情感
#### **proj**使用celery分布式爬虫 #### qqmusic.py同步爬虫
2021-06-22 15:04:19 7KB QQ音乐评论 爬虫
最近沉迷学习无法自拔,太久没有码字,码一个小程序留言功能实现。先上一波最后效果图: (删除按钮,是用户自己的留言时才会显示该按钮) 实现技术 后台:SSM框架 数据库:MySQL数据库 数据库设计 评论功能的实现主要涉及三个表 comment:存储留言评论信息,表结构如下: 表中,必须的字段:id,user_id,reply_comment_id,comment,insert_time,source_id 添加了冗余字段username,reply_user_name,userphoto 主要用于存储微信名、回复的微信名、微信头像(这三个字段完全不应该冗余,当小程序用户更换用户名时,
2021-06-21 13:10:52 142KB border font line-height
1
有关于汽车评论的数据集,具体代码实现与数据处理操作参见我的博文https://blog.csdn.net/Wenweno0o/article/details/90522739
1
利用Python爬取了一下赵丽颖的微博内容以及相关评论,并词云图展示。
2021-06-18 15:10:46 6KB python 爬虫 微博
1
【短视频点赞系统】支持所有主流短视频点赞关注评论系统源码[可直接封装APP].rar
2021-06-17 09:01:54 99.98MB 源码
抓取网易云音乐上所有歌曲的评论数量,并整理数据打造一个前端展示页面
2021-06-15 22:17:58 1.13MB Node.js开发-HTTP工具
1