简单好用的词云程序包。可以连接微信朋友圈,内置爬虫程序。
2022-06-12 18:40:38 5.62MB 爬虫词云
1
闲的没事学着用Python做了一个爬弹幕的,然后可以生成词云,做着玩。。。想要就拿走吧。。。好麻烦啊,为什么CSDN摘要必须大于五十字
2022-02-24 20:40:33 163KB B站弹幕 爬虫 词云 快速
1
使用python对51job的招聘信息进行爬虫,使用python对职位信息输出词云,词频统计图,使用jieba库进行分词,然后使用gensim的word2vec进行词向量训练,然后使用sklearn的k-means算法进行聚类。压缩包内有代码,数据,简单的小论文文档,代码来源于网络,论文自己写的,水平一般。代码在anaconda的spyder开发环境可以正常运行。
2022-02-19 21:55:10 2.02MB python爬虫 词云 词向量 K-means文本聚类
1
bilibili-barrage-analysis bilibili弹幕分析,包含爬虫、词云分析、词频分析、情感分析、构建衍生指标,可视化 主要依赖库 selenium pandas lxml json requests pyecharts jieba snownlp wordcloud 信息爬取   1.1 爬取bilibili某一个分区(可通过url定义)特定日期下按照视频热度降序排序的视频信息,包含:href、视频时长、名称、BV号、播放量、弹幕数、up主、up主id   1.2 通过BV号获取视频评论Cid,解析xml网页,简单获取各个视频的弹幕内容(注意:条数有限制,xml的弹幕条数不超过1000条)   1.3 通过up主id,获取up主在爬取时的粉丝数,此粉丝数可以精确到个位数   1.4 通过BV好获取视频评论Cid,获取详细的弹幕内容,包括:弹幕出现时间、弹幕模式、字号、
2021-09-20 19:37:22 26.06MB python selenium pandas wordcloud
1
爬虫爬取京东商品评价生成词云数据分析,学生课程作业要求做的,本人刚入门吧,小白,用的代码不是很完美,但比较好理解,适合初学者
2021-09-10 18:47:18 1KB 爬虫词云 京东评价
1
bilibili弹幕分析,包含爬虫、词云分析、词频分析、情感分析、构建衍生指标,可视化 **** **主要依赖库** > selenium > pandas > lxml > json > requests > pyecharts > jieba > snownlp > wordcloud **信息爬取**   1.1 爬取bilibili某一个分区(可通过url定义)特定日期下按照视频热度降序排序的视频信息,包含:href、视频时长、名称、BV号、播放量、弹幕数、up主、up主id   1.2 通过BV号获取视频评论Cid,解析xml网页,简单获取各个视频的弹幕内容(注意:条数有限制,xml的弹幕条数不超过1000条)   1.3 通过up主id,获取up主在爬取时的粉丝数,此粉丝数可以精确到个位数   1.4 通过BV好获取视频评论Cid,获取详细的弹幕内容,包括:弹幕出现时间、弹幕模式、字号、弹幕颜色、弹幕池、发送者加密id、弹幕id **数据分析--词云**   2.1 全区弹幕词云分析,可以通过自己编写剔除单字、去除停用词、调整分词模型进行优化   2.2 分频道弹幕词云分析 **数据分析--弹幕条数**   3.1 分析全区弹幕前十视频,使用pyecharts柱状图进行可视化   3.2 分析各频道平均/最高视频弹幕数 **数据分析--指标构建**   构建指标:互动指数:弹幕数 / 播放量 * 100               粉丝响应指数:up主粉丝数 / 播放量   4.1 全区互动指数最高前十视频   4.2 各频道最高/平均互动指数   4.3 全区粉丝响应指数最高前十视频   4.4 各频道最高/平均粉丝响应指数 **数据分析--情感分析**   5.1 分析全区所爬取的所有视频的所有弹幕的情感分布情况,获取总体情感指数印象   5.2 分析各个视频的情感分析,对每一条弹幕进行情感分析,输出弹幕的情感分析指数Excel表   5.3 分析各个频道的情感分析指数分布图
2021-06-22 19:18:59 25.68MB bilibili 词云分析 爬虫 词频分析
个人自主研制爬虫策略,成功绕过阿里云反爬机制,天猫、淘宝都不在话下!外增词云图绘制代码,带你爬虫、带你数据分析、带你飞!
2021-05-05 15:05:52 490KB Python Scrapy 词云 天猫评论区
1
Python练习项目目标编写Python微博爬虫数据来源微博列表请求分析应答报文分析获取微博正文微博正文文本提取获取多页微博反爬虫机制应对处理爬虫完整代码词云图生成成果展示 目标 用爬虫程序抓取目标用户人民日报的微博文本,通过分析词频,生成直观的词云图。 编写Python微博爬虫 注意:微博的接口可能会发生变化,所以请不要盲目照抄,建议按照下述流程独立分析。 数据来源 微博移动版网页(点此跳转) 内容简洁,便于分析,因此选用移动版网页作为爬取对象。 微博列表请求分析 打开目标用户的移动版微博主页:人民日报 注意:此处需要退出微博登录来保证请求内容的普适性。 F12打开开发者工具,这里使用的是谷
2021-02-18 10:06:24 218KB python python爬虫 爬虫
1
Python爬虫爬取校内论坛标题,爬取某板块一千多页的标题,并将其中关键词整理成自定义词云图
2019-12-21 21:22:09 3KB Python 爬虫 词云
1