上传者: 42127754
|
上传时间: 2021-09-20 19:37:22
|
文件大小: 26.06MB
|
文件类型: ZIP
bilibili-barrage-analysis
bilibili弹幕分析,包含爬虫、词云分析、词频分析、情感分析、构建衍生指标,可视化
主要依赖库
selenium
pandas
lxml
json
requests
pyecharts
jieba
snownlp
wordcloud
信息爬取
1.1 爬取bilibili某一个分区(可通过url定义)特定日期下按照视频热度降序排序的视频信息,包含:href、视频时长、名称、BV号、播放量、弹幕数、up主、up主id
1.2 通过BV号获取视频评论Cid,解析xml网页,简单获取各个视频的弹幕内容(注意:条数有限制,xml的弹幕条数不超过1000条)
1.3 通过up主id,获取up主在爬取时的粉丝数,此粉丝数可以精确到个位数
1.4 通过BV好获取视频评论Cid,获取详细的弹幕内容,包括:弹幕出现时间、弹幕模式、字号、