bilibili弹幕分析,包含爬虫、词云分析、词频分析、情感分析、构建衍生指标,可视化 **** **主要依赖库** > selenium > pandas > lxml > json > requests > pyecharts > jieba > snownlp > wordcloud **信息爬取**   1.1 爬取bilibili某一个分区(可通过url定义)特定日期下按照视频热度降序排序的视频信息,包含:href、视频时长、名称、BV号、播放量、弹幕数、up主、up主id   1.2 通过BV号获取视频评论Cid,解析xml网页,简单获取各个视频的弹幕内容(注意:条数有限制,xml的弹幕条数不超过1000条)   1.3 通过up主id,获取up主在爬取时的粉丝数,此粉丝数可以精确到个位数   1.4 通过BV好获取视频评论Cid,获取详细的弹幕内容,包括:弹幕出现时间、弹幕模式、字号、弹幕颜色、弹幕池、发送者加密id、弹幕id **数据分析--词云**   2.1 全区弹幕词云分析,可以通过自己编写剔除单字、去除停用词、调整分词模型进行优化   2.2 分频道弹幕词云分析 **数据分析--弹幕条数**   3.1 分析全区弹幕前十视频,使用pyecharts柱状图进行可视化   3.2 分析各频道平均/最高视频弹幕数 **数据分析--指标构建**   构建指标:互动指数:弹幕数 / 播放量 * 100               粉丝响应指数:up主粉丝数 / 播放量   4.1 全区互动指数最高前十视频   4.2 各频道最高/平均互动指数   4.3 全区粉丝响应指数最高前十视频   4.4 各频道最高/平均粉丝响应指数 **数据分析--情感分析**   5.1 分析全区所爬取的所有视频的所有弹幕的情感分布情况,获取总体情感指数印象   5.2 分析各个视频的情感分析,对每一条弹幕进行情感分析,输出弹幕的情感分析指数Excel表   5.3 分析各个频道的情感分析指数分布图
2021-06-22 19:18:59 25.68MB bilibili 词云分析 爬虫 词频分析
# emotionAnalysis 疫情背景下,基于情感词典和机器学习对新闻和微博评论的情感分析 # Data Science Basics in SWI, NJU, 2020-Fall > ## 计算社会学:基于NLP技术的新冠疫情下的社会心态研究 Cong Jin , YDJSIR, Sugar Xu‘s project of 2020 Data Science Basic Course in SWI, NJU. 此为发布开源的版本而不是开发环境中使用的版本。 ## 文件结构 ```bash │ LICENSE │ README.md ├─Analyze # 分析数据的过程中所使用的所有代码 ├─Data # 原始数据以及处理过后的所有数据 ├─Report # 报告相关源文件以及最终报告的成品 └─Spyder # 爬虫代码 ``` 文件结构经过事后整理,并不是工作时目录的状态,因而代码中所涉及的路径需要稍加修改后运行。 原始报告数据在评分后抹掉相关关键词后后放出。 > ### `Data`目录下文件结构 > > 该目录下共有6个文件夹,分别对应`stage0` - `stage6` > > ##### stage内文件目录结构 > > ```bash > │ COVkeywords-Stage-.json # 人工筛选后的疫情相关关键词 > │ COVkeywords-Stage.json # 未经筛选的疫情关键词 > │ keywords-Stage.json # 从荔枝新闻中获取的原始结果 > │ ratioByDate.png # 该阶段内每日疫情相关重点微博占比 > │ SaveTest.png # 疫情相关度分布拟合结果图1 > │ SaveTest_Fit.png # 疫情相关度分布拟合结果图2 > │ stageCOVWeibo.json # 该阶段内疫情相关重点微博(按时间先后排序) > │ stageCOVWeiboByImportance.json # 该阶段内疫情相关重点微博(按疫情相关度排序) > | SaveTest-热度.png # 各项热度指标占比 > │ stageInfo.json # 该阶段基础信息 > │ weiboPolar.png # 疫情相关重点微博情感极性图 > | weiboEmotion.png # 当前阶段的疫情相关微博情感倾向 > ├─YYYY-MM-DD- > ├─YYYY-MM-DD- > ├─YYYY-MM-DD- > ├─YYYY-MM-DD- > ... > └─YYYY-MM-DD- > ``` > > ##### 每个日期内文件目录结构 > > ```bash > YYYY-MM-DD > | jstvRAW.csv # 疫情相关关键词检索得到的荔枝新闻原始数据 > | keywords.json # 荔枝新闻正文提取出来的关键词及其乘以100以后的TextRank权值 > | wordcloud.html # 由荔枝新闻生成的词云图 > | blog-Scored.json # 每篇微博都有一个疫情相关度 > | blog-COV.json # 筛选后的新冠疫情相关微博 > | blogInfo.json # 当日博客相关基础信息 > | weiboEmotion.png # 基于心态词典的当日疫情相关微博重点评论情感分析生成的雷达图 > └─weiboEmotion.csv # 基于心态词典的当日疫情相关微博重点评论情感分析原始数据 > ``` ======= # emotionAnalysis 疫情背景下,基于情感词典和机器学习对新闻和微博评论的情感分析
2021-06-22 19:18:58 2.09MB 疫情 微博评论 情感分析 情感
基于深度学习的LSTM情感分析课程简介 NLP领域的热门应用,常用在舆情分析,文章分类,智能客服,情感分析等多个场景。情感分析作为自然语言处理的基础技术之一,常被用于电商评论、舆情监控、微博评论情感分析、话题监督等领域,因此深入学习情感分析技术,是作为自然语言处理从业者必备技能,本课程以案例驱动出发,结合多个项目实战案例,覆盖多种算法,如RNN,LSTM等
2021-06-22 18:06:00 606B 人工智能 深度学习 lstm 情感分析
1
本实验基于贝叶斯分类器对采集的微博数据进行情感分析,从中提取出不同的情感类别。
2021-06-22 17:50:15 205KB 情感分析
1
python_情感分析基于jieba库,测试python3可直接运行,只需要jieba库,io库和numpy库,这三个基础库,就可以完成python的情感分析
2021-06-21 20:07:43 258KB python_情感分析基于jie
1
情感分析
2021-06-19 09:53:47 7.32MB
1
LSTM情感分析python代码~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2021-06-19 08:58:30 101.3MB 深度学习
1
中文情感分析是自然语言处理的一个经典实验,这个实验通过一般通过各种训练好的数据集,对其中的数据进行预处理后采用各种网络模型进行学习和训练最终得到一个良好的loss和acuary之后,把模型保存下来,并输入一句话运行输出这句话的情感是正面还是负面的,最终输出的训练效果和使用的模型、数据集以及训练次数都有关系。
2021-06-12 11:11:09 107.75MB tensorflow2.0 深度学习 电影评论情感分析
1
基于tensorflow 实现的用textcnn方法做情感分析的项目,有数据,可以直接跑
2021-06-10 12:44:51 4.79MB Python开发-机器学习
1
《知网》情感分析常用词语集,(包括情感、评价、程度级别、主张词语)分正负面以及中英文
2021-06-09 14:02:02 278KB 情感分析 文本挖掘