Scrapy 爬虫 + 数据清理 + 数据分析 + 构建情感分析模型 一、爬取豆瓣Top250的短评数据 movie_item movie_comment movie_people 二、数据清理与特征工程+统计分析 movie_item 总评分最高的前10部电影 最受欢迎的电影类别排名 最受欢迎的电影出品国家排名 最受欢迎的电影导演排名 最受欢迎的电影演员排名 最受欢迎的电影语言排名 根据电影时长的电影排名 根据电影投票数的电影排名 根据电影评价数的电影排名 根据电影提问数的电影排名 根据电影发布时间的规律 1~5星级投票的百分比 电影简介的情感分析 movie_comment 就肖申克的救赎这个电影而言 短评词云 用朴素贝叶斯完成中文文本分类器 用svc完成中文文本分类器 用facebook-fasttext有监督完成中文文本分类 用facebook-fasttext无监督学习 用cnn做中文文本分类 用rnn做中文文本分类 用gru来完成中文文本分类 全部影片的短评数据分析 movie_people 短评人常居地按照国家分布 中国短评人常居地按照省份分布 每个短评人的被关注数与好友数 中国短评人的被关注数和好友数的人均地域分布 根据点评人个人简介构建中文文本分类模型 三、movie_item + movie_comment + movie_people 三个数据集间的协同分析 通过短评来预测被评价电影是什么类型 小结
2021-07-08 15:02:44 73.43MB TOP250 豆瓣电影短评 Scrapy
中文文本情感分析案例 课程配套程序 该文件夹是本次课程配套的程序,打来即可使用 课后作业数据集 为大家课后作业的数据集,可以在该数据集上进行相关训练 test.tsv为测试数据集,测试模型准确度 train.tsv为训练集,用于模型训练 预处理程序 预处理程序文件夹是供大家研究预处理的程序,主要涉及到正则表达式知识点
2021-07-08 15:02:43 38.01MB 文本情感 数据集
基于谭松波老师的酒店评论数据集的中文文本情感分析,二分类问题 数据集标签有pos和neg,分别2000条txt文本 选择RNN、LSTM和Bi-LSTM作为模型,借助Keras搭建训练 主要工具包版本为TensorFlow 2.0.0、Keras 2.3.1和Python 3.6.2 在测试集上可稳定达到92%的准确率
最新的TensorFlow 中文数据集 基于 jieba 的中文处理工具 模型训练,模型保存,模型估计的完整实现
中文文本情感分析的研究进行了综述。将情感分类划分为信息抽取和情感识别两类任务, 并分别介绍了各自的研究进展; 总结了情感分析的应用现状, 最后提出了存在的问题及不足。
1
基于TensorFlow的中文文本情感分析完整项目,提供环境配置信息、保姆级注释,新手小白也可搭建。
2021-04-30 13:06:28 540.28MB NLP TensorFlow jieba
1
TOP250豆瓣电影短评:Scrapy 爬虫 数据清理/分析 构建中文文本情感分析模型
2021-04-21 07:08:22 73.43MB Python开发-Web爬虫
1