Scrapy 爬虫 + 数据清理 + 数据分析 + 构建情感分析模型
一、爬取豆瓣Top250的短评数据
movie_item
movie_comment
movie_people
二、数据清理与特征工程+统计分析
movie_item
总评分最高的前10部电影
最受欢迎的电影类别排名
最受欢迎的电影出品国家排名
最受欢迎的电影导演排名
最受欢迎的电影演员排名
最受欢迎的电影语言排名
根据电影时长的电影排名
根据电影投票数的电影排名
根据电影评价数的电影排名
根据电影提问数的电影排名
根据电影发布时间的规律
1~5星级投票的百分比
电影简介的情感分析
movie_comment
就肖申克的救赎这个电影而言
短评词云
用朴素贝叶斯完成中文文本分类器
用svc完成中文文本分类器
用facebook-fasttext有监督完成中文文本分类
用facebook-fasttext无监督学习
用cnn做中文文本分类
用rnn做中文文本分类
用gru来完成中文文本分类
全部影片的短评数据分析
movie_people
短评人常居地按照国家分布
中国短评人常居地按照省份分布
每个短评人的被关注数与好友数
中国短评人的被关注数和好友数的人均地域分布
根据点评人个人简介构建中文文本分类模型
三、movie_item + movie_comment + movie_people
三个数据集间的协同分析
通过短评来预测被评价电影是什么类型
小结