电影数据集数据可视化分析 电影数据集数据可视化分析 ⼀、数据描述 1.1、数据集描述 movies数据框包含45456⾏,有共10列,有adult,belongs_to_collection,budget,genres,homepage等24个,对应每个电影的的⼀些特 征。 type:类型 director:导演 country:国家 keyword:关键字 score:评分 belongs_to_collection:归属 popularity:声望 revenue:收⼊ vote_average:平均投票 vote_count:投票数 1.2、数据展⽰ 1.3、项⽬操作流程 1.4、导⼊数据 ⼆、问题提出 (1)不同国家电影产量是否存在差异?若有,电影产量最⼤的是哪个国家,占多少份额? (2)哪些国家制作的电影在平均⽔平上更倾向获得观众的⾼评分? (3)电影的类型构成是怎么样的?电影占⽐较⼤的是哪些类型的电影? (4)不同类型电影的评分分布情况,哪些类型的电影更倾向于获得观众好评? 三、数据清洗和预处理 处理完的表格: 四、各变量相关性数据分析与可视化 (1)、不同国家电影产量是否存在差异?若有,电影产量最⼤的是哪个国家,占多少份额?数据显⽰,电影的产地可能不⽌⼀个国家,对于多 产地的电影,对于其中任⼀产地国都不算⼀部严格意义上的电影,所以此项研究的范围仅限于单产地电影的分析。 (2)、哪些国家制作的电影在平均⽔平上更倾向获得观众的⾼评分? (3)、电影的类型构成是怎么样的?电影占⽐较⼤的是哪些类型的电影? 在所有电影中,戏剧电影、喜剧电影、恐怖电影⽐较受制⽚⼈青睐,三种类型的市场份额依次递减。 (4)、不同类型电影的评分分布情况,哪些类型的电影更倾向于获得观众好评? #先获取所有电影类型列表 genres_full_data=pd.Series(list_).value_counts().sort_values(ascending=False) genres_full_data_=pd.DataFrame({"genres":genres_full_data.index ,"num":genres_full_data}).sort_values(by=["genres"]).drop("") 历史⽚、记录⽚、战争⽚的电影类型更倾向于获得观众的好评,其中,对于历史类型的电影,从图形上来说它的箱形较扁,说明这种系列的 电影的得分较为集中,即历史⽚得⾼分得概率较⼤;⽽记录⽚电影的箱形较长,说明这种系列的电影相对于历史⽚⽽⾔,得分较为分散,存 在⾼分电影,也存在得分不怎么⾼的电影,它的中位线更靠近四分之三分位线,⾼分部分的得分⽐低分部分的得分集中⼀些. (5)、电影关键字-词云图 五、主要结论 (1)在电影制作数量上,美国以88%的⽐例排名第⼀; (2)按电影评分平均分:巴基斯坦>阿根廷>爱尔兰; (3)戏剧电影、喜剧电影、恐怖电影⽐较受制⽚⼈青睐; (4)历史⽚、记录⽚、战争⽚的电影类型更倾向于获得观众的好评; (5)演员出演数量上,Samuel L.Jackson主演的电影数量超过60部,排名第⼀; (6)电影制作数量上,Steven Spielberg以27部排名第⼀。 以上就是围绕着关于电影数据集的若⼲问题展开的数据可视化分析全过程,后⾯有其他的分析⽅向,再补充吧。
2023-01-30 17:35:20
87KB
文档资料
1