一、题目 从网络上下载一组数据(自行获取),选择一种可视化工具(Excel、Tableau、Matlab,Echarts等),设计一种可视化方案实现该数据的可视化,并做适当的数据分析(或挖掘)。 二、数据来源 ①、TMDB 5000 Movie Dataset:该数据来源于kaggle上的TMDB 5000 Movie Dataset数据集,收录了美国地区1916-2017年近5000部电影的数据,包含预算、导演、票房,电影评分等信息。 下载地址:https://www.kaggle.com/tmdb/tmdb-movie-metadata ②、豆瓣电影数据:该数据是我自己整理的,收录了豆瓣电影1922-2022年近550部电影的数据,包含评分人数、电影评分、票房,产地等信息。 三、说明 资源包含数据可视化技术大作业报告,相关的电影数据集:TMDB 5000 Movie Dataset和豆瓣电影数据。使用的可视化工具是:Tableau。
2023-12-03 12:02:34 5.63MB Tableau 数据可视化 豆瓣电影数据集
1
电影数据集数据可视化分析 电影数据集数据可视化分析 ⼀、数据描述 1.1、数据集描述 movies数据框包含45456⾏,有共10列,有adult,belongs_to_collection,budget,genres,homepage等24个,对应每个电影的的⼀些特 征。 type:类型 director:导演 country:国家 keyword:关键字 score:评分 belongs_to_collection:归属 popularity:声望 revenue:收⼊ vote_average:平均投票 vote_count:投票数 1.2、数据展⽰ 1.3、项⽬操作流程 1.4、导⼊数据 ⼆、问题提出 (1)不同国家电影产量是否存在差异?若有,电影产量最⼤的是哪个国家,占多少份额? (2)哪些国家制作的电影在平均⽔平上更倾向获得观众的⾼评分? (3)电影的类型构成是怎么样的?电影占⽐较⼤的是哪些类型的电影? (4)不同类型电影的评分分布情况,哪些类型的电影更倾向于获得观众好评? 三、数据清洗和预处理 处理完的表格: 四、各变量相关性数据分析与可视化 (1)、不同国家电影产量是否存在差异?若有,电影产量最⼤的是哪个国家,占多少份额?数据显⽰,电影的产地可能不⽌⼀个国家,对于多 产地的电影,对于其中任⼀产地国都不算⼀部严格意义上的电影,所以此项研究的范围仅限于单产地电影的分析。 (2)、哪些国家制作的电影在平均⽔平上更倾向获得观众的⾼评分? (3)、电影的类型构成是怎么样的?电影占⽐较⼤的是哪些类型的电影? 在所有电影中,戏剧电影、喜剧电影、恐怖电影⽐较受制⽚⼈青睐,三种类型的市场份额依次递减。 (4)、不同类型电影的评分分布情况,哪些类型的电影更倾向于获得观众好评? #先获取所有电影类型列表 genres_full_data=pd.Series(list_).value_counts().sort_values(ascending=False) genres_full_data_=pd.DataFrame({"genres":genres_full_data.index ,"num":genres_full_data}).sort_values(by=["genres"]).drop("") 历史⽚、记录⽚、战争⽚的电影类型更倾向于获得观众的好评,其中,对于历史类型的电影,从图形上来说它的箱形较扁,说明这种系列的 电影的得分较为集中,即历史⽚得⾼分得概率较⼤;⽽记录⽚电影的箱形较长,说明这种系列的电影相对于历史⽚⽽⾔,得分较为分散,存 在⾼分电影,也存在得分不怎么⾼的电影,它的中位线更靠近四分之三分位线,⾼分部分的得分⽐低分部分的得分集中⼀些. (5)、电影关键字-词云图 五、主要结论 (1)在电影制作数量上,美国以88%的⽐例排名第⼀; (2)按电影评分平均分:巴基斯坦>阿根廷>爱尔兰; (3)戏剧电影、喜剧电影、恐怖电影⽐较受制⽚⼈青睐; (4)历史⽚、记录⽚、战争⽚的电影类型更倾向于获得观众的好评; (5)演员出演数量上,Samuel L.Jackson主演的电影数量超过60部,排名第⼀; (6)电影制作数量上,Steven Spielberg以27部排名第⼀。 以上就是围绕着关于电影数据集的若⼲问题展开的数据可视化分析全过程,后⾯有其他的分析⽅向,再补充吧。
2023-01-30 17:35:20 87KB 文档资料
1
Wikipedia Movie Plots 数据集包含 34886 部世界各地的电影。每部电影包括发行年份、标题、电影的民族性、导演、主演、剧情介绍等。该数据集可被用于多类问题处理如预测电影种类类型和推荐相关电影等。
2022-07-13 16:05:31 29.54MB 数据集
关联规则挖掘在生活中有很多使用场景,不仅是商品的捆绑销售,甚至在挑选演员决策上,你也能通过关联规则挖掘看出来某个导演选择演员的倾向。 如何使用Apriori工具包 Apriori虽然是十大算法之一,不过在sklearn工具包中并没有它,也没有FP-Growth算法。这里教你个方法,来选择Python中可以使用的工具包,你可以通过https://pypi.org/ 搜索工具包。 img 这个网站提供的工具包都是Python语言的,你能找到8个Python语言的Apriori工具包,具体选择哪个呢?建议你使用第二个工具包,即efficient-apriori。后面我会讲到为什么推荐这个工具包。
2022-07-13 09:11:47 1.01MB 关联规则 电影
【字段】 电影名称、投票人数、类型、产地、上映时间、时长、年代、评分、首映地点 【用途】 该数据集非常适用了Python数据分析入门,是学习NumPy 、Pandas、Matplotlib的练手数据集
2022-06-26 19:09:06 2.92MB 数据分析 python 人工智能 数据挖掘
该项目是大三下学期的课程设计,使用的数据集来自知名数据网站 Kaggle 的 tmdb-movie-metadata 电影数据集,以Python为编程语言,使用大数据框架Spark对数据进行了预处理,然后分别从多个方面对数据进行了分类和分析,并对分析结果进行可视化。里面包含我的课程设计报告和完整的代码。希望对你们有帮助。
2022-06-24 19:07:37 3.43MB python big data spark
Hadoop电影数据集,包含字段说明
2022-06-17 18:04:51 28KB hadoop 豆瓣
聊天机器人 具有使用康奈尔电影数据集的Transformer Architecture的聊天机器人。 要使用经过训练的模型,请从发布页面下载模型权重。 将权重文件移动到models目录并运行chat.py
2022-06-14 17:54:01 1.89MB Python
1
电影可视化 电影数据集的 D3 可视化。 请参阅: : 以实时查看可视化。
2022-05-21 00:38:43 78KB JavaScript
1
豆瓣电影相关数据集有12W,用户的影评有40W,还有爬虫程序:两个csv和一个db数据库,爬了几天了,在此分享给大家,可以做推荐系统使用,希望可以帮助到大家
1