上传者: 42112658
|
上传时间: 2022-03-06 16:28:56
|
文件大小: 3.26MB
|
文件类型: -
TMDB电影数据集分析
目录
关于该项目
数据集:选择了TMDB Kaggle数据集进行分析。 该数据集应有助于回答一些有关电影的有趣问题。 对于数据集中的每个电影(行),我们都有21个特征(列)来描述它; 例如预算,收入,用户评分和其他功能。 该项目是为Udacity Data Analyst纳米学位计划而构建的。
关键问题
电影预算与它们产生的收入之间有什么关系?
更高的预算会转化为更高的收入吗?
电影的预算与其受欢迎程度之间有什么关系?
电影的播放时间与平均投票之间有什么关系? 较长的电影收视率较低吗?
但是,在意识到缺少预算和收入数据之后,提出了一系列新问题。
缺少收入和预算的数据标记为0.0而不是NaN,并且在运行df.isnan()或df.info()时未在早期数据检查中显示。 运行df.describe()时,超过50%的数据为0.0,这引起了人们对缺失值的注意。