一、数据分析项目介绍 1. 项目所需的模块库介绍 pandas用法: 需要导入以下模块 import numpy as np import pandas as pd from pandas import Series, Dataframe 2.项目背景介绍 互联网电影资料库(Internet Movie Database,简称IMDB)是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。电影作为艺术和娱乐载体已成为我们生活中的一部分,作为电影爱好者之一,希望通过分析了解电影市场大体情况,以便于以后选择电影观看。 使用的数据是IMDB美国票房排名前1000的电影数据,数据包含了电影名称,票房金额,上映年份,演职人员,IMDB评分,电影类型等信息,数据中的很多电影大家也比较熟悉。相信不少人都有这样的经历,当想要看一部电影的时候,会去百度一下谁是导演,谁是主演。如果导演是克里斯托弗•诺兰,心里已经给电影打了个8分以上的评分了。而阿汤哥的动作片,预期也都能肾上腺素飙升。对于已上映的电影,不少人会去豆瓣搜索现时的评分,或是前作的评价,若是豆瓣高分、高评论数,也会按奈不住去蹭下热度。如果要去电影院观看的话,想必不少人会更倾向选择动作片或者科幻大片这类特效丰富,影音冲击强烈的电影。近几年特效技术和3D动画的日渐成熟,影院观影已经是越来越多人的第一选择。 IMDB的资料中包括了影片的众多信息、演员、片长、内容介绍、分级、评论等。对于电影的评分目前使用最多的就是IMDB评分。 截至2018年6月21日,IMDB共收录了4,734,693部作品资料以及8,702,001名人物资料。 3.项目所需数据介绍 数据的属性包括:电影名称、评论数、评分、导演、上映时间、上映国家、主要演员、语言、IMDB评分等。 理解数据: color 、director_name 、num_critic_for_reviews、duration、director_facebook_likes 、actor_3_facebook_likes、actor_2_name 、actor_1_facebook_likes 、gross 、genres 、actor_1_name 、movie_title 、num_voted_users、cast_total_facebook_likes 、actor_3_name 、facenumber_in_poster 、plot_keywords 、movie_imdb_link 、num_user_for_reviews、language 、country、content_rating、budget、title_year 、actor_2_facebook_likes 、imdb_score 、aspect_ratio 、movie_facebook_likes 4.项目功能详细介绍 显示电影评分分布的情况; 电影数量与平均分年度变化的情况; 评论家评论数与评分的关系; 评分与电影票房的关系; 电影数量大于5前提下平均分前十的导演推荐的数据; 不同电影类型的年份累计分析; 电影时长的分布及时长是否和评分有相关性; 电影时长的分布及时长是否和评分有相关性。 二、数据分析过程 1.主要功能实现的类和方法介绍 # 清洗runtime电影时长列数据,可使用str.split()方法 df['runtime'] = df['runtime'].str.split('').str.get(0).astype(int) df['runtime'].head() # 清洗year列,使用str[:]选取年份数字并转换成int类型,使用df.unique()方法检查数据 df['year'] = df['year'].str[-5:-1].astype(int) df['year'].unique() 2. 数据分析过程代码和解释说明 导入包: 导入、查看、清洗数据: 评分分布图: 电影数量与平均分布年度变化: 评论家评论数&评分、评分&票房: 电影数量大于5平均分前十的导演: 统计不同年份、不同类型电影的数量: cumsum = df.groupby(['main_genre', 'year']).title.count() # 使用累加功能统计1980年起不同年份不同电影类型的累计数量,对于中间出现的缺失值,使用前值填充 genre_cumsum = cumsum.unstack(level=0).cumsum().ffill() # 只选取总数量大于
2020-01-03 11:19:37 459KB 数据分析
1
豆瓣电影数据,包含电影名称、评分、评价人数、短评数量、影评、数量类型、导演、编剧、主演、上映日期等等....
2019-12-21 22:26:37 36.02MB 豆瓣 电影
1
豆瓣电影数据集(截至2019年3月),共91369条。 包含[电影名称,评分,评价人数,各星级占比,短评数量,影评数量,类型,导演,编剧,主演,制片国家/地区,语言,上映日期,片长,网址,剧情简介]
2019-12-21 22:19:20 36.02MB 豆瓣电影 电影数据集合
1
在python3环境下借助Kaggle资源练习熟悉数据挖掘技能,属于实战部分,适合新手练习。更多博客请访问:https://blog.csdn.net/xudailong_blog
2019-12-21 22:05:48 647KB 数据挖掘 Kaggle 电影数据
1
Kaggle 5000部电影数据 数据挖掘 python 更多好文清访问:https://blog.csdn.net/xudailong_blog
2019-12-21 22:05:48 5.43MB Kaggle 电影数据 数据挖掘 python
1
豆瓣电影数据集12万+用户影评40万+爬虫程序(可做推荐系统) 。 豆瓣电影数据集12万+用户影评40万+爬虫程序(两个csv,一个db数据库) 最近在学习爬虫,辛辛苦苦爬了几天,分享给大家。。可以用来做推荐系统 觉得好的朋友帮忙评论下打个5星~ 数据集 豆瓣 爬虫。
2019-12-21 22:04:46 42.57MB 推荐系统 爬虫程序 数据集 智能推荐
1
TMDB电影数据分析,包括Kaggle上的原始数据集,以及代码,实现电影类型和票房,利润等的关系,对比两个公司的电影类型收入,拍摄集中年份,画出饼图,条形图,折线图,并进行关键词的提取,做出词云图。
2019-12-21 22:04:11 12.07MB kaggle movie
1
TMDB电影数据分析,包括Kaggle上的原始数据集,以及代码,实现电影类型和票房,利润等的关系,对比两个公司的电影类型收入,拍摄集中年份,画出饼图,条形图,折线图,并进行关键词的提取,做出词云图。
2019-12-21 22:04:10 6.03MB kaggle movie
1
用Python对TMDB电影数据进行分析,包括数据读取,数据清洗,数据分析
2019-12-21 21:54:51 1.09MB TMDB500 数据分析 Python
1
IMDB电影数据集含有50000个电影评论,分为正反两类。train包中包含25000个正反类评论用于训练,test中包含25000个评论用于测试。
2019-12-21 21:39:16 41.1MB IMDB数据集
1