豆瓣电影相关数据集!!!本数据集采集于豆瓣电影,电影与演员数据收集于2019年8月上旬,影评数据(用户、评分、评论)收集于2019年9月初,共945万数据,其中包含14万部电影,7万演员,63万用户,416万条电影评分,442万条影评,是当前国内互联网公开的电影数据集中最全的一份
数据集共有5个文件: movies.csv、person.csv、users.csv、comments.csv、ratings.csv
豆瓣电影数据集作为中国电影爱好者的聚集地,为广大用户提供了丰富的电影资料、用户评论、评分等信息,对于研究电影市场、用户偏好、影评文化和电影产业等方面具有重要价值。本数据集精选于豆瓣电影,特别集中在2019年8月上旬的电影与演员信息和2019年9月初的用户评分与评论,总计包含了多达945万条数据。
在该数据集中,电影信息的详细程度之高,覆盖面之广,囊括了14万部电影,这意味着几乎所有在豆瓣电影网站上有记录的电影都包括在内。对于电影行业研究者而言,这是一个无价的资源,可用于分析电影的流行趋势、导演作品分析、类型电影分布等。此外,数据集中还有7万名演员的信息,这不仅对影迷了解演员作品有帮助,也为研究演员的事业轨迹和表演特点提供了数据支持。
而针对影评方面,本数据集收录了416万条电影评分和442万条影评,其数量之庞大,使得研究者能够通过对这些数据的深入分析,了解用户的评分偏好,挖掘电影与观众之间的互动模式,甚至能够对特定电影或导演的粉丝群体进行画像分析。这不仅有助于电影的市场营销策略制定,也能够为电影的学术研究提供丰富的实证材料。
数据集的结构设计为5个部分,分别对应不同的信息模块:
1. movies.csv:包含了电影的基本信息,如电影名称、导演、上映年份、类型、时长等。这一部分的数据对于分析电影的基本属性和市场表现至关重要。
2. person.csv:收录了演员和导演等电影工作者的详细信息,包括其参与的电影作品、个人简介等。这部分资料对研究个人在电影产业中的影响和作用提供了丰富的信息源。
3. users.csv:包含了用户的基本信息,尽管为了保护隐私,用户的具体身份信息可能被隐去,但用户的行为数据,如关注电影、参与讨论等,依然能够反映一定的用户行为特征。
4. comments.csv:包含了用户的影评内容,这些评论可以按照时间顺序、电影、用户等级等多种维度进行分析。通过文本分析方法,可以提取出用户的观点、情感倾向等,具有很高的研究价值。
5. ratings.csv:记录了用户的评分信息,包括评分的具体数值和评分的用户。这些数据可用于分析用户对电影的评价标准,对电影的受欢迎程度和口碑传播有较为直观的体现。
整体而言,这份数据集不仅数量庞大,而且内容丰富,覆盖了电影、演员、用户和影评等多方面的信息,为电影数据分析提供了宝贵的资料库。通过对这些数据进行分析,研究人员和行业从业者可以洞察电影市场的多样性和复杂性,为电影产业的发展提供数据支持和决策依据。
2025-03-29 15:40:10
197.09MB
数据集
1