内容 本数据集采集于豆瓣电影,电影与演员数据收集于2019年8月上旬,影评数据(用户、评分、评论)收集于2019年9月初,共945万数据,其中包含14万部电影,7万演员,63万用户,416万条电影评分,442万条影评,是当前国内互联网公开的电影数据集中最全的一份。 数据集共有5个文件: movies.csv、person.csv、users.csv、comments.csv、ratings.csv。 数字字段介绍,见文件。 豆瓣影评数据信息-数据集是一个详细记录了豆瓣电影用户评论、评分及相关电影和演员信息的数据集合。该数据集覆盖了2019年8月和9月的数据,其中电影和演员数据于2019年8月上旬采集,而影评数据(包括用户信息、评分和评论内容)则在2019年9月初收集,共计包含945万条数据。这个数据集不仅庞大,而且内容全面,被认为是当前国内互联网上公开的最全面的电影数据集之一。 数据集的构成分为五个主要的CSV文件,分别是movies.csv、person.csv、users.csv、comments.csv和ratings.csv。这些文件分别记录了不同的信息: 1. movies.csv:此文件包含了电影的相关信息,例如电影名称、类型、上映年份等,以及电影与演员之间的关联信息。 2. person.csv:此文件记录了演员的基本信息,包括演员姓名、性别、出生日期以及演员与电影的参与关系。 3. users.csv:此文件包含了用户的基本信息,如用户的ID、昵称、注册时间和地理位置等信息。 4. comments.csv:此文件详细记录了用户的评论内容,每个评论包含了评论者ID、电影ID、评论文本、评论时间和评分等数据。 5. ratings.csv:此文件存储了用户对电影的评分数据,包括用户ID、电影ID以及用户给出的具体评分。 这些数据文件为研究者提供了丰富的信息,使得可以从多个角度分析和研究电影产业,包括用户喜好、电影评价趋势、演员影响力分析等。通过对这些数据进行统计分析和挖掘,可以得到关于电影市场的宝贵洞察,例如哪些演员或电影更受欢迎、观众对不同类型电影的偏好、用户的评分习惯等。此外,由于数据集覆盖时间跨度上的限制,研究者还可以分析特定时期内电影市场的变化趋势,例如节假日或特殊事件对电影票房和评论的影响。 该数据集对电影产业的从业者、研究人员以及数据分析师来说,是一个极其宝贵的资源。他们可以利用这些数据来优化电影的营销策略、改进电影内容、预测电影市场趋势,甚至进行更深入的影视文化研究。同时,对于开发推荐系统和情感分析算法的工程师来说,这个数据集同样是一个很好的实践平台,能够帮助他们训练和评估他们的模型。 不过,由于数据集包含大量的个人信息和用户评论,使用该数据集时需要遵守相关法律法规,并尊重用户隐私。研究人员在处理和发布分析结果时,应当确保不会泄露个人身份信息,避免给用户造成不必要的麻烦和风险。 豆瓣影评数据信息-数据集是研究电影产业和用户行为的强大工具,它为多方面的分析和研究提供了可能,同时也提出了对数据隐私和安全的重视。随着数据分析技术的发展和应用,这类数据集在市场研究、用户行为分析和人工智能领域都将发挥重要的作用。
2025-09-17 13:20:24 295.75MB 数据集
1
本数据集包含了大约1.3w条豆瓣短评,长评,微博,猫眼相关数据集的汇总,可用作电影情感分析,预测等任务,包含情感分类标签,(请注意:数据集中并非全部标签都为真实标签,由于一些评论缺失情感分类,因此使用了深度学习方式填充了标签,因此此数据集无缺失值。 属性说明: Comment:评论内容 Sentiment:情感分类,1-5,分别代表最差到最好 Datetime:评论发出时间 Location:评论发出地点 具体数据集样例: --------------------------------------------------------------------------------------------------------------------- Comment Sentiment Datetime Location 电影好好看,下次最来看一次,哪吒的语言太好听了。 2 2025/4/18 23:03 成都 好看,喜欢,非常喜欢 2 2025/4/18 23:02 崇州 ---------------------------------------------------------------------------------------------------------------------
2025-06-16 16:56:18 3.15MB 情感分类 数据集 深度学习
1
背景是因为找到的按钮在TV端用遥控器操作会有丢失焦点的问题,用代码控制又太麻烦,另外TV端按钮的监听遥控器按下和弹起事件好像不好使,因此才又造了一个轮子。 完美兼容移动端和TV遥控器,自行设置焦点移动位置避免丢失焦点,同时兼容触摸和遥控器按键的按下和弹起事件。
2024-08-27 17:50:23 7KB E4A类库
1
是大数据课程大作业,基于Hadoop的电影影评数据分析,需要安装Hadoop,了解MapReduce 和HDFS。
2024-04-22 15:09:31 1.49MB hadoop 数据分析
1
包含java代码,处理的数据文件。希望能帮助到学习大数据hive的同学!
2024-03-21 17:04:51 5.66MB hive  代码 数据文件 离线处理
1
1.2提出问题为了获取、分析消费者喜好相关信息,本项目将通过Python网络爬虫获取主流电影评分网站豆瓣上关于《复仇者联盟4》评论用户的基本信息、影评内容等数据
2023-09-12 19:54:54 593KB
1
对下载的IMDB数据集中的test和train分别进行预处理从而方便后续模型训练,代码为PreProcess.py。预处理主要包括:大小写转化、特殊字符处理、stopwords过滤、分词,最后将处理后的数据存储为CSV格式,以方便后续调试。借用了nltk的 stopwords 集,用来将像 i, you, is 之类的对分类效果基本没影响但出现频率比较高的词,从训练集中清除。
2023-03-01 16:29:27 1KB pytorch RNN lstm 情感分类
1
贝叶斯分类器构建网络,对豆瓣进行情感分析;TF-IDF
2023-02-19 09:51:40 5.69MB 贝叶斯分类 情感分析
1
对追龙2前15页短评词频分析(截止6.9) out.csv
2023-01-12 15:59:45 3KB 数据集
1
用户管理 1.登录注册(这个你们决定是怎么登录怎么注册) 2.管理用户信息(修改用户信息,注销用户) 影评管理 1.发布影评 发布影评的时候可以选择上传图片,可以选择定时发布 一个影评要有 点赞 评论的功能 显示时间……
2023-01-06 10:41:11 65.27MB java vue idea redis
1