内容 本数据集采集于豆瓣电影,电影与演员数据收集于2019年8月上旬,影评数据(用户、评分、评论)收集于2019年9月初,共945万数据,其中包含14万部电影,7万演员,63万用户,416万条电影评分,442万条影评,是当前国内互联网公开的电影数据集中最全的一份。 数据集共有5个文件: movies.csv、person.csv、users.csv、comments.csv、ratings.csv。 数字字段介绍,见文件。 豆瓣影评数据信息-数据集是一个详细记录了豆瓣电影用户评论、评分及相关电影和演员信息的数据集合。该数据集覆盖了2019年8月和9月的数据,其中电影和演员数据于2019年8月上旬采集,而影评数据(包括用户信息、评分和评论内容)则在2019年9月初收集,共计包含945万条数据。这个数据集不仅庞大,而且内容全面,被认为是当前国内互联网上公开的最全面的电影数据集之一。 数据集的构成分为五个主要的CSV文件,分别是movies.csv、person.csv、users.csv、comments.csv和ratings.csv。这些文件分别记录了不同的信息: 1. movies.csv:此文件包含了电影的相关信息,例如电影名称、类型、上映年份等,以及电影与演员之间的关联信息。 2. person.csv:此文件记录了演员的基本信息,包括演员姓名、性别、出生日期以及演员与电影的参与关系。 3. users.csv:此文件包含了用户的基本信息,如用户的ID、昵称、注册时间和地理位置等信息。 4. comments.csv:此文件详细记录了用户的评论内容,每个评论包含了评论者ID、电影ID、评论文本、评论时间和评分等数据。 5. ratings.csv:此文件存储了用户对电影的评分数据,包括用户ID、电影ID以及用户给出的具体评分。 这些数据文件为研究者提供了丰富的信息,使得可以从多个角度分析和研究电影产业,包括用户喜好、电影评价趋势、演员影响力分析等。通过对这些数据进行统计分析和挖掘,可以得到关于电影市场的宝贵洞察,例如哪些演员或电影更受欢迎、观众对不同类型电影的偏好、用户的评分习惯等。此外,由于数据集覆盖时间跨度上的限制,研究者还可以分析特定时期内电影市场的变化趋势,例如节假日或特殊事件对电影票房和评论的影响。 该数据集对电影产业的从业者、研究人员以及数据分析师来说,是一个极其宝贵的资源。他们可以利用这些数据来优化电影的营销策略、改进电影内容、预测电影市场趋势,甚至进行更深入的影视文化研究。同时,对于开发推荐系统和情感分析算法的工程师来说,这个数据集同样是一个很好的实践平台,能够帮助他们训练和评估他们的模型。 不过,由于数据集包含大量的个人信息和用户评论,使用该数据集时需要遵守相关法律法规,并尊重用户隐私。研究人员在处理和发布分析结果时,应当确保不会泄露个人身份信息,避免给用户造成不必要的麻烦和风险。 豆瓣影评数据信息-数据集是研究电影产业和用户行为的强大工具,它为多方面的分析和研究提供了可能,同时也提出了对数据隐私和安全的重视。随着数据分析技术的发展和应用,这类数据集在市场研究、用户行为分析和人工智能领域都将发挥重要的作用。
2025-09-17 13:20:24 295.75MB 数据集
1
贝叶斯分类器构建网络,对豆瓣进行情感分析;TF-IDF
2023-02-19 09:51:40 5.69MB 贝叶斯分类 情感分析
1
今天小编就为大家分享一篇关于使用Python抓取豆瓣影评数据的方法,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
2022-12-30 14:38:45 160KB python 抓取 python 数据抓取
1
系统环境:python3.8.12 ,编译器: Jupyter notebooks 目录介绍 https://cdn.jsdelivr.net/gh/EverettSy/ImageBed@master/uPic/EKQYvg.png 爬取过程 1. 抓取热映电影的网页内容 2. 爬取评论 3. 清洗数据 4. 使用结巴分词进行中文分词 5. 去掉停用词 6. 统计词频 7. 用词云进行展示 词云图 暗恋·橘生淮南 (2022) https://cdn.jsdelivr.net/gh/EverettSy/ImageBed@master/uPic/luJwZo.png 豆瓣热映 https://cdn.jsdelivr.net/gh/EverettSy/ImageBed@master/uPic/SBRvJn.png
2022-10-15 19:47:36 10.11MB python 软件/插件 词云图生成 豆瓣影评
1
使用微信小程序框架、组件、API等开发的“豆瓣影评”小程序源码.zip
2022-06-11 09:08:04 50KB 小程序
人工智能-项目实践-情感分析-基于朴素贝叶斯实现的豆瓣影评情感分析 语料来自与豆瓣Top250排行榜中的影评,基于Scrapy抓取,大约5w条影评,好评差评各占50%。 训练集与测试集4:1,结果准确率约为80%-79%之间。 因为电影评论中有很大一部分好评中会有负面情感的词语,例如在纪录片《海豚湾》 我觉得大部分看本片会有感的人,都不知道,中国的白暨豚已经灭绝8年了,也不会知道,长江里的江豚也仅剩1000左右了。与其感慨,咒骂日本人如何捕杀海豚,不如做些实际的事情,保护一下长江里的江豚吧,没几年,也将绝迹了。中国人做出来的事情,也不会比小日本好到哪儿去。 所以说如果将这种类似的好评去除,则可以提高准确率。
2022-05-25 10:05:21 3.26MB 人工智能 文档资料 情感分析 sklearn
背景与挖掘目标 获取豆瓣评论数据 分析好评与差评的关键信息 分析评论数量及评分与时间的关系 分析评论者的城市分布情况 1. 背景与挖掘目标 豆瓣(douban)是一个社区网站。网站由杨勃(网名“阿北”) 创立于2005年3月6日。该网站以书影音起家,提供关于书籍、电影、音乐等作品的信息,无论描述还是评论都由用户提供(User-generated content,UGC),是Web 2.0网站中具有特色的一个网站。 网站还提供书影音推荐、线下同城活动、小组话题交流等多种服务功能,它更像一个集品味系统(读书、电影、音乐)、表达系统(我读、我看、我听)和交流系统(同城、小组、友邻)于一体的创新网络服
2021-12-23 11:21:51 136KB 地球 实战 爬虫
1
刚接触python不久,做一个小项目来练练手。前几天看了《战狼2》,发现它在最新上映的电影里面是排行第一的,如下图所示。准备把豆瓣上对它的影评做一个分析。 目标总览 主要做了三件事: 抓取网页数据 清理数据 用词云进行展示 使用的python版本是3.5. 一、抓取网页数据 第一步要对网页进行访问,python中使用的是urllib库。代码如下: from urllib import request resp = request.urlopen('https://movie.douban.com/nowplaying/hangzhou/') html_data = resp.re
2021-11-28 01:51:05 789KB html代码 html语言 python
1
OnlyReviews 利用豆瓣API查询豆瓣影评以及豆瓣top250 这是我学习安卓网络开发的一个例子,包含以下技术: 用SAXParse来XML解析,重点是ContentHandler的处理,可以很方便的对XML数据进行解析 用Gson解析json数据,要注意的是自定义的对象并不需要和接受的json数据的格式完全匹配,Gson只解析匹配的部分,所以自定义对象成员变量时要格外注意是否匹配。 用Volley框架进行网络通信,包括以post方式请求json数据以及采用下载网络图片。 v4包中的SwipRefreshLayout不具有上拉加载更多的功能,根据SwipRefreshLayout自定义了一个可以上拉加载更多的layout,不过还很简陋。 使用和ViewPager实现了Indicator指示器的功能,不再需要使用特别麻烦的Actionbar.Tab,并且可以在Fragment内嵌Fr
2021-11-04 14:59:21 91KB Java
1
使用动态IP池+cookie爬取豆瓣豆瓣影评数据
2021-10-18 15:07:49 3.11MB 豆瓣 影评
1