本系统主要设计完成两件工作,一是搭建分布式的hadoop的集群环境,二是基于分布式的集群环境做日志分析。详细介绍参考:https://blog.csdn.net/newlw/article/details/127332767
2022-11-30 14:25:46 1.25MB hadoop hive 数据处理 电影数据分析
TMDb_Movies 提示:GitHub直接打开ipynb文件容易出错,请通过这个地址浏览: Hi! 这是我的第一个数据分析项目,展示了问题分解、数据清洗、数据分析与可视化的过程,最后给出了一个简单的预测模型。我从中学到了很多,在此分享出来,请多多指教! 数据来源是Kaggle提供的Internet Movie Database(TMDb)数据集,包括了近五千部电影的信息。数据原地址:
2022-11-30 13:24:14 339KB JupyterNotebook
1
豆瓣电影数据(id,标题,连接地址,评分,演员,导演....)12W+(已去重) 格式为json
2022-11-21 14:14:42 9.14MB 豆瓣 豆瓣id 豆瓣json数据
1
Bigdata-movie 本项目以电影数据为主题,以数据采集、处理、分析及数据可视化为项目流程,可实现百万级电影数据离线处理与计算。 项目详解:. 开发环境:IDEA+Pycharm+Python3+hadoop2.8+hive2.3.0+mysql5.7+sqoop+spark 1.数据采集(pachong.py)、预处理: 采集豆瓣电影top250电影信息,采集电影名称、电影简介、电影评分、其他信息、电影连接等字段,抓取电影票房总收入排名情况(取前20),删除冗余和空值字,利用Python的PyMysql库连接本地Mysql数据库并导入movies表,可以将数据保存到本地,从而进行数据可视化展示,也可将数据导入到大数据的Hive数仓工具中,用于大数据分析。 采集数据展示: 排序 影片名称 类型 总票房(万) 场均人次 上映日期 1 战狼2 动作 567928 38 2017/7/27
2022-11-05 15:29:48 7.13MB Python
1
基于Python实现猫眼电影数据爬取+数据分析+数据可视化.zip
2022-11-01 15:26:34 421KB python 可视化
对应博客地址:https://blog.csdn.net/andrew_extra/article/details/124888185 本项目利用网络爬虫技术从国外某电影网站和国内某电影评论网站采集电影数据,并对电影数据进行可视化分析,实现电影的检索、热门电影排行和电影的分类推荐,同时对电影的评论进行关键词抽取和情感分析。 目录 1. 项目简介 2. 功能组成 3. 基于python的电影数据可视化分析与推荐系统 3.1 系统注册登录 3.2 全球电影数据爬虫 3.3 全球电影数据可视化分析 电影出品的年份和制作语言分布情况 不同制作国家或地区的电影数目分布情况 不同类型电影的数目分布情况 不同类型电影的时长分布箱型图 不同类型电影的拍摄预算与票房收入的分布箱型图 不同类型电影的评分分布箱型图 不同电影风格的受欢迎程度分布箱型图 电影评分对票房的影响 3.4 国内电影网站的 TOP 电影分析 3.5 电影分类推荐 3.6 电影评论分析 4. 总结 本项目利用网络爬虫技术从国外某电影网站和国内某电影评论网站采集电影数据,并对电影数据进行可视化分析,实现电影的检索、热门电影排行和电影
2022-08-12 19:57:49 2.76MB python 毕业设计 机器学习 数据分析
Wikipedia Movie Plots 数据集包含 34886 部世界各地的电影。每部电影包括发行年份、标题、电影的民族性、导演、主演、剧情介绍等。该数据集可被用于多类问题处理如预测电影种类类型和推荐相关电影等。
2022-07-13 16:05:31 29.54MB 数据集
关联规则挖掘在生活中有很多使用场景,不仅是商品的捆绑销售,甚至在挑选演员决策上,你也能通过关联规则挖掘看出来某个导演选择演员的倾向。 如何使用Apriori工具包 Apriori虽然是十大算法之一,不过在sklearn工具包中并没有它,也没有FP-Growth算法。这里教你个方法,来选择Python中可以使用的工具包,你可以通过https://pypi.org/ 搜索工具包。 img 这个网站提供的工具包都是Python语言的,你能找到8个Python语言的Apriori工具包,具体选择哪个呢?建议你使用第二个工具包,即efficient-apriori。后面我会讲到为什么推荐这个工具包。
2022-07-13 09:11:47 1.01MB 关联规则 电影
【字段】 电影名称、投票人数、类型、产地、上映时间、时长、年代、评分、首映地点 【用途】 该数据集非常适用了Python数据分析入门,是学习NumPy 、Pandas、Matplotlib的练手数据集
2022-06-26 19:09:06 2.92MB 数据分析 python 人工智能 数据挖掘
该项目是大三下学期的课程设计,使用的数据集来自知名数据网站 Kaggle 的 tmdb-movie-metadata 电影数据集,以Python为编程语言,使用大数据框架Spark对数据进行了预处理,然后分别从多个方面对数据进行了分类和分析,并对分析结果进行可视化。里面包含我的课程设计报告和完整的代码。希望对你们有帮助。
2022-06-24 19:07:37 3.43MB python big data spark