摘 要:本文爬取豆瓣电影TOP250的榜单电影信息和热评,运用数据可视化和文本挖掘的相关方法和理论对电影进行Knn分类和KMeans聚类以及相关的电影信息分析,并预测了新上映电影的所属类型,画出了相应的混淆矩阵
2021-03-05 22:06:53 893KB python kmeans算法 数据挖掘 数据分析
1
豆瓣.rar 基于web的豆瓣查询
2021-03-04 20:04:51 4.11MB web html
1
1.第一步的代码,是创建数据库以及相关的表,在第一次运行之后,就不需要运行了。 其实如果不需要根据运行的情况,在运行的时候创建表,我是觉得直接用可视化工具创建表示更加省功夫的。 2.期间还是发现很多问题的,mysql是模块名,所以自己的模块就不能有相同的模块名,否则会报一些奇怪的错误。 3.sql语句里面,表名、字段名是不需要单引号包着的,或者可以用`包着,这个就是键盘上面tab上一个,或者1左边那个符号,不知道叫什么。 毕业这么多年才知道,因为一直用Navicat来创建表的。或许这就是使用可视化工具的副作用吧。 4.好多地方可以优化的,不过就先不纠结了,现阶段看多几份代码可能更加有效果。
2021-03-03 17:21:46 28KB Python 爬虫 抓取
1
平台部分主要是hadoop分布式系统,基于该系统融合了组件Spark,Hbase,Hive,Sqoop,Mahout等。继而进行相关的数据分析 该项目主要分为以下几部分: 1:数据采集 主要是基于豆瓣电影的数据,进行分析,所以首先要爬取相关的电影数据,对应的源代码在DouBan_Spider目录下,主要是采用Python + BeautifulSoup + urllib进行数据采集 2:ETL预处理 3:数据分析 4:可视化 代码封装完好, 适用于对作影视感情分析,影评分析,电影类型分析,推荐系统的建立
2021-03-03 16:54:45 10.05MB 爬虫 数据处理 数据分析 可视化
1
网上下载后并更新至2020年2月,表格数据只有 电影名和评分 。数据已经提供,怎么使用是你们的事,反正我的影视数据评分已经更新了。
1
豆瓣电影,评分,推荐语,播放链接
2021-03-02 14:07:16 22KB 电影 豆瓣
1
豆瓣,电影,评分前250
2021-03-02 14:06:53 23KB 豆瓣 电影
1
2300+数据,包括:ISBN 全球唯一图书编号;Title 书名;Author 作者;Author_intro 作者简介;Tag 标签;NumRaters 评分人数;Average 评分;Id 豆瓣内该书Id;Binding 精装/简装;Pages 页数;Publisher 出版商;Origin_title 图书原名 Url 豆瓣链接;Image 图书豆瓣图片;Summary 图书概述;
2021-02-26 19:08:18 11.94MB 豆瓣图书 数据
1
本资源1000条豆瓣电影数据包含 时长 导演 片名 评分等24个字段 主要作为数据分析的练手数据 配合我的博客 pandas的基本操作使用 完整数据可留言索要
2021-02-20 14:07:05 1.16MB 豆瓣 电影 pandas 数据分析
1
这是一个基于angular而开发的豆瓣移动站单页面应用demo
2021-02-19 21:33:07 481KB JavaScript开发-框架
1