Bigdata-movie 本项目以电影数据为主题,以数据采集、处理、分析及数据可视化为项目流程,可实现百万级电影数据离线处理与计算。 项目详解:. 开发环境:IDEA+Pycharm+Python3+hadoop2.8+hive2.3.0+mysql5.7+sqoop+spark 1.数据采集(pachong.py)、预处理: 采集豆瓣电影top250电影信息,采集电影名称、电影简介、电影评分、其他信息、电影连接等字段,抓取电影票房总收入排名情况(取前20),删除冗余和空值字,利用Python的PyMysql库连接本地Mysql数据库并导入movies表,可以将数据保存到本地,从而进行数据可视化展示,也可将数据导入到大数据的Hive数仓工具中,用于大数据分析。 采集数据展示: 排序 影片名称 类型 总票房(万) 场均人次 上映日期 1 战狼2 动作 567928 38 2017/7/27
2022-11-05 15:29:48 7.13MB Python
1
此数据为《大话数据分析-Tableau数据可视化实战》最全操作演练数据,也可以适用其它的数据分析工具的演练数据。如PowerBI,FineBI等。 特别提醒:不是电子书
2022-11-04 10:35:35 49MB Tableau PowerBI 数据分析 BI
1
前言: 这次比上次新添了公司信息内容跟一个股票基本面指标选项卡,股票基本面指标选项卡用的是matplotlib写的,采用plt.subplot2grid()子图写的,没写主图,在此期间遇到了无法标题中文话,一写就乱码,用过网上很多解决方法,目前也是无解,先记录,后面有时间再解决,如果你有解决方法请务必赐教,实在这个问题卡了我一天多了,如果单单是只用matplotlib输出图形,乱码问题网上的很多方法也是能够解决,我也不清楚究竟是我写的代码哪里跟中文显示冲突了,一时间代码也开始有点乱了,后面估计会越写越乱,等再写一两个功能抽个时间简洁下代码。更新的代码如下: import pandas as
2022-11-03 18:00:58 350KB ar eta IN
1
python爬取NBA球员并进行数据可视化
2022-11-03 17:13:24 2KB
1
代码注释十分丰富,保证能够轻松上手三次样条插值的整个matlab代码实现过程 和调用spline函数做对比界面
2022-11-03 14:03:42 3KB 三次样条插值
1
摘要针对网络热点事件舆论分析的需求研究了开放式参与式的网络信息扩散模式下网络中用户之间的新型互动行为及其在热点事件传播过程中的时空特征利用网络数据挖掘技术通过对
1
为 Elasticsearch设计的开源分析和可视化平台
2022-11-02 21:00:53 265.05MB kibana
1
RedisDestopManage-0.9.0.51.dmg、RedisDestopManage-0.8.8.33.dmg两个版本管理工具,新版本的不能用,试一下老版本的
2022-11-02 20:04:52 29MB Redis
1
基于SFM算法的三维模型重建,使用三维图像模型重构三维图像
2022-11-02 13:35:00 252KB 三维重构 图像重构 SFM 可视化
1