Bigdata-movie 本项目以电影数据为主题,以数据采集、处理、分析及数据可视化为项目流程,可实现百万级电影数据离线处理与计算。 项目详解:. 开发环境:IDEA+Pycharm+Python3+hadoop2.8+hive2.3.0+mysql5.7+sqoop+spark 1.数据采集(pachong.py)、预处理: 采集豆瓣电影top250电影信息,采集电影名称、电影简介、电影评分、其他信息、电影连接等字段,抓取电影票房总收入排名情况(取前20),删除冗余和空值字,利用Python的PyMysql库连接本地Mysql数据库并导入movies表,可以将数据保存到本地,从而进行数据可视化展示,也可将数据导入到大数据的Hive数仓工具中,用于大数据分析。 采集数据展示: 排序 影片名称 类型 总票房(万) 场均人次 上映日期 1 战狼2 动作 567928 38 2017/7/27
2022-11-05 15:29:48 7.13MB Python
1
Hadoop MapReduce 与 Python 和 Hive 在 python 中为 Hadoop 编写 MapReduce 程序,并使用 Hive 使用类似 SQL 的查询执行 MapReduce 的教程。 这使用带有 python 的 Hadoop Streaming API 来教授使用 MapReduce 框架的基础知识。 主要思想和结构基于。 然而,该教程已经过时,并且在设置和运行 Hadoop 时,有相当多的步骤不再起作用。 这是一个更新和扩展的教程,结合了 Hive 教程。 您可以在 python 中编写 map 和 reduce 函数,并将它们与 Hadoop 的流 API 一起使用,如下所示。 这为您提供了很大的灵活性。 然而,在许多情况下,您尝试从分布在集群上的数据中获取的信息可以用 SQL 查询来表达。 Hive 是一个程序,它接受这样的 SQL 查询,自动
2022-11-05 14:57:34 14KB
1
程序功能: 在excel模板中填写自己表的字段英文名、字段类型、字段中文名、分区英文名、分区数据类型、分区中文名、表英文名、表中文名,自动生成建表语句和查询语句,提高日常数据效率。 前提:本机安装java1.7,并且配置了环境变量。
1
HDFS+MapReduce+Hive+HBase十分钟快速入门,包括这几个部分的简单使用
2022-11-02 20:46:03 517KB 云计算
1
代码演示,如何编写基本的Airflow以实现从Mysql到Hive的增量导入。 #问题陈述:-MySQL具有名为'employee_profile'的表,该表具有雇员信息,包括名字,姓氏和SSN。 脚本应检查表中是否有新记录和修改过的记录,并使用修改后的更新记录更新相应的配置单元表,并且配置单元中还应具有带有屏蔽的社会安全号(SSN)的附加表。 使用Sqoop实现增量导入,并使用Airflow自动化该过程。 1)设定数据 我)在MySQL中创建表 CREATE TABLE `employee_profile` ( `profile_id` VARCHAR(255) NOT NULL, `first_name` VARCHAR(45) NULL, `last_name` VARCHAR(45) NULL, `modified_date` DATETIME NULL, `
2022-11-02 00:06:57 9KB Java
1
大数据技术之Hive笔记
2022-10-31 13:04:53 725.7MB hive
1
最完整hive搭建说明文档,完全傻瓜模式,下载后,仔细认真,一步步操作
2022-10-30 14:06:02 23KB hive搭建部署
1
安装FineBI官方提供的驱动包隔离插件
2022-10-29 14:08:59 6KB hive
1
多易Flink Flume hive kafka课程知识图谱与配套资料
2022-10-28 13:06:57 58.37MB flink 大数据
1
安装位置webapps\webroot\WEB-INF\lib
2022-10-28 09:06:27 21.44MB hive
1