Hadoop、Hive、Spark 实验 本实验报告主要介绍了 Hadoop、Hive、Spark 等大数据技术的应用和实践。实验中,学生需要使用 Hadoop、Hive、Spark 等环境,完成大数据开发和分析,并对拍卖成功率进行预测。 知识点: 1. Hadoop 伪分布安装部署:在 Centos 7.5 系统上安装 Hadoop 2.7.3,并配置免密钥登陆和主机名映射。 2. Hadoop 完全分布式安装部署:在多台机器上安装 Hadoop,实现分布式存储和计算。 3. Hadoop 常用命令:学习 Hadoop 的基本命令,例如启动 Hadoop 集群、查看相关进程、查看 HDFS 上文件目录、递归列出目录及文件、删除文件等。 4. HDFS:学习 HDFS 的基本概念和 API 使用,例如使用 IOUtils 方式读取文件、文件创建与写入等。 5. MapReduce 编程:学习 MapReduce 编程模型,例如单词计数、数据过滤及保存等。 6. Hive 环境搭建:学习 Hive 的基本概念和使用,例如创建 Hive 表、加载数据、执行查询等。 7. Spark 环境搭建:学习 Spark 的基本概念和使用,例如创建 Spark 程序、加载数据、执行查询等。 8. 逻辑回归和决策树预测:学习逻辑回归和决策树算法,用于预测拍卖成功率。 实验设备和环境: * 虚拟机数量:1 * 系统版本:Centos 7.5 * Hadoop 版本:Apache Hadoop 2.7.3 * Hive 版本:未指定 * Spark 版本:未指定 实验步骤: 1. 安装 Javajdk 1.8.0_131,并测试版本 2. 增加主机名和 ip 的映射 3. 配置免密钥登陆 4. 启动 Hadoop 集群,并查看节点(进程) 5. 运行 PI 实例,并查看结果 6. 实现 Hadoop 伪分布安装部署 7. 实现 Hadoop 完全分布式安装部署 8. 实现 HDFS 的基本操作,例如文件创建与写入、文件上传下载等 9. 实现 MapReduce 编程,例如单词计数、数据过滤及保存等 10. 实现 Hive 环境搭建和使用 11. 实现 Spark 环境搭建和使用 12. 实现逻辑回归和决策树预测拍卖成功率 本实验报告介绍了 Hadoop、Hive、Spark 等大数据技术的应用和实践,涉及到大数据开发、存储、计算和分析等多个方面。
2025-09-25 14:09:25 5.43MB hive hadoop spark 数据仓库
1
Hive调优全方位指南,总结了25条关于Hive调优的经验,对于大数据及hive工程师是不可多得的资源。
2023-04-12 21:20:16 5.46MB hive hadoop 大数据
1
远程模式部署Hive时,mysql连接驱动jar包,需先进行解压,解压后文件夹内压缩包即为用到的压缩包,全称为mysql-connector-java-5.1.32.jar
2022-12-21 14:25:40 896KB hive hadoop
1
数据仓库Hive伪分布式部署与应用
2022-12-10 14:23:20 1.83MB hive Hadoop 数据仓库
1
pdf文件讲述hive实现原理,图文并茂。
2022-11-21 20:58:30 3.21MB hive hadoop hbase mapreduce
1
1.支持分桶键导入和分区键导入。 2.建表通过EXCLE自带宏编辑进行处理,可修改源代码,灵活度较高。 3.使用方式:打开EXCEL—>视图—>宏—>执行(编辑可查看源码)
2022-10-13 15:38:05 83KB hive hadoop 数据仓库 大数据
1
免费的,我下载了其他人的也不能用,这个好像也不太行,需要的可以拿去试试
2022-10-04 09:00:57 40KB hive hadoop win10
1
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
2022-08-11 14:05:44 121MB hive hadoop 数据仓库
1
Facebook的资料,介绍hive join的各种算法,用于性能优化
2022-07-17 23:27:23 1.18MB Hive,Hadoop
1
使用hive,hadoop,spark,datax,python,scala修改添加的配置
2022-07-13 18:10:42 4KB hive hadoop spark
1