上传者: 39499407
|
上传时间: 2025-09-25 14:09:25
|
文件大小: 5.43MB
|
文件类型: DOC
Hadoop、Hive、Spark 实验
本实验报告主要介绍了 Hadoop、Hive、Spark 等大数据技术的应用和实践。实验中,学生需要使用 Hadoop、Hive、Spark 等环境,完成大数据开发和分析,并对拍卖成功率进行预测。
知识点:
1. Hadoop 伪分布安装部署:在 Centos 7.5 系统上安装 Hadoop 2.7.3,并配置免密钥登陆和主机名映射。
2. Hadoop 完全分布式安装部署:在多台机器上安装 Hadoop,实现分布式存储和计算。
3. Hadoop 常用命令:学习 Hadoop 的基本命令,例如启动 Hadoop 集群、查看相关进程、查看 HDFS 上文件目录、递归列出目录及文件、删除文件等。
4. HDFS:学习 HDFS 的基本概念和 API 使用,例如使用 IOUtils 方式读取文件、文件创建与写入等。
5. MapReduce 编程:学习 MapReduce 编程模型,例如单词计数、数据过滤及保存等。
6. Hive 环境搭建:学习 Hive 的基本概念和使用,例如创建 Hive 表、加载数据、执行查询等。
7. Spark 环境搭建:学习 Spark 的基本概念和使用,例如创建 Spark 程序、加载数据、执行查询等。
8. 逻辑回归和决策树预测:学习逻辑回归和决策树算法,用于预测拍卖成功率。
实验设备和环境:
* 虚拟机数量:1
* 系统版本:Centos 7.5
* Hadoop 版本:Apache Hadoop 2.7.3
* Hive 版本:未指定
* Spark 版本:未指定
实验步骤:
1. 安装 Javajdk 1.8.0_131,并测试版本
2. 增加主机名和 ip 的映射
3. 配置免密钥登陆
4. 启动 Hadoop 集群,并查看节点(进程)
5. 运行 PI 实例,并查看结果
6. 实现 Hadoop 伪分布安装部署
7. 实现 Hadoop 完全分布式安装部署
8. 实现 HDFS 的基本操作,例如文件创建与写入、文件上传下载等
9. 实现 MapReduce 编程,例如单词计数、数据过滤及保存等
10. 实现 Hive 环境搭建和使用
11. 实现 Spark 环境搭建和使用
12. 实现逻辑回归和决策树预测拍卖成功率
本实验报告介绍了 Hadoop、Hive、Spark 等大数据技术的应用和实践,涉及到大数据开发、存储、计算和分析等多个方面。