上传者: 35756637
|
上传时间: 2025-05-08 19:27:39
|
文件大小: 425KB
|
文件类型: DOCX
【课程实验一:云主机实现大数据】
实验报告中涉及了几个关键知识点,主要涵盖了云服务、ECS配置、SSH互信、JDK安装、Hadoop集群搭建、OBS(Object Storage Service)交互以及Hadoop集群功能测试。以下是这些知识点的详细说明:
1. **华为云ECS购买**:
- 自定义云服务器名称是为了方便识别和管理,格式为“姓名+学号+节点序号”,例如“lzy-2018211582-0001”。
2. **ECS配置**:
- 使用PuTTY或XShell等工具连接ECS,显示主机名和IP地址,确保远程访问成功。
3. **SSH互信配置**:
- SSH互信允许节点间无密码登录,提高自动化操作的便捷性。通过在各个节点上执行ssh命令,配置公钥,使得节点间可以自由跳转。
4. **JDK安装**:
- 安装JDK并配置环境变量JAVA_HOME,验证安装成功的方法是执行`java -version`命令,显示对应的Java版本,这里是OpenJDK 1.8.0_232。
5. **Hadoop集群搭建**:
- 启动Hadoop集群,包括在node1上启动Namenode,在其他节点上启动Datanode。
- 使用jps命令检查进程,确认各个角色如Namenode、Datanode、NodeManager等正确运行。
- 使用hdfs命令创建目录,如`hdfs dfs -mkdir /bigdata`,并用`hdfs dfs -ls`验证创建成功。
6. **OBS与Hadoop集群互联**:
- 在OBS中创建存储桶,如“obs-2018211582”,并上传文件,文件名应包含学号和姓名。
- 使用Hadoop命令检查OBS中的文件,确保上传成功。
7. **Hadoop集群功能测试**:
- 通过`wordcount`程序测试集群,输入文件应包含特定内容,例如姓名中英文和重复单词,如“play”。
- `wordcount`程序会统计文件中每个单词的出现次数。
8. **资源释放**:
- 实验完成后,必须按照指导释放ECS资源和OBS桶,以避免不必要的费用。
9. **结果分析**:
- `hdfs-site.xml`中的`dfs.replication`参数定义了数据块的副本数量,默认为3。设置为3的原因是提高数据可靠性、可用性和网络效率,遵循机架感知策略,一个副本在本地机架,一个在同一机架的另一节点,一个在不同机架的节点,优化了读写性能和数据安全性。
以上就是实验报告中涉及到的全部核心知识点,涵盖了云服务基础、Linux系统管理、分布式计算框架Hadoop的部署和使用。这些知识对于理解和实践大数据处理流程至关重要。