本文以在中移软件研发中心工作期间参与的大数据项目为背景,着重研究Hadoop相关系统的设计思想和基本框架,并设计和实现一个自动化、可扩展、可监控、可管理的应用于大规模Hadoop集群的部署管理系统,本文主要研究内容包含几个部分:
1.说明项目背景,分析项目的研究意义和应用前景。
2.研究Hadoop相关系统发展概况,说明现有的Hadoop集群部署管理技术,并对比分析它们的优缺点,为技术的选择和系统的设计提供依据。
3.深入分析Hadoop及其相关系统的设计思想和基本框架。重点研究 HDFS、MapReduce、HBase和Hive系统的核心算法和实现原理,分析它们运行的守护进程各自的职责和相互间协同工作模式,作为项目设计的理论基础。
4.深入研究项目所使用的技术。重点分析自动化配置和部署工具Puppet 的基本框架、运行机制和语法机制,为项目的设计和实现提供技术支持。
项目的分析、设计和实现。先对项目进行需求分析,分析大规模集群在硬件配置、操作系统、网络环境之间的异构性,分析Hadoop相关系统的服务、配置文件以及软件包之间的依赖关系。然后根据需求分析结果,对整个系统体系结构进行设计,