为了有效的演示实验,更好的将理论与实验相结合,博主制作了本实验报告。本实验中分别有构建虚拟机网络。大数据环境安装以及大数据分析案例三部分实验,希望对大家有所帮助。
Hadoop简介:
Hadoop 是由 Apache 研发的开源分布式基础架构,它由 Hadoop 内核、MapReduce、 Hadoop 分布式文件系统(HDFS)及一些相关项目组成。其中,HDFS具有高容错性,负责大数据存储;MapReduce 则负责对 HDFS 中的大量数据进行复杂的分布式计算。Hadoop 作为分布式架构,采用“分而治之”的设计十思想:将大量数据分布式地存放于大量服务器上,采用分治的方式对大数据进行分析。 在这种思想的驱使下,Hadoop 实现了 MapReduce 的编程范式。其中,“Map”意为映射 其工作是将一个键值对分解为多个键值对;“Reduce”意为归约,其工作是将多组键值产对处理合并后产生新的键值对写入 HDFS。通过上述工作原理,MapReduce 实现了将大数据工作拆分为多个小规模数据任务在大量服务器上分布式处理。
1