Hadoop MapReduce
Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。
Why MapReduce?
1.海量数据在单机上处理因为硬件资源限制,无法胜任
2.而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度
3.引入mapreduce框架后,开发人员可以将绝大部分工作集中在业务逻辑的开发上,而将分布式计算中的复杂性交由框架来处理
MapReduce编程规范
1.用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端)
2.Mapper的输入数据是KV对的形式(KV的类型可自定义)
3.Mapper的输出数据是KV对的形式(K
2022-03-10 13:56:25
2.1MB
Python
1