上传者: 38678255
|
上传时间: 2021-02-24 09:09:11
|
文件大小: 448KB
|
文件类型: PDF
流式计算主要针对unboundeddata(无界数据流)进行实时的计算,将计算结果快速的输出或者修正。这部分将分为三个小节来介绍。第一,介绍大数据系统发展史,包括初始的批处理到现在比较成熟的流计算;第二,为大家简单对比下批处理和流处理的区别;第三,介绍流式计算里面的关键问题,这是每个优秀的流式计算引擎所必须面临的问题。上图是2003年到2018年大数据系统的发展史,看看是怎么一步步走到流式计算的。2003年,Google的MapReduce横空出世,通过经典的Map&Reduce定义和系统容错等保障来方便处理各种大数据。很快就到了Hadoop,被认为是开源版的MapReduce,带动了整个ap