随着大数据2.0时代悄然到来,大数据从简单的批处理扩展到了实时处理、流处理、交互式查询和机器学习应用。近年来涌现出诸多大数据应用组件,如HBase、Hive、Kafka、Spark、Flink等。开发者经常要用到不同的技术、框架、API、开发语言和SDK来应对复杂应用的开发,这大大增加了选择合适工具和框架的难度,开发者想要将所有的大数据组件熟练运用几乎是一项不可能完成的任务。面对这种情况,Google在2016年2月宣布将大数据流水线产品(GoogleDataFlow)贡献给Apache基金会孵化,2017年1月Apache对外宣布开源ApacheBeam,2017年5月迎来了它的第一个稳定版
1