在大数据分析场景中,以ETL(Extract抽取-Transform交互转换-Load加载)为例,数据的操作包含了如下流程:RDBMS==>Sqoop==>Hadoop==>Sqoop==>RDBMS/NoSQL/...,这里涉及了三个流程:数据抽取==>数据清洗==>数据入库。这三个步骤出现了明显的顺序问题。假设数据抽取需要3h,数据清洗需要2h,数据入库需要1h。我们可以使用linuxshell提供的crontab来实现。他的优点是使用简单,缺点却有很多:1.流程不便于跟踪和监控(流程某个环境出错没办法监控)。2.在这个流程中有些模块执行的时间可能出现延迟/提前。比如数据清洗预测需要2h,
2021-02-24 18:05:17 447KB Azkaban3.59.x最新版极简入门
1