由于大数据里面涉及到非关系型数据库如hive、kudu、hbase等的数据迁移,目前涉及到的迁移工具都没有支持hive数据库的事务表的迁移,如果hive库里面存在大量的事务表的时候,目前的工具都是不支持的,例如华为的CDM,阿里研发的datax,hadoop的distcp都是不支持大数据事务表的迁移。但是目前很多公司随着数据量的增涨和上云的趋势,出现了喝多公司迁移大数据平台上云的需求,如果进行上云就要涉及到数据的迁移和各个不同平台数据版本的适配等问题。
下面为从自建的数据中心迁移hadoop到华为云上适配大数据平台MRS的一次项目迁移,此项目涉及到hive、kudu、hbase 的数据迁移,数据总量达到了15T,此文档是耗时5月时间和时间的检验,通过脚本编辑批量迁移完成大数据迁移上云的最终目标,里面涉及具体的迁移方案、解决方案、迁移流程、迁移脚本