大数据分析平台总体架构——数据存储层
业务系统前日增量数据
缓存数据,支持后续ELT数据处理
数据内容
主要用途
数据模型
保留周期
用户
访问模式
工作负载
平台要求
贴源数据模型
保存最近7天数据
贴源数据区和主题数据区批量作业访问
无最终用户访问
I/O敏感,连续小批量的数据抽取和加载
少量量数据使用Hive的Load命令,大量数据使用MR程序
与主题区/贴源区/集市区构成一个Hadoop集群(Hive)
无单点故障,7×24小时+非工作日有限停机
主题数据区、集市数据区和沙盘演练数据区批量作业访问
无最终用户访问
I/O敏感,日终批量ETL
以ELT形式通过Hive SQL执行
与主题区/贴源区/集市区构成一个Hadoop集群(Hive)
无单点故障,7×24小时+非工作日有限停机
贴源数据模型
不保存历史
业务系统前日快照数据和一段时间的流水数据
数据标准化,为后续主题模型、集市和沙盘演练提供数据
临时数据区
贴源数据区
1