1、基础框架:基础框架里面有什么东西,为什么有他,比如说多环境适配,因为我们整套数据平台的解决方案是对外输出的,有公有云环境,有专有云环境,这些环境底下的基础设施都不一样,比如说包括租户和账户体系,权限体系,流程体系,审批流这类东西,所以正是通过基础框架搭我们底层的环境。最主要目的其实是提供一些我们上层数据应用的通用能力以及把底层的数据环境的差异给屏蔽掉。
2、核心能力:
① 数据安全:数据安全就会涉及到数据资产的分类、分级。不同类别的资产,他的安全等级是不一样的,他在安全里面需要有权限的话,他的审批策略是不一样的,这是数据安全这一块,可能还涉及一些比如脱敏,我们消费端接触到这些数据怎么脱敏;
② 隐私保护:隐私保护更偏重,比如说隐私保护还有一个叫法是数据安全、数据合规,我们想要做什么事情,就是我们要去透明化的看到各个公司数据流通,比如有哪些数据,这些数据的安全等级是什么样的,涉及到用户哪些数据;
③ 数据质量:主要是在我们数据研发过程当中,数据周期从发布到线上调度,调度完了怎么去做数据质量的监测,检测完了以后,比如说我们做离线调度的时候最重要的一个就是数据产出时效,所以有一个基线。这都是怎么去保障我们任务的基线;
④ 元数据中心:元数据中心大家都知道,因为我们下面有各种各样不同的引擎,有Spark,有ODPS,有MySQL这些东西,怎么去把它当中的数据统一的元数据中心;
⑤ 数据治理:数据治理的逻辑就是配合数据质量把我们现有的数据给盘清楚。
3、数据引擎
① 任务执行与调度引擎:我们在做ETL的时候大多数都是这种任务执行与调度;
② 数据科学引擎:数据科学引擎主要是做分析,做业务洞察这一类,今天的数据业务平台可能更多的就是依赖于数据科学引擎,后面会详细介绍;
③ 决策服务引擎:决策引擎比如说给大家举一个场景,芝麻分大家都知道,那首先假如我有一个业务在线上,在线上做策略的时候,或者给大家看不同的页面的时候,不同的芝麻分的等级看到的页面或者等级是不一样的,这种东西是需要数据决策的,或者直白的来说,是需要这个人的芝麻分,这个通过统计数据服务会去配一个决策规则,相当于这里的决策引擎里面支持一种决策的DSL配置,简单来讲就是if……else……,if…else……,能够配置这样一套规则后,给在线业务场景提供服务,这是决策服务引擎。整个数据内核就这么多东西。