无服务器数据湖框架(SDLF)
开源计划|
无服务器数据湖框架(SDLF)是可重用工件的集合,旨在加快AWS上企业数据湖的交付,将生产部署时间从数月缩短至数周。 AWS团队,合作伙伴和客户可以使用它按照最佳实践来实现数据湖的基础结构。
动机
数据湖可为您的组织提供敏捷性。 它提供了一个存储库,消费者可以在其中快速找到所需的数据并在其业务项目中使用它们。 但是,建立数据湖可能很复杂。 除了文件存储之外,还有很多事情需要考虑。 例如,如何对数据进行分类,以便知道所存储的内容? 您需要什么摄取管道? 您如何管理数据质量? 如何将转换代码保持在源代码控制之下? 您如何管理开发,测试和生产环境? 构建解决这些用例的解决方案可能需要花费数周的时间,而这段时间可以花在数据创新和实现业务目标上。 SDLF是经过生产强化的最佳实践模板的集合,这些模板可加速您在AWS上的数据湖实施过程,因此您可以专注于
2021-02-13 11:05:35
6.05MB
Python
1