Iceberg构建湖仓一体架构的必备,与Delta Lake、hudi齐名,数据湖技术三驾马车。
2023-05-28 22:43:50 1.6MB deltalake 数据仓库 数据湖 湖仓一体
1
基于最新版本的湖仓一体、流批一体架构方案 hadoop-3.3.4+tez-0.10.2+hive-3.1.3+hbase-2.4.14+atlas-2.2.0+kafka- 2.8.2+ranger-2.3.0+flink-1.15.2+spark-3.3.0+hudi-0.12.1.jar+iceberg-0.14.1.jar+streamx
2022-12-21 19:23:13 51B hadoop hudi iceberg flink
1
flinkcdc写入到iceberg中,hive读取iceberg时所需要的运行环境
2022-12-18 17:23:03 22.02MB iceberg hive
1
数据湖iceberg+Flink 戴尔对象存储解决方案 apache-iceberg-dell-emc-ecs.pdf
2022-11-21 18:25:22 1.35MB 数据架构 数据湖
1
阿里分享的Flink + Iceberg + 对象存储,构建数据湖方案
2022-08-26 14:05:56 1.59MB 大数据 阿里巴巴 flink
1
基于Flink+Iceberg构建企业级实时数据湖4.9.pdf
2022-07-03 13:04:41 2.67MB flink iceberg 数据湖
iceberg0.12.1
2022-07-01 15:03:45 1.41MB iceberg
1
大多数大数据企业在构建数仓时采用Lambda架构,一条离线数仓链路,一条实时数仓链路。一些实时业务多的公司构建数仓时采用Kappa架构,但是也避免不了离线处理一些数据,所以一些公司也采用Kappa架构+Lambda架构方式构建数仓。以上不同的架构都有各自的优点及缺点,这里不再赘述。批数据处理与流式数据处理的不同效率决定了针对两类数据采用不同的架构进行分析处理,未来数据仓库的发展也终将走向批数据和流数据使用同一套架构处理,同时也要求批数据及流数据存储上也需要统一,这就所说的批流一体,那么使用什么技术可以既能满足批数据海量存储分析又能满足实时数据存储的效率高、支持数据更新删除?数据湖技术应运而生,湖仓一体架构也被提出。Iceberg就是典型的数据湖技术,支持批数据和流式数据的存储,同时还支持高效的OLAP分析查询。
2022-06-21 21:03:20 901.19MB 数据湖 湖仓一体化 iceberg
实时数仓实践
2022-06-20 09:07:55 2.77MB 实时数仓