kudu构建近实时分析系统.pdf.
2021-04-21 17:49:39 3.46MB Kudu
1
数据分析指导商业行为的价值越来越高,使得用户对数据实时分析的要求变得越来越高。使用传统RDBMS数据分析架构,遇到了前所未有的挑战,高延迟、数据处理流程复杂和成本过高。在过去很长一段时间,企业均选择传统的关系型数据库做OLAP和DataWarehouse工作。这一节讨论传统RDBMS数据分析的结构和面临的挑战。传统关系型数据库做数据分析的架构,按照功能模块可以划分为三个部分:OLTP模块:OLTP的全称是OnlineTransactionProcessing,它是数据产生的源头,对数据的完整性和一致性要求很高;对数据库的反应时间(RT:ResponseTime)非常敏感;具有高并发,多事务,高
1
Druid 是一个为大型(设计为 PB 级别)数据集上实时探索查询而设计的开源数 据分析和存储系统,提供极具成本效益并且永远在线(24x7x365x10)的实时数据摄 取和任意数据处理,并且在面对代码部署、机器故障以及其他意外情况时能保证 系统集群正常运行。 Druid 自发布以来,Github 上代码的活跃度一直很高,已经有很多组织和个 人参与到该项目的开发中来。因此 Druid 在过去的一年多时间里一直保持着很高 的版本发布频次。截至本文译本完成时, Druid 已经释放出 0.8.0 的稳定版本,该 版本在集群的稳定性和查询性能上已经有了相当的提升,同时也提供了“简单的” 界面支持。 本文是 Druid 官方提供的论文(WhitePaper)的中文译版,主要介绍 Druid 的核 心概念和架构设计原理。 由于目前 Druid 相关的文字资料相当稀少,除了其官方提供的一些指导文档, 本文也是最珍贵的文字资料之一。
2020-01-20 03:06:23 1.52MB Druid
1
19年6月最新翻译文档 ClickHouse,开源的数据分析性的数据库。 Clickhouse的具体特点(不支持事务,不同于关系型数据库): Ø 1.真正的面向列的DBMS Ø 2.数据高效压缩 Ø 3.磁盘存储的数据 Ø 4.多核并行处理 Ø 5.在多个服务器上分布式处理 Ø 6.SQL语法支持 Ø 7.向量化引擎 Ø 8.实时数据更新 Ø 9.索引 Ø 10.适合在线查询 Ø 11.支持近似预估计算 Ø 12.支持嵌套的数据结构 Ø 支持数组作为数据类型 Ø 13.支持限制查询复杂性以及配额 Ø 14.复制数据复制和对数据完整性的支持 ClickHouse的不完美: Ø 1.不支持事物。 Ø 2.不支持Upda te/Delete操作。 Ø 3.支持有限操作系统。
2020-01-20 03:06:01 4.78MB ClickHouse 19年6月最新 最新官方翻译
1
Real-Time Analytics: Techniques to Analyze and Visualize Streaming Data 实时分析-分析和可视化流数据的技术.pdf 包括Storm、samza、kafaka、flume等技术.
2019-12-21 20:25:32 3.57MB spark storm
1