现在,来自物联网(IoT)传感器和具有全球定位系统(GPS)的智能设备的海量数据流正在涌入数据库系统,以进行进一步的处理和分析。 从新鲜和历史数据中实时检索的能力被证明是利用这些数据流在智能制造和智能城市中实际应用的关键推动力。 在本文中,我们提出了一种简单有效的分布式解决方案,以实现每秒数百万个元组插入和毫秒级的临时时间范围查询处理。 为此,我们提出了一种新的数据分区方案,该方案利用了工作负载特征并避免了昂贵的全局数据合并。 此外,为解决吞吐量瓶颈,我们采用基于模板的索引方法,以在传入元组的相对稳定分布上跳过不必要的索引结构调整。 为了并行化数据插入和查询处理,我们提出了一种有效的分派机制和有效的负载平衡策略,以工作负载感知的方式充分利用计算资源。 在合成和实际工作负载上,我们的解决方案始终都比最先进的开源系统好至少一个数量级。
2021-03-13 12:06:43
619KB
研究论文
1