骆驼
LLAMA(丢失和延迟矩阵)是一个用于测试和测量分布式端点之间的网络丢失和延迟的库。
它通过将UDP数据报/探针从收集器发送到反射器,并测量它们返回的时间(如果它们完全返回)来完成此操作。 UDP用于在多个路径上提供ECMP哈希(优于ICMP),而无需设置/拆卸和按数据包的粒度(优于TCP)。
为什么这有用
对于成功监视和运行网络至关重要。 尽管从网络设备收集度量标准可以提供有关已知问题的更多详细信息,但它们并不总是提供完整的信息,并且可以提供大量的度量标准。 LLAMA的黑匣子测试并不关心网络的结构,只有在网络正常工作的情况下。 此数据可用于构建KPI,观察全局问题,并通过量化哪些流不起作用/不起作用来指导调查原因未知的问题。
在Dropbox上,我们发现它在很多情况下都很有用,可用于衡量网络问题对内部流量的影响,确定影响范围以及查找没有其他指标(内部硬件故障,电路降级等)的问题。
即使您完全在云中运行, LLAMA也可以帮助您识别区域/区域之间以及区域/区域之内的可达性和网络运行状况问题。
建筑
Reflector-轻型守护程序,用于接收探针并将其发送回源。
收集器-
1