SLO出口商 工具根据来自各种数据源的事件来计算标准化的服务水平指标(SLI)和服务水平目标(SLO)指标。 它遵循原则。 有了已经准备好的, , ,您可以轻松地开始在基础架构中就SLO发出警报。 动机 仅从Prometheus维护基于应用程序度量标准的SLO警报已有一年多的经验之后,出现了许多问题,这使它变得非常困难且难以忍受。 很少有: 如果我们想轻松找出哪种事件类型导致了警报或影响了错误预算,那么指标的基数很高。 事件分类最终在PromQL中成为巨大的正则表达式。 如果没有事件发生,则计算的默认值存在问题。 需要基于无法添加到指标的高基数元数据过滤掉一些事件。 这导致我们决定需要分别处理事件,而在Prometheus中仅执行最终的计算和警报。 这个怎么运作 每个摄取的事件都具有元数据,该元数据用于将其分类为特定的SLO域和类,如所述。 此外,还添加了事件发生的应用程序的名称和事件的标识符,以简化可能违反SLO的调试。 最后,根据元数据确定事件是成功还是失败。 然后,Slo导出程序公开Prometheus指标slo_domain_slo_class:slo_events
2021-02-03 01:07:00 233KB monitoring exporter grafana alerting
1