View a markdown version of this page

第 3 阶段:检查、调整和迭代 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

第 3 阶段:检查、调整和迭代

在实施可观测性系统后,我们建议您不断审查、评估、学习、调整和改进您的实现。您可以将可AWS 观测性成熟度模型用作评估实施成熟度的工具,并确定需要改进的领域并确定其优先顺序。

实施定期审查

可观察性是一个迭代过程。它需要定期对现有组件进行审计和评估,并进行更改和增强,以推动持续改进。我们建议您定期审查以重新评估 SLOs、警报阈值、仪表板、指标粒度、留存策略、抽样策略等,以确保这些都能为您的团队和业务带来价值。通过将可观测性成本与特定团队和服务联系起来,您可以根据数据做出覆盖范围和资源分配的决策。

在 Amazon,我们每周进行运营准备情况审查 (ORRs),根据最佳实践审计团队的流程和可观察性态势。这是一项非屏蔽活动,与 Amazon 的服务数量和发布频率保持一致。

根据组织的规模,您还可以设置一个 “一切照旧” (BAU) 名单,其中每个团队中都有一名成员负责报告异常和趋势、发现未知数、删除不需要的工具和警报、改进仪表板,并确保可观察性解决方案继续为团队起作用并与团队的目标和成功指标保持一致。这也可能是重新评估警报策略的机会,以提高响应能力、主动性并更接近用户。这些评论的目标是创造一个良性循环,如下图所示,并提高可观察性姿势成熟度的成熟度,如可观测性成熟度模型中所AWS 述。

迭代可观测性过程中的反馈和审查周期。

确定访问频率最高的行动手册,并考虑改进您的应用程序或添加更多工具。确定最常执行的运行手册,并考虑自动执行这些运行手册。

还与可观测性小组和专家分享了从这些评论中吸取的教训,以突出中央计划和可观测性平台的改进。例如,根据部署触发的事件的频率,您可能会决定优先考虑部署管道的改进,而不是其他组件。如果由于监控差距而导致MTTR更高,则可以优先改进可观测性平台及其配置。

庆祝胜利

分享使用可观测性工具的团队的成功案例。例如,重点介绍一个使用可观测性指标来实现更高效、更低延迟或成本的替代解决方案的团队所取得的成功。传达这一成功凸显了可观察性的重要性,并激励其他团队改善其可观察性态势并努力取得类似的成功。

从事件中吸取教训

进行无可指责的事后练习,类似于 Amazon 的错误更正 (COE) 流程,以确定需要改进的领域并防止将来出现问题。与获胜一样,可以与其他团队广泛分享从本练习中吸取的教训,以增强可观察性和最佳实践的价值。