

# 监控工作负载资源
<a name="monitor-workload-resources"></a>

 日志和指标是深入了解工作负载运行状况的强大工具。您可以将工作负载配置为监控日志和指标，并在超过阈值或发生重大事件时发送通知。通过监控，您的工作负载可以发现超出低性能阈值和发生故障的情形，从而自动恢复以做出响应。

 监控对于确保满足可用性要求至关重要。监控需要有效检测故障。最糟糕的故障模式是“沉默”故障，即无法直接检测到功能已失效。该故障会在您采取相关措施前影响到客户。在发生问题时收到提醒是您进行监控的一个主要目的。警报应该尽量与系统分离开来。如果由于服务中断而无法发出警报，那么服务中断的持续时间会更长。

 AWS 在多个级别构建应用程序。我们会记录每个请求、所有依赖项和流程内关键操作的延迟、错误率和可用性，也会记录成功操作的指标。因此，我们能够在问题发生前发现问题。我们不仅会考虑平均延迟，还会更审慎地关注延迟异常值，如第 99.9 和 99.99 百分位数。因为在 1000 或 10000 个请求中，即使有一个的速度过慢，体验还是会变得非常糟糕。而且，虽然您的平均值可以接受，但每 100 个请求中有一个会导致极端延迟，那么当您的流量增加时，这最终就会成为问题。

 AWS 的监控包含四个不同的阶段：

1. 生成 – 为工作负载监控全部组件 

1. 聚合 – 定义与计算指标 

1. 实时处理与警报 – 发送通知并自动执行响应 

1. 存储与分析 

**Topics**
+ [REL06-BP01 为工作负载监控全部组件（生成）](rel_monitor_aws_resources_monitor_resources.md)
+ [REL06-BP02 定义与计算指标（聚合）](rel_monitor_aws_resources_notification_aggregation.md)
+ [REL06-BP03 发送通知（实时处理和报警）](rel_monitor_aws_resources_notification_monitor.md)
+ [REL06-BP04 自动响应（实时处理和警报）](rel_monitor_aws_resources_automate_response_monitor.md)
+ [REL06-BP05 分析日志](rel_monitor_aws_resources_storage_analytics.md)
+ [REL06-BP06 定期审核监控范围和指标](rel_monitor_aws_resources_review_monitoring.md)
+ [REL06-BP07 对系统中的请求进行端到端跟踪监控](rel_monitor_aws_resources_end_to_end.md)