事件检测及响应服务中的工作负载加入和警报摄取问卷 - AWS 事件检测及响应服务用户指南

事件检测及响应服务中的工作负载加入和警报摄取问卷

本页提供了在将工作负载加入 AWS 事件检测及响应服务以及配置要摄取到该服务的警报时需要填写的问卷。工作负载加入问卷涵盖有关您工作负载、其架构详细信息以及事件响应联系人的一般信息。在警报摄取问卷中,您需要为您的工作负载指定会触发在事件检测及响应服务中创建事件的关键警报,并指定运行手册信息,说明应联系哪些人以及应采取哪些措施。正确填写这些问卷是为您的 AWS 工作负载设置监控和事件响应流程的关键步骤。

下载工作负载加入问卷

下载警报摄取问卷

工作负载加入问卷 - 一般问题

一般问题
问题 响应示例
企业名称

Amazon Inc.

此工作负载的名称(含任何缩写)

Amazon Retail Operations(ARO)

此工作负载的主要最终用户和功能。

此工作负载是一个电子商务应用程序,最终用户可通过它购买各种物品。此工作负载是我们业务的主要收入来源。

此工作负载适用的合规性和/或监管要求,以及事件发生后需要 AWS 采取的任何措施。

该工作负载主要处理需要确保安全性和机密性的患者医疗记录。

工作负载加入问卷 - 架构问题

架构问题
问题 响应示例

AWS 资源标签列表,用于定义属于此工作负载的资源。AWS 将使用这些标签来标识此工作负载的资源,以便在事件发生期间迅速为您提供支持。

注意

标签区分大小写。如果您提供多个标签,则此工作负载使用的所有资源都必须具有相同的标签。

应用程序名称:Optimax

环境:生产

此工作负载使用的 AWS 服务的列表,以及运行这些服务的 AWS 账户和区域。

注意

每项服务要新建一行。

Route 53:将互联网流量路由到 ALB。

账户:123456789101

区域:US-EAST-1、US-EAST-2

此工作负载使用的 AWS 服务的列表,以及运行这些服务的 AWS 账户和区域。

注意

每项服务要新建一行。

ALB:将传入流量路由到一组目标 ECS 容器。

账户:123456789101

区域:不适用

此工作负载使用的 AWS 服务的列表,以及运行这些服务的 AWS 账户和区域。

注意

每项服务要新建一行。

ECS:主业务逻辑队列的计算基础设施。负责处理传入的用户请求并向持久层进行查询。

账户:123456789101

区域:US-EAST-1

此工作负载使用的 AWS 服务的列表,以及运行这些服务的 AWS 账户和区域。

注意

每项服务要新建一行。

RDS:Amazon Aurora 集群存储由 ECS 业务逻辑层访问的用户数据。

账户:123456789101

区域:US-EAST-1

此工作负载使用的 AWS 服务的列表,以及运行这些服务的 AWS 账户和区域。

注意

每项服务要新建一行。

S3:存储网站静态资产。

账户:123456789101

区域:不适用

详细说明未加入但出现中断时可能会对此工作负载造成影响的任何上游/下游组件。 身份验证微服务:将阻止用户在未经身份验证的情况下加载医疗记录。
是否有适用于此工作负载的本地或非 AWS 组件? 如果有,那么是什么组件?执行哪些功能? 所有进出 AWS 的互联网流量均通过我们的本地代理服务进行路由。
在可用区和区域级别提供任何手动或自动失效转移/灾难恢复计划的详细信息。 暖备用。成功率持续下降期间自动失效转移到 US-WEST-2。

警报摄取问卷

运行手册问题
问题 响应示例

AWS 将通过 支持 案例与工作负载联系人接洽。当针对此工作负载触发警报时,谁是主要联系人?

指定您的首选会议应用程序,AWS 将在事件发生期间要求提供这些详细信息。

注意

如果未提供首选的会议应用程序,则 AWS 会在事件发生期间与您联系,并提供 Chime 桥供您加入。

应用程序团队

app@example.com

+61 2 3456 7890

如果事件发生期间联系不到主要联系人,请按首选的通信顺序提供上报联系人和时间表。

1. 10 分钟后,如果主要联系人没有回复,请联系:

John Smith - 应用程序主管

john.smith@example.com

+61 2 3456 7890

2. 10 分钟后,如果 John Smith 没有回复,请联系:

Jane Smith - 运维经理

jane.smith@example.com

+61 2 3456 7890

在整个事件期间,AWS 会定期通过支持案例传达更新内容。是否还需要向其他联系人传达这些更新内容?

john.smith@example.com,jane.smith@example.com

警报矩阵

提供以下信息以确定一组警报,这些警报将触发 AWS 事件检测及响应服务代表您的工作负载创建事件。AWS 事件检测及响应服务的工程师查看您的警报后,将提供额外的加入步骤。

AWS 事件检测及响应服务关键警报标准

  • AWS 事件检测及响应服务警报应仅在受监控的工作负载遭受重大业务影响(收入损失/客户体验降级)且需要运维人员立即给予关注时才会进入“警报”状态。

  • AWS 事件检测及响应服务警报还必须在联系的同时或联系之前与您工作负载的事件解决人员联系。AWS事件经理将会在风险缓解流程中与您的事件解决人员协作,而非充当第一响应者然后再上报给您。

  • AWS 事件检测及响应服务警报阈值必须设置为适当的阈值和持续时间,以便每当警报触发时,都会介入调查。如果警报介于“警报”和“正常”状态之间,会产生足够的影响以确保得到运维人员的响应和关注。

AWS 事件检测及响应服务标准违规政策

只有当发生事件时,才能根据具体案例评估这些标准。事件管理团队会与您的技术客户经理(TAM)协作来调整警报,并且在极少数情况下,如果怀疑客户警报不符合此标准,且不必要地定期与事件管理团队联系,则会禁用监控。

重要

在提供联系人地址时提供群组分发电子邮件地址,这样您就可以控制收件人的添加和删除而无需更新运行手册。

如果您希望 AWS 事件检测及响应服务团队在发送初始互动电子邮件后给您的站点可靠性工程(SRE)团队打电话,请提供他们的联系电话。

警报矩阵表
指标名称/ARN/阈值 描述 备注 请求的操作

工作负载数量/

CW Alarm ARN/

5 分钟内 5 个数据点的 CallCount < 100000,将缺失数据处理为缺失

该指标表示进入工作负载的传入请求数,在应用程序负载均衡器级别进行衡量。

此警报很重要,因为传入请求大量减少可能表明上游网络连接存在问题,或者我们的 DNS 实现存在问题,导致用户无法访问工作负载。

该警报在上周进入“警报”状态 10 次。此警报存在误报的风险。已计划进行阈值审核。

存在问题? “否”或“是”(如果为“否”,则留空):在执行特定的批处理作业期间,此警报频繁翻转。

解决人员:站点可靠性工程师

发送电子邮件至 SRE@example.com,联系站点可靠性工程团队

为我们的 ELB 和 Amazon Route 53 服务创建 AWS 支持 案例。

如果需要立即采取措施:检查 EC2 可用内存/磁盘空间,并通过电子邮件通知示例团队重启实例,或者刷新日志。(如果不需要立即采取措施,请留空)

工作负载请求延迟/

CW Alarm ARN/

5 分钟内 5 个数据点的 p90 延迟 > 100 毫秒,将缺失数据处理为缺失

此指标表示工作负载完成 HTTP 请求的 p90 延迟。

此警报表示延迟(衡量网站客户体验的重要指标)。

该警报在上周进入“警报”状态 0 次。

存在问题? “否”或“是”(如果为“否”,则留空):在执行特定的批处理作业期间,此警报频繁翻转。

解决人员:站点可靠性工程师

发送电子邮件至 SRE@example.com,联系站点可靠性工程团队

为我们的 ECW 和 RDS 服务创建 AWS 支持 案例。

如果需要立即采取措施:检查 EC2 可用内存/磁盘空间,并通过电子邮件通知示例团队重启实例,或者刷新日志。(如果不需要立即采取措施,请留空)

工作负载请求可用性/

CW Alarm ARN/

5 分钟内 5 个数据点的可用性 < 95%,将缺失数据处理为缺失。

此指标表示工作负载完成 HTTP 请求的可用性。每个时段的 HTTP 200 数量除以请求数。

此警报表示工作负载的可用性。

该警报在上周进入“警报”状态 0 次。

存在问题? “否”或“是”(如果为“否”,则留空):在执行特定的批处理作业期间,此警报频繁翻转。

解决人员:站点可靠性工程师

发送电子邮件至 SRE@example.com,联系站点可靠性工程团队

为我们的 ELB 和 Amazon Route 53 服务创建 AWS 支持 案例。

如果需要立即采取措施:检查 EC2 可用内存/磁盘空间,并通过电子邮件通知示例团队重启实例,或者刷新日志。(如果不需要立即采取措施,请留空)

 

New Relic 警报示例

端到端集成测试/

CW Alarm ARN/

3 分钟持续时间内 1 分钟指标的失败率为 3%,将缺失数据处理为缺失

工作负载标识符:端到端测试工作流程,AWS 区域:US-EAST-1,AWS 账户 ID:012345678910

此指标用于测试请求是否可以遍历工作负载的每一层。如果该测试失败,则表示存在严重故障,无法处理业务交易。

此警报表示处理工作负载业务交易的能力。

该警报在上周进入“警报”状态 0 次。

存在问题? “否”或“是”(如果为“否”,则留空):在执行特定的批处理作业期间,此警报频繁翻转。

解决人员:站点可靠性工程师

发送电子邮件至 SRE@example.com,联系站点可靠性工程团队

为我们的 Amazon Elastic Container Service 和 Amazon DynamoDB 服务创建 AWS 支持 案例。

如果需要立即采取措施:检查 EC2 可用内存/磁盘空间,并通过电子邮件通知示例团队重启实例,或者刷新日志。(如果不需要立即采取措施,请留空)