本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
监控的工作原理
参见以下有关 AWS Managed Services (AMS) 监控架构的图片。
下图简要概述了 AMS 多账户着陆区和 AM S 单账户着陆区监控工作流程。
生成:在账户注册时,AMS 会为您在托管账户中创建的所有资源配置基准监控 CloudWatch ((CW)警报和 CW 事件规则的组合)。当触发 CW 警报或生成 CW 事件时,基准监控配置会生成警报。
聚合:
多账户登录区:警报由您在应用程序和核心组织部门账户中的资源生成,并通过安全帐户将警报发送到 AMS 监控系统。
单账户登录区:您的资源生成的所有警报都将通过将它们定向到账户中的 SNS 主题来发送到 AMS 监控系统。
您还可以配置 AMS 如何将 EC2 警报分组在一起。AMS 要么将与同一 EC2 实例相关的所有警报分组为单个事件,要么根据您的偏好为每个警报创建一个事件。您可以随时与云服务交付经理或云架构师合作更改此配置。无论您使用的是多账户着陆区还是单账户着陆区,其运作方式都是一样的。
处理:AMS 分析警报并根据其潜在影响进行处理。警报按下文所述进行处理。
具有已知客户影响的警报:这些警报会导致创建新的事件报告,AMS 遵循事件管理流程;有关事件管理的信息,请参阅AMS 事件响应。
警报示例:Amazon EC2 实例未通过系统运行状况检查,AMS 尝试通过停止并重启实例来恢复该实例。
对客户影响不确定的警报:对于这些类型的警报,AMS 会发送事件报告,在许多情况下,要求您在 AMS 采取行动之前验证影响。但是,如果与基础设施相关的检查通过,则 AMS 不会向您发送事件报告。
例如:Amazon EC2 实例上 CPU 使用率超过 85% 且持续时间超过 10 分钟的警报不能立即归类为事件,因为根据使用情况,可能会出现这种行为。在此示例中,AMS Automation 对资源执行与基础设施相关的检查。如果这些检查通过,即使 CPU 使用率超过 99%,AMS 也不会发送警报通知。如果 Automation 检测到资源上与基础设施相关的检查失败,则 AMS 会发送警报通知并检查是否需要缓解措施。本节将详细讨论警报通知。AMS 在通知中提供了缓解选项。当您回复确认警报为事件的通知时,AMS 会创建新的事件报告,AMS 事件管理流程随即开始。如果服务通知收到 “对客户没有影响” 的响应,或者在三天内完全没有回复,则会标记为已解决,相应的警报被标记为已解决。
不影响客户的警报:如果 AMS 在评估后确定该警报对客户没有影响,则该警报将关闭。
例如, AWS Health 通知需要替换的 EC2 实例,但该实例此后已终止。
EC2 实例分组通知
您可以将 AMS 监控配置为将来自同一 EC2 实例的警报组合成单个事件。您的云服务交付经理或云架构师可以为您进行配置。您可以为每个 AMS 管理的账户配置四个参数。
范围:选择账户范围或基于标签的范围。
要指定适用于该账户中每个 EC2 实例的配置,请选择范围 = 账户范围。
要指定仅适用于该账户中带有特定标签的 EC2 实例的配置,请选择 scope = based tag。
分组规则:选择经典或实例。
要为账户中的每个资源配置实例级分组,请选择范围 = 账户范围和分组规则 = 实例。
要将账户中的特定资源配置为使用实例级别分组,请标记这些实例,然后选择范围 = 基于标签和分组规则 = 实例级别。
要不对账户中的警报使用实例分组,请选择分组规则 = c lassic。
参与选项:选择 “无”、“仅限报告” 或 “默认”。
要使 AMS 在配置处于活动状态时不创建事件或自动处理来自这些资源的警报,请选择 “无”。
要让 AMS 在配置处于活动状态时不创建事件或自动处理来自这些资源的警报,也不要运行自动修复 Systems Manager 文档,但要在报告中包含这些事件的记录,请选择仅报告。如果您想减少与之互动的事件支持案例数量,并且某些资源中的某些事件(例如非生产账户中的事件)不需要立即关注,这可能会很有用。
要让 AMS 处理您的警报、运行自动化程序并在需要时创建事件案例,请选择默认。
之后解决:选择 24 小时、48 小时或 72 小时。最后,配置何时自动关闭事件案例。如果从上次案例对应的时间达到配置的 “解决后解决” 值,则事件将关闭。
警报通知
作为警报处理的一部分,AWS Managed Services (AMS) 会根据影响分析创建事件,并在确定影响后启动事件管理流程进行补救。如果无法确定影响,AMS 会通过服务通知向与您的账户关联的电子邮件地址发送提醒通知。在某些情况下,不会发送此警报通知。例如,如果与基础设施相关的检查通过 CPU 使用率高警报,则不会向您发送警报通知。有关更多信息,请参阅中有关警报处理过程的 AMS 监控架构图监控的工作原理。
基于标签的警报通知
使用标签将资源的警报通知发送到不同的电子邮件地址。最佳做法是使用基于标签的提醒通知,因为当多个开发者团队使用同一个账号时,发送到单个电子邮件地址的通知可能会造成混乱。基于标签的警报通知不受您选择的EC2 实例分组通知设置的影响。
使用基于标签的警报通知,您可以:
向特定的电子邮件地址发送警报:使用标记具有必须发送到特定电子邮件地址的警报的
key = OwnerTeamEmail资源value =。EMAIL_ADDRESS向多个电子邮件地址发送警报:要使用多个电子邮件地址,请指定以逗号分隔的值列表。例如
key =、OwnerTeamEmailvalue =。值字段的字符总数不能超过 260。EMAIL_ADDRESS_1,EMAIL_ADDRESS_2,EMAIL_ADDRESS_3, ...使用自定义标签密钥:要使用自定义标签密钥,请在电子邮件中向您的 CSDM 提供自定义标签密钥名称,明确表示同意为基于标签的通信激活自动通知。最佳做法是对所有实例和资源的联系人标签使用相同的标记策略。
注意
键值OwnerTeamEmail不必是驼峰大小写。但是,标签区分大小写,最佳做法是使用推荐的格式。
必须完整指定电子邮件地址,并用 “at 符号” (@) 将本地部分与域名分开。无效电子邮件地址示例:Team.AppATabc.xyz或john.doe。有关标记策略的一般指导,请参阅标记资源。 AWS不要在标签中添加个人身份信息 (PII)。尽可能使用通讯组列表或别名。
以下亚马逊服务的资源支持基于标签的警报通知: EC2、弹性块存储 (EBS)、弹性负载平衡 (ELB)、应用程序负载均衡器 (ALB)、网络负载均衡器、关系数据库服务 (RDS) OpenSearch、弹性文件系统 (EFS) 和 VPN。 FSx Site-to-Site