本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
来自 AMS 基线监测的警报
了解 AMS 监控默认设置。有关更多信息,请参阅 AMS 中的监控和事件管理。
下表显示了监控的内容以及默认的警报阈值。在确定要进行哪些更改并订阅相关的 Amazon SNS 主题后,您可以使用管理 | 其他 | 其他 | 更新 (ct-0xdawir96cy7k) RFC 更改提醒阈值。 CloudWatch 有关创建和订阅主题的信息,请参阅订阅主题。有关一般信息,请参阅 Amazon SNS FAQs
Amazon CloudWatch 提供了更长的指标保留期。有关更多信息,请参阅CloudWatch 限制。
注意
AMS 定期校准其基线监测。新账户始终使用最新的基准监控,该表描述了新加入账户的基准监控。AMS 会定期更新现有账户的基准监控,在更新到位之前,您可能会遇到一段时间延迟。有关更多信息,请参阅 查看 AMS 账户的监控配置。
注意
默认情况下, EC2 实例警报Non-root volume usage处于禁用状态。如果您需要根据此警报生成警报,则必须使用 RFC Change Type ct-0erkoad6uyvvg 将其启用
服务 |
安全警报 |
警报名称和触发条件 |
备注 |
|---|---|---|---|
对于已加星标的 (*) 警报,AMS 会主动评估影响并在可能的情况下进行补救;如果无法进行补救,AMS 就会造成事故。如果自动化无法纠正问题,AMS 会通知您事故案例,并让 AMS 工程师参与。此外,这些提醒可以直接发送到您的电子邮件中(如果您已选择加入 Direct-Customer-Alerts SNS 主题)。 | |||
Application Load Balancer (ALB) 实例 |
否 |
RejectedConnectionCount 总和 > 0,持续 1 分钟,连续 5 次。 |
CloudWatch 如果因为负载均衡器达到最大值而被拒绝的连接数就会发出警报。 |
Application Load Balancer (ALB) 目标 |
否 |
TargetConnectionErrorCount 总和 > 0,持续 1 分钟,连续 5 次。 |
CloudWatch 如果负载均衡器和注册实例之间未成功建立连接数,则发出警报。 |
亚马逊 EC2 实例 — Windows |
否 |
SecureChannelFailure 在最后 15 个数据点中,有 10 个数据点大于 0.0。 |
CloudWatch 在 Windows 实例上发出警报,以便在安全通道连接失败时发出警报。 |
Aurora 实例 |
否 |
CPUUtilization 大于 85%,持续 5 分钟,连续 2 次。 |
CloudWatch 警报。 |
AWS Backup |
是 |
DeleteRecoveryPoint 意外的 IAM 角色委托人或 IAM 用户委托人删除了 AWS Backup 恢复点。 |
CloudWatch 事件。删除备份恢复点时发出。 |
|
AWS Outposts |
是 |
AMSOutpostsInstanceFamilyCapacityAvailability InstanceFamilyCapacityAvailability = 80% 持续 5 分钟,连续 12 次。 |
CloudWatch 对 AWS Outposts 资源的实例系列容量可用性发出警报。 |
AMSOutpostsInstanceTypeCapacityAvailability TypeCapacityAvailability = 80% 持续 5 分钟,连续 12 次。 |
CloudWatch 对 AWS Outposts 资源的实例类型容量可用性发出警报。 |
||
AMSOutpostsConnectedStatusConnectedStatus < 1,持续 5 分钟,连续 1 次。 |
CloudWatch AWS Outposts 服务链路连接时发出警报,少于 1 个计数受损。 |
||
AMSOutpostsCapacityExceptionCapacityExceptions 0 表示 5 分钟,连续 1 次。 |
CloudWatch 为资源启动实例时出现容量不足错误时 AWS Outposts发出警报 . |
||
EC2 实例-全部 OSs |
否 |
CPUUtilization* 大于 95%,持续 5 分钟,连续 6 次。 |
CloudWatch 警报。CPU 利用率高表明应用程序状态发生了变化,例如死锁、无限循环、恶意攻击和其他异常。 |
StatusCheckFailed > 0,持续 5 分钟,连续 3 次。 |
CloudWatch 警报。 | ||
根卷使用情况 大于 95%,持续 5 分钟,连续 6 次。 | |||
非 root 卷使用情况 大于 85%,持续 5 分钟,连续 2 次。 | |||
内存可用 * MemoryFree 小于 5%,持续 5 分钟,连续 6 次。 | |||
是 |
EPS恶意软件 在实例中发现了恶意软件。 |
CloudWatch 事件。 | |
亚马逊 EC2 实例-Linux |
否 |
根卷索引节点使用情况 连续 6 次,5 分钟内平均值大于 95%。 |
CloudWatch 警报。仅适用于 Linux 实例。 |
免费交换 * 内存交换 < 5%,持续 5 分钟,连续 6 次。 | |||
ElastiCache 集群 |
否 |
CurrConnections = 65000 |
此警报通知 AMS ElastiCache 主机的最大连接限制。 CloudWatch 警报。如果您想更新此阈值,请联系 AMS 支持人员。 |
ElastiCache 节点 |
否 |
CPUUtilization 平均值 > 预定义值,持续 2 次,持续 15 分钟。 |
CloudWatch 警报。默认值为 90。如果是 Redis,则根据实例类型使用以下值之一:
|
ElastiCache 节点-内存缓存 |
否 |
SwapUsage 连续 5 次,5 分钟内最大值大于 50,000,000 字节。 |
CloudWatch 警报。仅适用于内存缓存。 |
OpenSearch 集群 |
否 |
ClusterStatus.red 最大值为 >= 1,持续 1 分钟,连续 1 次。 触发此警报后,AMS 会采取积极措施以减少对运营的影响。 |
CloudWatch 警报。至少有一个主分片其及副本未分配给节点。要了解更多信息,请参阅 Red Cluster 状态。 |
OpenSearch 域 |
否 |
KMSKey错误 >= 1 持续 1 分钟,连续 1 次。 |
CloudWatch 警报。用于在您的域中加密静态数据的 KMS 加密密钥已禁用。重新启用它可恢复正常操作。要了解更多信息,请参阅 OpenSearch 服务服务的静态数据加密。 |
ClusterStatus. 黄色 最大值为 >= 1,持续 1 分钟,连续 1 次 触发此警报后,AMS 会采取积极措施以减少对运营的影响。 |
至少有一个副本分片未分配给节点。要了解更多信息,请参阅黄色群集状态。 | ||
FreeStorageSpace 最小值为 <= 20480,持续 1 分钟,连续 1 次 触发此警报后,AMS 会采取积极措施以减少对运营的影响。 |
您的集群中的节点已降至 20GiB 的可用存储空间。要了解更多信息,请参阅可用存储空间不足。 | ||
ClusterIndexWritesBlocked >= 1 持续 5 分钟,连续 1 次 触发此警报后,AMS 会采取积极措施以减少对运营的影响。 |
集群正在阻止写入请求。要了解更多信息,请参阅 ClusterBlockException。 | ||
节点 最小值为 < x,持续 1 天 触发此警报后,AMS 会采取积极措施以减少对运营的影响。 |
x 是您的集群中的节点数。此警报表示您的群集中至少有一个节点无法访问的时间已达到一天。要了解更多信息,请参阅集群节点故障。 | ||
CPUUtilization 连续 3 次,15 分钟内平均值大于 80% 触发此警报后,AMS 会采取积极措施以减少对运营的影响。 |
100% 的 CPU 利用率很常见,但是持续的高平均利用率是有问题的。考虑使用更大的实例类型或添加实例。 | ||
JVMMemory压力 最大值为 >= 80%,持续 5 分钟,连续 3 次 触发此警报后,AMS 会采取积极措施以减少对运营的影响。 |
如果使用量增加,群集可能会遇到内存不足错误。请考虑垂直扩展。Amazon ES 将实例内存的一半用于 Java 堆,堆大小不超过 32 GiB。您最多可以将实例的 RAM 垂直扩展至 64GiB,此时可以通过添加实例水平扩展。 | ||
大师 CPUUtilization 15 分钟内平均值大于 50%,连续 3 次 触发此警报后,AMS 会采取积极措施以减少对运营的影响。 |
考虑为您的专用主节点使用更大的实例类型。由于专用主节点在集群稳定性和 blue/green 部署中的作用,因此其平均 CPU 使用率应低于数据节点。 | ||
主JVMMemory压力 最大 >= 80%,持续 15 分钟,连续 1 次 触发此警报后,AMS 会采取积极措施以减少对运营的影响。 |
考虑为您的专用主节点使用更大的实例类型。由于专用主节点在集群稳定性和 blue/green 部署中的作用,因此其平均 CPU 使用率应低于数据节点。 | ||
OpenSearch 实例 |
否 |
AutomatedSnapshotFailure 最大值为 >= 1,持续 1 分钟,连续 1 次。 |
CloudWatch 警报。自动快照失败。此故障通常由红色群集运行状况导致。参见红色集群状态。 |
Elastic Load Balancin |
否 |
SurgeQueueLength 大于 100,持续 1 分钟,连续 15 次。 |
CloudWatch 如果有多余的请求等待路由,则发出警报。 |
HTTPCode_elb_5xx_count 总和 > 0,持续 5 分钟,连续 3 次。 |
CloudWatch 如果来自负载均衡器的 HTTP 5XX 响应代码数量过多,则发出警报。 | ||
SpilloverCount > 1,持续 1 分钟,连续 15 次。 |
CloudWatch 如果由于激增队列已满而被拒绝的请求数量过多,则发出警报。 | ||
GuardDuty 服务 |
是 |
不适用;所有发现(威胁目的)都受到监控。每个发现都对应一个警报。 GuardDuty 调查结果的变化。这些变化包括新生成的发现或后续出现的现有发现。 |
支持的 GuardDuty 查找类型列表位于 “ GuardDuty 活动查找类型” 上。 |
Health |
变化 |
AWS Health Dashboard |
与 AMS 支持的基准服务相关的 AWS Health Dashboard (AWS Health) 事件状态发生变化时,系统会发送通知。有关更多信息,请参阅支持的服务。 |
AWS Managed Microsoft AD |
否 |
活动目录状态 AWS Managed Microsoft AD 实例发送活动状态事件。 |
服务事件。在事件发生后目录正常运行时发出。 |
受损的目录状态 AWS Managed Microsoft AD 实例发送受损的目录状态事件。 |
服务事件。当目录以降级状态运行时发出。检测到一个或多个问题,可能有的目录操作未在完全有效地工作。 | ||
无法操作的目录状态 AWS Managed Microsoft AD 实例发送无法操作的状态事件。 |
服务事件。当目录不起作用时发出。所有目录终端节点都报告有问题。 | ||
正在删除目录状态 AWS Managed Microsoft AD 实例发送删除目录状态事件。 |
服务事件。当前正在删除目录时发出。 | ||
失败的目录状态 AWS Managed Microsoft AD 实例发送失败状态事件。 |
服务事件。无法创建目录时发出。 | ||
RestoreFailed 目录状态 AWS Managed Microsoft AD 实例发送恢复失败的目录状态事件。 |
服务事件。从快照恢复目录失败时发出。 | ||
亚马逊 RDS 实例 |
否 |
当为数据库实例分配的存储空间用完时,将触发存储空间不足警报。 |
RDS-EVENT-0007,详情请参阅使用亚马逊 RDS 事件通知。 |
数据库实例失败 由于某个不兼容配置或底层存储问题,数据库实例已失败。从 point-in-time-restore数据库实例开始。 |
服务事件。RDS-EVENT-0031、Amazon RDS 事件类别和事件消息。 | ||
未尝试故障切换 Amazon RDS 不会因为数据库实例上最近出现故障转移而尝试请求故障转移。 |
服务事件。RDS-EVENT-0034、Amazon RDS 事件类别和事件消息。 | ||
数据库实例参数无效 例如,由于该实例类的内存相关参数设置得太高,MySQL 无法启动,因此客户需要修改内存参数并重启数据库实例。 |
服务事件。RDS-EVENT-0035、Amazon RDS 事件类别和事件消息。 | ||
子网 IDs 数据库实例无效 数据库实例处于不兼容的网络中。某些指定的子网 IDs 无效或不存在。 |
服务事件。RDS-EVENT-0036、Amazon RDS 事件类别和事件消息。 | ||
数据库实例只读副本错误 在读取复制过程中出错。有关详细信息,请参阅事件消息。有关排查只读副本错误的信息,请参阅 MySQL 只读副本问题疑难解答。 |
服务事件。RDS-EVENT-0045、Amazon RDS 事件类别和事件消息。 | ||
数据库实例读取复制已结束 只读副本上的复制已结束。 |
服务事件。RDS-EVENT-0057、Amazon RDS 事件类别和事件消息。 | ||
创建 statspack 用户账户时出错 创建 Statspack 用户账户 PERFSTAT 时出错。在添加 Statspack 选项之前,请先删除账户。 |
服务事件。RDS-EVENT-0058、Amazon RDS 事件类别和事件消息。 | ||
数据库实例恢复开始 SQL Server 数据库实例正在重新建立其镜像。在镜像重新建立之前,性能将下降。发现具有非 FULL 恢复模式的数据库。恢复模式已更改回完整模式并开始镜像恢复。 (<dbname>: <recovery model found>[,...])。 |
服务事件。RDS-EVENT-0066、Amazon RDS 事件类别和事件消息。 | ||
数据库群集的故障转移已失败。 |
RDS-EVENT-0069,请在 Amazon RDS 事件类别和事件消息中查看详情。 | ||
权限恢复无效 S3 存储桶 用于访问您的 Amazon S3 存储桶以执行 SQL Server 本机备份和恢复的 IAM 角色配置不正确。有关更多信息,请参阅设置本机 Backup 和还原。 |
服务事件。RDS-EVENT-0081、Amazon RDS 事件类别和事件消息。 | ||
Aurora 无法从 Amazon S3 存储桶复制备份数据。 |
RDS-EVENT-0082,请在 Amazon RDS 事件类别和事件消息中查看详情。 | ||
当数据库实例消耗了其分配的存储空间的 90% 以上时,会发出存储空间不足警报 |
RDS-EVENT-0089,请在 Amazon RDS 事件类别和事件消息中查看详情。 | ||
Aurora 无服务器数据库集群扩展失败时的通知服务。 |
RDS-EVENT-0143,请在 Amazon RDS 事件类别和事件消息中查看详情。 | ||
数据库实例处于无效状态。无需采取操作。弹性伸缩稍后将重试。 |
RDS-EVENT-0219,请在 Amazon RDS 事件类别和事件消息中查看详情。 | ||
数据库实例已达到存储已满阈值,并且数据库已关闭。 |
RDS-EVENT-0221,请在 Amazon RDS 事件类别和事件消息中查看详情。 | ||
此事件表示 RDS 实例存储无法自动扩展,自动扩缩失败的原因可能有多种。 |
RDS-EVENT-0223,请在 Amazon RDS 事件类别和事件消息中查看详情。 | ||
存储弹性伸缩已触发待处理的扩展存储任务,该任务将达到最大存储阈值。 |
RDS-EVENT-0224,请在 Amazon RDS 事件类别和事件消息中查看详情。 | ||
数据库实例的存储类型目前在可用区中不可用。弹性伸缩稍后将重试。 |
RDS-EVENT-0237,请在 Amazon RDS 事件类别和事件消息中查看详情。 | ||
RDS 无法为代理预调配容量,因为您的子网中没有足够的 IP 地址可用。 |
RDS-EVENT-0243,请在 Amazon RDS 事件类别和事件消息中查看详情。 | ||
您的 AWS 账户的存储空间已超过允许的存储配额。 |
RDS-EVENT-0254,请在 Amazon RDS 事件类别和事件消息中查看详情。 | ||
CPUUtilization 连续 2 次,15 分钟内 CPU 平均利用率大于 90%。 |
CloudWatch 警报。 | ||
DiskQueueDepth 总和大于 75,持续 1 分钟,连续 15 次。 | |||
FreeStorageSpace 连续 2 次,5 分钟内平均值小于 1,073,741,824 字节。 | |||
SwapUsage 连续 2 次,5 分钟内平均值 >= 104,857,600 字节。 | |||
Amazon Redshift 集群 |
否 |
RedshiftClusterStatus 未处于维护模式时集群的生命值 < 1,持续 5 分钟。 |
1 表示集群运行状况良好。 |
Amazon Macie |
是 |
新生成的警报和对现有警报的更新。 Macie 发现调查结果有任何变化。这些变化包括新生成的发现或后续出现的现有发现。 |
亚马逊 Macie 提醒。有关支持的 Macie 警报类型的列表,请参阅分析亚马逊 Mac ie 调查结果。请注意,并非所有账户都启用 Macie。 |
触发此警报后,AMS 会采取主动行动(扩展集群)。
有关补救工作的信息,请参阅AMS 自动修复警报。