来自 AMS 基线监测的警报 - AMS 高级用户指南

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

来自 AMS 基线监测的警报

了解 AMS 监控默认设置。有关更多信息,请参阅 AMS 中的监控和事件管理

下表显示了监控的内容以及默认的警报阈值。在确定要进行哪些更改并订阅相关的 Amazon SNS 主题后,您可以使用管理 | 其他 | 其他 | 更新 (ct-0xdawir96cy7k) RFC 更改提醒阈值。 CloudWatch 有关创建和订阅主题的信息,请参阅订阅主题。有关一般信息,请参阅 Amazon SNS FAQs。除了 AMS 的标准警报流程外,要在警报超过阈值时直接收到通知,请按照以下有关如何覆盖警报配置的说明进行操作。接收 AMS 生成的警报

Amazon CloudWatch 提供了更长的指标保留期。有关更多信息,请参阅CloudWatch 限制

注意

AMS 定期校准其基线监测。新账户始终使用最新的基准监控,该表描述了新加入账户的基准监控。AMS 会定期更新现有账户的基准监控,在更新到位之前,您可能会遇到一段时间延迟。有关更多信息,请参阅 查看 AMS 账户的监控配置

注意

默认情况下, EC2 实例警报Non-root volume usage处于禁用状态。如果您需要根据此警报生成警报,则必须使用 RFC Change Type ct-0erkoad6uyvvg 将其启用

来自基线监控的警报

服务

安全警报

警报名称和触发条件

备注

对于已加星标的 (*) 警报,AMS 会主动评估影响并在可能的情况下进行补救;如果无法进行补救,AMS 就会造成事故。如果自动化无法纠正问题,AMS 会通知您事故案例,并让 AMS 工程师参与。此外,这些提醒可以直接发送到您的电子邮件中(如果您已选择加入 Direct-Customer-Alerts SNS 主题)。

Application Load Balancer (ALB) 实例

RejectedConnectionCount

总和 > 0,持续 1 分钟,连续 5 次。

CloudWatch 如果因为负载均衡器达到最大值而被拒绝的连接数就会发出警报。

Application Load Balancer (ALB) 目标

TargetConnectionErrorCount

总和 > 0,持续 1 分钟,连续 5 次。

CloudWatch 如果负载均衡器和注册实例之间未成功建立连接数,则发出警报。

亚马逊 EC2 实例 — Windows

SecureChannelFailure

在最后 15 个数据点中,有 10 个数据点大于 0.0。

CloudWatch 在 Windows 实例上发出警报,以便在安全通道连接失败时发出警报。

Aurora 实例

CPUUtilization

大于 85%,持续 5 分钟,连续 2 次。

CloudWatch 警报。

AWS Backup

DeleteRecoveryPoint

意外的 IAM 角色委托人或 IAM 用户委托人删除了 AWS Backup 恢复点。

CloudWatch 事件。删除备份恢复点时发出。

AWS Outposts

AMSOutpostsInstanceFamilyCapacityAvailability InstanceFamilyCapacityAvailability

= 80% 持续 5 分钟,连续 12 次。

CloudWatch 对 AWS Outposts 资源的实例系列容量可用性发出警报。

AMSOutpostsInstanceTypeCapacityAvailability TypeCapacityAvailability

= 80% 持续 5 分钟,连续 12 次。

CloudWatch 对 AWS Outposts 资源的实例类型容量可用性发出警报。

AMSOutpostsConnectedStatusConnectedStatus

< 1,持续 5 分钟,连续 1 次。

CloudWatch AWS Outposts 服务链路连接时发出警报,少于 1 个计数受损。

AMSOutpostsCapacityExceptionCapacityExceptions

0 表示 5 分钟,连续 1 次。

CloudWatch 为资源启动实例时出现容量不足错误时 AWS Outposts发出警报

.

EC2 实例-全部 OSs

CPUUtilization*

大于 95%,持续 5 分钟,连续 6 次。

CloudWatch 警报。CPU 利用率高表明应用程序状态发生了变化,例如死锁、无限循环、恶意攻击和其他异常。

StatusCheckFailed

> 0,持续 5 分钟,连续 3 次。

CloudWatch 警报。

根卷使用情况

大于 95%,持续 5 分钟,连续 6 次。

非 root 卷使用情况

大于 85%,持续 5 分钟,连续 2 次。

默认情况下处于禁用状态;有关更多信息,请参阅https://docs.aws.amazon.com/managedservices/latest/ctref/management-monitoring-cloudwatch-enable-non-root-volumes-monitoring.html#management-monitoring-cloudwatch-enable-non-root-volumes-monitoring-info

内存可用 *

MemoryFree 小于 5%,持续 5 分钟,连续 6 次。

EPS恶意软件

在实例中发现了恶意软件。

CloudWatch 事件。

亚马逊 EC2 实例-Linux

根卷索引节点使用情况

连续 6 次,5 分钟内平均值大于 95%。

CloudWatch 警报。仅适用于 Linux 实例。

免费交换 *

内存交换 < 5%,持续 5 分钟,连续 6 次。

ElastiCache 集群

CurrConnections = 65000

此警报通知 AMS ElastiCache 主机的最大连接限制。

CloudWatch 警报。如果您想更新此阈值,请联系 AMS 支持人员。

ElastiCache 节点

CPUUtilization

平均值 > 预定义值,持续 2 次,持续 15 分钟。

CloudWatch 警报。默认值为 90。如果是 Redis,则根据实例类型使用以下值之一:

  • cache.t1.micro:90%

  • cache.m1.small:90%

  • cache.m1.medium:90%

  • cache.m1.large:45%

  • cache.m1.xlarge:22.5%

  • cache.m2.xlarge:45%

  • cache.m2.4xlarge:11.25%

  • cache.c1.xlarge:11.25%

  • cache.t2.micro:90%

  • cache.t2.small:90%

  • cache.t2.medium:45%

  • cache.m3.medium:90%

  • cache.m3.large:45%

  • cache.m3.xlarge:22.5%

  • cache.m3.2xlarge:11.25%

  • cache.r3.large:45%

  • cache.r3.xlarge:22.5%

  • cache.r3.2xlarge:11.25%

  • cache.r3.4xlarge:5.625%

  • cache.r3.8xlarge:2.8125%

ElastiCache 节点-内存缓存

SwapUsage

连续 5 次,5 分钟内最大值大于 50,000,000 字节。

CloudWatch 警报。仅适用于内存缓存。

OpenSearch 集群

ClusterStatus.red

最大值为 >= 1,持续 1 分钟,连续 1 次。

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

CloudWatch 警报。至少有一个主分片其及副本未分配给节点。要了解更多信息,请参阅 Red Cluster 状态

OpenSearch 域

KMSKey错误

>= 1 持续 1 分钟,连续 1 次。

CloudWatch 警报。用于在您的域中加密静态数据的 KMS 加密密钥已禁用。重新启用它可恢复正常操作。要了解更多信息,请参阅 OpenSearch 服务服务的静态数据加密

ClusterStatus. 黄色

最大值为 >= 1,持续 1 分钟,连续 1 次

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

至少有一个副本分片未分配给节点。要了解更多信息,请参阅黄色群集状态

FreeStorageSpace

最小值为 <= 20480,持续 1 分钟,连续 1 次

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

您的集群中的节点已降至 20GiB 的可用存储空间。要了解更多信息,请参阅可用存储空间不足

ClusterIndexWritesBlocked

>= 1 持续 5 分钟,连续 1 次

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

集群正在阻止写入请求。要了解更多信息,请参阅 ClusterBlockException

节点

最小值为 < x,持续 1 天

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

x 是您的集群中的节点数。此警报表示您的群集中至少有一个节点无法访问的时间已达到一天。要了解更多信息,请参阅集群节点故障

CPUUtilization

连续 3 次,15 分钟内平均值大于 80%

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

100% 的 CPU 利用率很常见,但是持续的高平均利用率是有问题的。考虑使用更大的实例类型或添加实例。

JVMMemory压力

最大值为 >= 80%,持续 5 分钟,连续 3 次

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

如果使用量增加,群集可能会遇到内存不足错误。请考虑垂直扩展。Amazon ES 将实例内存的一半用于 Java 堆,堆大小不超过 32 GiB。您最多可以将实例的 RAM 垂直扩展至 64GiB,此时可以通过添加实例水平扩展。

大师 CPUUtilization

15 分钟内平均值大于 50%,连续 3 次

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

考虑为您的专用主节点使用更大的实例类型。由于专用主节点在集群稳定性和 blue/green 部署中的作用,因此其平均 CPU 使用率应低于数据节点。

主JVMMemory压力

最大 >= 80%,持续 15 分钟,连续 1 次

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

考虑为您的专用主节点使用更大的实例类型。由于专用主节点在集群稳定性和 blue/green 部署中的作用,因此其平均 CPU 使用率应低于数据节点。

OpenSearch 实例

AutomatedSnapshotFailure

最大值为 >= 1,持续 1 分钟,连续 1 次。

CloudWatch 警报。自动快照失败。此故障通常由红色群集运行状况导致。参见红色集群状态

Elastic Load Balancin

SurgeQueueLength

大于 100,持续 1 分钟,连续 15 次。

CloudWatch 如果有多余的请求等待路由,则发出警报。

HTTPCode_elb_5xx_count

总和 > 0,持续 5 分钟,连续 3 次。

CloudWatch 如果来自负载均衡器的 HTTP 5XX 响应代码数量过多,则发出警报。

SpilloverCount

> 1,持续 1 分钟,连续 15 次。

CloudWatch 如果由于激增队列已满而被拒绝的请求数量过多,则发出警报。

GuardDuty 服务

不适用;所有发现(威胁目的)都受到监控。每个发现都对应一个警报。

GuardDuty 调查结果的变化。这些变化包括新生成的发现或后续出现的现有发现。

支持的 GuardDuty 查找类型列表位于 “ GuardDuty 活动查找类型” 上。

Health

变化

AWS Health Dashboard

与 AMS 支持的基准服务相关的 AWS Health Dashboard (AWS Health) 事件状态发生变化时,系统会发送通知。有关更多信息,请参阅支持的服务

AWS Managed Microsoft AD

活动目录状态

AWS Managed Microsoft AD 实例发送活动状态事件。

服务事件。在事件发生后目录正常运行时发出。

受损的目录状态

AWS Managed Microsoft AD 实例发送受损的目录状态事件。

服务事件。当目录以降级状态运行时发出。检测到一个或多个问题,可能有的目录操作未在完全有效地工作。

无法操作的目录状态

AWS Managed Microsoft AD 实例发送无法操作的状态事件。

服务事件。当目录不起作用时发出。所有目录终端节点都报告有问题。

正在删除目录状态

AWS Managed Microsoft AD 实例发送删除目录状态事件。

服务事件。当前正在删除目录时发出。

失败的目录状态

AWS Managed Microsoft AD 实例发送失败状态事件。

服务事件。无法创建目录时发出。

RestoreFailed 目录状态

AWS Managed Microsoft AD 实例发送恢复失败的目录状态事件。

服务事件。从快照恢复目录失败时发出。

亚马逊 RDS 实例

当为数据库实例分配的存储空间用完时,将触发存储空间不足警报。

RDS-EVENT-0007,详情请参阅使用亚马逊 RDS 事件通知

数据库实例失败

由于某个不兼容配置或底层存储问题,数据库实例已失败。从 point-in-time-restore数据库实例开始。

服务事件。RDS-EVENT-0031、Amazon RDS 事件类别和事件消息

未尝试故障切换

Amazon RDS 不会因为数据库实例上最近出现故障转移而尝试请求故障转移。

服务事件。RDS-EVENT-0034、Amazon RDS 事件类别和事件消息

数据库实例参数无效

例如,由于该实例类的内存相关参数设置得太高,MySQL 无法启动,因此客户需要修改内存参数并重启数据库实例。

服务事件。RDS-EVENT-0035、Amazon RDS 事件类别和事件消息

子网 IDs 数据库实例无效

数据库实例处于不兼容的网络中。某些指定的子网 IDs 无效或不存在。

服务事件。RDS-EVENT-0036、Amazon RDS 事件类别和事件消息

数据库实例只读副本错误

在读取复制过程中出错。有关详细信息,请参阅事件消息。有关排查只读副本错误的信息,请参阅 MySQL 只读副本问题疑难解答

服务事件。RDS-EVENT-0045、Amazon RDS 事件类别和事件消息

数据库实例读取复制已结束

只读副本上的复制已结束。

服务事件。RDS-EVENT-0057、Amazon RDS 事件类别和事件消息

创建 statspack 用户账户时出错

创建 Statspack 用户账户 PERFSTAT 时出错。在添加 Statspack 选项之前,请先删除账户。

服务事件。RDS-EVENT-0058、Amazon RDS 事件类别和事件消息

数据库实例恢复开始

SQL Server 数据库实例正在重新建立其镜像。在镜像重新建立之前,性能将下降。发现具有非 FULL 恢复模式的数据库。恢复模式已更改回完整模式并开始镜像恢复。 (<dbname>: <recovery model found>[,...])。

服务事件。RDS-EVENT-0066、Amazon RDS 事件类别和事件消息

数据库群集的故障转移已失败。

RDS-EVENT-0069,请在 Amazon RDS 事件类别和事件消息中查看详情。

权限恢复无效 S3 存储桶

用于访问您的 Amazon S3 存储桶以执行 SQL Server 本机备份和恢复的 IAM 角色配置不正确。有关更多信息,请参阅设置本机 Backup 和还原

服务事件。RDS-EVENT-0081、Amazon RDS 事件类别和事件消息

Aurora 无法从 Amazon S3 存储桶复制备份数据。

RDS-EVENT-0082,请在 Amazon RDS 事件类别和事件消息中查看详情。

当数据库实例消耗了其分配的存储空间的 90% 以上时,会发出存储空间不足警报

RDS-EVENT-0089,请在 Amazon RDS 事件类别和事件消息中查看详情。

Aurora 无服务器数据库集群扩展失败时的通知服务。

RDS-EVENT-0143,请在 Amazon RDS 事件类别和事件消息中查看详情。

数据库实例处于无效状态。无需采取操作。弹性伸缩稍后将重试。

RDS-EVENT-0219,请在 Amazon RDS 事件类别和事件消息中查看详情。

数据库实例已达到存储已满阈值,并且数据库已关闭。

RDS-EVENT-0221,请在 Amazon RDS 事件类别和事件消息中查看详情。

此事件表示 RDS 实例存储无法自动扩展,自动扩缩失败的原因可能有多种。

RDS-EVENT-0223,请在 Amazon RDS 事件类别和事件消息中查看详情。

存储弹性伸缩已触发待处理的扩展存储任务,该任务将达到最大存储阈值。

RDS-EVENT-0224,请在 Amazon RDS 事件类别和事件消息中查看详情。

数据库实例的存储类型目前在可用区中不可用。弹性伸缩稍后将重试。

RDS-EVENT-0237,请在 Amazon RDS 事件类别和事件消息中查看详情。

RDS 无法为代理预调配容量,因为您的子网中没有足够的 IP 地址可用。

RDS-EVENT-0243,请在 Amazon RDS 事件类别和事件消息中查看详情。

您的 AWS 账户的存储空间已超过允许的存储配额。

RDS-EVENT-0254,请在 Amazon RDS 事件类别和事件消息中查看详情。

CPUUtilization

连续 2 次,15 分钟内 CPU 平均利用率大于 90%。

CloudWatch 警报。

DiskQueueDepth

总和大于 75,持续 1 分钟,连续 15 次。

FreeStorageSpace

连续 2 次,5 分钟内平均值小于 1,073,741,824 字节。

SwapUsage

连续 2 次,5 分钟内平均值 >= 104,857,600 字节。

Amazon Redshift 集群

RedshiftClusterStatus

未处于维护模式时集群的生命值 < 1,持续 5 分钟。

1 表示集群运行状况良好。

Amazon Macie

新生成的警报和对现有警报的更新。

Macie 发现调查结果有任何变化。这些变化包括新生成的发现或后续出现的现有发现。

亚马逊 Macie 提醒。有关支持的 Macie 警报类型的列表,请参阅分析亚马逊 Mac ie 调查结果。请注意,并非所有账户都启用 Macie。

触发此警报后,AMS 会采取主动行动(扩展集群)。

有关补救工作的信息,请参阅AMS 自动修复警报