来自 AMS 基线监测的警报 - AMS 加速用户指南

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

来自 AMS 基线监测的警报

了解有关 AMS 加速监控默认设置的信息。有关更多信息,请参阅 AMS Accelerate 中的监控和事件管理

下表显示了监控的内容和默认警报阈值。您可以使用自定义配置文档更改警报阈值,也可以提交服务请求。有关更改自定义警报配置的说明,请参阅更改加速警报配置。要在警报超过阈值时接收通知,除了 AMS 的标准警报流程外,您还可以覆盖警报配置。有关说明,请参阅加速警报管理器

Amazon CloudWatch 提供了更长的指标保留期。有关更多信息,请参阅CloudWatch 限制

注意

AMS Accelerate 会定期校准其基线监测。新账户始终使用最新的基准监控,该表描述了新加入账户的基准监控。AMS Accelerate 会定期更新现有账户的基准监控,在更新到位之前,您可能会遇到延迟。

来自基线监控的警报

服务/资源类型

警报来源和触发条件

警报名称和备注

对于已加星标的 (*) 警报,AMS 会主动评估影响并在可能的情况下进行补救;如果无法进行补救,AMS 就会造成事故。如果自动化无法纠正问题,AMS 会通知您事故案例,并让 AMS 工程师参与。此外,如果您选择加入 Direct-Customer-Alerts SNS 主题,则这些提醒将直接发送到您的电子邮件中。

Application Load Balanc

ApplicationLoadBalancerErrorCount

(HTTPCode_elb_5xx_count/RequestCount) *100

总和 > 15%,持续 1 分钟,连续 5 次。

应用程序 LoadBalancer HTTP 5XX 错误计数

CloudWatch 在负载均衡器生成的 HTTP 5XX 响应代码数量过多时发出警报。

Application Load Balanc

RejectedConnectionCount

总和 > 0%,持续 1 分钟,连续 5 次。

应用程序 LoadBalancer 被拒绝的连接计数

CloudWatch 如果因为负载均衡器达到最大值而被拒绝的连接数发出警报

应用程序 Load Balancer 目标

TargetConnectionErrorCount

(HTTPCode_target_5xx_count/RequestCount) *100

总和 > 15%,持续 1 分钟,连续 5 次。

$ {ElasticLoadBalancingV2:::TargetGroup:FullName}-应用程序 LoadBalancer 目标连接错误计数-$ {ElasticLoadBalancingV2:::TargetGroup: UUID}

CloudWatch 当目标生成的 HTTP 5XX 响应代码数量过多时发出警报。

应用程序 Load Balancer 目标

ApplicationLoadBalancerTargetGroupErrorCount

总和 > 0%,持续 1 分钟,连续 5 次。

$ {ElasticLoadBalancingV2:::TargetGroup:FullName}-应用程序 LoadBalancer 目标 HTTP 5XX 错误计数-$ {ElasticLoadBalancingV2:::: TargetGroup UUID}

CloudWatch 如果负载均衡器和注册实例之间未成功建立连接数,则发出警报。

Amazon EC2 实例-全部 OSs

CPUUtilization*

大于 95%,持续 5 分钟,连续 6 次。

$ {EC2::InstanceId}: CPU 太高

CloudWatch 警报。CPU 利用率高表明应用程序状态发生了变化,例如死锁、无限循环、恶意攻击和其他异常。

这些是 Direct-Customer-Alerts警报。

Amazon EC2 实例-全部 OSs

StatusCheckFailed

大于 0%,持续 5 分钟,连续 3 次。

$ {EC2::InstanceId}: 状态检查失败

CloudWatch 警报。状态检查失败表示具有指定 ID 的 Amazon EC2 实例未通过一项或多项自动状态检查。这意味着该实例遇到了问题,导致其无法正常运行或无法访问。

亚马逊 EC2 实例-Linux

最小内存使用百分比

大于 95%,持续 5 分钟,连续 6 次。

$ {EC2::InstanceId}:内存不足

CloudWatch 警报。内存可用表示指定 Amazon EC2 实例上的可用内存 (RAM) 已降至定义的阈值以下。这可能会导致内存问题和系统崩溃,并表明实例可能需要更多 RAM。

这些是 Direct-Customer-Alerts警报。

亚马逊 EC2 实例-Linux

平均掉期使用百分比

大于 95%,持续 5 分钟,连续 6 次。

$ {EC2::InstanceId}:免掉期

CloudWatch 警报。A EC2 mazon 实例上的平均 swap_used_percent 表示当前使用的已分配交换空间的平均百分比已超过预定义的阈值。这可能会导致性能降低、瓶颈和内存问题。

这些是 Direct-Customer-Alerts警报。

亚马逊 EC2 实例-Linux

最大已用磁盘百分比

大于 95%,持续 5 分钟,连续 6 次。

$ {EC2::InstanceId}:磁盘使用率太高-$ {EC2:: Disk:: UUID}

CloudWatch 警报。磁盘使用率过高表示特定 Amazon EC2 或已识别磁盘上的磁盘利用率已接近其容量。这可能导致性能降低、应用程序错误和系统不稳定。

这些是 Direct-Customer-Alerts警报。

亚马逊 EC2 实例-Windows

已使用的最小内存已提交字节数百分比

大于 95%,持续 5 分钟,连续 6 次。

$ {EC2::InstanceId}:内存不足

CloudWatch 警报。内存可用表示指定 Amazon EC2 实例上的可用内存 (RAM) 已降至定义的阈值以下。这可能会导致内存问题和系统崩溃,并表明实例可能需要更多 RAM。

这些是 Direct-Customer-Alerts警报。

亚马逊 EC2 实例-Windows

最大可用空间 LogicalDisk 百分比

<= 5%,持续 5 分钟,连续 6 次。

$ {EC2::InstanceId}:磁盘使用率太高-$ {EC2:: Disk:: UUID}

CloudWatch 警报。表示 Amazon EC2 Windows 实例中逻辑磁盘(文件系统分区)的可用空间百分比已超过预定义的阈值。磁盘空间不足可能导致磁盘空间不足

这些是 Direct-Customer-Alerts警报。

Amazon EFS

AMSEFSBurstCreditBalanceExhausted.

BurstCreditBalance 十五分钟内少于 1000。

$ {EFS::FileSystemId}: EFS:突发信用余额

CloudWatch Amazon EFS 文件系统的警报。 BurstCreditBalance

Amazon EFS

AMSEFSClientConnectionsLimit.

ClientConnections > 24,000 持续十五分钟。

$ {EFS::FileSystemId}: EFS:客户端连接限制

CloudWatch Amazon EFS 文件系统的警报。 ClientConnections

Amazon EFS

AMSEFSThroughputUtilizationLimit.

一小时内 EFS 吞吐量利用率> 80%。

$ {EFS::FileSystemId}: EFS:吞吐量利用率限制

CloudWatch 有关 Amazon EFS 文件系统的吞吐量利用率的警报。

Amazon EFS

AMSEFSPercentIOLimit.

百分比 IOLimit > 95,持续七十五分钟。

$ {EFS::FileSystemId}: EFS:百分比 IOLimit

CloudWatch 在 Amazon EFS 文件系统的百分比IOLimit 上发出警报。

Amazon EKS

参见 Amazon EKS AMS Accelerate 中的 Amazon EKS 监控和事件管理中的基准警报

Elastic Load Balancin

SpilloverCountBackendConnectionErrors

> 1,持续 1 分钟,连续 15 次。

经典 LoadBalancer 溢出计数警报

CloudWatch 如果由于激增队列已满而被拒绝的请求数量过多,则发出警报。

Elastic Load Balancin

HTTPCode_elb_5xx_count

总和 > 0,持续 5 分钟,连续 3 次。

CloudWatch 如果来自负载均衡器的 HTTP 5XX 响应代码数量过多,则发出警报。

Elastic Load Balancin

SurgeQueueLength

大于 100,持续 1 分钟,连续 15 次。

经典 LoadBalancer 浪涌队列长度警报。

CloudWatch 如果有多余的请求等待路由,则发出警报。

FSx 适用于 ONTAP

AMSFSXONTAPIOPSUtilization.

FSX:ONTAP IOPS 利用率 > 80%,持续两个小时。

$ {FSx::FileSystemId}: FSX: ONTAP IOPS 利用率

CloudWatch 针对 ONTAP 实例的 IOPS 利用率限制发出警报。 FSx

FSx 适用于 ONTAP

AMSFSXONTAPThroughput利用率。

FSX:ONTAP 吞吐量利用率 > 80%,持续两个小时。

$ {FSx::FileSystemId}: FSX: ONTAP 吞吐量利用率

CloudWatch 针对 ONTAP 卷的 FSx 吞吐量限制发出警报。

FSx 适用于 ONTAP

AMSFSXONTAPVolumeInodeUtilization.

FSX: ONTAP 信息节点利用率 > 80%,持续两个小时。

$ {FSx::FileSystemId}: $ {:: ONTAPFSx::} FSX: ONTAP Inod VolumeId e 利用率

CloudWatch 针对 ONTAP 卷的文件容量利用率限制发出警报。 FSx

FSx 适用于 ONTAP

AMSFSXONTAPVolumeCapacityUtilization.

FSX:ONTAP 卷容量利用率 > 80%,持续两个小时。

$ {FSx::FileSystemId}: $ {:FSx: ONTAP::} VolumeId

CloudWatch 针对 ONTAP 卷的卷容量利用率限制发出警报。 FSx

FSx 适用于 Windows 文件服务器

AMSFSXWindowsThroughputUtilization.

fsx:Windows 吞吐量利用率 > 80%,持续两个小时。

$ {FSx::FileSystemId}: fsx: Windows 吞吐量利用率

CloudWatch 针对 Windows 文件服务器实例 FSx 的吞吐量限制发出警报。

FSx 适用于 Windows 文件服务器

AMSFSXWindowsIOPSUtilization.

fsx:Windows IOPS 利用率 > 80%,持续两个小时。

$ {FSx::FileSystemId}: fsx: Windows IOPS 利用率

CloudWatch 针对 Windows 文件服务器实例的 IOPS 利用率限制发出警报。 FSx

GuardDuty 服务

不适用;所有发现(威胁目的)都受到监控。每个发现都对应一个警报。

GuardDuty 调查结果的变化。这些变化包括新生成的发现或后续出现的现有发现。

有关支持的 GuardDuty 查找类型列表,请参阅GuardDuty 活动查找类型

Health

AWS Health Dashboard

当与 AMS 监控的服务相关的 AWS Health Dashboard (AWS Health) 事件状态发生变化时,系统会发送通知。有关更多信息,请参阅支持的服务

IAM

亚马逊 EC2 IAM 实例配置文件不存在。

IAM 实例配置文件丢失。

有关替换 EC2 Amazon IAM 实例配置文件的说明,请参阅替换 IAM 角色中的 IAM 文档。

IAM

EC2 Amazon IAM 实例配置文件有太多的策略。

IAM 实例配置文件有 10 个策略,无法添加其他策略。

  • 修改 IAM 的 AWS 服务配额,将每个角色的托管策略数量增加到 20。有关服务配额的信息,请参阅查看服务配额

  • 通过删除与这些实例关联的 IAM 角色的不必要托管策略,将托管策略数量降低到当前 IAM 配额以下。请务必保留 AMS 必需的政策。

  • 通过整合与这些实例关联的 IAM 角色的策略,将托管策略数量降低到当前 IAM 配额以下。请务必保留 AMS 必需的政策。

有关 AMS 必需的策略,请参阅 AMS 加速用户指南IAM 权限变更详情

Macie

新生成的警报和对现有警报的更新。

Macie 发现调查结果有任何变化。这些变化包括新生成的发现或后续出现的现有发现。

亚马逊 Macie 提醒。有关支持的亚马逊 Macie 警报类型列表,请参阅分析亚马逊 Macie 调查结果。请注意,并非所有账户都启用 Macie。

NATGateways

PacketsDropCount : 如果 packetsdropcount 在 15 分钟内超过 0,则发出警报

NatGateway PacketsDropCount

大于零的值可能指示 NAT 网关持续存在暂时性问题。

NATGateways

ErrorPortAllocation : 如果 NAT 网关在超过 15 分钟的评估期内无法分配端口,则发出警报

NatGateway ErrorPortAllocation

NAT 网关无法分配源端口的次数。大于零的值表示打开的并发连接太多。

OpenSearch 集群

ClusterStatus

红色最大值为 >= 1,持续 1 分钟,连续 1 次。

ClusterStatus 红色

CloudWatch 警报。用于 AWS KMS 加密域中静态数据的加密密钥已禁用。重新启用它可恢复正常操作。要了解更多信息,请参阅 Red Cluster 状态

OpenSearch 域

KMSKey错误

>= 1 持续 1 分钟,连续 1 次。

KMS 密钥错误

CloudWatch 警报。至少有一个主分片其及副本未分配给节点。要了解更多信息,请参阅 Amazon OpenSearch 服务的静态数据加密

OpenSearch 域

KMSKey无法访问

>= 1 持续 1 分钟,连续 1 次。

KMS 密钥无法访问错误

CloudWatch 警报。至少有一个主分片其及副本未分配给节点。要了解更多信息,请参阅 Amazon OpenSearch 服务的静态数据加密

OpenSearch 域

ClusterStatus

黄色最大值为 >= 1,持续 1 分钟,连续 1 次。

ClusterStatus 黄色

至少有一个副本分片未分配给节点。要了解更多信息,请参阅黄色群集状态

OpenSearch 域

FreeStorageSpace

最小值为 <= 20480,持续 1 分钟,连续 1 次。

可用存储空间不足

您的集群中的节点已降至 20GiB 的可用存储空间。要了解更多信息,请参阅可用存储空间不足

OpenSearch 域

ClusterIndexWritesBlocked

>= 1 持续 5 分钟,连续 1 次。

集群索引写入已阻止

集群正在阻止写入请求。要了解更多信息,请参阅ClusterBlockException

OpenSearch 域

节点

最小值 < x,持续 1 天。

节点已关闭

x 是您的集群中的节点数。此警报表示您的群集中至少有一个节点无法访问的时间已达到一天。要了解更多信息,请参阅集群节点故障

OpenSearch 域

CPUUtilization

连续 3 次,15 分钟内平均值大于 80%。

数据节点的 CPU 使用率过高

100% CPU 利用率不常见,但是持续的 高平均值是有问题的。考虑调整现有实例类型的大小或添加实例。

OpenSearch 域

JVMMemory压力

最大 >= 80%,持续 5 分钟,连续 3 次。

数据节点的内存使用率很高

如果使用量增加,群集可能会遇到内存不足错误。考虑垂直缩放。 OpenSearch 将实例的 RAM 的一半用于 Java 堆,最大堆大小为 32GiB。您最多可以将实例的 RAM 垂直扩展至 64GiB,此时可以通过添加实例水平扩展。

OpenSearch 域

大师 CPUUtilization

15 分钟内平均值大于 50%,连续 3 次。

主节点 CPU 使用率高

考虑为您的专用主节点使用更大的实例类型。由于其在集群稳定性和蓝/绿部署中的作用,专用主节点的平均 CPU 使用率应比数据节点低。

OpenSearch 域

主JVMMemory压力

最大 >= 80%,持续 15 分钟,连续 1 次。

主节点高 JVM 内存压力

考虑为您的专用主节点使用更大的实例类型。由于其在集群稳定性和蓝/绿部署中的作用,专用主节点的平均 CPU 使用率应比数据节点低。

OpenSearch 实例

AutomatedSnapshotFailure

最大值为 >= 1,持续 1 分钟,连续 1 次。

自动快照失败

CloudWatch 警报。自动快照失败。此故障通常由红色群集运行状况导致。要了解更多信息,请参阅 Red Cluster 状态

Amazon RDS

CPU 平均利用率

大于 90%,持续 15 分钟,连续 2 次。

$ {RDS:: DBInstance 标识符}: CPUUtilization

CloudWatch 警报。

Amazon RDS

的总和 DiskQueueDepth

大于 75%,持续 1 分钟,连续 15 次。

$ {RDS:: DBInstance 标识符}: DiskQueue

CloudWatch 警报。

Amazon RDS

平均值 FreeStorageSpace

小于 1,073,741,824 字节,持续 5 分钟,连续 2 次。

$ {RDS:: DBInstance 标识符}: FreeStorageSpace

CloudWatch 警报。

Amazon RDS

存储空间不足警报

在为数据库实例分配的存储空间用完时触发。

RDS-EVENT-0007,详情请参阅使用亚马逊 RDS 事件通知

Amazon RDS

数据库实例失败

由于某个不兼容配置或底层存储问题,数据库实例已失败。从 point-in-time-restore数据库实例开始。

RDS-EVENT-0031,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

未尝试过 RDS -0034 故障切换。

Amazon RDS 不会因为数据库实例上最近出现故障转移而尝试请求故障转移。

RDS-EVENT-0034,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

RDS-0035 数据库实例参数无效

例如,由于该实例类的内存相关参数设置得太高,MySQL 无法启动,因此您的操作是修改内存参数并重启数据库实例。

RDS-EVENT-0035,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

子网 IDs 数据库实例无效

数据库实例处于不兼容的网络中。某些指定的子网 IDs 无效或不存在。

服务事件。RDS-EVENT-0036,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

RDS-0045 数据库实例只读副本错误

在读取复制过程中出错。有关详细信息,请参阅事件消息。有关排查只读副本错误的信息,请参阅 MySQL 只读副本问题疑难解答

RDS-EVENT-0045,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

RDS-0057 创建 statspack 用户账户时出错

只读副本上的复制已结束。

服务事件。RDS-EVENT-0057,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

RDS-0058 数据库实例读取复制已结束

创建 Statspack 用户账户 PERFSTAT 时出错。在添加 Statspack 选项之前,请先删除账户。

服务事件。RDS-EVENT-0058,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

数据库实例恢复开始

SQL Server 数据库实例正在重新建立其镜像。在镜像重新建立之前,性能将下降。发现具有非 FULL 恢复模式的数据库。恢复模式已更改回完整模式并开始镜像恢复。 (<dbname>: <recovery model found>[,...])

服务事件。RDS-EVENT-0066 在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

数据库群集的故障转移已失败。

RDS-EVENT-0069,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

权限恢复无效 S3 存储桶

用于访问您的 Amazon S3 存储桶以执行 SQL Server 本机备份和恢复的 IAM 角色配置不正确。有关更多信息,请参阅设置本机 Backup 和还原

服务事件。RDS-EVENT-0081 在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

Aurora 无法从 Amazon S3 存储桶复制备份数据。

RDS-EVENT-0082,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

当数据库实例消耗了其分配的存储空间的 90% 以上时,会发出存储空间不足警报。

服务事件。RDS-EVENT-0089 在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

Aurora 无服务器数据库集群扩展失败时的通知服务。

服务事件。RDS-EVENT-0143 在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

数据库实例处于无效状态。无需采取操作。弹性伸缩稍后将重试。

RDS-EVENT-0219,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

数据库实例已达到存储已满阈值,并且数据库已关闭。

RDS-EVENT-0221,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

此事件表示 Amazon RDS 实例存储无法自动扩展,自动扩展失败的原因可能有多种。

RDS-EVENT-0223,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

存储弹性伸缩已触发待处理的扩展存储任务,该任务将达到最大存储阈值。

RDS-EVENT-0224,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

数据库实例的存储类型目前在可用区中不可用。弹性伸缩稍后将重试。

RDS-EVENT-0237,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

Amazon RDS 无法为代理配置容量,因为您的子网中没有足够的 IP 地址。

RDS-EVENT-0243,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

您的存储空间 AWS 账户 已超过允许的存储配额。

RDS-EVENT-0254,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon Redshift 集群

未处于维护模式时集群的运行状况

< 1 持续 5 分钟

RedshiftClusterHealthStatus

有关更多信息,请参阅使用指标监控 Amazon Redshift CloudWatch

Site-to-Site VPN

VPNTunnel向下

TunnelState <= 0 持续 1 分钟,连续 20 次。

$ {AWS::EC2::VpnConnectionId}- VPNTunnel 向下

TunnelState 当两条隧道都关闭时为 0,当一条隧道都开启时为 .5;当两条隧道都开启时为 1.0。

Systems Manager Agent

EC2 不由 Systems Manager 管理的实例

未安装 SSM 代理。SSM 代理已安装在实例上,但代理服务未运行。SSM 代理没有到 S AWS ystems Manager 服务的网络路由。

还有其他情况会导致 Systems Manager 代理中断;有关更多信息,请参阅托管节点可用性疑难解答

有关补救工作的信息,请参阅AMS 自动修复警报