View a markdown version of this page

来自 AMS 基线监测的警报 - AMS 加速用户指南

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

来自 AMS 基线监测的警报

了解有关 AMS 加速监控默认设置的信息。有关更多信息,请参阅 AMS Accelerate 中的监控和事件管理

下表显示了监控的内容和默认警报阈值。您可以使用自定义配置文档更改警报阈值,也可以提交服务请求。有关更改自定义警报配置的说明,请参阅更改加速警报配置。要在警报超过阈值时接收通知,除了 AMS 的标准警报流程外,您还可以覆盖警报配置。有关说明,请参阅加速警报管理器

Amazon CloudWatch 提供了更长的指标保留期。有关更多信息,请参阅CloudWatch 限制

注意

AMS Accelerate 会定期校准其基线监测。新账户始终使用最新的基准监控,该表描述了新加入账户的基准监控。AMS Accelerate 会定期更新现有账户的基准监控,在更新到位之前,您可能会遇到延迟。

来自基线监控的警报

服务/资源类型

警报来源和触发条件

警报名称和备注

对于已加星标的 (*) 警报,AMS 会主动评估影响并在可能的情况下进行补救;如果无法进行补救,AMS 就会造成事故。如果自动化无法纠正问题,AMS 会通知您事故案例,并让 AMS 工程师参与。此外,如果您选择加入 Direct-Customer-Alerts SNS 主题,则这些提醒将直接发送到您的电子邮件中。

Application Load Balanc

ApplicationLoadBalancerErrorCount

(HTTPCode_elb_5xx_count/RequestCount) *100

总和 > 15%,持续 1 分钟,连续 5 次。

应用程序 LoadBalancer HTTP 5XX 错误计数

CloudWatch 在负载均衡器生成的 HTTP 5XX 响应代码数量过多时发出警报。

Application Load Balanc

RejectedConnectionCount

总和 > 0%,持续 1 分钟,连续 5 次。

应用程序 LoadBalancer 被拒绝的连接计数

CloudWatch 如果因为负载均衡器达到最大值而被拒绝的连接数发出警报

应用程序 Load Balancer 目标

TargetConnectionErrorCount

(HTTPCode_target_5xx_count/RequestCount) *100

总和 > 15%,持续 1 分钟,连续 5 次。

$ {ElasticLoadBalancingV2:::TargetGroup:FullName}-应用程序 LoadBalancer 目标连接错误计数-$ {ElasticLoadBalancingV2:::TargetGroup: UUID}

CloudWatch 当目标生成的 HTTP 5XX 响应代码数量过多时发出警报。

应用程序 Load Balancer 目标

ApplicationLoadBalancerTargetGroupErrorCount

总和 > 0%,持续 1 分钟,连续 5 次。

$ {ElasticLoadBalancingV2:::TargetGroup:FullName}-应用程序 LoadBalancer 目标 HTTP 5XX 错误计数-$ {ElasticLoadBalancingV2:::: TargetGroup UUID}

CloudWatch 如果负载均衡器和注册实例之间未成功建立连接数,则发出警报。

亚马逊 EC2 实例-全部 OSs

CPUUtilization*

如果实例对轮询 Systems Manager 命令没有响应,则连续 6 次在 5 分钟内大于 95%。

$ {EC2::InstanceId}: CPU 太高

CloudWatch 警报。CPU 利用率高表明应用程序状态发生了变化,例如死锁、无限循环、恶意攻击和其他异常。

这些是 Direct-Customer-Alerts警报。

亚马逊 EC2 实例-全部 OSs

StatusCheckFailed

大于 0%,持续 5 分钟,连续 3 次。

$ {EC2::InstanceId}:状态检查失败

CloudWatch 警报。状态检查失败表示具有指定 ID 的 Amazon EC2 实例未通过一项或多项自动状态检查。这意味着该实例遇到了问题,导致其无法正常运行或无法访问。

亚马逊 EC2 实例-Linux

最小内存使用百分比

大于 95%,持续 5 分钟,连续 6 次。

$ {EC2::InstanceId}:内存不足

CloudWatch 警报。内存可用表示指定 Amazon EC2 实例上的可用内存 (RAM) 已降至定义的阈值以下。这可能会导致内存问题和系统崩溃,并表明实例可能需要更多 RAM。

这些是 Direct-Customer-Alerts警报。

亚马逊 EC2 实例-Linux

平均掉期使用百分比

大于 95%,持续 5 分钟,连续 6 次。

$ {EC2::InstanceId}:免掉期

CloudWatch 警报。Amazon EC2 实例上的平均 swap_used_percent 表示当前使用的已分配交换空间的平均百分比已超过预定义的阈值。这可能会导致性能下降、瓶颈和内存问题。

这些是 Direct-Customer-Alerts警报。

亚马逊 EC2 实例-Linux

最大已用磁盘百分比

大于 95%,持续 5 分钟,连续 6 次。

$ {EC2::InstanceId}:磁盘使用率太高-$ {EC2:: Disk:: UUID}

CloudWatch 警报。磁盘使用率过高表示特定 Amazon EC2 或已识别磁盘上的磁盘利用率已接近其容量。这可能导致性能降低、应用程序错误和系统不稳定。

这些是 Direct-Customer-Alerts警报。

亚马逊 EC2 实例——Windows

已使用的最小内存已提交字节数百分比

大于 95%,持续 5 分钟,连续 6 次。

$ {EC2::InstanceId}:内存不足

CloudWatch 警报。内存可用表示指定 Amazon EC2 实例上的可用内存 (RAM) 已降至定义的阈值以下。这可能会导致内存问题和系统崩溃,并表明实例可能需要更多 RAM。

这些是 Direct-Customer-Alerts警报。

亚马逊 EC2 实例——Windows

最大可用空间 LogicalDisk 百分比

<= 5%,持续 5 分钟,连续 6 次。

$ {EC2::InstanceId}:磁盘使用率太高-$ {EC2:: Disk:: UUID}

CloudWatch 警报。表示 Amazon EC2 Windows 实例中逻辑磁盘(文件系统分区)上的可用空间百分比已超过预定义的阈值。磁盘空间不足可能导致磁盘空间不足

这些是 Direct-Customer-Alerts警报。

Amazon EFS

AMSEFSBurstCreditBalanceExhausted.

BurstCreditBalance 十五分钟内少于 1000。

$ {EFS::FileSystemId}: EFS:突发信用余额

CloudWatch Amazon EFS 文件系统的警报。 BurstCreditBalance

Amazon EFS

AMSEFSClientConnectionsLimit.

ClientConnections > 24,000 持续十五分钟。

$ {EFS::FileSystemId}: EFS:客户端连接限制

CloudWatch Amazon EFS 文件系统的警报。 ClientConnections

Amazon EFS

AMSEFSThroughputUtilizationLimit.

一小时内 EFS 吞吐量利用率> 80%。

$ {EFS::FileSystemId}: EFS:吞吐量利用率限制

CloudWatch 有关 Amazon EFS 文件系统的吞吐量利用率的警报。

Amazon EFS

AMSEFSPercentIOLimit.

百分比 IOLimit > 95,持续七十五分钟。

$ {EFS::FileSystemId}: EFS:百分比 IOLimit

CloudWatch 在 Amazon EFS 文件系统的百分比IOLimit 上发出警报。

Amazon EKS

参见 Amazon EKS AMS Accelerate 中的 Amazon EKS 监控和事件管理中的基准警报

Elastic Load Balancin

SpilloverCountBackendConnectionErrors

> 1,持续 1 分钟,连续 15 次。

经典 LoadBalancer 溢出计数警报

CloudWatch 如果由于激增队列已满而被拒绝的请求数量过多,则发出警报。

Elastic Load Balancin

HTTPCode_elb_5xx_count

总和 > 0,持续 5 分钟,连续 3 次。

CloudWatch 如果来自负载均衡器的 HTTP 5XX 响应代码数量过多,则发出警报。

Elastic Load Balancin

SurgeQueueLength

大于 100,持续 1 分钟,连续 15 次。

经典 LoadBalancer 浪涌队列长度警报。

CloudWatch 如果有多余的请求等待路由,则发出警报。

FSx 适用于 ONTAP

AMSFSXONTAPIOPSUtilization.

FSX:ONTAP IOPS 利用率 > 80%,持续两个小时。

$ {FSx::FileSystemId}: FSX: ONTAP IOPS 利用率

CloudWatch 针对 ONTAP 实例的 IOPS 利用率限制发出警报。 FSx

FSx 适用于 ONTAP

AMSFSXONTAPThroughput利用率。

FSX:ONTAP 吞吐量利用率 > 80%,持续两个小时。

$ {FSx::FileSystemId}: FSX: ONTAP 吞吐量利用率

CloudWatch 针对 ONTAP 卷的 FSx 吞吐量限制发出警报。

FSx 适用于 ONTAP

AMSFSXONTAPVolumeInodeUtilization.

FSX: ONTAP 信息节点利用率 > 80%,持续两个小时。

$ {FSx::FileSystemId}: $ {:: ONTAPFSx::} FSX: ONTAP Inod VolumeId e 利用率

CloudWatch 针对 ONTAP 卷的文件容量利用率限制发出警报。 FSx

FSx 适用于 ONTAP

AMSFSXONTAPVolumeCapacityUtilization.

FSX:ONTAP 卷容量利用率 > 80%,持续两个小时。

$ {FSx::FileSystemId}: $ {:FSx: ONTAP::} VolumeId

CloudWatch 针对 ONTAP 卷的卷容量利用率限制发出警报。 FSx

FSx 适用于 Windows 文件服务器

AMSFSXWindowsThroughputUtilization.

fsx:Windows 吞吐量利用率 > 80%,持续两个小时。

$ {FSx::FileSystemId}: fsx: Windows 吞吐量利用率

CloudWatch 针对 Windows 文件服务器实例 FSx 的吞吐量限制发出警报。

FSx 适用于 Windows 文件服务器

AMSFSXWindowsIOPSUtilization.

fsx:Windows IOPS 利用率 > 80%,持续两个小时。

$ {FSx::FileSystemId}: fsx: Windows IOPS 利用率

CloudWatch 针对 Windows 文件服务器实例的 IOPS 利用率限制发出警报。 FSx

GuardDuty 服务

不适用;所有发现(威胁目的)都受到监控。每个发现都对应一个警报。

GuardDuty 调查结果的变化。这些变化包括新生成的发现或后续出现的现有发现。

有关支持的 GuardDuty 查找类型列表,请参阅GuardDuty 活动查找类型

健康

AWS Health Dashboard

当 AWS Health Dashboard (AWS Health) 事件的状态发生变化,需要AMS运营部门采取与AMS监控的服务相关的操作时,就会发送通知。有关更多信息,请参阅支持的服务

IAM

亚马逊 EC2 IAM 实例配置文件不存在。

IAM 实例配置文件丢失。

有关替换 Amazon EC2 IAM 实例配置文件的说明,请参阅替换 IAM 角色中的 IAM 文档。

IAM

Amazon EC2 IAM 实例配置文件有太多的策略。

IAM 实例配置文件有 10 个策略,无法添加其他策略。

  • 修改 IAM 的 AWS 服务配额,将每个角色的托管策略数量增加到 20。有关服务配额的信息,请参阅查看服务配额

  • 通过删除与这些实例关联的 IAM 角色的不必要托管策略,将托管策略数量降低到当前 IAM 配额以下。请务必保留 AMS 必需的政策。

  • 通过整合与这些实例关联的 IAM 角色的策略,将托管策略数量降低到当前 IAM 配额以下。请务必保留 AMS 必需的政策。

有关 AMS 必需的策略,请参阅 AMS 加速用户指南IAM 权限变更详情

Macie

新生成的警报和对现有警报的更新。

Macie 发现调查结果有任何变化。这些变化包括新生成的发现或后续出现的现有发现。

亚马逊 Macie 提醒。有关支持的亚马逊 Macie 警报类型列表,请参阅分析亚马逊 Macie 调查结果。请注意,并非所有账户都启用 Macie。

NATGateways

PacketsDropCount : 如果 packetsdropcount 在 15 分钟内超过 0,则发出警报

NatGateway PacketsDropCount

大于零的值可能指示 NAT 网关持续存在暂时性问题。

NATGateways

ErrorPortAllocation : 如果 NAT 网关在超过 15 分钟的评估期内无法分配端口,则发出警报

NatGateway ErrorPortAllocation

NAT 网关无法分配源端口的次数。大于零的值表示打开的并发连接太多。

OpenSearch 集群

ClusterStatus

红色最大值为 >= 1,持续 1 分钟,连续 1 次。

ClusterStatus 红色

CloudWatch 警报。用于 AWS KMS 加密域中静态数据的加密密钥已禁用。重新启用它可恢复正常操作。要了解更多信息,请参阅 Red Cluster 状态

OpenSearch 域

KMSKey错误

>= 1 持续 1 分钟,连续 1 次。

KMS 密钥错误

CloudWatch 警报。至少有一个主分片其及副本未分配给节点。要了解更多信息,请参阅 Amazon OpenSearch 服务的静态数据加密

OpenSearch 域

KMSKey无法访问

>= 1 持续 1 分钟,连续 1 次。

KMS 密钥无法访问错误

CloudWatch 警报。至少有一个主分片其及副本未分配给节点。要了解更多信息,请参阅 Amazon OpenSearch 服务的静态数据加密

OpenSearch 域

ClusterStatus

黄色最大值为 >= 1,持续 1 分钟,连续 1 次。

ClusterStatus 黄色

至少有一个副本分片未分配给节点。要了解更多信息,请参阅黄色群集状态

OpenSearch 域

FreeStorageSpace

最小值为 <= 20480,持续 1 分钟,连续 1 次。

可用存储空间不足

您的集群中的节点已降至 20GiB 的可用存储空间。要了解更多信息,请参阅可用存储空间不足

OpenSearch 域

ClusterIndexWritesBlocked

>= 1 持续 5 分钟,连续 1 次。

集群索引写入已阻止

集群正在阻止写入请求。要了解更多信息,请参阅ClusterBlockException

OpenSearch 域

Nodes

最小值 < x,持续 1 天。

节点已关闭

x 是您的集群中的节点数。此警报表示您的群集中至少有一个节点无法访问的时间已达到一天。要了解更多信息,请参阅集群节点故障

OpenSearch 域

CPUUtilization

连续 3 次,15 分钟内平均值大于 80%。

数据节点的 CPU 使用率过高

100% CPU 利用率不常见,但是持续的 高平均值是有问题的。考虑调整现有实例类型的大小或添加实例。

OpenSearch 域

JVMMemory压力

最大 >= 80%,持续 5 分钟,连续 3 次。

数据节点的内存使用率很高

如果使用量增加,群集可能会遇到内存不足错误。考虑垂直缩放。 OpenSearch 将实例的 RAM 的一半用于 Java 堆,最大堆大小为 32GiB。您最多可以将实例的 RAM 垂直扩展至 64GiB,此时可以通过添加实例水平扩展。

OpenSearch 域

大师 CPUUtilization

15 分钟内平均值大于 50%,连续 3 次。

主节点 CPU 使用率高

考虑为您的专用主节点使用更大的实例类型。由于其在集群稳定性和蓝/绿部署中的作用,专用主节点的平均 CPU 使用率应比数据节点低。

OpenSearch 域

主JVMMemory压力

最大 >= 80%,持续 15 分钟,连续 1 次。

主节点高 JVM 内存压力

考虑为您的专用主节点使用更大的实例类型。由于其在集群稳定性和蓝/绿部署中的作用,专用主节点的平均 CPU 使用率应比数据节点低。

OpenSearch 实例

AutomatedSnapshotFailure

最大值为 >= 1,持续 1 分钟,连续 1 次。

自动快照失败

CloudWatch 警报。自动快照失败。此故障通常由红色群集运行状况导致。要了解更多信息,请参阅 Red Cluster 状态

Amazon RDS

CPU 平均利用率

大于 90%,持续 15 分钟,连续 2 次。

$ {RDS:: DBInstance 标识符}: CPUUtilization

CloudWatch 警报。

Amazon RDS

的总和 DiskQueueDepth

大于 75%,持续 1 分钟,连续 15 次。

$ {RDS:: DBInstance 标识符}: DiskQueue

CloudWatch 警报。

Amazon RDS

平均值 FreeStorageSpace

小于 1,073,741,824 字节,持续 5 分钟,连续 2 次。

$ {RDS:: DBInstance 标识符}: FreeStorageSpace

CloudWatch 警报。

Amazon RDS

存储空间不足警报

在为数据库实例分配的存储空间用完时触发。

RDS-EVENT-0007,详情请参阅使用亚马逊 RDS 事件通知

Amazon RDS

数据库实例失败

由于某个不兼容配置或底层存储问题,数据库实例已失败。从 point-in-time-restore数据库实例开始。

RDS-EVENT-0031,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

未尝试过 RDS -0034 故障切换。

Amazon RDS 不会因为数据库实例上最近出现故障转移而尝试请求故障转移。

RDS-EVENT-0034,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

RDS-0035 数据库实例参数无效

例如,由于该实例类的内存相关参数设置得太高,MySQL 无法启动,因此您的操作是修改内存参数并重启数据库实例。

RDS-EVENT-0035,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

子网 IDs 数据库实例无效

数据库实例处于不兼容的网络中。某些指定的子网 IDs 无效或不存在。

服务事件。RDS-EVENT-0036,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

RDS-0045 数据库实例只读副本错误

在读取复制过程中出错。有关详细信息,请参阅事件消息。有关排查只读副本错误的信息,请参阅排除 MySQL 只读副本问题

RDS-EVENT-0045,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

RDS-0057 创建 statspack 用户账户时出错

只读副本上的复制已结束。

服务事件。RDS-EVENT-0057,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

RDS-0058 数据库实例读取复制已结束

创建 Statspack 用户账户 PERFSTAT 时出错。在添加 Statspack 选项之前,请先删除账户。

服务事件。RDS-EVENT-0058,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

数据库实例恢复开始

SQL Server 数据库实例正在重新建立其镜像。在镜像重新建立之前,性能将下降。发现具有非 FULL 恢复模式的数据库。恢复模式已更改回完整模式并开始镜像恢复。 (<dbname>: <recovery model found>[,...])

服务事件。RDS-EVENT-0066 在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

数据库群集的故障转移已失败。

RDS-EVENT-0069,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

权限恢复无效 S3 存储桶

用于访问您的 Amazon S3 存储桶以执行 SQL Server 本机备份和恢复的 IAM 角色配置不正确。有关更多信息,请参阅设置本机 Backup 和还原

服务事件。RDS-EVENT-0081 在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

Aurora 无法从 Amazon S3 存储桶复制备份数据。

RDS-EVENT-0082,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

当数据库实例消耗了其分配的存储空间的 90% 以上时,会发出存储空间不足警报。

服务事件。RDS-EVENT-0089 在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

Aurora 无服务器数据库集群扩展失败时的通知服务。

服务事件。RDS-EVENT-0143 在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

数据库实例处于无效状态。无需采取操作。弹性伸缩稍后将重试。

RDS-EVENT-0219,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

数据库实例已达到存储已满阈值,并且数据库已关闭。

RDS-EVENT-0221,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

此事件表示 Amazon RDS 实例存储无法自动扩展,自动扩展失败的原因可能有多种。

RDS-EVENT-0223,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

存储弹性伸缩已触发待处理的扩展存储任务,该任务将达到最大存储阈值。

RDS-EVENT-0224,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

数据库实例的存储类型目前在可用区中不可用。弹性伸缩稍后将重试。

RDS-EVENT-0237,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

Amazon RDS 无法为代理配置容量,因为您的子网中没有足够的 IP 地址。

RDS-EVENT-0243,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon RDS

您的存储空间 AWS 账户 已超过允许的存储配额。

RDS-EVENT-0254,请在 Amazon RDS 事件类别和事件消息中查看详情。

Amazon Redshift 集群

未处于维护模式时集群的运行状况

< 1 持续 5 分钟

RedshiftClusterHealthStatus

有关更多信息,请参阅使用指标监控 Amazon Redshift CloudWatch

Site-to-Site VPN

VPNTunnel向下

TunnelState <= 0 持续 1 分钟,连续 20 次。

$ {AWS::EC2::VpnConnectionId}- VPNTunnel 向下

TunnelState 当两条隧道都关闭时为 0,当一条隧道都开启时为 .5;当两条隧道都开启时为 1.0。

Systems Manager Agent

不由 Systems Manager 管理的 EC2 实例

未安装 SSM 代理。SSM 代理已安装在实例上,但代理服务未运行。SSM 代理没有到 S AWS ystems Manager 服务的网络路由。

还有其他情况会导致 Systems Manager 代理中断;有关更多信息,请参阅托管节点可用性疑难解答

有关补救工作的信息,请参阅AMS 自动修复警报