本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
来自 AMS 基线监测的警报
了解有关 AMS 加速监控默认设置的信息。有关更多信息,请参阅 AMS Accelerate 中的监控和事件管理。
下表显示了监控的内容和默认警报阈值。您可以使用自定义配置文档更改警报阈值,也可以提交服务请求。有关更改自定义警报配置的说明,请参阅更改加速警报配置。要在警报超过阈值时接收通知,除了 AMS 的标准警报流程外,您还可以覆盖警报配置。有关说明,请参阅加速警报管理器。
Amazon CloudWatch 提供了更长的指标保留期。有关更多信息,请参阅CloudWatch 限制。
注意
AMS Accelerate 会定期校准其基线监测。新账户始终使用最新的基准监控,该表描述了新加入账户的基准监控。AMS Accelerate 会定期更新现有账户的基准监控,在更新到位之前,您可能会遇到延迟。
服务/资源类型 |
警报来源和触发条件 |
警报名称和备注 |
|---|---|---|
对于已加星标的 (*) 警报,AMS 会主动评估影响并在可能的情况下进行补救;如果无法进行补救,AMS 就会造成事故。如果自动化无法纠正问题,AMS 会通知您事故案例,并让 AMS 工程师参与。此外,如果您选择加入 Direct-Customer-Alerts SNS 主题,则这些提醒将直接发送到您的电子邮件中。 | ||
Application Load Balanc |
ApplicationLoadBalancerErrorCount (HTTPCode_elb_5xx_count/RequestCount) *100 总和 > 15%,持续 1 分钟,连续 5 次。 |
应用程序 LoadBalancer HTTP 5XX 错误计数 CloudWatch 在负载均衡器生成的 HTTP 5XX 响应代码数量过多时发出警报。 |
Application Load Balanc |
RejectedConnectionCount 总和 > 0%,持续 1 分钟,连续 5 次。 |
应用程序 LoadBalancer 被拒绝的连接计数 CloudWatch 如果因为负载均衡器达到最大值而被拒绝的连接数发出警报 |
应用程序 Load Balancer 目标 |
TargetConnectionErrorCount (HTTPCode_target_5xx_count/RequestCount) *100 总和 > 15%,持续 1 分钟,连续 5 次。 |
$ {ElasticLoadBalancingV2:::TargetGroup:FullName}-应用程序 LoadBalancer 目标连接错误计数-$ {ElasticLoadBalancingV2:::TargetGroup: UUID} CloudWatch 当目标生成的 HTTP 5XX 响应代码数量过多时发出警报。 |
应用程序 Load Balancer 目标 |
ApplicationLoadBalancerTargetGroupErrorCount 总和 > 0%,持续 1 分钟,连续 5 次。 |
$ {ElasticLoadBalancingV2:::TargetGroup:FullName}-应用程序 LoadBalancer 目标 HTTP 5XX 错误计数-$ {ElasticLoadBalancingV2:::: TargetGroup UUID} CloudWatch 如果负载均衡器和注册实例之间未成功建立连接数,则发出警报。 |
Amazon EC2 实例-全部 OSs |
CPUUtilization* 大于 95%,持续 5 分钟,连续 6 次。 |
$ {EC2::InstanceId}: CPU 太高 CloudWatch 警报。CPU 利用率高表明应用程序状态发生了变化,例如死锁、无限循环、恶意攻击和其他异常。 这些是 Direct-Customer-Alerts警报。 |
Amazon EC2 实例-全部 OSs |
StatusCheckFailed 大于 0%,持续 5 分钟,连续 3 次。 |
$ {EC2::InstanceId}: 状态检查失败 CloudWatch 警报。状态检查失败表示具有指定 ID 的 Amazon EC2 实例未通过一项或多项自动状态检查。这意味着该实例遇到了问题,导致其无法正常运行或无法访问。 |
亚马逊 EC2 实例-Linux |
最小内存使用百分比 大于 95%,持续 5 分钟,连续 6 次。 |
$ {EC2::InstanceId}:内存不足 CloudWatch 警报。内存可用表示指定 Amazon EC2 实例上的可用内存 (RAM) 已降至定义的阈值以下。这可能会导致内存问题和系统崩溃,并表明实例可能需要更多 RAM。 这些是 Direct-Customer-Alerts警报。 |
亚马逊 EC2 实例-Linux |
平均掉期使用百分比 大于 95%,持续 5 分钟,连续 6 次。 |
$ {EC2::InstanceId}:免掉期 CloudWatch 警报。A EC2 mazon 实例上的平均 swap_used_percent 表示当前使用的已分配交换空间的平均百分比已超过预定义的阈值。这可能会导致性能降低、瓶颈和内存问题。 这些是 Direct-Customer-Alerts警报。 |
亚马逊 EC2 实例-Linux |
最大已用磁盘百分比 大于 95%,持续 5 分钟,连续 6 次。 |
$ {EC2::InstanceId}:磁盘使用率太高-$ {EC2:: Disk:: UUID} CloudWatch 警报。磁盘使用率过高表示特定 Amazon EC2 或已识别磁盘上的磁盘利用率已接近其容量。这可能导致性能降低、应用程序错误和系统不稳定。 这些是 Direct-Customer-Alerts警报。 |
亚马逊 EC2 实例-Windows |
已使用的最小内存已提交字节数百分比 大于 95%,持续 5 分钟,连续 6 次。 |
$ {EC2::InstanceId}:内存不足 CloudWatch 警报。内存可用表示指定 Amazon EC2 实例上的可用内存 (RAM) 已降至定义的阈值以下。这可能会导致内存问题和系统崩溃,并表明实例可能需要更多 RAM。 这些是 Direct-Customer-Alerts警报。 |
亚马逊 EC2 实例-Windows |
最大可用空间 LogicalDisk 百分比 <= 5%,持续 5 分钟,连续 6 次。 |
$ {EC2::InstanceId}:磁盘使用率太高-$ {EC2:: Disk:: UUID} CloudWatch 警报。表示 Amazon EC2 Windows 实例中逻辑磁盘(文件系统分区)的可用空间百分比已超过预定义的阈值。磁盘空间不足可能导致磁盘空间不足 这些是 Direct-Customer-Alerts警报。 |
Amazon EFS |
AMSEFSBurstCreditBalanceExhausted. BurstCreditBalance 十五分钟内少于 1000。 |
$ {EFS::FileSystemId}: EFS:突发信用余额 CloudWatch Amazon EFS 文件系统的警报。 BurstCreditBalance |
Amazon EFS |
AMSEFSClientConnectionsLimit. ClientConnections > 24,000 持续十五分钟。 |
$ {EFS::FileSystemId}: EFS:客户端连接限制 CloudWatch Amazon EFS 文件系统的警报。 ClientConnections |
Amazon EFS |
AMSEFSThroughputUtilizationLimit. 一小时内 EFS 吞吐量利用率> 80%。 |
$ {EFS::FileSystemId}: EFS:吞吐量利用率限制 CloudWatch 有关 Amazon EFS 文件系统的吞吐量利用率的警报。 |
Amazon EFS |
AMSEFSPercentIOLimit. 百分比 IOLimit > 95,持续七十五分钟。 |
$ {EFS::FileSystemId}: EFS:百分比 IOLimit CloudWatch 在 Amazon EFS 文件系统的百分比IOLimit 上发出警报。 |
Amazon EKS |
参见 Amazon EKS AMS Accelerate 中的 Amazon EKS 监控和事件管理中的基准警报。 |
|
Elastic Load Balancin |
SpilloverCountBackendConnectionErrors > 1,持续 1 分钟,连续 15 次。 |
经典 LoadBalancer 溢出计数警报 CloudWatch 如果由于激增队列已满而被拒绝的请求数量过多,则发出警报。 |
Elastic Load Balancin |
HTTPCode_elb_5xx_count 总和 > 0,持续 5 分钟,连续 3 次。 |
CloudWatch 如果来自负载均衡器的 HTTP 5XX 响应代码数量过多,则发出警报。 |
Elastic Load Balancin |
SurgeQueueLength 大于 100,持续 1 分钟,连续 15 次。 |
经典 LoadBalancer 浪涌队列长度警报。 CloudWatch 如果有多余的请求等待路由,则发出警报。 |
FSx 适用于 ONTAP |
AMSFSXONTAPIOPSUtilization. FSX:ONTAP IOPS 利用率 > 80%,持续两个小时。 |
$ {FSx::FileSystemId}: FSX: ONTAP IOPS 利用率 CloudWatch 针对 ONTAP 实例的 IOPS 利用率限制发出警报。 FSx |
FSx 适用于 ONTAP |
AMSFSXONTAPThroughput利用率。 FSX:ONTAP 吞吐量利用率 > 80%,持续两个小时。 |
$ {FSx::FileSystemId}: FSX: ONTAP 吞吐量利用率 CloudWatch 针对 ONTAP 卷的 FSx 吞吐量限制发出警报。 |
FSx 适用于 ONTAP |
AMSFSXONTAPVolumeInodeUtilization. FSX: ONTAP 信息节点利用率 > 80%,持续两个小时。 |
$ {FSx::FileSystemId}: $ {:: ONTAPFSx::} FSX: ONTAP Inod VolumeId e 利用率 CloudWatch 针对 ONTAP 卷的文件容量利用率限制发出警报。 FSx |
FSx 适用于 ONTAP |
AMSFSXONTAPVolumeCapacityUtilization. FSX:ONTAP 卷容量利用率 > 80%,持续两个小时。 |
$ {FSx::FileSystemId}: $ {:FSx: ONTAP::} VolumeId CloudWatch 针对 ONTAP 卷的卷容量利用率限制发出警报。 FSx |
FSx 适用于 Windows 文件服务器 |
AMSFSXWindowsThroughputUtilization. fsx:Windows 吞吐量利用率 > 80%,持续两个小时。 |
$ {FSx::FileSystemId}: fsx: Windows 吞吐量利用率 CloudWatch 针对 Windows 文件服务器实例 FSx 的吞吐量限制发出警报。 |
FSx 适用于 Windows 文件服务器 |
AMSFSXWindowsIOPSUtilization. fsx:Windows IOPS 利用率 > 80%,持续两个小时。 |
$ {FSx::FileSystemId}: fsx: Windows IOPS 利用率 CloudWatch 针对 Windows 文件服务器实例的 IOPS 利用率限制发出警报。 FSx |
GuardDuty 服务 |
不适用;所有发现(威胁目的)都受到监控。每个发现都对应一个警报。 GuardDuty 调查结果的变化。这些变化包括新生成的发现或后续出现的现有发现。 |
有关支持的 GuardDuty 查找类型列表,请参阅GuardDuty 活动查找类型。 |
Health |
AWS Health Dashboard |
当与 AMS 监控的服务相关的 AWS Health Dashboard (AWS Health) 事件状态发生变化时,系统会发送通知。有关更多信息,请参阅支持的服务。 |
IAM |
亚马逊 EC2 IAM 实例配置文件不存在。 IAM 实例配置文件丢失。 |
有关替换 EC2 Amazon IAM 实例配置文件的说明,请参阅替换 IAM 角色中的 IAM 文档。 |
IAM |
EC2 Amazon IAM 实例配置文件有太多的策略。 IAM 实例配置文件有 10 个策略,无法添加其他策略。 |
有关 AMS 必需的策略,请参阅 AMS 加速用户指南:IAM 权限变更详情。 |
Macie |
新生成的警报和对现有警报的更新。 Macie 发现调查结果有任何变化。这些变化包括新生成的发现或后续出现的现有发现。 |
亚马逊 Macie 提醒。有关支持的亚马逊 Macie 警报类型列表,请参阅分析亚马逊 Macie 调查结果。请注意,并非所有账户都启用 Macie。 |
NATGateways |
PacketsDropCount : 如果 packetsdropcount 在 15 分钟内超过 0,则发出警报 |
NatGateway PacketsDropCount 大于零的值可能指示 NAT 网关持续存在暂时性问题。 |
NATGateways |
ErrorPortAllocation : 如果 NAT 网关在超过 15 分钟的评估期内无法分配端口,则发出警报 |
NatGateway ErrorPortAllocation NAT 网关无法分配源端口的次数。大于零的值表示打开的并发连接太多。 |
OpenSearch 集群 |
ClusterStatus 红色最大值为 >= 1,持续 1 分钟,连续 1 次。 |
ClusterStatus 红色 CloudWatch 警报。用于 AWS KMS 加密域中静态数据的加密密钥已禁用。重新启用它可恢复正常操作。要了解更多信息,请参阅 Red Cluster 状态。 |
OpenSearch 域 |
KMSKey错误 >= 1 持续 1 分钟,连续 1 次。 |
KMS 密钥错误 CloudWatch 警报。至少有一个主分片其及副本未分配给节点。要了解更多信息,请参阅 Amazon OpenSearch 服务的静态数据加密。 |
OpenSearch 域 |
KMSKey无法访问 >= 1 持续 1 分钟,连续 1 次。 |
KMS 密钥无法访问错误 CloudWatch 警报。至少有一个主分片其及副本未分配给节点。要了解更多信息,请参阅 Amazon OpenSearch 服务的静态数据加密。 |
OpenSearch 域 |
ClusterStatus 黄色最大值为 >= 1,持续 1 分钟,连续 1 次。 |
ClusterStatus 黄色 至少有一个副本分片未分配给节点。要了解更多信息,请参阅黄色群集状态。 |
OpenSearch 域 |
FreeStorageSpace 最小值为 <= 20480,持续 1 分钟,连续 1 次。 |
可用存储空间不足 您的集群中的节点已降至 20GiB 的可用存储空间。要了解更多信息,请参阅可用存储空间不足。 |
OpenSearch 域 |
ClusterIndexWritesBlocked >= 1 持续 5 分钟,连续 1 次。 |
集群索引写入已阻止 集群正在阻止写入请求。要了解更多信息,请参阅ClusterBlockException。 |
OpenSearch 域 |
节点 最小值 < x,持续 1 天。 |
节点已关闭 x 是您的集群中的节点数。此警报表示您的群集中至少有一个节点无法访问的时间已达到一天。要了解更多信息,请参阅集群节点故障。 |
OpenSearch 域 |
CPUUtilization 连续 3 次,15 分钟内平均值大于 80%。 |
数据节点的 CPU 使用率过高 100% CPU 利用率不常见,但是持续的 高平均值是有问题的。考虑调整现有实例类型的大小或添加实例。 |
OpenSearch 域 |
JVMMemory压力 最大 >= 80%,持续 5 分钟,连续 3 次。 |
数据节点的内存使用率很高 如果使用量增加,群集可能会遇到内存不足错误。考虑垂直缩放。 OpenSearch 将实例的 RAM 的一半用于 Java 堆,最大堆大小为 32GiB。您最多可以将实例的 RAM 垂直扩展至 64GiB,此时可以通过添加实例水平扩展。 |
OpenSearch 域 |
大师 CPUUtilization 15 分钟内平均值大于 50%,连续 3 次。 |
主节点 CPU 使用率高 考虑为您的专用主节点使用更大的实例类型。由于其在集群稳定性和蓝/绿部署中的作用,专用主节点的平均 CPU 使用率应比数据节点低。 |
OpenSearch 域 |
主JVMMemory压力 最大 >= 80%,持续 15 分钟,连续 1 次。 |
主节点高 JVM 内存压力 考虑为您的专用主节点使用更大的实例类型。由于其在集群稳定性和蓝/绿部署中的作用,专用主节点的平均 CPU 使用率应比数据节点低。 |
OpenSearch 实例 |
AutomatedSnapshotFailure 最大值为 >= 1,持续 1 分钟,连续 1 次。 |
自动快照失败 CloudWatch 警报。自动快照失败。此故障通常由红色群集运行状况导致。要了解更多信息,请参阅 Red Cluster 状态。 |
Amazon RDS |
CPU 平均利用率 大于 90%,持续 15 分钟,连续 2 次。 |
$ {RDS:: DBInstance 标识符}: CPUUtilization CloudWatch 警报。 |
Amazon RDS |
的总和 DiskQueueDepth 大于 75%,持续 1 分钟,连续 15 次。 |
$ {RDS:: DBInstance 标识符}: DiskQueue CloudWatch 警报。 |
Amazon RDS |
平均值 FreeStorageSpace 小于 1,073,741,824 字节,持续 5 分钟,连续 2 次。 |
$ {RDS:: DBInstance 标识符}: FreeStorageSpace CloudWatch 警报。 |
Amazon RDS |
存储空间不足警报 在为数据库实例分配的存储空间用完时触发。 |
RDS-EVENT-0007,详情请参阅使用亚马逊 RDS 事件通知。 |
Amazon RDS |
数据库实例失败 由于某个不兼容配置或底层存储问题,数据库实例已失败。从 point-in-time-restore数据库实例开始。 |
RDS-EVENT-0031,请在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
未尝试过 RDS -0034 故障切换。 Amazon RDS 不会因为数据库实例上最近出现故障转移而尝试请求故障转移。 |
RDS-EVENT-0034,请在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
RDS-0035 数据库实例参数无效 例如,由于该实例类的内存相关参数设置得太高,MySQL 无法启动,因此您的操作是修改内存参数并重启数据库实例。 |
RDS-EVENT-0035,请在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
子网 IDs 数据库实例无效 数据库实例处于不兼容的网络中。某些指定的子网 IDs 无效或不存在。 |
服务事件。RDS-EVENT-0036,请在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
RDS-0045 数据库实例只读副本错误 在读取复制过程中出错。有关详细信息,请参阅事件消息。有关排查只读副本错误的信息,请参阅 MySQL 只读副本问题疑难解答。 |
RDS-EVENT-0045,请在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
RDS-0057 创建 statspack 用户账户时出错 只读副本上的复制已结束。 |
服务事件。RDS-EVENT-0057,请在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
RDS-0058 数据库实例读取复制已结束 创建 Statspack 用户账户 PERFSTAT 时出错。在添加 Statspack 选项之前,请先删除账户。 |
服务事件。RDS-EVENT-0058,请在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
数据库实例恢复开始 SQL Server 数据库实例正在重新建立其镜像。在镜像重新建立之前,性能将下降。发现具有非 FULL 恢复模式的数据库。恢复模式已更改回完整模式并开始镜像恢复。 (<dbname>: <recovery model found>[,...]) |
服务事件。RDS-EVENT-0066 在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
数据库群集的故障转移已失败。 |
RDS-EVENT-0069,请在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
权限恢复无效 S3 存储桶 用于访问您的 Amazon S3 存储桶以执行 SQL Server 本机备份和恢复的 IAM 角色配置不正确。有关更多信息,请参阅设置本机 Backup 和还原。 |
服务事件。RDS-EVENT-0081 在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
Aurora 无法从 Amazon S3 存储桶复制备份数据。 |
RDS-EVENT-0082,请在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
当数据库实例消耗了其分配的存储空间的 90% 以上时,会发出存储空间不足警报。 |
服务事件。RDS-EVENT-0089 在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
Aurora 无服务器数据库集群扩展失败时的通知服务。 |
服务事件。RDS-EVENT-0143 在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
数据库实例处于无效状态。无需采取操作。弹性伸缩稍后将重试。 |
RDS-EVENT-0219,请在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
数据库实例已达到存储已满阈值,并且数据库已关闭。 |
RDS-EVENT-0221,请在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
此事件表示 Amazon RDS 实例存储无法自动扩展,自动扩展失败的原因可能有多种。 |
RDS-EVENT-0223,请在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
存储弹性伸缩已触发待处理的扩展存储任务,该任务将达到最大存储阈值。 |
RDS-EVENT-0224,请在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
数据库实例的存储类型目前在可用区中不可用。弹性伸缩稍后将重试。 |
RDS-EVENT-0237,请在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
Amazon RDS 无法为代理配置容量,因为您的子网中没有足够的 IP 地址。 |
RDS-EVENT-0243,请在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon RDS |
您的存储空间 AWS 账户 已超过允许的存储配额。 |
RDS-EVENT-0254,请在 Amazon RDS 事件类别和事件消息中查看详情。 |
Amazon Redshift 集群 |
未处于维护模式时集群的运行状况 < 1 持续 5 分钟 |
RedshiftClusterHealthStatus 有关更多信息,请参阅使用指标监控 Amazon Redshift CloudWatch 。 |
Site-to-Site VPN |
VPNTunnel向下 TunnelState <= 0 持续 1 分钟,连续 20 次。 |
$ {AWS::EC2::VpnConnectionId}- VPNTunnel 向下 TunnelState 当两条隧道都关闭时为 0,当一条隧道都开启时为 .5;当两条隧道都开启时为 1.0。 |
Systems Manager Agent |
EC2 不由 Systems Manager 管理的实例 未安装 SSM 代理。SSM 代理已安装在实例上,但代理服务未运行。SSM 代理没有到 S AWS ystems Manager 服务的网络路由。 |
还有其他情况会导致 Systems Manager 代理中断;有关更多信息,请参阅托管节点可用性疑难解答。 |
有关补救工作的信息,请参阅AMS 自动修复警报。