来自 AMS 基线监测的警报

了解有关 AMS 加速监控默认设置的信息。有关更多信息，请参阅 AMS Accelerate 中的监控和事件管理。

下表显示了监控的内容和默认警报阈值。您可以使用自定义配置文档更改警报阈值，也可以提交服务请求。有关更改自定义警报配置的说明，请参阅更改加速警报配置。要在警报超过阈值时接收通知，除了 AMS 的标准警报流程外，您还可以覆盖警报配置。有关说明，请参阅加速警报管理器。

Amazon CloudWatch 提供了更长的指标保留期。有关更多信息，请参阅CloudWatch 限制。

注意

AMS Accelerate 会定期校准其基线监测。新账户始终使用最新的基准监控，该表描述了新加入账户的基准监控。AMS Accelerate 会定期更新现有账户的基准监控，在更新到位之前，您可能会遇到延迟。

来自基线监控的警报
服务/资源类型	警报来源和触发条件	警报名称和备注
对于已加星标的 (*) 警报，AMS 会主动评估影响并在可能的情况下进行补救；如果无法进行补救，AMS 就会造成事故。如果自动化无法纠正问题，AMS 会通知您事故案例，并让 AMS 工程师参与。此外，如果您选择加入 Direct-Customer-Alerts SNS 主题，则这些提醒将直接发送到您的电子邮件中。
Application Load Balanc	ApplicationLoadBalancerErrorCount (HTTPCode_ELB_5XX_Count/RequestCount) *100 总和 > 15%，持续 1 分钟，连续 5 次。	应用程序 LoadBalancer HTTP 5XX 错误计数 CloudWatch 在负载均衡器生成的 HTTP 5XX 响应代码数量过多时发出警报。
应用程序 Load Balancer 目标	ApplicationLoadBalancerTargetGroupErrorCount 总和 > 0%，持续 1 分钟，连续 5 次。	$ {ElasticLoadBalancingV2:::TargetGroup:FullName}-应用程序 LoadBalancer 目标 HTTP 5XX 错误计数-$ {ElasticLoadBalancingV2:::TargetGroup: UUID} CloudWatch 如果负载均衡器和注册实例之间未成功建立连接数，则发出警报。
亚马逊 EC2 实例-所有操作系统	CPU 利用率 * 如果实例对轮询 Systems Manager 命令没有响应，则连续 6 次在 5 分钟内大于 95%。	$ {EC2::InstanceId}: CPU 太高 CloudWatch 警报。CPU 利用率高表明应用程序状态发生了变化，例如死锁、无限循环、恶意攻击和其他异常。这些是 Direct-Customer-Alerts 警报。
亚马逊 EC2 实例-所有操作系统	StatusCheckFailed 大于 0%，持续 5 分钟，连续 3 次。	$ {EC2::InstanceId}：状态检查失败 CloudWatch 警报。状态检查失败表示具有指定 ID 的 Amazon EC2 实例未通过一项或多项自动状态检查。这意味着该实例遇到了问题，导致其无法正常运行或无法访问。
亚马逊 EC2 实例-Linux	最小内存使用百分比大于 95%，持续 5 分钟，连续 6 次。	$ {EC2::InstanceId}：内存不足 CloudWatch 警报。内存可用表示指定 Amazon EC2 实例上的可用内存 (RAM) 已降至定义的阈值以下。这可能会导致内存问题和系统崩溃，并表明实例可能需要更多 RAM。这些是 Direct-Customer-Alerts 警报。
亚马逊 EC2 实例-Linux	平均掉期使用百分比大于 95%，持续 5 分钟，连续 6 次。	$ {EC2::InstanceId}：免掉期 CloudWatch 警报。Amazon EC2 实例上的平均 swap_used_percent 表示当前使用的已分配交换空间的平均百分比已超过预定义的阈值。这可能会导致性能降低、瓶颈和内存问题。这些是 Direct-Customer-Alerts 警报。
亚马逊 EC2 实例-Linux	最大已用磁盘百分比大于 95%，持续 5 分钟，连续 6 次。	$ {EC2::InstanceId}：磁盘使用率太高-$ {EC2:: Disk:: UUID} CloudWatch 警报。磁盘使用率过高表示特定 Amazon EC2 或已识别磁盘上的磁盘利用率已接近其容量。这可能导致性能降低、应用程序错误和系统不稳定。这些是 Direct-Customer-Alerts 警报。
亚马逊 EC2 实例——Windows	已使用的最小内存已提交字节数百分比大于 95%，持续 5 分钟，连续 6 次。	$ {EC2::InstanceId}：内存不足 CloudWatch 警报。内存可用表示指定 Amazon EC2 实例上的可用内存 (RAM) 已降至定义的阈值以下。这可能会导致内存问题和系统崩溃，并表明实例可能需要更多 RAM。这些是 Direct-Customer-Alerts 警报。
亚马逊 EC2 实例——Windows	最大可用空间 LogicalDisk 百分比 <= 5%，持续 5 分钟，连续 6 次。	$ {EC2::InstanceId}：磁盘使用率太高-$ {EC2:: Disk:: UUID} CloudWatch 警报。表示 Amazon EC2 Windows 实例中逻辑磁盘（文件系统分区）上的可用空间百分比已超过预定义的阈值。磁盘空间不足可能导致磁盘空间不足这些是 Direct-Customer-Alerts 警报。
Amazon EFS	AMSEFSBurstCreditBalanceExhausted. BurstCreditBalance 十五分钟内少于 1000。	$ {EFS::FileSystemId}: EFS：突发信用余额 CloudWatch Amazon EFS 文件系统的警报。 BurstCreditBalance
Amazon EFS	AMSEFSClientConnectionsLimit. ClientConnections > 24,000 持续十五分钟。	$ {EFS::FileSystemId}: EFS：客户端连接限制 CloudWatch Amazon EFS 文件系统的警报。 ClientConnections
Amazon EFS	AMSEFSThroughputUtilizationLimit. 一小时内 EFS 吞吐量利用率> 80%。	$ {EFS::FileSystemId}: EFS：吞吐量利用率限制 CloudWatch 有关 Amazon EFS 文件系统的吞吐量利用率的警报。
Amazon EFS	AMSEFSPercentIOLimit. 百分比限制 > 95，持续七十五分钟。	$ {EFS::FileSystemId}: EFS: percentioLimit CloudWatch Amazon EFS 文件系统的百分比限制发出警报。
Amazon EKS	参见 Amazon EKS AMS Accelerate 中的 Amazon EKS 监控和事件管理中的基准警报。
弹性负载均衡实例	SpilloverCountBackendConnectionErrors > 1，持续 1 分钟，连续 15 次。	经典 LoadBalancer 溢出计数警报 CloudWatch 如果由于激增队列已满而被拒绝的请求数量过多，则发出警报。
弹性负载均衡实例	HTTP Code_ELB _5xx_Count 总和 > 0，持续 5 分钟，连续 3 次。	CloudWatch 如果来自负载均衡器的 HTTP 5XX 响应代码数量过多，则发出警报。
弹性负载均衡实例	SurgeQueueLength 大于 100，持续 1 分钟，连续 15 次。	经典 LoadBalancer 浪涌队列长度警报。 CloudWatch 如果有多余的请求等待路由，则发出警报。
FSx for ONTAP	amsfsxontapiopsulitization。 FSX:ONTAP 两小时内的 IOPS 利用率> 80%。	$ {fsx::FileSystemId}: FSX:ONTAP IOPS 利用率 CloudWatch 针对适用于 ONTAP 实例的 FSx 的 IOPS 利用率限制发出警报。
FSx for ONTAP	AMSFSXONTAPThroughputUtilization. FSX:ONTAP 两小时内吞吐量利用率 > 80%。	$ {fsx::FileSystemId}: 吞吐量利用率 FSX:ONTAP CloudWatch 针对 ONTAP 卷的 FSx 吞吐量限制发出警报。
FSx for ONTAP	AMSFSXONTAPVolumeInodeUtilization. FSX:ONTAP 两小时内索引节点利用率 > 80%。	$ {fsX::FileSystemId}: $ {fsx:: ONTAP::} 索引节点利用率 VolumeId FSX:ONTAP CloudWatch 针对 ONTAP 卷的 FSx 的文件容量利用率限制发出警报。
FSx for ONTAP	AMSFSXONTAPVolumeCapacityUtilization. FSX:ONTAP 两小时内卷容量利用率 > 80%。	$ {fsX::FileSystemId}: $ {fsx:: ONTAP::} VolumeId CloudWatch 针对 ONTAP 卷的 FSx 的卷容量利用率限制发出警报。
适用于 Windows File Server 的 FSx	AMSFSXWindowsThroughputUtilization. FSX:Windows 两小时内吞吐量利用率 > 80%。	$ {fsx::FileSystemId}: 吞吐量利用率 FSX:Windows CloudWatch FSx for Windows File Server 实例的吞吐量限制发出警报。
适用于 Windows File Server 的 FSx	AMSFSXWindowsIOPSUtilization. FSX:Windows 两小时内的 IOPS 利用率> 80%。	$ {fsx::FileSystemId}: FSX:Windows IOPS 利用率 CloudWatch 对 FSx for Windows File Server 实例的 IOPS 利用率限制发出警报。
GuardDuty 服务	不适用；所有发现（威胁目的）都受到监控。每个发现都对应一个警报。 GuardDuty 调查结果的变化。这些变化包括新生成的发现或后续出现的现有发现。	有关支持的 GuardDuty 查找类型列表，请参阅GuardDuty 活动查找类型。
健康	AWS Health Dashboard	当 AWS Health Dashboard (AWS Health) 事件的状态发生变化，需要AMS运营部门采取与AMS监控的服务相关的操作时，就会发送通知。有关更多信息，请参阅支持的服务。
IAM	亚马逊 EC2 IAM 实例配置文件不存在。 IAM 实例配置文件丢失。	有关替换 Amazon EC2 IAM 实例配置文件的说明，请参阅替换 IAM 角色中的 IAM 文档。
IAM	Amazon EC2 IAM 实例配置文件有太多的策略。 IAM 实例配置文件有 10 个策略，无法添加其他策略。	修改 IAM 的 AWS 服务配额，将每个角色的托管策略数量增加到 20。有关服务配额的信息，请参阅查看服务配额。通过删除与这些实例关联的 IAM 角色的不必要托管策略，将托管策略数量降至当前 IAM 配额以下。请务必保留 AMS 必需的政策。通过整合与这些实例关联的 IAM 角色的策略，将托管策略数量降低到当前 IAM 配额以下。请务必保留 AMS 必需的政策。有关 AMS 必需的策略，请参阅 AMS 加速用户指南：IAM 权限变更详情。
Macie	新生成的警报和对现有警报的更新。 Macie 发现调查结果有任何变化。这些变化包括新生成的发现或后续出现的现有发现。	亚马逊 Macie 提醒。有关支持的亚马逊 Macie 警报类型列表，请参阅分析亚马逊 Macie 调查结果。请注意，并非所有账户都启用 Macie。
OpenSearch 集群	ClusterStatus 红色最大值为 >= 1，持续 1 分钟，连续 1 次。	ClusterStatus 红色 CloudWatch 警报。用于 AWS KMS 加密域中静态数据的加密密钥已禁用。 Re-enable 它可以恢复正常运行。要了解更多信息，请参阅 Red Cluster 状态。
OpenSearch 域	KMSKeyError >= 1 持续 1 分钟，连续 1 次。	KMS 密钥错误 CloudWatch 警报。至少有一个主分片其及副本未分配给节点。要了解更多信息，请参阅 Amazon OpenSearch 服务的静态数据加密。
OpenSearch 域	KMSKeyInaccessible >= 1 持续 1 分钟，连续 1 次。	KMS 密钥无法访问错误 CloudWatch 警报。至少有一个主分片其及副本未分配给节点。要了解更多信息，请参阅 Amazon OpenSearch 服务的静态数据加密。
OpenSearch 域	ClusterStatus 黄色最大值为 >= 1，持续 1 分钟，连续 1 次。	ClusterStatus 黄色至少有一个副本分片未分配给节点。要了解更多信息，请参阅黄色群集状态。
OpenSearch 域	FreeStorageSpace 最小值为 <= 20480，持续 1 分钟，连续 1 次。	可用存储空间不足您的集群中的节点已降至 20GiB 的可用存储空间。要了解更多信息，请参阅可用存储空间不足。
OpenSearch 域	ClusterIndexWritesBlocked >= 1 持续 5 分钟，连续 1 次。	集群索引写入已阻止集群正在阻止写入请求。要了解更多信息，请参阅ClusterBlockException。
OpenSearch 域	Nodes 最小值 < x，持续 1 天。	节点已关闭 x 是您的集群中的节点数。此警报表示您的群集中至少有一个节点无法访问的时间已达到一天。要了解更多信息，请参阅集群节点故障。
OpenSearch 域	CPUUtilization 连续 3 次，15 分钟内平均值大于 80%。	数据节点的 CPU 使用率过高 100% CPU 利用率不常见，但是持续的高平均值是有问题的。考虑调整现有实例类型的大小或添加实例。
OpenSearch 域	JVMMemoryPressure 最大 >= 80%，持续 5 分钟，连续 3 次。	数据节点的内存使用率很高如果使用量增加，群集可能会遇到内存不足错误。考虑垂直缩放。 OpenSearch 将实例的 RAM 的一半用于 Java 堆，最大堆大小为 32GiB。您最多可以将实例的 RAM 垂直扩展至 64GiB，此时可以通过添加实例水平扩展。
OpenSearch 域	MasterCPUUtilization 15 分钟内平均值大于 50%，连续 3 次。	主节点 CPU 使用率高考虑为您的专用主节点使用更大的实例类型。由于专用主节点在集群稳定性和blue/green 部署中的作用，因此其平均 CPU 使用率应低于数据节点。
OpenSearch 域	MasterJVMMemoryPressure 最大 >= 80%，持续 15 分钟，连续 1 次。	主节点高 JVM 内存压力考虑为您的专用主节点使用更大的实例类型。由于专用主节点在集群稳定性和blue/green 部署中的作用，因此其平均 CPU 使用率应低于数据节点。
OpenSearch 实例	AutomatedSnapshotFailure 最大值为 >= 1，持续 1 分钟，连续 1 次。	自动快照失败 CloudWatch 警报。自动快照失败。此故障通常由红色群集运行状况导致。要了解更多信息，请参阅 Red Cluster 状态。
Amazon RDS	CPU 平均利用率大于 90%，持续 15 分钟，连续 2 次。	$ {RDS::DBInstanceIdentifier}: CPU利用率 CloudWatch 警报。
Amazon RDS	的总和 DiskQueueDepth 大于 75%，持续 1 分钟，连续 15 次。	$ {RDS::DBInstanceIdentifier}: DiskQueue CloudWatch 警报。
Amazon RDS	平均值 FreeStorageSpace 小于 1,073,741,824 字节，持续 5 分钟，连续 2 次。	$ {RDS::DBInstanceIdentifier}: FreeStorageSpace CloudWatch 警报。
Amazon RDS	存储空间不足警报在为数据库实例分配的存储空间用完时触发。	RDS-EVENT-0007，请参阅使用 Amazon RDS 事件通知中的详细信息。
Amazon RDS	数据库实例失败由于某个不兼容配置或底层存储问题，数据库实例已失败。开始对数据库实例进行时间点还原。	RDS-EVENT-0031，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	未尝试过 RDS -0034 故障切换。 Amazon RDS 不会因为数据库实例上最近出现故障转移而尝试请求故障转移。	RDS-EVENT-0034，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	RDS-0035 数据库实例参数无效例如，由于该实例类的内存相关参数设置得太高，MySQL 无法启动，因此您的操作是修改内存参数并重启数据库实例。	RDS-EVENT-0035，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	子网 ID 无效数据库实例数据库实例处于不兼容的网络中。有些指定的子网 ID 无效或者不存在。	服务事件。 RDS-EVENT-0036，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	RDS-0045 数据库实例只读副本错误在读取复制过程中出错。有关详细信息，请参阅事件消息。有关排查只读副本错误的信息，请参阅 MySQL 只读副本问题疑难解答。	RDS-EVENT-0045，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	RDS-0057 创建 statspack 用户账户时出错只读副本上的复制已结束。	服务事件。 RDS-EVENT-0057，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	RDS-0058 数据库实例读取复制已结束创建 Statspack 用户账户 PERFSTAT 时出错。在添加 Statspack 选项之前，请先删除账户。	服务事件。 RDS-EVENT-0058，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	数据库实例恢复开始 SQL Server 数据库实例正在重新建立其镜像。在镜像重新建立之前，性能将下降。发现具有非 FULL 恢复模式的数据库。恢复模式已更改回完整模式并开始镜像恢复。 (<dbname>: <recovery model found>[，...])	服务事件。 RDS-EVENT-0066 在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	数据库群集的故障转移已失败。	RDS-EVENT-0069，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	权限恢复无效 S3 存储桶用于访问您的 Amazon S3 存储桶以执行 SQL Server 本机备份和恢复的 IAM 角色配置不正确。有关更多信息，请参阅设置本机 Backup 和还原。	服务事件。 RDS-EVENT-0081 在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	Aurora 无法从 Amazon S3 存储桶复制备份数据。	RDS-EVENT-0082，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	当数据库实例消耗了其分配的存储空间的 90% 以上时，会发出存储空间不足警报。	服务事件。 RDS-EVENT-0089 在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	Aurora 无服务器数据库集群扩展失败时的通知服务。	服务事件。 RDS-EVENT-0143 在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	数据库实例处于无效状态。无需采取操作。弹性伸缩稍后将重试。	RDS-EVENT-0219，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	数据库实例已达到存储已满阈值，并且数据库已关闭。	RDS-EVENT-0221，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	此事件表示 Amazon RDS 实例存储无法自动扩展，自动扩展失败的原因可能有多种。	RDS-EVENT-0223，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	存储弹性伸缩已触发待处理的扩展存储任务，该任务将达到最大存储阈值。	RDS-EVENT-0224，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	数据库实例的存储类型目前在可用区中不可用。弹性伸缩稍后将重试。	RDS-EVENT-0237，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	Amazon RDS 无法为代理配置容量，因为您的子网中没有足够的 IP 地址。	RDS-EVENT-0243，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon RDS	您的存储空间 AWS 账户已超过允许的存储配额。	RDS-EVENT-0254，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
Amazon Redshift 集群	未处于维护模式时集群的运行状况 < 1 持续 5 分钟	RedshiftClusterHealthStatus 有关更多信息，请参阅使用指标监控 Amazon Redshift CloudWatch 。
Site-to-Site VPN	VPNTunnelDown TunnelState <= 0 持续 1 分钟，连续 20 次。	$ {AWS:: EC2::VpnConnectionId}- VPNTunnelDown TunnelState 当两条隧道都关闭时为 0，当一条隧道都开启时为 .5；当两条隧道都开启时为 1.0。
Systems Manager Agent	不由 Systems Manager 管理的 EC2 实例未安装 SSM 代理。SSM 代理已安装在实例上，但代理服务未运行。SSM 代理没有到 S AWS ystems Manager 服务的网络路由。	还有其他情况会导致 Systems Manager 代理中断；有关更多信息，请参阅托管节点可用性疑难解答。

有关补救工作的信息，请参阅AMS 自动修复警报。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

监控的工作原理

AMS 中的应用程序感知事件通知