来自 AMS 基线监测的警报

了解 AMS 监控默认设置。有关更多信息，请参阅 AMS 中的监控和事件管理。

下表显示了监控的内容以及默认的警报阈值。在确定要进行哪些更改并订阅相关的 Amazon SNS 主题后，您可以使用管理 | 其他 | 其他 | 更新 (ct-0xdawir96cy7k) RFC 更改提醒阈值。 CloudWatch 有关创建和订阅主题的信息，请参阅订阅主题。有关一般信息，请参阅 Amazon SNS 常见问题解答。除了 AMS 的标准警报流程外，要在警报超过阈值时直接收到通知，请按照以下有关如何覆盖警报配置的说明进行操作。接收 AMS 生成的警报

Amazon CloudWatch 提供了更长的指标保留期。有关更多信息，请参阅CloudWatch 限制。

注意

AMS 定期校准其基线监测。新账户始终使用最新的基准监控，该表描述了新加入账户的基准监控。AMS 会定期更新现有账户的基准监控，在更新到位之前，您可能会遇到一段时间延迟。有关更多信息，请参阅查看 AMS 账户的监控配置。

注意

默认情况下，EC2 实例警报Non-root volume usage处于禁用状态。如果您需要根据此警报生成警报，则必须使用 RFC Change Type ct-0erkoad6uyvvg 将其启用

来自基线监控的警报
服务	安全警报	警报名称和触发条件	注意
对于已加星标的 (*) 警报，AMS 会主动评估影响并在可能的情况下进行补救；如果无法进行补救，AMS 就会造成事故。如果自动化无法纠正问题，AMS 会通知您事故案例，并让 AMS 工程师参与。此外，这些提醒可以直接发送到您的电子邮件中（如果您已选择加入 Direct-Customer-Alerts SNS 主题）。
亚马逊 EC2 实例 — Windows	否	SecureChannelFailure 在最后 15 个数据点中，有 10 个数据点大于 0.0。	CloudWatch 在 Windows 实例上发出警报，以便在安全通道连接失败时发出警报。
Aurora 实例	否	CPUUtilization 大于 85%，持续 5 分钟，连续 2 次。	CloudWatch 警报。
AWS Backup	是	DeleteRecoveryPoint 意外的 IAM 角色委托人或 IAM 用户委托人删除了 AWS Backup 恢复点。	CloudWatch 事件。删除备份恢复点时发出。
AWS Outposts	是	AMSOutpostsInstanceFamilyCapacityAvailability InstanceFamilyCapacityAvailability = 80% 持续 5 分钟，连续 12 次。	CloudWatch 对 AWS Outposts 资源的实例系列容量可用性发出警报。
		AMSOutpostsInstanceTypeCapacityAvailability TypeCapacityAvailability = 80% 持续 5 分钟，连续 12 次。	CloudWatch 对 AWS Outposts 资源的实例类型容量可用性发出警报。
		AMSOutpostsConnectedStatusConnectedStatus < 1，持续 5 分钟，连续 1 次。	CloudWatch AWS Outposts 服务链路连接时发出警报，少于 1 个计数受损。
		AMSOutpostsCapacityExceptionCapacityExceptions 0 表示 5 分钟，连续 1 次。	CloudWatch 为资源启动实例时出现容量不足错误时 AWS Outposts发出警报 .
EC2 实例-所有操作系统	否	CPU 利用率 * 如果实例对轮询 Systems Manager 命令没有响应，则连续 6 次，持续超过 95%，持续 5 分钟。	CloudWatch 警报。CPU 利用率高表明应用程序状态发生了变化，例如死锁、无限循环、恶意攻击和其他异常。
		StatusCheckFailed > 0，持续 5 分钟，连续 3 次。	CloudWatch 警报。
		根卷使用情况大于 95%，持续 5 分钟，连续 6 次。
		Non-root 音量使用情况大于 85%，持续 5 分钟，连续 2 次。默认情况下处于禁用状态；有关更多信息，请参阅https://docs.aws.amazon.com/managedservices/latest/ctref/management-monitoring-cloudwatch-enable-non-root-volumes-monitoring.html#management-monitoring-cloudwatch-enable-non-root-volumes-monitoring-info。
		内存可用 * MemoryFree 小于 5%，持续 5 分钟，连续 6 次。
	是	EPS恶意软件在实例中发现了恶意软件。	CloudWatch 事件。
亚马逊 EC2 实例-Linux	否	根卷索引节点使用情况连续 6 次，5 分钟内平均值大于 95%。	CloudWatch 警报。仅适用于 Linux 实例。
亚马逊 EC2 实例-Linux	否	免费交换 * 内存交换 < 5%，持续 5 分钟，连续 6 次。	CloudWatch 警报。仅适用于 Linux 实例。
ElastiCache 集群	否	CurrConnections = 65000	此警报通知 AMS ElastiCache 主机的最大连接限制。 CloudWatch 警报。如果您想更新此阈值，请联系 AMS 支持人员。
ElastiCache 节点	否	CPUUtilization 平均值 > 预定义值，持续 2 次，持续 15 分钟。	CloudWatch 警报。默认值为 90。如果是 Redis，则根据实例类型使用以下值之一： cache.t1.micro：90% cache.m1.small：90% cache.m1.medium：90% cache.m1.large：45% cache.m1.xlarge：22.5% cache.m2.xlarge：45% cache.m2.4xlarge：11.25% cache.c1.xlarge：11.25% cache.t2.micro：90% cache.t2.small：90% cache.t2.medium：45% cache.m3.medium：90% cache.m3.large：45% cache.m3.xlarge：22.5% cache.m3.2xlarge：11.25% cache.r3.large：45% cache.r3.xlarge：22.5% cache.r3.2xlarge：11.25% cache.r3.4xlarge：5.625% cache.r3.8xlarge：2.8125%
ElastiCache 节点-内存缓存	否	SwapUsage 连续 5 次，5 分钟内最大值大于 50,000,000 字节。	CloudWatch 警报。仅适用于内存缓存。
OpenSearch 集群	否	ClusterStatus.red 最大值为 >= 1，持续 1 分钟，连续 1 次。触发此警报后，AMS 会采取积极措施以减少对运营的影响。	CloudWatch 警报。至少有一个主分片其及副本未分配给节点。要了解更多信息，请参阅 Red Cluster 状态。
OpenSearch 域	否	KMSKeyError >= 1 持续 1 分钟，连续 1 次。	CloudWatch 警报。用于加密域中静态数据的 KMS 加密密钥已禁用。 Re-enable 它可以恢复正常运行。要了解更多信息，请参阅 OpenSearch 服务服务的静态数据加密。
		ClusterStatus.yellow 最大值为 >= 1，持续 1 分钟，连续 1 次触发此警报后，AMS 会采取积极措施以减少对运营的影响。	至少有一个副本分片未分配给节点。要了解更多信息，请参阅黄色群集状态。
		FreeStorageSpace 最小值为 <= 20480，持续 1 分钟，连续 1 次触发此警报后，AMS 会采取积极措施以减少对运营的影响。	您的集群中的节点已降至 20GiB 的可用存储空间。要了解更多信息，请参阅可用存储空间不足。
		ClusterIndexWritesBlocked >= 1 持续 5 分钟，连续 1 次触发此警报后，AMS 会采取积极措施以减少对运营的影响。	集群正在阻止写入请求。要了解更多信息，请参阅 ClusterBlockException。
		Nodes 最小值为 < x，持续 1 天触发此警报后，AMS 会采取积极措施以减少对运营的影响。	x 是您的集群中的节点数。此警报表示您的群集中至少有一个节点无法访问的时间已达到一天。要了解更多信息，请参阅集群节点故障。
		CPUUtilization 连续 3 次，15 分钟内平均值大于 80% 触发此警报后，AMS 会采取积极措施以减少对运营的影响。	100% 的 CPU 利用率很常见，但是持续的高平均利用率是有问题的。考虑使用更大的实例类型或添加实例。
		JVMMemoryPressure 最大值为 >= 80%，持续 5 分钟，连续 3 次触发此警报后，AMS 会采取积极措施以减少对运营的影响。	如果使用量增加，群集可能会遇到内存不足错误。请考虑垂直扩展。Amazon ES 将实例内存的一半用于 Java 堆，堆大小不超过 32 GiB。您最多可以将实例的 RAM 垂直扩展至 64GiB，此时可以通过添加实例水平扩展。
		MasterCPUUtilization 15 分钟内平均值大于 50%，连续 3 次触发此警报后，AMS 会采取积极措施以减少对运营的影响。	考虑为您的专用主节点使用更大的实例类型。由于专用主节点在集群稳定性和 blue/green 部署中的作用，因此其平均 CPU 使用率应低于数据节点。
		MasterJVMMemoryPressure 最大 >= 80%，持续 15 分钟，连续 1 次触发此警报后，AMS 会采取积极措施以减少对运营的影响。	考虑为您的专用主节点使用更大的实例类型。由于专用主节点在集群稳定性和 blue/green 部署中的作用，因此其平均 CPU 使用率应低于数据节点。
OpenSearch 实例	否	AutomatedSnapshotFailure 最大值为 >= 1，持续 1 分钟，连续 1 次。	CloudWatch 警报。自动快照失败。此故障通常由红色群集运行状况导致。参见红色集群状态。
弹性负载均衡实例	否	SurgeQueueLength 大于 100，持续 1 分钟，连续 15 次。	CloudWatch 如果有多余的请求等待路由，则发出警报。
		HTTP Code_ELB _5xx_Count 总和 > 0，持续 5 分钟，连续 3 次。	CloudWatch 如果来自负载均衡器的 HTTP 5XX 响应代码数量过多，则发出警报。
		SpilloverCount > 1，持续 1 分钟，连续 15 次。	CloudWatch 如果由于激增队列已满而被拒绝的请求数量过多，则发出警报。
GuardDuty 服务	是	不适用；所有发现（威胁目的）都受到监控。每个发现都对应一个警报。 GuardDuty 调查结果的变化。这些变化包括新生成的发现或后续出现的现有发现。	支持的 GuardDuty 查找类型列表位于 GuardDuty 活动查找类型上。
健康	变化	AWS Health Dashboard	当与 AMS 支持的基准服务相关的 AWS Health Dashboard (AWS Health) 事件状态发生变化需要AMS运营部门采取行动时，就会发送通知。有关更多信息，请参阅支持的服务。
AWS Managed Microsoft AD	否	活动目录状态 AWS Managed Microsoft AD 实例发送活动状态事件。	服务事件。在事件发生后目录正常运行时发出。
		目录状态受损 AWS Managed Microsoft AD 实例发送受损的目录状态事件。	服务事件。当目录以降级状态运行时发出。检测到一个或多个问题，可能有的目录操作未在完全有效地工作。
		无法操作的目录状态 AWS Managed Microsoft AD 实例发送无法操作的状态事件。	服务事件。当目录不起作用时发出。所有目录终端节点都报告有问题。
		正在删除目录状态 AWS Managed Microsoft AD 实例发送删除目录状态事件。	服务事件。当前正在删除目录时发出。
		失败的目录状态 AWS Managed Microsoft AD 实例发送失败状态事件。	服务事件。无法创建目录时发出。
		RestoreFailed 目录状态 AWS Managed Microsoft AD 实例发送恢复失败的目录状态事件。	服务事件。从快照恢复目录失败时发出。
亚马逊 RDS 实例	否	当为数据库实例分配的存储空间用完时，将触发存储空间不足警报。	RDS-EVENT-0007，请参阅使用 Amazon RDS 事件通知中的详细信息。
		数据库实例失败由于某个不兼容配置或底层存储问题，数据库实例已失败。开始对数据库实例进行时间点还原。	服务事件。 RDS-EVENT-0031、Amazon RDS 事件类别和事件消息。
		未尝试故障切换 Amazon RDS 不会因为数据库实例上最近出现故障转移而尝试请求故障转移。	服务事件。 RDS-EVENT-0034、Amazon RDS 事件类别和事件消息。
		数据库实例参数无效例如，由于该实例类的内存相关参数设置得太高，MySQL 无法启动，因此客户的操作是修改内存参数并重启数据库实例。	服务事件。 RDS-EVENT-0035、Amazon RDS 事件类别和事件消息。
		子网 ID 无效数据库实例数据库实例处于不兼容的网络中。有些指定的子网 ID 无效或者不存在。	服务事件。 RDS-EVENT-0036、Amazon RDS 事件类别和事件消息。
		数据库实例只读副本错误在读取复制过程中出错。有关详细信息，请参阅事件消息。有关排查只读副本错误的信息，请参阅 MySQL 只读副本问题疑难解答。	服务事件。 RDS-EVENT-0045、Amazon RDS 事件类别和事件消息。
		数据库实例读取复制已结束只读副本上的复制已结束。	服务事件。 RDS-EVENT-0057、Amazon RDS 事件类别和事件消息。
		创建 statspack 用户账户时出错创建 Statspack 用户账户 PERFSTAT 时出错。在添加 Statspack 选项之前，请先删除账户。	服务事件。 RDS-EVENT-0058、Amazon RDS 事件类别和事件消息。
		数据库实例恢复开始 SQL Server 数据库实例正在重新建立其镜像。在镜像重新建立之前，性能将下降。发现具有非 FULL 恢复模式的数据库。恢复模式已更改回完整模式并开始镜像恢复。 (<dbname>: <recovery model found>[,...])。	服务事件。 RDS-EVENT-0066、Amazon RDS 事件类别和事件消息。
		数据库群集的故障转移已失败。	RDS-EVENT-0069，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
		权限恢复无效 S3 存储桶用于访问您的 Amazon S3 存储桶以执行 SQL Server 本机备份和恢复的 IAM 角色配置不正确。有关更多信息，请参阅设置本机 Backup 和还原。	服务事件。 RDS-EVENT-0081、Amazon RDS 事件类别和事件消息。
		Aurora 无法从 Amazon S3 存储桶复制备份数据。	RDS-EVENT-0082，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
		当数据库实例消耗了其分配的存储空间的 90% 以上时，会发出存储空间不足警报	RDS-EVENT-0089，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
		Aurora 无服务器数据库集群扩展失败时的通知服务。	RDS-EVENT-0143，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
		数据库实例处于无效状态。无需采取操作。弹性伸缩稍后将重试。	RDS-EVENT-0219，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
		数据库实例已达到存储已满阈值，并且数据库已关闭。	RDS-EVENT-0221，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
		此事件表示 RDS 实例存储无法自动扩展，自动扩缩失败的原因可能有多种。	RDS-EVENT-0223，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
		存储弹性伸缩已触发待处理的扩展存储任务，该任务将达到最大存储阈值。	RDS-EVENT-0224，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
		数据库实例的存储类型目前在可用区中不可用。弹性伸缩稍后将重试。	RDS-EVENT-0237，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
		RDS 无法为代理预调配容量，因为您的子网中没有足够的 IP 地址可用。	RDS-EVENT-0243，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
		您的 AWS 账户的存储空间已超过允许的存储配额。	RDS-EVENT-0254，请在 Amazon RDS 事件类别和事件消息中查看详细信息。
		CPUUtilization 连续 2 次，15 分钟内 CPU 平均利用率大于 90%。	CloudWatch 警报。
		DiskQueueDepth 总和大于 75，持续 1 分钟，连续 15 次。
		FreeStorageSpace 连续 2 次，5 分钟内平均值小于 1,073,741,824 字节。
		SwapUsage 连续 2 次，5 分钟内平均值 >= 104,857,600 字节。
Amazon Redshift 集群	否	RedshiftClusterStatus 未处于维护模式时集群的生命值 < 1，持续 5 分钟。	1 表示集群运行状况良好。
Amazon Macie	是	新生成的警报和对现有警报的更新。 Macie 发现调查结果有任何变化。这些变化包括新生成的发现或后续出现的现有发现。	亚马逊 Macie 提醒。有关支持的 Macie 警报类型的列表，请参阅分析亚马逊 Mac ie 调查结果。请注意，并非所有账户都启用 Macie。

触发此警报后，AMS 会采取主动行动（扩展集群）。

有关补救工作的信息，请参阅AMS 自动修复警报。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

EC2 IAM 实例配置文件

日志保留和轮换默认值