监控指标默认值 - AMS 高级入职指南

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控指标默认值

下表显示了监控的内容和默认警报阈值。您可以通过变更管理变更请求 (RFC) 更改默认值。

注意

CloudWatch 2016 年 11 月 1 日推出了延长指标保留期。有关更多信息,请参阅CloudWatch 限制

来自基线监控的警报

服务

安全警报

警报名称和触发条件

备注

对于已加星标的 (*) 警报,AMS 会主动评估影响并在可能的情况下进行补救;如果无法进行补救,AMS 就会造成事故。如果自动化无法纠正问题,AMS 会通知您事故案例,并让 AMS 工程师参与。此外,这些提醒可以直接发送到您的电子邮件中(如果您已选择加入 Direct-Customer-Alerts SNS 主题)。

Application Load Balancer (ALB) 实例

RejectedConnectionCount

总和 > 0,持续 1 分钟,连续 5 次。

CloudWatch 如果因为负载均衡器达到最大值而被拒绝的连接数就会发出警报。

Application Load Balancer (ALB) 目标

TargetConnectionErrorCount

总和 > 0,持续 1 分钟,连续 5 次。

CloudWatch 如果负载均衡器和注册实例之间未成功建立连接数,则发出警报。

亚马逊 EC2 实例 — Windows

SecureChannelFailure

在最后 15 个数据点中,有 10 个数据点大于 0.0。

CloudWatch 在 Windows 实例上发出警报,以便在安全通道连接失败时发出警报。

Aurora 实例

CPUUtilization

大于 85%,持续 5 分钟,连续 2 次。

CloudWatch 警报。

AWS Backup

DeleteRecoveryPoint

意外的 IAM 角色委托人或 IAM 用户委托人删除了 AWS Backup 恢复点。

CloudWatch 事件。删除备份恢复点时发出。

AWS Outposts

AMSOutpostsInstanceFamilyCapacityAvailability InstanceFamilyCapacityAvailability

= 80% 持续 5 分钟,连续 12 次。

CloudWatch 对 AWS Outposts 资源的实例系列容量可用性发出警报。

AMSOutpostsInstanceTypeCapacityAvailability TypeCapacityAvailability

= 80% 持续 5 分钟,连续 12 次。

CloudWatch 对 AWS Outposts 资源的实例类型容量可用性发出警报。

AMSOutpostsConnectedStatusConnectedStatus

< 1,持续 5 分钟,连续 1 次。

CloudWatch AWS Outposts 服务链路连接时发出警报,少于 1 个计数受损。

AMSOutpostsCapacityExceptionCapacityExceptions

0 表示 5 分钟,连续 1 次。

CloudWatch 实例启动时出现容量不足错误时发出警报 AWS Outposts

.

EC2 实例-全部 OSs

CPUUtilization*

大于 95%,持续 5 分钟,连续 6 次。

CloudWatch 警报。CPU 利用率高表明应用程序状态发生了变化,例如死锁、无限循环、恶意攻击和其他异常。

StatusCheckFailed

> 0,持续 5 分钟,连续 3 次。

CloudWatch 警报。

根卷使用情况

大于 95%,持续 5 分钟,连续 6 次。

非 root 卷使用情况

大于 85%,持续 5 分钟,连续 2 次。

默认情况下处于禁用状态;有关更多信息,请参阅https://docs.aws.amazon.com/managedservices/latest/ctref/management-monitoring-cloudwatch-enable-non-root-volumes-monitoring.html#management-monitoring-cloudwatch-enable-non-root-volumes-monitoring-info

内存可用 *

MemoryFree 小于 5%,持续 5 分钟,连续 6 次。

EPS恶意软件

在实例中发现了恶意软件。

CloudWatch 事件。

亚马逊 EC2 实例-Linux

根卷索引节点使用情况

连续 6 次,5 分钟内平均值大于 95%。

CloudWatch 警报。仅适用于 Linux 实例。

免费交换 *

内存交换 < 5%,持续 5 分钟,连续 6 次。

ElastiCache 集群

CurrConnections = 65000

此警报通知 AMS ElastiCache 主机的最大连接限制。

CloudWatch 警报。如果您想更新此阈值,请联系 AMS 支持人员。

ElastiCache 节点

CPUUtilization

平均值 > 预定义值,持续 2 次,持续 15 分钟。

CloudWatch 警报。默认值为 90。如果是 Redis,则根据实例类型使用以下值之一:

  • cache.t1.micro:90%

  • cache.m1.small:90%

  • cache.m1.medium:90%

  • cache.m1.large:45%

  • cache.m1.xlarge:22.5%

  • cache.m2.xlarge:45%

  • cache.m2.4xlarge:11.25%

  • cache.c1.xlarge:11.25%

  • cache.t2.micro:90%

  • cache.t2.small:90%

  • cache.t2.medium:45%

  • cache.m3.medium:90%

  • cache.m3.large:45%

  • cache.m3.xlarge:22.5%

  • cache.m3.2xlarge:11.25%

  • cache.r3.large:45%

  • cache.r3.xlarge:22.5%

  • cache.r3.2xlarge:11.25%

  • cache.r3.4xlarge:5.625%

  • cache.r3.8xlarge:2.8125%

ElastiCache 节点-内存缓存

SwapUsage

连续 5 次,5 分钟内最大值大于 50,000,000 字节。

CloudWatch 警报。仅适用于内存缓存。

OpenSearch 集群

ClusterStatus.red

最大值为 >= 1,持续 1 分钟,连续 1 次。

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

CloudWatch 警报。至少有一个主分片其及副本未分配给节点。要了解更多信息,请参阅 Red 集群状态

OpenSearch 域

KMSKey错误

>= 1 持续 1 分钟,连续 1 次。

CloudWatch 警报。用于在您的域中加密静态数据的 KMS 加密密钥已禁用。重新启用它可恢复正常操作。要了解更多信息,请参阅 OpenSearch 服务服务的静态数据加密

ClusterStatus. 黄色

最大值为 >= 1,持续 1 分钟,连续 1 次

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

至少有一个副本分片未分配给节点。要了解更多信息,请参阅黄色群集状态

FreeStorageSpace

最小值为 <= 20480,持续 1 分钟,连续 1 次

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

您的集群中的节点已降至 20GiB 的可用存储空间。要了解更多信息,请参阅可用存储空间不足

ClusterIndexWritesBlocked

>= 1 持续 5 分钟,连续 1 次

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

集群正在阻止写入请求。要了解更多信息,请参阅 ClusterBlockException

节点

最小值为 < x,持续 1 天

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

x 是您的集群中的节点数。此警报表示您的群集中至少有一个节点无法访问的时间已达到一天。要了解更多信息,请参阅集群节点故障

CPUUtilization

连续 3 次,15 分钟内平均值大于 80%

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

100% 的 CPU 利用率很常见,但是持续的高平均利用率是有问题的。考虑使用更大的实例类型或添加实例。

JVMMemory压力

最大值为 >= 80%,持续 5 分钟,连续 3 次

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

如果使用量增加,群集可能会遇到内存不足错误。请考虑垂直扩展。Amazon ES 将实例内存的一半用于 Java 堆,堆大小不超过 32 GiB。您最多可以将实例的 RAM 垂直扩展至 64GiB,此时可以通过添加实例水平扩展。

大师 CPUUtilization

15 分钟内平均值大于 50%,连续 3 次

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

考虑为您的专用主节点使用更大的实例类型。由于专用主节点在集群稳定性和 blue/green 部署中的作用,因此其平均 CPU 使用率应低于数据节点。

主JVMMemory压力

最大 >= 80%,持续 15 分钟,连续 1 次

触发此警报后,AMS 会采取积极措施以减少对运营的影响。

考虑为您的专用主节点使用更大的实例类型。由于专用主节点在集群稳定性和 blue/green 部署中的作用,因此其平均 CPU 使用率应低于数据节点。

OpenSearch 实例

AutomatedSnapshotFailure

最大值为 >= 1,持续 1 分钟,连续 1 次。

CloudWatch 警报。自动快照失败。此故障通常由红色群集运行状况导致。参见红色集群状态

弹性负载均衡实例

SurgeQueueLength

大于 100,持续 1 分钟,连续 15 次。

CloudWatch 如果有多余的请求等待路由,则发出警报。

HTTPCode_elb_5xx_count

总和 > 0,持续 5 分钟,连续 3 次。

CloudWatch 如果来自负载均衡器的 HTTP 5XX 响应代码数量过多,则发出警报。

SpilloverCount

> 1,持续 1 分钟,连续 15 次。

CloudWatch 如果由于激增队列已满而被拒绝的请求数量过多,则发出警报。

GuardDuty 服务

不适用;所有发现(威胁目的)都受到监控。每个发现都对应一个警报。

GuardDuty 调查结果的变化。这些变化包括新生成的发现或后续出现的现有发现。

支持的 GuardDuty 查找类型列表位于 GuardDuty 活动查找类型上。

Health

变化

AWS Health Dashboard

与 AMS 支持的基准服务相关的 AWS Health Dashboard (AWS Health) 事件状态发生变化时,系统会发送通知。有关更多信息,请参阅支持的服务

AWS Managed Microsoft AD

活动目录状态

AWS Managed Microsoft AD 实例发送活动状态事件。

服务事件。在事件发生后目录正常运行时发出。

受损的目录状态

AWS Managed Microsoft AD 实例发送受损的目录状态事件。

服务事件。当目录以降级状态运行时发出。检测到一个或多个问题,可能有的目录操作未在完全有效地工作。

无法操作的目录状态

AWS Managed Microsoft AD 实例发送无法操作的状态事件。

服务事件。当目录不起作用时发出。所有目录终端节点都报告有问题。

正在删除目录状态

AWS Managed Microsoft AD 实例发送删除目录状态事件。

服务事件。当前正在删除目录时发出。

失败的目录状态

AWS Managed Microsoft AD 实例发送失败状态事件。

服务事件。无法创建目录时发出。

RestoreFailed 目录状态

AWS Managed Microsoft AD 实例发送恢复失败的目录状态事件。

服务事件。从快照恢复目录失败时发出。

亚马逊 RDS 实例

当为数据库实例分配的存储空间用完时,将触发存储空间不足警报。

RDS-EVENT-0007,详情请参阅使用亚马逊 RDS 事件通知

数据库实例失败

由于某个不兼容配置或底层存储问题,数据库实例已失败。从 point-in-time-restore数据库实例开始。

服务事件。RDS-EVENT-0031、Amazon RDS 事件类别和事件消息

未尝试故障切换

Amazon RDS 不会因为数据库实例上最近出现故障转移而尝试请求故障转移。

服务事件。RDS-EVENT-0034、Amazon RDS 事件类别和事件消息

数据库实例参数无效

例如,由于该实例类的内存相关参数设置得太高,MySQL 无法启动,因此客户的操作是修改内存参数并重启数据库实例。

服务事件。RDS-EVENT-0035、Amazon RDS 事件类别和事件消息

子网 IDs 数据库实例无效

数据库实例处于不兼容的网络中。某些指定的子网 IDs 无效或不存在。

服务事件。RDS-EVENT-0036、Amazon RDS 事件类别和事件消息

数据库实例只读副本错误

在读取复制过程中出错。有关详细信息,请参阅事件消息。有关排查只读副本错误的信息,请参阅排除 MySQL 只读副本问题

服务事件。RDS-EVENT-0045、Amazon RDS 事件类别和事件消息

数据库实例读取复制已结束

只读副本上的复制已结束。

服务事件。RDS-EVENT-0057、Amazon RDS 事件类别和事件消息

创建 statspack 用户账户时出错

创建 Statspack 用户账户 PERFSTAT 时出错。在添加 Statspack 选项之前,请先删除账户。

服务事件。RDS-EVENT-0058、Amazon RDS 事件类别和事件消息

数据库实例恢复开始

SQL Server 数据库实例正在重新建立其镜像。在镜像重新建立之前,性能将下降。发现具有非 FULL 恢复模式的数据库。恢复模式已更改回完整模式并开始镜像恢复。 (<dbname>: <recovery model found>[,...])。

服务事件。RDS-EVENT-0066、Amazon RDS 事件类别和事件消息

数据库群集的故障转移已失败。

RDS-EVENT-0069,请在 Amazon RDS 事件类别和事件消息中查看详情。

权限恢复无效 S3 存储桶

用于访问您的 Amazon S3 存储桶以执行 SQL Server 本机备份和恢复的 IAM 角色配置不正确。有关更多信息,请参阅设置本机 Backup 和还原

服务事件。RDS-EVENT-0081、Amazon RDS 事件类别和事件消息

Aurora 无法从 Amazon S3 存储桶复制备份数据。

RDS-EVENT-0082,请在 Amazon RDS 事件类别和事件消息中查看详情。

当数据库实例消耗了其分配的存储空间的 90% 以上时,会发出存储空间不足警报

RDS-EVENT-0089,请在 Amazon RDS 事件类别和事件消息中查看详情。

Aurora 无服务器数据库集群扩展失败时的通知服务。

RDS-EVENT-0143,请在 Amazon RDS 事件类别和事件消息中查看详情。

数据库实例处于无效状态。无需采取操作。弹性伸缩稍后将重试。

RDS-EVENT-0219,请在 Amazon RDS 事件类别和事件消息中查看详情。

数据库实例已达到存储已满阈值,并且数据库已关闭。

RDS-EVENT-0221,请在 Amazon RDS 事件类别和事件消息中查看详情。

此事件表示 RDS 实例存储无法自动扩展,自动扩缩失败的原因可能有多种。

RDS-EVENT-0223,请在 Amazon RDS 事件类别和事件消息中查看详情。

存储弹性伸缩已触发待处理的扩展存储任务,该任务将达到最大存储阈值。

RDS-EVENT-0224,请在 Amazon RDS 事件类别和事件消息中查看详情。

数据库实例的存储类型目前在可用区中不可用。弹性伸缩稍后将重试。

RDS-EVENT-0237,请在 Amazon RDS 事件类别和事件消息中查看详情。

RDS 无法为代理预调配容量,因为您的子网中没有足够的 IP 地址可用。

RDS-EVENT-0243,请在 Amazon RDS 事件类别和事件消息中查看详情。

您的 AWS 账户的存储空间已超过允许的存储配额。

RDS-EVENT-0254,请在 Amazon RDS 事件类别和事件消息中查看详情。

CPUUtilization

连续 2 次,15 分钟内 CPU 平均利用率大于 90%。

CloudWatch 警报。

DiskQueueDepth

总和大于 75,持续 1 分钟,连续 15 次。

FreeStorageSpace

连续 2 次,5 分钟内平均值小于 1,073,741,824 字节。

SwapUsage

连续 2 次,5 分钟内平均值 >= 104,857,600 字节。

Amazon Redshift 集群

RedshiftClusterStatus

未处于维护模式时集群的生命值 < 1,持续 5 分钟。

1 表示集群运行状况良好。

Amazon Macie

新生成的警报和对现有警报的更新。

Macie 发现调查结果有任何变化。这些变化包括新生成的发现或后续出现的现有发现。

亚马逊 Macie 提醒。有关支持的 Macie 警报类型的列表,请参阅分析亚马逊 Mac ie 调查结果。请注意,并非所有账户都启用 Macie。