AMS 自动修复警报 - AMS 加速用户指南

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AMS 自动修复警报

经过验证后,AWS Managed Services (AMS) 会根据本节中描述的特定条件和流程自动修复某些警报。

警报名称 说明 阈值 操作

状态检查失败

可能的硬件故障或实例的故障状态。

在过去 15 分钟内,系统至少检测到一次故障状态。

AMS 自动补救首先验证实例是否可访问。如果无法访问该实例,则该实例将停止并重新启动。停止和启动允许实例迁移到新的底层硬件。有关更多信息,请参阅以下 “EC2 状态检查失败补救自动化” 部分。

AMSLinuxDiskUsage

当您的 EC2 实例上 1 个挂载点(卷上的指定空间)的磁盘使用量已满时触发。

在过去 30 分钟内,该阈值高于定义值的 6 次。

AMS 自动修复首先会删除临时文件。如果这不能释放足够的磁盘空间,则会扩展音量以防止在卷已满时停机。

AMSWindowsDiskUsage

当您的 EC2 实例上 1 个装载点(卷上的指定空间)的磁盘使用量已满时。

在过去 30 分钟内,阈值高于定义值的 6 次。

AMS 自动修复首先会删除临时文件。如果这不能释放足够的磁盘空间,则会扩展音量以防止在卷已满时停机。

RDS-EVENT-0089

数据库实例已使用其分配的存储空间的 90% 以上。

已分配的存储空间超过 90%。

AMS 自动修复首先验证数据库是否处于可修改且可用或存储已满状态。然后,它会尝试通过 CloudFormation 变更集增加分配的存储、IOPS 和存储吞吐量。如果已经检测到堆栈偏移,则会回退到 RDS API 以防止停机。

通过向 RDS 数据库实例添加以下标签,可以选择退出此功能:"Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0007

为数据库实例分配的存储空间已用完。要解决这个问题,请分配额外的存储空间。

存储空间已百分之百分配。

AMS 自动修复首先验证数据库是否处于可修改且可用或存储已满状态。然后,它会尝试通过 CloudFormation 变更集增加分配的存储、IOPS 和存储吞吐量。如果已经检测到堆栈偏移,则会回退到 RDS API 以防止停机。

通过向 RDS 数据库实例添加以下标签,可以选择退出此功能:"Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0224

请求的分配存储空间达到或超过配置的最大存储阈值。

数据库实例的最大存储阈值已用尽或大于或等于请求的分配存储空间。

AMS 自动补救首先会验证请求的 RDS 存储量是否会超过最大存储阈值。如果得到确认,AMS 会尝试使用 CloudFormation 变更集将最大存储阈值提高 30%,或者如果未通过配置资源,则直接使用 RDS API。 CloudFormation

通过向 RDS 数据库实例添加以下标签,可以选择退出此功能:"Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS 存储容量

为数据库实例分配的存储空间剩余不到 1GB。

存储空间分配了 99%。

AMS 自动修复首先验证数据库是否处于可修改且可用或存储已满状态。然后,它会尝试通过 CloudFormation 变更集增加分配的存储、IOPS 和存储吞吐量。如果已经检测到堆栈偏移,则会回退到 RDS API 以防止停机。

通过向 RDS 数据库实例添加以下标签,可以选择退出此功能:"Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

EC2 状态检查失败:补救自动化注意事项

AMS 自动修复如何处理 EC2 状态检查失败问题:

  • 如果您的 Amazon EC2 实例变得无法访问,则必须停止并重新启动该实例,这样才能将其迁移到新硬件并进行恢复。

  • 如果问题的根源在于操作系统(fstab 中缺少设备、内核损坏等),则自动化无法恢复您的实例。

  • 如果您的实例属于 Auto Scaling 组,则自动化不会执行任何操作—— AutoScalingGroup 扩展操作会取代实例。

  • 如果您的实例启用了 EC2 自动恢复,则修复不会采取任何措施。

EC2 音量使用补救自动化

AWS Managed Services (AMS) 自动修复如何处理 EC2 卷使用问题:

  • 自动化首先会验证是否需要音量扩展,以及是否可以执行音量扩展。如果认为扩展是适当的,则自动化可以增加卷容量。这种自动化流程在增长需求与受控的有限扩张之间取得平衡。

  • 在扩展卷之前,自动化会对实例执行清理任务(Windows:磁盘清理器,Linux:Logrotate + Simple Service Manager 代理日志删除),以尝试释放空间。

    注意

    清理任务不在 EC2 “T” 系列实例上运行,因为它们依赖于 CPU 积分来持续运行。

  • 在 Linux 上,自动化仅支持扩展 EXT2 EXT3、 EXT4 和 XFS 类型的文件系统。

  • 在 Windows 上,自动化仅支持新技术文件系统 (NTFS) 和弹性文件系统 (RefS)。

  • 自动化不会扩展属于逻辑卷管理器 (LVM) 或 RAID 阵列的卷。

  • 自动化不会扩展实例存储容量。

  • 如果受影响的音量已经大于 2 TiB,则自动化不会采取任何行动。

  • 通过自动化进行的扩展限制为每周最多三次,在系统的整个生命周期内最多只能进行五次。

  • 如果上一次扩展是在过去六小时内进行的,则自动化不会扩大音量。

当这些规则阻止自动化采取行动时,AMS 会通过出站服务请求与您联系,以确定下一步要采取的行动。

Amazon RDS 存储不足事件补救自动化

AWS Managed Services (AMS) 自动修复如何处理 Amazon RDS 存储不足事件问题:

  • 在尝试扩展 Amazon RDS 实例存储空间之前,自动化会执行多项检查,以确保 Amazon RDS 实例处于可修改且可用或存储空间已满的状态。

  • 如果检测到 CloudFormation 堆栈偏差,则通过 Amazon RDS API 进行补救。

  • 在以下情况下,修复操作不会运行:

    • Amazon RDS 实例的状态不是 “可用” 或 “存储空间已满”。

    • Amazon RDS 实例存储目前不可修改(例如,在过去六小时内修改了存储空间时)。

    • Amazon RDS 实例已启用自动缩放存储空间。

    • Amazon RDS 实例不是 CloudFormation 堆栈中的资源。

  • 补救仅限于每六小时进行一次扩展,在连续的十四天内不超过三次扩展。

  • 当这些情况发生时,AMS 会与您联系,告知出站事件,以确定下一步行动。