EC2 状态检查失败：补救自动化注意事项 EC2 卷使用补救自动化 Amazon RDS 存储不足事件补救自动化 ONTAP 卷容量修复自动化

AMS 自动修复警报

经过验证后，AWS Managed Services (AMS) 会根据本节中描述的特定条件和流程自动修复某些警报。

警报名称	说明	Thresholds	Action
状态检查失败	可能的硬件故障或实例的故障状态。	在过去 15 分钟内，系统至少检测到一次故障状态。	AMS 自动补救首先验证实例是否可访问。如果无法访问该实例，则该实例将停止并重新启动。停止和启动允许实例迁移到新的底层硬件。有关更多信息，请参阅以下 “EC2 状态检查故障补救自动化” 部分。
AMSLinuxDiskUsage	当您的 EC2 实例上 1 个挂载点（卷上的指定空间）的磁盘使用量已满时触发。	在过去 30 分钟内，该阈值高于定义值的 6 次。	AMS 自动修复首先会删除临时文件。如果这不能释放足够的磁盘空间，则会扩展音量以防止在卷已满时停机。
AMSWindowsDiskUsage	当您的 EC2 实例上 1 个挂载点（卷上的指定空间）的磁盘使用量已满时。	在过去 30 分钟内，该阈值高于定义值的 6 次。	AMS 自动修复首先会删除临时文件。如果这不能释放足够的磁盘空间，则会扩展音量以防止在卷已满时停机。
RDS-EVENT-0089	数据库实例已使用其分配的存储空间的 90% 以上。	已分配的存储空间超过 90%。	AMS 自动修复首先验证数据库是否处于可修改且可用或存储已满状态。然后，它会尝试通过 CloudFormation 变更集增加分配的存储、IOPS 和存储吞吐量。如果已经检测到堆栈偏移，则会回退到 RDS API 以防止停机。通过向 RDS 数据库实例添加以下标签，可以选择退出此功能：`"Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".`
RDS-EVENT-0007	为数据库实例分配的存储空间已用完。要解决这个问题，请分配额外的存储空间。	存储空间已百分之百分配。	AMS 自动修复首先验证数据库是否处于可修改且可用或存储已满状态。然后，它会尝试通过 CloudFormation 变更集增加分配的存储、IOPS 和存储吞吐量。如果已经检测到堆栈偏移，则会回退到 RDS API 以防止停机。通过向 RDS 数据库实例添加以下标签，可以选择退出此功能：`"Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".`
RDS-EVENT-0224	请求的分配存储空间达到或超过配置的最大存储阈值。	数据库实例的最大存储阈值已用尽或大于或等于请求的分配存储空间。	AMS 自动补救首先会验证请求的 RDS 存储量是否会超过最大存储阈值。如果得到确认，AMS 会尝试使用 CloudFormation 变更集将最大存储阈值提高 30%，或者如果未通过配置资源，则直接使用 RDS API。 CloudFormation 通过向 RDS 数据库实例添加以下标签，可以选择退出此功能：`"Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".`
RDS 存储容量	为数据库实例分配的存储空间剩余不到 1GB。	存储空间分配率为 99%。	AMS 自动修复首先验证数据库是否处于可修改且可用或存储已满状态。然后，它会尝试通过 CloudFormation 变更集增加分配的存储、IOPS 和存储吞吐量。如果已经检测到堆栈偏移，则会回退到 RDS API 以防止停机。通过向 RDS 数据库实例添加以下标签，可以选择退出此功能：`"Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".`
AMSFSXONTAPVolumeCapacityUtilization	Amazon FSx f NetApp or ONTAP 卷消耗的存储空间已超过默认分配的存储空间（80%）。	FSx 对于 ONTAP，卷容量利用率在两小时内大于 80%（默认值）。	AMS 自动补救首先验证卷生命周期状态是否处于可修改状态，然后将卷大小扩大 10%，同时根据文件系统的最大容量进行验证。如果文件系统缺少足够的存储容量来扩展卷，则会同时扩展卷和文件系统。在任何七天内，此扩展限制为最多三次。AMS Automation 扩展到的最大存储限制为 5120 GiB。注意如果在卷顶部配置了 iSCSI LUN，请在操作系统级别扩展 iSCSI LUN。有关更多信息，请参阅为什么我 FSx 的 for ONTAP LUN 处于只读模式？

EC2 状态检查失败：补救自动化注意事项

AMS 自动修复如何处理 EC2 状态检查失败问题：

如果您的 Amazon EC2 实例无法访问，则必须停止并重新启动该实例，这样才能将其迁移到新硬件并进行恢复。
如果问题的根源在于操作系统（fstab 中缺少设备、内核损坏等），则自动化无法恢复您的实例。
如果您的实例属于 Auto Scaling 组，则自动化不会执行任何操作—— AutoScalingGroup 扩展操作会取代实例。
如果您的实例启用了 EC2 自动恢复，则补救措施不会生效。

EC2 卷使用补救自动化

AWS Managed Services (AMS) 自动修复如何处理 EC2 卷使用问题：

自动化首先会验证是否需要音量扩展，以及是否可以执行音量扩展。如果认为扩展是适当的，则自动化可以增加卷容量。这种自动化流程在增长需求与受控的有限扩张之间取得平衡。
在扩展卷之前，自动化会对实例执行清理任务（Windows：磁盘清理器，Linux：Logrotate + Simple Service Manager 代理日志删除），以尝试释放空间。

注意
清理任务不在 EC2 “T” 系列实例上运行，因为它们依赖 CPU 积分来持续运行。
在 Linux 上，自动化仅支持扩展 EXT2 EXT3、 EXT4 和 XFS 类型的文件系统。
在 Windows 上，自动化仅支持新技术文件系统 (NTFS) 和弹性文件系统 (RefS)。
自动化不会扩展属于逻辑卷管理器 (LVM) 或 RAID 阵列的卷。
自动化不会扩展实例存储容量。
如果受影响的音量已经大于 2 TiB，则自动化不会采取任何行动。
通过自动化进行的扩展限制为每周最多三次，在系统的整个生命周期内最多只能进行五次。
如果上一次扩展是在过去六个小时内进行的，则自动化不会扩大音量。

当这些规则阻止自动化采取行动时，AMS 会通过出站服务请求与您联系，以确定下一步要采取的行动。

Amazon RDS 存储不足事件补救自动化

AWS Managed Services (AMS) 自动修复如何处理 Amazon RDS 存储不足事件问题：

在尝试扩展 Amazon RDS 实例存储空间之前，自动化会执行多项检查，以确保 Amazon RDS 实例处于可修改且可用或存储空间已满的状态。
如果检测到 CloudFormation 堆栈偏差，则通过 Amazon RDS API 进行补救。
根据触发事件，修正会修改属性MaxAllocatedStorage、AllocatedStorageIops、或StorageThroughput。其他 Amazon RDS 实例属性未被修改。有关更多信息，请参阅数据库实例的设置。
在以下情况下，修复操作不会运行：
- Amazon RDS 实例的状态不是 “可用” 或 “存储空间已满”。
- Amazon RDS 实例存储目前不可修改（例如，在过去六小时内修改了存储空间时）。
- Amazon RDS 实例已启用自动缩放存储空间。
补救仅限于每六小时进行一次扩展，在连续的十四天内不超过三次扩展。
当这些情况发生时，AMS 会与您联系，告知您出站事件，以确定下一步行动。

ONTAP 卷容量修复自动化

AWS Managed Services (AMS) 自动修复如何处理 ONTAP 卷容量问题：

在扩展卷之前，自动化会验证卷生命周期状态是否处于可修改状态。
在根据文件系统的最大容量进行验证的同时，自动化会将卷大小扩大 10%。
如果文件系统没有足够的存储容量来容纳卷扩展，则会同时扩展卷和文件系统的容量。
补救措施限制在七天内不超过三次更新。
AMS Automation 扩展到的最大存储限制为 5120 GiB。
如果在卷顶部配置了 iSCSI LUN，则必须在自动修复完成后在操作系统级别手动扩展 iSCSI LUN。有关更多信息，请参阅为什么我 FSx 的 for ONTAP LUN 处于只读模式？

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

创建其他 CloudWatch 警报

AMS 事件路由器