View a markdown version of this page

AMS 自动修复警报 - AMS 高级用户指南

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AMS 自动修复警报

经过验证后,AWS Managed Services (AMS) 会根据本节中描述的特定条件和流程自动修复某些警报。

警报名称 说明 Thresholds Action

安全通道中断

当 Windows EC2 实例与 AD 域控制器断开连接时,将在 Windows EC2 实例上触发安全通道中断警报。

在过去 15 分钟内,该阈值高于定义值的 10 次。

AMS 自动修复可验证实例是否在 SSM 中处于联机状态、主机名未重复,以及 AD 计算机对象是否与堆栈对齐。 CloudFormation 补救措施修复了安全通道连接以恢复对实例的访问权限。

状态检查失败

可能的硬件故障或实例的故障状态。

在过去 15 分钟内,系统至少检测到一次故障状态。

AMS 自动补救首先验证实例是否可访问。如果无法访问该实例,则该实例将停止并重新启动。停止和启动允许实例迁移到新的底层硬件。有关更多信息,请参阅以下 “EC2 状态检查故障补救自动化” 部分。

AMSLinuxDiskUsage

当您的 EC2 实例上 1 个挂载点(卷上的指定空间)的磁盘使用量已满时触发。

在过去 30 分钟内,该阈值高于定义值的 6 次。

AMS 自动修复首先会删除临时文件。如果这不能释放足够的磁盘空间,则会扩展音量以防止在卷已满时停机。

AMSWindowsDiskUsage

当您的 EC2 实例上 1 个挂载点(卷上的指定空间)的磁盘使用量已满时。

在过去 30 分钟内,该阈值高于定义值的 6 次。

AMS 自动修复首先会删除临时文件。如果这不能释放足够的磁盘空间,则会扩展音量以防止在卷已满时停机。

RDS-EVENT-0089

数据库实例已使用其分配的存储空间的 90% 以上。

已分配的存储空间超过 90%。

AMS 自动修复首先验证数据库是否处于可修改且可用或存储已满状态。然后,它会尝试通过 CloudFormation 变更集增加分配的存储、IOPS 和存储吞吐量。如果已经检测到堆栈偏移,则会回退到 RDS API 以防止停机。

通过向 RDS 数据库实例添加以下标签,可以选择退出此功能:"Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0007

为数据库实例分配的存储空间已用完。要解决这个问题,请分配额外的存储空间。

存储空间已百分之百分配。

AMS 自动修复首先验证数据库是否处于可修改且可用或存储已满状态。然后,它会尝试通过 CloudFormation 变更集增加分配的存储、IOPS 和存储吞吐量。如果已经检测到堆栈偏移,则会回退到 RDS API 以防止停机。

通过向 RDS 数据库实例添加以下标签,可以选择退出此功能:"Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0224

请求的分配存储空间达到或超过配置的最大存储阈值。

数据库实例的最大存储阈值已用尽或大于或等于请求的分配存储空间。

AMS 自动补救首先会验证请求的 RDS 存储量是否会超过最大存储阈值。如果得到确认,AMS 会尝试使用 CloudFormation 变更集将最大存储阈值提高 30%,或者如果未通过配置资源,则直接使用 RDS API。 CloudFormation

通过向 RDS 数据库实例添加以下标签,可以选择退出此功能:"Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS 存储容量

为数据库实例分配的存储空间剩余不到 1GB。

存储空间分配率为 99%。

AMS 自动修复首先验证数据库是否处于可修改且可用或存储已满状态。然后,它会尝试通过 CloudFormation 变更集增加分配的存储、IOPS 和存储吞吐量。如果已经检测到堆栈偏移,则会回退到 RDS API 以防止停机。

通过向 RDS 数据库实例添加以下标签,可以选择退出此功能:"Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

AMSFSXONTAPVolumeCapacityUtilization

Amazon FSx f NetApp or ONTAP 卷消耗的存储空间已超过默认分配的存储空间(80%)。

FSx 对于 ONTAP,卷容量利用率在两小时内大于 80%(默认值)。

AMS 自动补救首先验证卷生命周期状态是否处于可修改状态,然后将卷大小扩大 10%,同时根据文件系统的最大容量进行验证。如果文件系统缺少足够的存储容量来扩展卷,则会同时扩展卷和文件系统。在任何七天内,此扩展限制为最多三次。AMS Automation 扩展到的最大存储限制为 5120 GiB。

注意

如果在卷顶部配置了 iSCSI LUN,请在操作系统级别扩展 iSCSI LUN。有关更多信息,请参阅为什么我 FSx 的 for ONTAP LUN 处于只读模式

Amazon EC2 安全通道中断:补救自动化说明

在 AWS Managed Services (AMS) 自动修复对 Amazon EC2 Windows 安全通道中断问题进行补救之前,自动化会执行以下预检查并创建事件报告以供进一步调查:

  • 验证 Amazon EC2 实例 SSM 状态是否为 “在线”。

  • 验证 Amazon EC2 实例是否属于 Auto Scaling 组,以及 Auto Scaling 组中的所有实例是否具有相同的主机名。

  • 检查 Amazon EC2 实例是否属于用于配置该实例的 CloudFormation 堆栈的一部分。如果实例已从 CloudFormation 堆栈中移除,则自动化将验证关联的 Active Directory 组织单位 (OU) 是否仍在引用该堆栈。

上述验证通过后,将继续进行自动化修复 Broken Secure 频道。

补救步骤:

  • 自动修复会尝试修复 EC2 实例和 AD 域之间的安全通道,从而恢复对实例的访问权限。

  • 补救后,自动化会检查安全通道是否已建立。如果不成功,AMS 就会制造事故并让 AMS 行动部门进行调查。

EC2 状态检查失败:补救自动化注意事项

AMS 自动修复如何处理 EC2 状态检查失败问题:

  • 如果您的 Amazon EC2 实例无法访问,则必须停止并重新启动该实例,这样才能将其迁移到新硬件并进行恢复。

  • 如果问题的根源在于操作系统(fstab 中缺少设备、内核损坏等),则自动化无法恢复您的实例。

  • 如果您的实例属于 Auto Scaling 组,则自动化不会执行任何操作—— AutoScalingGroup 扩展操作会取代实例。

  • 如果您的实例启用了 EC2 自动恢复,则补救措施不会生效。

EC2 卷使用补救自动化

AWS Managed Services (AMS) 自动修复如何处理 EC2 卷使用问题:

  • 自动化首先会验证是否需要音量扩展,以及是否可以执行音量扩展。如果认为扩展是适当的,则自动化可以增加卷容量。这种自动化流程在增长需求与受控的有限扩张之间取得平衡。

  • 在扩展卷之前,自动化会对实例执行清理任务(Windows:磁盘清理器,Linux:Logrotate + Simple Service Manager 代理日志删除),以尝试释放空间。

    注意

    清理任务不在 EC2 “T” 系列实例上运行,因为它们依赖 CPU 积分来持续运行。

  • 在 Linux 上,自动化仅支持扩展 EXT2 EXT3、 EXT4 和 XFS 类型的文件系统。

  • 在 Windows 上,自动化仅支持新技术文件系统 (NTFS) 和弹性文件系统 (RefS)。

  • 自动化不会扩展属于逻辑卷管理器 (LVM) 或 RAID 阵列的卷。

  • 自动化不会扩展实例存储容量。

  • 如果受影响的音量已经大于 2 TiB,则自动化不会采取任何行动。

  • 通过自动化进行的扩展限制为每周最多三次,在系统的整个生命周期内最多只能进行五次。

  • 如果上一次扩展是在过去六个小时内进行的,则自动化不会扩大音量。

当这些规则阻止自动化采取行动时,AMS 会通过出站服务请求与您联系,以确定下一步要采取的行动。

Amazon RDS 存储不足事件补救自动化

AWS Managed Services (AMS) 自动修复如何处理 Amazon RDS 存储不足事件问题:

  • 在尝试扩展 Amazon RDS 实例存储空间之前,自动化会执行多项检查,以确保 Amazon RDS 实例处于可修改且可用或存储空间已满的状态。

  • 如果检测到 CloudFormation 堆栈偏差,则通过 Amazon RDS API 进行补救。

  • 根据触发事件,修正会修改属性MaxAllocatedStorageAllocatedStorageIops、或StorageThroughput。其他 Amazon RDS 实例属性未被修改。有关更多信息,请参阅数据库实例的设置

  • 在以下情况下,修复操作不会运行:

    • Amazon RDS 实例的状态不是 “可用” 或 “存储空间已满”。

    • Amazon RDS 实例存储目前不可修改(例如,在过去六小时内修改了存储空间时)。

    • Amazon RDS 实例已启用自动缩放存储空间。

  • 补救仅限于每六小时进行一次扩展,在连续的十四天内不超过三次扩展。

  • 当这些情况发生时,AMS 会与您联系,告知您出站事件,以确定下一步行动。

ONTAP 卷容量修复自动化

AWS Managed Services (AMS) 自动修复如何处理 ONTAP 卷容量问题:

  • 在扩展卷之前,自动化会验证卷生命周期状态是否处于可修改状态。

  • 在根据文件系统的最大容量进行验证的同时,自动化会将卷大小扩大 10%。

  • 如果文件系统没有足够的存储容量来容纳卷扩展,则会同时扩展卷和文件系统的容量。

  • 补救措施限制在七天内不超过三次更新。

  • AMS Automation 扩展到的最大存储限制为 5120 GiB。

  • 如果在卷顶部配置了 iSCSI LUN,则必须在自动修复完成后在操作系统级别手动扩展 iSCSI LUN。有关更多信息,请参阅为什么我 FSx 的 for ONTAP LUN 处于只读模式