对 SSD 减速操作问题进行故障排除 - FSx 适用于 ONTAP

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

对 SSD 减速操作问题进行故障排除

本节介绍与固态硬盘容量减少操作相关的常见问题和解决方案。

由于 SSD 利用率较高,您的 SSD 缩减操作已暂停

如果您的 SSD 存储层在缩减操作期间使用率超过 80%,Amazon FSx 会自动暂停该操作。您可能会看到类似于以下内容的管理操作消息:

Your file system has insufficient free space in aggr_1. Please free up space or increase your file system's storage capacity.

一旦利用率低于 80%,操作将恢复。要解决此问题,您可以执行以下操作:

  • 从已移动到新磁盘的卷中删除不必要的数据。

  • 通过修改卷分层策略,将更多数据分层到容量池。

  • 通过调update-file-system用新的目标值提交增加固态硬盘容量的请求。

您应该更新文件系统的 SSD 存储容量,以便在执行减少操作后,文件系统生成的 SSD 容量不会超过 80% 的利用率。有关更多详细信息,请参阅 更新文件系统 SSD 存储和 IOPS

您可以通过检查STORAGE_OPTIMIZATION管理操作中的Message字段来确定哪些卷已移至新磁盘。

describe-volumes如果聚合为aggr1或,也可以调用aggr1_old

由于人际关系,您的 SSD 减少操作已暂停 FlexClone

如果在启动 SSD 缩减操作后创建了FlexClone卷,Amazon 会 FSx 暂停该操作,直到克隆被删除。这是因为在移动卷时会ONTAP拆分克隆关系,这会导致新磁盘上的存储空间重复。要解决此问题,您可以识别并删除在减小操作开始后创建的所有FlexClone卷。

删除所有FlexClone卷后,减小操作将自动恢复。

在 SSD 减少期间,重定向客户端访问卷失败

在固态硬盘缩减操作期间,Amazon FSx 需要将客户端访问权限从旧磁盘重定向到每个卷的新磁盘。如果此过程失败,您可能会看到类似于以下内容的管理操作消息:

Redirecting client access for volume(s) fsvol-123 has failed due to insufficient SSD IOPS, throughput capacity, or because the volume is full.

要解决此问题,您可以执行以下操作:

  • 在 Amazon CloudWatch 中查看文件系统的资源利用率指标,确保您的工作负载消耗的资源不超过以下资源的 50%:

    • NetworkThroughputUtilization

    • FileServerDiskThroughputUtilization

    • FileServerDiskIopsUtilization

    • CPUUtilization

    • DiskIopsUtilization

  • 如果卷已满,请增加该卷的存储容量。

  • 在减少操作期间,减少文件系统的负载。

解决这些问题后,Amazon FSx 将自动重试每小时一次重定向客户端访问权限。

您的 SSD 缩减操作所花费的时间比预期的要长

完成 SSD 缩减操作所需的时间取决于多个因素,包括存储在文件系统上的数据量、持续的工作负载活动和可用的系统资源。如果您的操作花费的时间比预期的要长,则可以执行以下操作:

  • 验证您的文件系统是否有足够的可用资源(CPU、磁盘吞吐量和 SSD IOPS 利用率低于 50%)。

  • 减少操作期间的写入密集型工作负载,以最大限度地减少资源争用。

您可以通过检查STORAGE_OPTIMIZATION管理操作中的ProgressPercent属性来跟踪操作的进度。