本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
排查 SSD 缩减操作问题
本节介绍与 SSD 容量缩减操作相关的常见问题和解决方案。
由于 SSD 利用率较高,因此 SSD 缩减操作已暂停
如果您的 SSD 存储层在缩减操作期间使用率超过 80%,Amazon FSx 会自动暂停该操作。您可能会看到类似于以下内容的管理操作消息:
Your file system has insufficient free space in aggr_1. Please free up space or increase your file system's storage capacity.
利用率低于 80% 后,操作将恢复。要解决此问题,您可以执行以下操作:
从已迁移至新磁盘的卷中删除多余数据。
通过修改卷分层策略,将更多数据分层到容量池中。
通过调用具有新目标值的
update-file-system,提交增加 SSD 容量的请求。
您应更新文件系统的 SSD 存储容量,确保在缩减操作后,文件系统的 SSD 容量利用率不超过 80%。有关更多详细信息,请参阅 更新文件系统 SSD 存储和 IOPS。
通过检查 STORAGE_OPTIMIZATION 管理操作中的 Message 字段,您可以确定哪些卷已移动至新磁盘。
如果聚合为 aggr1 或 aggr1_old,也可以调用 describe-volumes。
由于 FlexClone 关系,您的 SSD 缩减操作已暂停
如果在启动 SSD 缩减操作后创建了FlexClone卷,Amazon 会 FSx 暂停该操作,直到克隆被删除。这是因为在移动卷时 ONTAP 会拆分克隆关系,这会导致新磁盘上的存储重复。要解决此问题,您可以识别并删除在缩减操作开始后创建的所有 FlexClone 卷。
删除所有 FlexClone 卷后,缩减操作将自动恢复。
在 SSD 缩减期间,重定向客户端访问卷失败
在 SSD 缩减操作期间,Amazon FSx 需要将客户端访问权限从旧磁盘重定向到每个卷的新磁盘。如果此过程失败,您可能会看到类似于以下内容的管理操作消息:
Redirecting client access for volume(s) fsvol-123 has failed due to insufficient SSD IOPS, throughput capacity, or because the volume is full.
要解决此问题,您可以执行以下操作:
在 Amazon CloudWatch 中查看文件系统的资源利用率指标,确保您的工作负载消耗的资源不超过以下资源的 50%:
NetworkThroughputUtilizationFileServerDiskThroughputUtilizationFileServerDiskIopsUtilizationCPUUtilizationDiskIopsUtilization
如果卷已满,则增加卷的存储容量。
缩减操作期间,减少文件系统上的工作负载。
解决这些问题后,Amazon FSx 将自动重试每小时一次重定向客户端访问权限。
SSD 缩减操作的耗时超出预期
完成 SSD 缩减操作所需的时间取决于多个因素,包括文件系统中存储的数据量、当前的工作负载活动以及可用的系统资源。如果操作的耗时超出预期,则可以执行以下操作:
验证文件系统是否有足够的可用资源(CPU、磁盘吞吐量和 SSD IOPS 利用率均低于 50%)。
在操作期间减少写入密集型工作负载,以最大限度地减少资源争用。
通过检查 STORAGE_OPTIMIZATION 管理操作中的 ProgressPercent 属性,您可以跟踪操作的进度。