故障診斷 SSD 可減少操作問題 - FSx for OnTAP

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

故障診斷 SSD 可減少操作問題

本節說明與 SSD 容量減少操作相關的常見問題和解決方案。

由於高 SSD 使用率,您的 SSD 減少操作已暫停

如果您的 SSD 儲存層在減少操作期間超過 80% 的使用率,Amazon FSx 會自動暫停操作。您可能會看到類似以下的管理動作訊息:

Your file system has insufficient free space in aggr_1. Please free up space or increase your file system's storage capacity.

一旦使用率低於 80%,操作將恢復。若要解決此問題,您可以執行下列動作:

  • 從已移至新磁碟的磁碟區中刪除不必要的資料。

  • 透過修改磁碟區分層政策,將更多資料分層至容量集區。

  • update-file-system 使用新的目標值呼叫 來提交請求以增加 SSD 容量。

您應該更新檔案系統的 SSD 儲存容量,讓檔案系統產生的 SSD 容量在減少操作後不會超過 80% 的使用率。如需詳細資訊,請參閱更新檔案系統 SSD 儲存體和 IOPS

您可以檢查STORAGE_OPTIMIZATION管理動作中的 Message 欄位,來識別哪些磁碟區已移至新磁碟。

describe-volumes 如果彙總為 aggr1或 ,您也可以呼叫 aggr1_old

您的 SSD 減少操作因FlexClone關係而暫停

如果在啟動 SSD 減少操作後建立磁碟FlexClone區,Amazon FSx 會暫停操作,直到刪除複製為止。這是因為 會在移動磁碟區時ONTAP分割複製關係,這會導致新磁碟上的儲存空間重複。若要解決此問題,您可以識別和刪除在減少操作開始之後建立的任何FlexClone磁碟區。

刪除所有FlexClone磁碟區後,減少操作會自動繼續。

在 SSD 減少期間重新導向 volume(s) 的用戶端存取失敗

在 SSD 減少操作期間,Amazon FSx 需要將用戶端存取權從舊磁碟重新導向到每個磁碟的新磁碟。如果此程序失敗,您可能會看到類似如下的管理動作訊息:

Redirecting client access for volume(s) fsvol-123 has failed due to insufficient SSD IOPS, throughput capacity, or because the volume is full.

若要解決此問題,您可以執行下列動作:

  • 在 Amazon CloudWatch 中檢查檔案系統的資源使用率指標,以確保您的工作負載不會耗用超過下列資源的 50%:

    • NetworkThroughputUtilization

    • FileServerDiskThroughputUtilization

    • FileServerDiskIopsUtilization

    • CPUUtilization

    • DiskIopsUtilization

  • 如果磁碟區已滿,請增加磁碟區的儲存容量。

  • 在減少操作期間,減少檔案系統上的工作負載。

解決這些問題後,Amazon FSx 會自動重試每小時重新導向一次用戶端存取。

您的 SSD 減少操作耗時超過預期

完成 SSD 減少操作所需的時間取決於幾個因素,包括存放在檔案系統上的資料量、持續的工作負載活動,以及可用的系統資源。如果您的操作耗時超過預期,您可以執行下列動作:

  • 確認您的檔案系統有足夠的可用資源 (低於 50% 的 CPU、磁碟輸送量和 SSD IOPS 使用率)。

  • 在操作期間減少大量寫入的工作負載,將資源爭用降到最低。

您可以在STORAGE_OPTIMIZATION管理動作中檢查 ProgressPercent 屬性,以追蹤操作的進度。