

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 為 Amazon EKS 協作的 SageMaker HyperPod 叢集設定儲存體
<a name="sagemaker-hyperpod-eks-setup-storage"></a>

叢集管理員需要為資料科學家使用者設定儲存體，以管理輸入和輸出資料，並在 SageMaker HyperPod 叢集上訓練期間存放檢查點。

**處理大型資料集 (輸入/輸出資料)**
+ **資料存取和管理**：資料科學家通常會使用訓練機器學習模型所需的大型資料集。在任務提交中指定儲存參數，可讓其定義這些資料集所在的位置 (例如 Amazon S3 儲存貯體、Kubernetes 中的持久性磁碟區)，以及在任務執行期間存取它們的方式。
+ **效能最佳化**：存取輸入資料的效率可能會大幅影響訓練任務的效能。透過最佳化儲存參數，資料科學家可以確保有效率地讀取和寫入資料，從而減少 I/O 瓶頸。

**儲存檢查點**
+ **訓練中的檢查點**：在長時間執行的訓練任務期間，儲存檢查點是常見的做法，也就是模型的中繼狀態。這可讓資料科學家在發生故障時從特定點繼續訓練，而不是從頭開始訓練。
+ **資料復原和實驗**：透過指定檢查點的儲存位置，資料科學家可以確保安全地存放這些檢查點，可能存放在提供備援和高可用性的分散式儲存系統中。這對於從中斷中復原和實驗不同的訓練策略至關重要。

**提示**  
如需如何為與 Amazon EKS 協作的 SageMaker HyperPod 叢集設定儲存體的實作體驗和指引，請參閱 [SageMaker HyperPod 中的 Amazon EKS 支援工作坊](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e)中的下列章節。  
[在 SageMaker HyperPod 上設定 Amazon FSx for Lustre](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e/en-US/01-cluster/06-fsx-for-lustre)
使用適用於 [Amazon S3 的掛載點設定](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e/en-US/01-cluster/09-s3-mountpoint) [Amazon S3 的掛載點](https://docs.aws.amazon.com/AmazonS3/latest/userguide/mountpoint.html)