本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
搭配 PCS 使用 AWS PCS 就緒 DLAMI
AWS PCS 就緒 DLAMI Base GPU AMI (Ubuntu 24.04) 是一種 AWS 維護的 Amazon Machine Image,用於在 AWS PCS 上執行 AI/ML 和 HPC 工作負載。它提供生產就緒的基礎,讓您可以在幾分鐘內部署叢集,而無需建置和驗證自訂 AMIs。
內含項目
適用於 PCS 的 DLAMI 是以深度學習基礎 GPU AMI (Ubuntu 24.04) 為基礎,並新增下列 AWS PCS 元件:
PCS 代理程式 – AWS PCS 叢集管理代理程式
適用於 AWS PCS 的 Slurm – 預先安裝多個支援的 Slurm 版本。根據您叢集的組態,執行個體啟動期間會自動啟用正確的版本。
EFS 公用程式 – 用於掛載 Amazon EFS 檔案系統
來源 DLAMI 提供作業系統 (Ubuntu 24.04)、NVIDIA GPU 驅動程式、CUDA 工具組、EFA 驅動程式、Lustre 用戶端和其他基礎基礎設施。如需這些元件的詳細資訊,請參閱深度學習 AMI 版本備註。
適用於 PCS 的 DLAMI 適用於 x86_64 和 arm64 架構。
注意
適用於 PCS 的 DLAMI 不包含 AI/ML 架構 (PyTorch、TensorFlow、JAX)、編譯器或數學程式庫等應用程式軟體。您可以在共用檔案系統上新增應用程式層,或在 PCS 就緒的 DLAMI 上建置自訂 AMI。
每個 AMI 的描述欄位摘要其內容,包括其根據的來源 DLAMI、PCS Agent 版本、支援的 Slurm 版本和 EFS 公用程式版本。您可以在 Amazon EC2 主控台或使用 describe-images API 檢視此欄位。以下是描述欄位值的範例:
PCS-Ready DLAMI based on Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20260522. PCS Agent: 1.4.0-1. Slurm: 24.11.7-1, 25.05.7-1, 25.11.2-1. EFS Utils: 2.4.2
尋找目前適用於 PCS 的 DLAMI
搭配 Infrastructure as Code 使用
SSM 參數路徑提供穩定的參考,一律解析為最新的 AMI ID。您可以在 CloudFormation 範本中使用此選項,在重新部署時自動挑選新版本:
AmiId: '{{resolve:ssm:/aws/service/pcs/ami/dlami-base-ubuntu2404/x86_64/latest/ami-id}}'
更新至新版本
當來源 Deep Learning Base GPU AMI 更新或 PCS 元件 (PCS 代理程式或 PCS 的 Slurm) 更新時,AWS 會發行更新且適用於 PCS 的 DLAMI 版本。若要更新叢集,請使用上述 SSM 參數或名稱搜尋擷取最新的 AMI ID,然後更新每個運算節點群組以參考新的 AMI ID。