View a markdown version of this page

搭配 PCS 使用 AWS PCS 就緒 DLAMI - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

搭配 PCS 使用 AWS PCS 就緒 DLAMI

AWS PCS 就緒 DLAMI Base GPU AMI (Ubuntu 24.04) 是一種 AWS 維護的 Amazon Machine Image,用於在 AWS PCS 上執行 AI/ML 和 HPC 工作負載。它提供生產就緒的基礎,讓您可以在幾分鐘內部署叢集,而無需建置和驗證自訂 AMIs。

內含項目

適用於 PCS 的 DLAMI 是以深度學習基礎 GPU AMI (Ubuntu 24.04) 為基礎,並新增下列 AWS PCS 元件:

  • PCS 代理程式 – AWS PCS 叢集管理代理程式

  • 適用於 AWS PCS 的 Slurm – 預先安裝多個支援的 Slurm 版本。根據您叢集的組態,執行個體啟動期間會自動啟用正確的版本。

  • EFS 公用程式 – 用於掛載 Amazon EFS 檔案系統

來源 DLAMI 提供作業系統 (Ubuntu 24.04)、NVIDIA GPU 驅動程式、CUDA 工具組、EFA 驅動程式、Lustre 用戶端和其他基礎基礎設施。如需這些元件的詳細資訊,請參閱深度學習 AMI 版本備註

適用於 PCS 的 DLAMI 適用於 x86_64 和 arm64 架構。

注意

適用於 PCS 的 DLAMI 不包含 AI/ML 架構 (PyTorch、TensorFlow、JAX)、編譯器或數學程式庫等應用程式軟體。您可以在共用檔案系統上新增應用程式層,或在 PCS 就緒的 DLAMI 上建置自訂 AMI。

每個 AMI 的描述欄位摘要其內容,包括其根據的來源 DLAMI、PCS Agent 版本、支援的 Slurm 版本和 EFS 公用程式版本。您可以在 Amazon EC2 主控台或使用 describe-images API 檢視此欄位。以下是描述欄位值的範例:

PCS-Ready DLAMI based on Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20260522. PCS Agent: 1.4.0-1. Slurm: 24.11.7-1, 25.05.7-1, 25.11.2-1. EFS Utils: 2.4.2

尋找目前適用於 PCS 的 DLAMI

AWS 管理主控台
在主控台中尋找 PCS 就緒的 DLAMI
  1. 開啟 AWS PCS 主控台並導覽以建立或編輯運算節點群組。

  2. 在 AMI 選擇區段中,選取 PCS 就緒AMIs

  3. 隨即出現下拉式清單,顯示您所選執行個體類型架構篩選的可用 PCS 就緒 DLAMIs。

  4. 選擇適用於 AWS PCS 的 DLAMI Base AMI (Ubuntu 24.04)。下拉式清單會在下面顯示 AMI ID 和完整的 AMI 名稱以供參考。

AWS CLI

您可以使用 Amazon EC2 Systems Manager 參數存放區擷取最新的 PCS 就緒 DLAMI AMI ID。將 region-code 取代為您的 AWS 區域。

  • x86_64

    aws ssm get-parameter --region region-code \ --name /aws/service/pcs/ami/dlami-base-ubuntu2404/x86_64/latest/ami-id \ --query "Parameter.Value" --output text
  • arm64

    aws ssm get-parameter --region region-code \ --name /aws/service/pcs/ami/dlami-base-ubuntu2404/arm64/latest/ami-id \ --query "Parameter.Value" --output text

或者,您可以依名稱模式搜尋 PCS 就緒的 DLAMI:

  • x86_64

    aws ec2 describe-images --region region-code --owners amazon \ --filters 'Name=name,Values=aws-pcs-ready-dlami-base-ubuntu2404-x86_64-*' \ 'Name=state,Values=available' \ --query 'sort_by(Images, &CreationDate)[-1].[Name,ImageId]' --output text
  • arm64

    aws ec2 describe-images --region region-code --owners amazon \ --filters 'Name=name,Values=aws-pcs-ready-dlami-base-ubuntu2404-arm64-*' \ 'Name=state,Values=available' \ --query 'sort_by(Images, &CreationDate)[-1].[Name,ImageId]' --output text

當您建立或更新運算節點群組時,請使用 AMI ID。

搭配 Infrastructure as Code 使用

SSM 參數路徑提供穩定的參考,一律解析為最新的 AMI ID。您可以在 CloudFormation 範本中使用此選項,在重新部署時自動挑選新版本:

AmiId: '{{resolve:ssm:/aws/service/pcs/ami/dlami-base-ubuntu2404/x86_64/latest/ami-id}}'

更新至新版本

當來源 Deep Learning Base GPU AMI 更新或 PCS 元件 (PCS 代理程式或 PCS 的 Slurm) 更新時,AWS 會發行更新且適用於 PCS 的 DLAMI 版本。若要更新叢集,請使用上述 SSM 參數或名稱搜尋擷取最新的 AMI ID,然後更新每個運算節點群組以參考新的 AMI ID。