

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 搭配 PCS 使用 AWS PCS 就緒 DLAMI
<a name="working-with_ami_pcs-ready-dlami"></a>

AWS PCS 就緒 DLAMI Base GPU AMI (Ubuntu 24.04) 是一種 AWS 維護的 Amazon Machine Image，用於在 AWS PCS 上執行 AI/ML 和 HPC 工作負載。它提供生產就緒的基礎，讓您可以在幾分鐘內部署叢集，而無需建置和驗證自訂 AMIs。

## 內含項目
<a name="working-with_ami_pcs-ready-dlami_contents"></a>

適用於 PCS 的 DLAMI 是以[深度學習基礎 GPU AMI (Ubuntu 24.04)](https://docs.aws.amazon.com/dlami/latest/devguide/overview-base.html) 為基礎，並新增下列 AWS PCS 元件：
+ **PCS 代理**程式 – AWS PCS 叢集管理代理程式
+ 適用於 ** AWS PCS 的 Slurm** – 預先安裝多個支援的 Slurm 版本。根據您叢集的組態，執行個體啟動期間會自動啟用正確的版本。
+ **EFS 公用程式** – 用於掛載 Amazon EFS 檔案系統

來源 DLAMI 提供作業系統 (Ubuntu 24.04)、NVIDIA GPU 驅動程式、CUDA 工具組、EFA 驅動程式、Lustre 用戶端和其他基礎基礎設施。如需這些元件的詳細資訊，請參閱[深度學習 AMI 版本備註](https://docs.aws.amazon.com/dlami/latest/devguide/appendix-ami-release-notes.html)。

適用於 PCS 的 DLAMI 適用於 x86\_64 和 arm64 架構。

**注意**  
適用於 PCS 的 DLAMI 不包含 AI/ML 架構 (PyTorch、TensorFlow、JAX)、編譯器或數學程式庫等應用程式軟體。您可以在共用檔案系統上新增應用程式層，或在 PCS 就緒的 DLAMI 上建置自訂 AMI。

每個 AMI 的*描述*欄位摘要其內容，包括其根據的來源 DLAMI、PCS Agent 版本、支援的 Slurm 版本和 EFS 公用程式版本。您可以在 Amazon EC2 主控台或使用 `describe-images` API 檢視此欄位。以下是描述欄位值的範例：

```
PCS-Ready DLAMI based on Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20260522. PCS Agent: 1.4.0-1. Slurm: 24.11.7-1, 25.05.7-1, 25.11.2-1. EFS Utils: 2.4.2
```

## 尋找目前適用於 PCS 的 DLAMI
<a name="working-with_ami_pcs-ready-dlami_find"></a>

------
#### [ AWS 管理主控台 ]

**在主控台中尋找 PCS 就緒的 DLAMI**

1. 開啟 AWS PCS 主控台並導覽以建立或編輯運算節點群組。

1. 在 AMI 選擇區段中，選取 **PCS 就緒AMIs**。

1. 隨即出現下拉式清單，顯示您所選執行個體類型架構篩選的可用 PCS 就緒 DLAMIs。

1. 選擇**適用於 AWS PCS 的 DLAMI Base AMI (Ubuntu 24.04)。**下拉式清單會在下面顯示 AMI ID 和完整的 AMI 名稱以供參考。

------
#### [ AWS CLI ]

您可以使用 Amazon EC2 Systems Manager 參數存放區擷取最新的 PCS 就緒 DLAMI AMI ID。將 {{region-code}} 取代為您的 AWS 區域。
+ **x86\_64**

  ```
  aws ssm get-parameter --region {{region-code}} \
    --name /aws/service/pcs/ami/dlami-base-ubuntu2404/x86_64/latest/ami-id \
    --query "Parameter.Value" --output text
  ```
+ **arm64**

  ```
  aws ssm get-parameter --region {{region-code}} \
    --name /aws/service/pcs/ami/dlami-base-ubuntu2404/arm64/latest/ami-id \
    --query "Parameter.Value" --output text
  ```

或者，您可以依名稱模式搜尋 PCS 就緒的 DLAMI：
+ **x86\_64**

  ```
  aws ec2 describe-images --region {{region-code}} --owners amazon \
    --filters 'Name=name,Values=aws-pcs-ready-dlami-base-ubuntu2404-x86_64-*' \
              'Name=state,Values=available' \
    --query 'sort_by(Images, &CreationDate)[-1].[Name,ImageId]' --output text
  ```
+ **arm64**

  ```
  aws ec2 describe-images --region {{region-code}} --owners amazon \
    --filters 'Name=name,Values=aws-pcs-ready-dlami-base-ubuntu2404-arm64-*' \
              'Name=state,Values=available' \
    --query 'sort_by(Images, &CreationDate)[-1].[Name,ImageId]' --output text
  ```

當您建立或更新運算節點群組時，請使用 AMI ID。

------

## 搭配 Infrastructure as Code 使用
<a name="working-with_ami_pcs-ready-dlami_iac"></a>

SSM 參數路徑提供穩定的參考，一律解析為最新的 AMI ID。您可以在 CloudFormation 範本中使用此選項，在重新部署時自動挑選新版本：

```
AmiId: '{{resolve:ssm:/aws/service/pcs/ami/dlami-base-ubuntu2404/x86_64/latest/ami-id}}'
```

## 更新至新版本
<a name="working-with_ami_pcs-ready-dlami_update"></a>

當來源 Deep Learning Base GPU AMI 更新或 PCS 元件 (PCS 代理程式或 PCS 的 Slurm) 更新時，AWS 會發行更新且適用於 PCS 的 DLAMI 版本。若要更新叢集，請使用上述 SSM 參數或名稱搜尋擷取最新的 AMI ID，然後更新每個運算節點群組以參考新的 AMI ID。