

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 将 PCS-ready DLAMI 与 AWS 个
<a name="working-with_ami_pcs-ready-dlami"></a>

AWS PCS-ready DLAMI Base GPU AMI（Ubuntu 24.04）是一款用于 AI/ML 在 PCS 上运行和 HPC 工作负载的 AWS-maintained 亚马逊机器映像。 AWS 它提供了生产就绪的基础，因此您可以在几分钟内部署集群，而不必构建和验证自定义 AMI。

## 包含什么
<a name="working-with_ami_pcs-ready-dlami_contents"></a>

PCS-ready DLAMI 基于[深度学习基础 GPU AMI (Ubuntu 24.04](https://docs.aws.amazon.com/dlami/latest/devguide/overview-base.html)) 构建，并添加了以下 PCS 组件： AWS 
+ **PCS 代理** — AWS PCS 集群管理代理
+ **适用于 AWS PCS 的 Slurm — 预装**了多个支持的 Slurm 版本。在实例启动期间，系统会根据集群的配置自动激活正确的版本。
+ **EFS 实用工具** — 用于挂载 Amazon EFS 文件系统

来源 DLAMI 提供了操作系统（Ubuntu 24.04）、NVIDIA GPU 驱动程序、CUDA 工具包、EFA 驱动程序、Lustre 客户端和其他基础基础架构。有关这些组件的详细信息，请参阅[深度学习 AMI 发行说明](https://docs.aws.amazon.com/dlami/latest/devguide/appendix-ami-release-notes.html)。

PCS-ready DLAMI 可用于 x86\_64 和 arm64 架构。

**注意**  
PCS-ready DLAMI 不包括诸 AI/ML 如框架 PyTorch ( TensorFlow、、JAX)、编译器或数学库之类的应用软件。您可以在共享文件系统上添加应用层，也可以在 PCS-ready DLAMI 之上构建自定义 AMI。

每个 AMI 的*描述*字段汇总了其内容，包括其所基于的源 DLAMI、PCS 代理版本、支持的 Slurm 版本和 EFS 实用程序版本。您可以在 Amazon EC2 控制台中或使用 `describe-images` API 查看此字段。以下是 “描述” 字段值的示例：

```
PCS-Ready DLAMI based on Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20260522. PCS Agent: 1.4.0-1. Slurm: 24.11.7-1, 25.05.7-1, 25.11.2-1. EFS Utils: 2.4.2
```

## 查找当前的 PCS-ready DLAMI
<a name="working-with_ami_pcs-ready-dlami_find"></a>

------
#### [ AWS 管理控制台 ]

**在控制台中查找 PCS-ready DLAMI**

1. 打开 AWS PCS 控制台并导航以创建或编辑计算节点组。

1. 在 AMI 选择部分中，选择 **PCS-ready AMI**。

1. 将出现一个下拉列表，显示按所选实例类型架构筛选的可用 PCS-ready DLAMI。

1. 选择 **AWS PCS-ready DLAMI Base AMI (Ubuntu 24.04)**。下拉列表显示下面的 AMI ID 和完整的 AMI 名称以供参考。

------
#### [ AWS CLI ]

你可以使用 Amazon EC2 Systems Man PCS-ready ager Parameter Store 检索最新的 DLAMI AMI ID。替换{{region-code}}为你的 AWS 区域。
+ **x86\_64**

  ```
  aws ssm get-parameter --region {{region-code}} \
    --name /aws/service/pcs/ami/dlami-base-ubuntu2404/x86_64/latest/ami-id \
    --query "Parameter.Value" --output text
  ```
+ **arm64**

  ```
  aws ssm get-parameter --region {{region-code}} \
    --name /aws/service/pcs/ami/dlami-base-ubuntu2404/arm64/latest/ami-id \
    --query "Parameter.Value" --output text
  ```

或者，您可以按名称模式搜索 PCS-ready DLAMI：
+ **x86\_64**

  ```
  aws ec2 describe-images --region {{region-code}} --owners amazon \
    --filters 'Name=name,Values=aws-pcs-ready-dlami-base-ubuntu2404-x86_64-*' \
              'Name=state,Values=available' \
    --query 'sort_by(Images, &CreationDate)[-1].[Name,ImageId]' --output text
  ```
+ **arm64**

  ```
  aws ec2 describe-images --region {{region-code}} --owners amazon \
    --filters 'Name=name,Values=aws-pcs-ready-dlami-base-ubuntu2404-arm64-*' \
              'Name=state,Values=available' \
    --query 'sort_by(Images, &CreationDate)[-1].[Name,ImageId]' --output text
  ```

创建或更新计算节点组时使用 AMI ID。

------

## 与 “基础设施即代码” 配合使用
<a name="working-with_ami_pcs-ready-dlami_iac"></a>

SSM 参数路径提供了一个稳定的参考，该引用始终解析为最新 AMI ID。你可以在 CloudFormation 模板中使用它在重新部署时自动获取新版本：

```
AmiId: '{{resolve:ssm:/aws/service/pcs/ami/dlami-base-ubuntu2404/x86_64/latest/ami-id}}'
```

## 更新到新版本
<a name="working-with_ami_pcs-ready-dlami_update"></a>

当源深度学习基础 GPU AMI 更新 PCS-ready 或 PCS 组件（PCS 代理或适用于 PCS 的 Slurm）更新时，AWS 会发布更新后的 DLAMI 版本。要更新您的集群，请使用上述 SSM 参数或名称搜索来检索最新 AMI ID，然后更新每个计算节点组以引用新的 AMI ID。