View a markdown version of this page

将 PCS-ready DLAMI 与 AWS 个 - AWS 个

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将 PCS-ready DLAMI 与 AWS 个

AWS PCS-ready DLAMI Base GPU AMI(Ubuntu 24.04)是一款用于 AI/ML 在 PCS 上运行和 HPC 工作负载的 AWS-maintained 亚马逊机器映像。 AWS 它提供了生产就绪的基础,因此您可以在几分钟内部署集群,而不必构建和验证自定义 AMI。

包含什么

PCS-ready DLAMI 基于深度学习基础 GPU AMI (Ubuntu 24.04) 构建,并添加了以下 PCS 组件: AWS

  • PCS 代理 — AWS PCS 集群管理代理

  • 适用于 AWS PCS 的 Slurm — 预装了多个支持的 Slurm 版本。在实例启动期间,系统会根据集群的配置自动激活正确的版本。

  • EFS 实用工具 — 用于挂载 Amazon EFS 文件系统

来源 DLAMI 提供了操作系统(Ubuntu 24.04)、NVIDIA GPU 驱动程序、CUDA 工具包、EFA 驱动程序、Lustre 客户端和其他基础基础架构。有关这些组件的详细信息,请参阅深度学习 AMI 发行说明

PCS-ready DLAMI 可用于 x86_64 和 arm64 架构。

注意

PCS-ready DLAMI 不包括诸 AI/ML 如框架 PyTorch ( TensorFlow、、JAX)、编译器或数学库之类的应用软件。您可以在共享文件系统上添加应用层,也可以在 PCS-ready DLAMI 之上构建自定义 AMI。

每个 AMI 的描述字段汇总了其内容,包括其所基于的源 DLAMI、PCS 代理版本、支持的 Slurm 版本和 EFS 实用程序版本。您可以在 Amazon EC2 控制台中或使用 describe-images API 查看此字段。以下是 “描述” 字段值的示例:

PCS-Ready DLAMI based on Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20260522. PCS Agent: 1.4.0-1. Slurm: 24.11.7-1, 25.05.7-1, 25.11.2-1. EFS Utils: 2.4.2

查找当前的 PCS-ready DLAMI

AWS 管理控制台
在控制台中查找 PCS-ready DLAMI
  1. 打开 AWS PCS 控制台并导航以创建或编辑计算节点组。

  2. 在 AMI 选择部分中,选择 PCS-ready AMI

  3. 将出现一个下拉列表,显示按所选实例类型架构筛选的可用 PCS-ready DLAMI。

  4. 选择 AWS PCS-ready DLAMI Base AMI (Ubuntu 24.04)。下拉列表显示下面的 AMI ID 和完整的 AMI 名称以供参考。

AWS CLI

你可以使用 Amazon EC2 Systems Man PCS-ready ager Parameter Store 检索最新的 DLAMI AMI ID。替换region-code为你的 AWS 区域。

  • x86_64

    aws ssm get-parameter --region region-code \ --name /aws/service/pcs/ami/dlami-base-ubuntu2404/x86_64/latest/ami-id \ --query "Parameter.Value" --output text
  • arm64

    aws ssm get-parameter --region region-code \ --name /aws/service/pcs/ami/dlami-base-ubuntu2404/arm64/latest/ami-id \ --query "Parameter.Value" --output text

或者,您可以按名称模式搜索 PCS-ready DLAMI:

  • x86_64

    aws ec2 describe-images --region region-code --owners amazon \ --filters 'Name=name,Values=aws-pcs-ready-dlami-base-ubuntu2404-x86_64-*' \ 'Name=state,Values=available' \ --query 'sort_by(Images, &CreationDate)[-1].[Name,ImageId]' --output text
  • arm64

    aws ec2 describe-images --region region-code --owners amazon \ --filters 'Name=name,Values=aws-pcs-ready-dlami-base-ubuntu2404-arm64-*' \ 'Name=state,Values=available' \ --query 'sort_by(Images, &CreationDate)[-1].[Name,ImageId]' --output text

创建或更新计算节点组时使用 AMI ID。

与 “基础设施即代码” 配合使用

SSM 参数路径提供了一个稳定的参考,该引用始终解析为最新 AMI ID。你可以在 CloudFormation 模板中使用它在重新部署时自动获取新版本:

AmiId: '{{resolve:ssm:/aws/service/pcs/ami/dlami-base-ubuntu2404/x86_64/latest/ami-id}}'

更新到新版本

当源深度学习基础 GPU AMI 更新 PCS-ready 或 PCS 组件(PCS 代理或适用于 PCS 的 Slurm)更新时,AWS 会发布更新后的 DLAMI 版本。要更新您的集群,请使用上述 SSM 参数或名称搜索来检索最新 AMI ID,然后更新每个计算节点组以引用新的 AMI ID。