本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
将 PCS-ready DLAMI 与 AWS 个
AWS PCS-ready DLAMI Base GPU AMI(Ubuntu 24.04)是一款用于 AI/ML 在 PCS 上运行和 HPC 工作负载的 AWS-maintained 亚马逊机器映像。 AWS 它提供了生产就绪的基础,因此您可以在几分钟内部署集群,而不必构建和验证自定义 AMI。
包含什么
PCS-ready DLAMI 基于深度学习基础 GPU AMI (Ubuntu 24.04) 构建,并添加了以下 PCS 组件: AWS
PCS 代理 — AWS PCS 集群管理代理
适用于 AWS PCS 的 Slurm — 预装了多个支持的 Slurm 版本。在实例启动期间,系统会根据集群的配置自动激活正确的版本。
EFS 实用工具 — 用于挂载 Amazon EFS 文件系统
来源 DLAMI 提供了操作系统(Ubuntu 24.04)、NVIDIA GPU 驱动程序、CUDA 工具包、EFA 驱动程序、Lustre 客户端和其他基础基础架构。有关这些组件的详细信息,请参阅深度学习 AMI 发行说明。
PCS-ready DLAMI 可用于 x86_64 和 arm64 架构。
注意
PCS-ready DLAMI 不包括诸 AI/ML 如框架 PyTorch ( TensorFlow、、JAX)、编译器或数学库之类的应用软件。您可以在共享文件系统上添加应用层,也可以在 PCS-ready DLAMI 之上构建自定义 AMI。
每个 AMI 的描述字段汇总了其内容,包括其所基于的源 DLAMI、PCS 代理版本、支持的 Slurm 版本和 EFS 实用程序版本。您可以在 Amazon EC2 控制台中或使用 describe-images API 查看此字段。以下是 “描述” 字段值的示例:
PCS-Ready DLAMI based on Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20260522. PCS Agent: 1.4.0-1. Slurm: 24.11.7-1, 25.05.7-1, 25.11.2-1. EFS Utils: 2.4.2
查找当前的 PCS-ready DLAMI
与 “基础设施即代码” 配合使用
SSM 参数路径提供了一个稳定的参考,该引用始终解析为最新 AMI ID。你可以在 CloudFormation 模板中使用它在重新部署时自动获取新版本:
AmiId: '{{resolve:ssm:/aws/service/pcs/ami/dlami-base-ubuntu2404/x86_64/latest/ami-id}}'
更新到新版本
当源深度学习基础 GPU AMI 更新 PCS-ready 或 PCS 组件(PCS 代理或适用于 PCS 的 Slurm)更新时,AWS 会发布更新后的 DLAMI 版本。要更新您的集群,请使用上述 SSM 参数或名称搜索来检索最新 AMI ID,然后更新每个计算节点组以引用新的 AMI ID。