对于 DLAMI 的重要 NVIDIA 驱动程序更改 - AWS Deep Learning AMIs

对于 DLAMI 的重要 NVIDIA 驱动程序更改

2023 年 11 月 15 日,AWS 对与 DLAMI 使用的 NIVIDA 驱动程序相关的 AWS Deep Learning AMIs(DLAMI)进行了重要更改。有关更改内容及其是否影响您使用 DLAMI 的信息,请参阅 DLAMI NVIDIA 驱动程序更改常见问题

DLAMI NVIDIA 驱动程序更改常见问题

更改了哪些内容?

我们将 DLAMI 分成两个独立的组:

  • 使用 NVIDIA 专有驱动程序的 DLAMI(支持 P3、P3dn、G3)

  • 使用 NVIDIA OSS 驱动程序的 DLAMI(支持 G4dn、G5、P4、P5)

因此,我们使用新的名称和新的 AMI ID 为这两个类别分别创建了新的 DLAMI。这些 DLAMI 可互换。也就是说,一个组中的 DLAMI 不支持另一个组所支持的实例。例如,支持 P5 的 DLAMI 不支持 G3,而支持 G3 的 DLAMI 不支持 P5。

DLAMI 分叉

为什么需要进行此更改?

以前,适用于 NVIDIA GPU 的 DLAMI 包含了来自 NVIDIA 的专有内核驱动程序。然而,上游 Linux 内核社区接受了一项更改,此项更改将专有内核驱动程序(如 NVIDIA GPU 驱动程序)隔离开来,使之无法与其它内核驱动程序通信。此更改在 P4 和 P5 系列实例上禁用 GPUDirect RDMA,而它是支持 GPU 高效使用 EFA 进行分布式训练的机制。因此,DLAMI 现在使用 OpenRM 驱动程序(NVIDIA 开源驱动程序),与开源 EFA 驱动程序链接来支持 G4dn、G5、P4 和 P5。但是,此 OpenRM 驱动程序不支持较旧的实例(例如 P3 和 G3)。因此,为确保我们继续提供支持这两种实例类型的最新、高性能和安全的 DLAMI,我们将 DLAMI 分为两组:一组使用 OpenRM 驱动程序(支持 G4dn、G5、P4 和 P5),另一组使用较旧的专有驱动程序(支持 P3、P3dn 和 G3)。

此项更改影响了哪些 DLAMI?

此项更改影响了所有 DLAMI。

这对您意味着什么?

只要您在受支持的 Amazon Elastic Compute Cloud(Amazon EC2)实例类型上运行 DLAMI,则所有 DLAMI 都将继续提供功能、性能和安全性。要确定 DLAMI 支持的 EC2 实例类型,请查看该 DLAMI 的发布说明,然后查找支持的 EC2 实例。有关当前支持的 DLAMI 选项的列表及指向其发布说明的链接,请参阅 Deep Learning AMI 发布说明

此外,必须使用正确的 AWS Command Line Interface(AWS CLI)命令来调用当前 DLAMI。

对于支持 P3、P3dn 和 G3 的基本 DLAMI,请使用此命令:

aws ec2 describe-images --region us-east-1 --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

对于支持 G4dn、G5、P4 和 P5 的基本 DLAMI,请使用此命令:

aws ec2 describe-images --region us-east-1 --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

较新的 DLAMI 是否损失任何功能?

否,不损失任何功能。当前 DLAMI 可提供先前 DLAMI 的所有功能、性能和安全性,前提是您在支持的 EC2 实例类型上运行它们。

这一变化是否影响了 Deep Learning Containers?

否,此更改并未影响 AWS Deep Learning Containers,因为它们不包括 NVIDIA 驱动程序。但是,请务必在与底层实例兼容的 AMI 上运行 Deep Learning Containers。