SageMaker HyperPod 亚马逊 EKS 的 AMI 发布 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker HyperPod 亚马逊 EKS 的 AMI 发布

以下发行说明跟踪了适用于亚马逊 EKS 编排的 Amazon SageMaker HyperPod AMI 版本的最新更新。每份发行说明都包含在 SageMaker HyperPod DLAMIs Amazon EKS 支持中预安装或预配置的软件包的摘要列表。每个 DLAMI 都基于 023 构建,支持特定的 AL2 Kubernetes 版本。有关 HyperPod Slurm 编排的 DLAMI 版本,请参阅。SageMaker HyperPod AMI 发布了 Slurm 版有关 Amazon SageMaker HyperPod 功能版本的信息,请参阅亚马逊 SageMaker HyperPod 发行说明

SageMaker Hyperpod AMI 在亚马逊 EKS 上发布:2025 年 11 月 22 日

AMI 常规更新

SageMaker 适用于 Amazon EKS 的 Hypod DLAMI 支持

此版本包含以下更新:

Kubernetes v1.28
  • AL2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • AL2 (x86_64):

    • Linux 内核版本:5.10

    • Glibc 版本:2.26

    • OpenSSL 版本:1.0.2k-fips

    • FSx Lustre 客户端版本:2.12.8

    • Docker 版本:Docker 版本 25.0.13,build 0bab007

    • 运行版本:1.3.3

    • 容器版本:containerd github。 com/containerd/containerd1.7.27

    • aws CLI v2 版本:aws-cli/1.42.71 Python/3.10.17 linux/5.10.245-241.978.amzn2.x86_64 botocore/1.40.71

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驱动程序版本:570.195.03

    • CUDA 版本:12.2

    • ENA 驱动程序版本:2.15.0g

    • Python 版本:3.7.16

    • Kubernetes 版本:v1.28.15-eks-473151a

    • iptables-services 版本:1.8.4

    • nginx 版本:1.20.1

    • nvme-cli 版本:1.11.1

    • epel 发布版本:7

    • stress 版本:1.0.4

    • 集合版本:5.8.1

    • acl 版本:2.2.51

    • rsyslog 版本:8.24.0

    • lustre-client 版本:2.12.8

    • 系统版本:219

    • openssh 版本:7.4

    • sudo 版本:1.8.23

    • gcc 版本:7.3.1

    • cmake 版本:2.8.12.2

    • git 版本:2.47.3

    • 制作版本:3.82

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:1.3.0

    • lvm2 版本:2.02.187

    • ec2-实例连接版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

  • AL2023 (x86_64):

    • Linux 内核版本:6.1

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 客户端版本:2.15.6

    • 运行版本:1.3.3

    • 容器版本:containerd github。 com/containerd/containerd1.7.27

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驱动程序版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.28.15-eks-473151a

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • stress 版本:1.0.7

    • 集合版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • 系统版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • git 版本:2.50.1

    • 制作版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-实例连接版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

Kubernetes v1.29
  • AL2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • AL2 (x86_64):

    • Linux 内核版本:5.10

    • Glibc 版本:2.26

    • OpenSSL 版本:1.0.2k-fips

    • FSx Lustre 客户端版本:2.12.8

    • Docker 版本:Docker 版本 25.0.13,build 0bab007

    • 运行版本:1.3.3

    • 容器版本:containerd github。 com/containerd/containerd1.7.27

    • aws CLI v2 版本:aws-cli/1.42.71 Python/3.10.17 linux/5.10.245-241.978.amzn2.x86_64 botocore/1.40.71

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驱动程序版本:570.195.03

    • CUDA 版本:12.2

    • ENA 驱动程序版本:2.15.0g

    • Python 版本:3.7.16

    • Kubernetes 版本:v1.29.15-eks-473151a

    • iptables-services 版本:1.8.4

    • nginx 版本:1.20.1

    • nvme-cli 版本:1.11.1

    • epel 发布版本:7

    • stress 版本:1.0.4

    • 集合版本:5.8.1

    • acl 版本:2.2.51

    • rsyslog 版本:8.24.0

    • lustre-client 版本:2.12.8

    • 系统版本:219

    • openssh 版本:7.4

    • sudo 版本:1.8.23

    • gcc 版本:7.3.1

    • cmake 版本:2.8.12.2

    • git 版本:2.47.3

    • 制作版本:3.82

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:1.3.0

    • lvm2 版本:2.02.187

    • ec2-实例连接版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

  • AL2023 (x86_64):

    • Linux 内核版本:6.1

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 客户端版本:2.15.6

    • 运行版本:1.3.3

    • 容器版本:containerd github。 com/containerd/containerd1.7.27

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驱动程序版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.29.15-eks-473151a

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • stress 版本:1.0.7

    • 集合版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • 系统版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • git 版本:2.50.1

    • 制作版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-实例连接版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

Kubernetes v1.30
  • AL2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • AL2 (x86_64):

    • Linux 内核版本:5.10

    • Glibc 版本:2.26

    • OpenSSL 版本:1.0.2k-fips

    • FSx Lustre 客户端版本:2.12.8

    • Docker 版本:Docker 版本 25.0.13,build 0bab007

    • 运行版本:1.3.2

    • 容器版本:containerd github。 com/containerd/containerd1.7.27

    • aws CLI v2 版本:aws-cli/1.42.69 Python/3.10.17 linux/5.10.245-241.976.amzn2.x86_64 botocore/1.40.69

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驱动程序版本:570.195.03

    • CUDA 版本:12.2

    • ENA 驱动程序版本:2.15.0g

    • Python 版本:3.7.16

    • Kubernetes 版本:v1.30.11-eks-473151a

    • iptables-services 版本:1.8.4

    • nginx 版本:1.20.1

    • nvme-cli 版本:1.11.1

    • epel 发布版本:7

    • stress 版本:1.0.4

    • 集合版本:5.8.1

    • acl 版本:2.2.51

    • rsyslog 版本:8.24.0

    • lustre-client 版本:2.12.8

    • 系统版本:219

    • openssh 版本:7.4

    • sudo 版本:1.8.23

    • gcc 版本:7.3.1

    • cmake 版本:2.8.12.2

    • git 版本:2.47.3

    • 制作版本:3.82

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:1.3.0

    • lvm2 版本:2.02.187

    • ec2-实例连接版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:58。

  • AL2023 (x86_64):

    • Linux 内核版本:6.1

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 客户端版本:2.15.6

    • 运行版本:1.3.3

    • 容器版本:containerd github。 com/containerd/containerd1.7.27

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驱动程序版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.30.11-eks-473151a

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • stress 版本:1.0.7

    • 集合版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • 系统版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • git 版本:2.50.1

    • 制作版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-实例连接版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

Kubernetes v1.31
  • AL2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • AL2 (x86_64):

    • Linux 内核版本:5.10

    • Glibc 版本:2.26

    • OpenSSL 版本:1.0.2k-fips

    • FSx Lustre 客户端版本:2.12.8

    • Docker 版本:Docker 版本 25.0.13,build 0bab007

    • 运行版本:1.3.3

    • 容器版本:containerd github。 com/containerd/containerd1.7.27

    • aws CLI v2 版本:aws-cli/1.42.71 Python/3.10.17 linux/5.10.245-241.978.amzn2.x86_64 botocore/1.40.71

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驱动程序版本:570.195.03

    • CUDA 版本:12.2

    • ENA 驱动程序版本:2.15.0g

    • Python 版本:3.7.16

    • Kubernetes 版本:v1.31.7-eks-473151a

    • iptables-services 版本:1.8.4

    • nginx 版本:1.20.1

    • nvme-cli 版本:1.11.1

    • epel 发布版本:7

    • stress 版本:1.0.4

    • 集合版本:5.8.1

    • acl 版本:2.2.51

    • rsyslog 版本:8.24.0

    • lustre-client 版本:2.12.8

    • 系统版本:219

    • openssh 版本:7.4

    • sudo 版本:1.8.23

    • gcc 版本:7.3.1

    • cmake 版本:2.8.12.2

    • git 版本:2.47.3

    • 制作版本:3.82

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:1.3.0

    • lvm2 版本:2.02.187

    • ec2-实例连接版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

  • AL2023 (x86_64):

    • Linux 内核版本:6.1

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 客户端版本:2.15.6

    • 运行版本:1.3.3

    • 容器版本:containerd github。 com/containerd/containerd1.7.27

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驱动程序版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.31.13-eks-113cf36

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • stress 版本:1.0.7

    • 集合版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • 系统版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • git 版本:2.50.1

    • 制作版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-实例连接版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

  • AL2023 (ARM64):

    • Linux 内核版本:6.12

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 客户端版本:2.15.6

    • 运行版本:1.3.3

    • 容器版本:containerd github。 com/containerd/containerd1.7.27

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驱动程序版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.31.13-eks-113cf36

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • stress 版本:1.0.7

    • 集合版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • nvidia-imex 版本:580.95.05

    • 系统版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • git 版本:2.50.1

    • 制作版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-实例连接版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:58。

Kubernetes v1.32
  • AL2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • AL2 (x86_64):

    • Linux 内核版本:5.10

    • Glibc 版本:2.26

    • OpenSSL 版本:1.0.2k-fips

    • FSx Lustre 客户端版本:2.12.8

    • Docker 版本:Docker 版本 25.0.13,build 0bab007

    • 运行版本:1.3.3

    • 容器版本:containerd github。 com/containerd/containerd1.7.27

    • aws CLI v2 版本:aws-cli/1.42.74 Python/3.10.17 linux/5.10.245-241.978.amzn2.x86_64 botocore/1.40.74 botocore/1.40.74

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驱动程序版本:570.195.03

    • CUDA 版本:12.2

    • ENA 驱动程序版本:2.15.0g

    • Python 版本:3.7.16

    • Kubernetes 版本:v1.32.3-eks-473151a

    • iptables-services 版本:1.8.4

    • nginx 版本:1.20.1

    • nvme-cli 版本:1.11.1

    • epel 发布版本:7

    • stress 版本:1.0.4

    • 集合版本:5.8.1

    • acl 版本:2.2.51

    • rsyslog 版本:8.24.0

    • lustre-client 版本:2.12.8

    • 系统版本:219

    • openssh 版本:7.4

    • sudo 版本:1.8.23

    • gcc 版本:7.3.1

    • cmake 版本:2.8.12.2

    • git 版本:2.47.3

    • 制作版本:3.82

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:1.3.0

    • lvm2 版本:2.02.187

    • ec2-实例连接版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

  • AL2023 (x86_64):

    • Linux 内核版本:6.1

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 客户端版本:2.15.6

    • 运行版本:1.3.3

    • 容器版本:containerd github。 com/containerd/containerd1.7.27

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驱动程序版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.32.9-eks-113cf36

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • stress 版本:1.0.7

    • 集合版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • 系统版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • git 版本:2.50.1

    • 制作版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-实例连接版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

  • AL2023 (ARM64):

    • Linux 内核版本:6.12

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 客户端版本:2.15.6

    • 运行版本:1.3.3

    • 容器版本:containerd github。 com/containerd/containerd1.7.27

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驱动程序版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.32.9-eks-113cf36

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • stress 版本:1.0.7

    • 集合版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • nvidia-imex 版本:580.95.05

    • 系统版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • git 版本:2.50.1

    • 制作版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-实例连接版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:58。

Kubernetes v1.33
  • AL2023 (x86_64):

    • Linux 内核版本:6.1

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 客户端版本:2.15.6

    • 运行版本:1.3.3

    • 容器版本:containerd github。 com/containerd/containerd1.7.27

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驱动程序版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.33.5-eks-113cf36

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • stress 版本:1.0.7

    • 集合版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • 系统版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • git 版本:2.50.1

    • 制作版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-实例连接版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

  • AL2023 (ARM64):

    • Linux 内核版本:6.12

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 客户端版本:2.15.6

    • 运行版本:1.3.3

    • 容器版本:containerd github。 com/containerd/containerd1.7.27

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驱动程序版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.33.5-eks-113cf36

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • stress 版本:1.0.7

    • 集合版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • nvidia-imex 版本:580.95.05

    • 系统版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • git 版本:2.50.1

    • 制作版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-实例连接版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:58。

SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 11 月 7 日

AMI 常规更新

SageMaker HyperPod 适用于 Amazon 的 DLAMI EKS 支持

此版本包含以下更新:

Kubernetes v1.28
  • 亚马逊 Linux 2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • AL2 (x86_64):

    • NVIDIA 驱动程序版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.28.15

  • AL2023 (x86_64):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.28.15

  • Package 更新包括 boto3、botocore、pip、regex、psutil 和 nvidia 容器工具包组件。

  • 新增软件包:注释文档 0.0.3

Kubernetes v1.29
  • 亚马逊 Linux 2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • AL2 (x86_64):

    • NVIDIA 驱动程序版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.29.15

  • AL2023 (x86_64):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.29.15

  • Package 更新包括内核更新、glibc 更新和各种系统库。

  • 新增软件包:注释文档 0.0.3

Kubernetes v1.30
  • 亚马逊 Linux 2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • AL2 (x86_64):

    • NVIDIA 驱动程序版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.30.11

  • AL2023 (x86_64):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.30.11

  • Package 更新包括内核 livepatch 更新和系统库更新。

  • 新增软件包:注释文档 0.0.3

Kubernetes v1.31
  • 亚马逊 Linux 2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • AL2 (x86_64):

    • NVIDIA 驱动程序版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.31.7

  • AL2023 (x86_64):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.31.13

  • AL2023(手臂):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.31.13

    • 内核版本:6.12.46-66.121.amzn2023.aarch64

  • Package 更新包括大量的系统库更新、内核更新和增强库更新。

  • 添加的软件包: apr-util-lmdb,kernel-livepatch-6.1.156-177.286

Kubernetes v1.32
  • 亚马逊 Linux 2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • AL2 (x86_64):

    • NVIDIA 驱动程序版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.32.3

    • AWSIAM 身份验证器版本:v0.6.29

  • AL2023 (x86_64):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.32.9

  • AL2023(手臂):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.32.9

    • 内核版本:6.12.46-66.121.amzn2023.aarch64

  • Package 更新包括内核 livepatch 更新和系统库更新。

  • 新增软件包:注释文档 0.0.3

Kubernetes v1.33
  • AL2023 (x86_64):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.33.5

    • 内核版本:6.1.155-176.282.amzn2023.x86_64

  • AL2023(手臂):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.33.5

    • 内核版本:6.12.46-66.121.amzn2023.aarch64

  • Package 更新包括大量的系统库更新、内核更新和增强库更新。

  • 新增软件包: apr-util-lmdb,kernel-livepatch 更新

SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 10 月 29 日

AMI 常规更新

SageMaker HyperPod 适用于 Amazon 的 DLAMI EKS 支持

此版本包含以下更新:

Kubernetes v1.28
  • 亚马逊 Linux 2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • AL2 (x86_64):

    • NVIDIA 驱动程序版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.28.15

  • AL2023 (x86_64):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.28.15

  • Package 更新包括 boto3、botocore、pip、regex、psutil 和 nvidia 容器工具包组件。

  • 新增软件包:注释文档 0.0.3

Kubernetes v1.29
  • 亚马逊 Linux 2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • AL2 (x86_64):

    • NVIDIA 驱动程序版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.29.15

  • AL2023 (x86_64):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.29.15

  • Package 更新包括内核更新、glibc 更新和各种系统库。

  • 新增软件包:注释文档 0.0.3

Kubernetes v1.30
  • 亚马逊 Linux 2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • AL2 (x86_64):

    • NVIDIA 驱动程序版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.30.11

  • AL2023 (x86_64):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.30.11

  • Package 更新包括内核 livepatch 更新和系统库更新。

  • 新增软件包:注释文档 0.0.3

Kubernetes v1.31
  • 亚马逊 Linux 2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • AL2 (x86_64):

    • NVIDIA 驱动程序版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.31.7

  • AL2023 (x86_64):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.31.13

  • AL2023(手臂):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.31.13

    • 内核版本:6.12.46-66.121.amzn2023.aarch64

  • Package 更新包括大量的系统库更新、内核更新和增强库更新。

  • 添加的软件包: apr-util-lmdb,kernel-livepatch-6.1.156-177.286

Kubernetes v1.32
  • 亚马逊 Linux 2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • AL2 (x86_64):

    • NVIDIA 驱动程序版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.32.3

  • AL2023 (x86_64):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.32.9

  • AL2023(手臂):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.32.9

    • 内核版本:6.12.46-66.121.amzn2023.aarch64

  • Package 更新包括内核 livepatch 更新和系统库更新。

  • 新增软件包:注释文档 0.0.3

Kubernetes v1.33
  • AL2023 (x86_64):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.33.5

    • 内核版本:6.1.155-176.282.amzn2023.x86_64

  • AL2023(手臂):

    • NVIDIA 驱动程序版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.33.5

    • 内核版本:6.12.46-66.121.amzn2023.aarch64

  • Package 更新包括大量的系统库更新、内核更新和增强库更新。

  • 新增软件包: apr-util-lmdb,kernel-livepatch 更新

SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 10 月 22 日

AL2x86

注意

亚马逊 Linux 2 现已弃用。Kubernetes AMI 基于 AL2 023。

DLAMI 基本发行说明可在此处获得。

  • EKS 版本 1.28-1.32

  • 此版本包含 Nvidia 十月安全公告中针对受影响的 NVIDI A 驱动程序包的 CVE 补丁。

  • NVIDIA SMI

    NVIDIA-SMI 570.195.03 Driver Version: 570.195.03 CUDA Version: 12.8
  • 主要版本

    软件包名称 版本
    框架版本 70
    gdr_copy 2.4.1
    支持的_ec2_instances g4dn、G5、G6、Gr6、G6e、p4d、p4de、P5、p5e、p5e、p5en
    efa_版本 1.43.3
    ebs_volume_type gp3
    nvidia 驱动程序 570.195.03
    python_location /usr/bin/python3.10
    nvidia_cuda_stack /usr/local/cuda-12.1,/usr/local/cuda-12.2,/usr/local/cuda-12.3,/usr/local/cuda-12.4
    ssm_agent_version 3.3.3050.0
    内核版本 5.10.244-240.965.amzn2.x86_64
    nvidia 容器工具包版本 1.17.8
    ofi_nccl_version 1.16.3
    操作系统 Amazon Linux 2
    默认_cuda /usr/local/cuda-12.1/
    计算架构 x86_64
  • 已添加软件包:此版本中未添加任何软件包。

  • 更新的软件包

    软件包名称 以前的版本 新版本
    boto3 1.40.46 1.40.49
    botocore 1.40.46 1.40.49
    fastapi 0.118.0 0.118.2
    文件锁 3.19.1 3.20.0
    importlib_元数据 8.7.0 8.0.0
    jaraco.conte 6.0.1 5.3.0
    jaco.functools 4.3.0 4.0.1
    matplotlib 3.10.6 3.10.7
    打包 25 24.2
    平台目录 4.4.0 4.5.0
    propcache 0.4.0 0.4.1
    丰富 14.1.0 14.2.0
    tomli 2.2.1 2.3.0
    types-python-dateutil 2.9.0.20250822 2.9.0.20251008
    virtualenv 20.34.0 20.35.1
    websocket-Client 1.8.0 1.9.0
  • 已删除的软件包:此版本中未删除任何软件包。

AL2023x86

DLAMI 基本发行说明可在此处获得。

  • EKS 版本 1.28-1.32。EKS 1.33 版本没有发布。

  • 此版本包含 Nvidia 十月安全公告中针对受影响的 NVIDI A 驱动程序包的 CVE 补丁。

  • NVIDIA SMI

    NVIDIA-SMI 580.95.05 Driver Version: 580.95.05 CUDA Version: 13.0
  • 主要版本

    软件包名称 版本
    gdr_copy 2.5.1
    支持的_ec2_instances g4dn、G5、G6、Gr6、G6e、p4d、p4de、P5、p5e、p5en、P6-B200
    efa_版本 1.43.3
    ebs_volume_type gp3
    nvidia_gds_version 1.15.0.42
    nvidia 驱动程序 580.95.05
    python_location /usr/bin/python3.9
    nvidia_cuda_stack /usr/local/cuda-12.6,/usr/local/cuda-12.8,/usr/local/cuda-12.9,/usr/local/cuda-13.0
    ssm_agent_version 3.3.3050.0
    内核版本 6.1.153-175.280.amzn2023.x86_64
    nvidia 容器工具包版本 1.17.8
    dcgm_version 4.4.1
    ofi_nccl_version 1.16.3
    操作系统 亚马逊 Linux 2023.9.20250929
    默认_cuda /usr/local/cuda-12.9/
    计算架构 x86_64
  • 已添加软件包:此版本中未添加任何软件包。

  • 更新的软件包

    软件包名称 以前的版本 新版本
    boto3 1.40.46 1.40.49
    botocore 1.40.46 1.40.49
    fastapi 0.118.0 0.118.2
    gdrcopy 2.5-1 2.5.1-1
    gdrcopy-devel 2.5-1 2.5.1-1
    gdrcopy-kmod 2.5-1dkms 2.5.1-1dkms
    jaraco.conte 6.0.1 5.3.0
    jaco.functools 4.3.0 4.0.1
    更多的 itertools 10.8.0 10.3.0
    打包 25 24.2
    propcache 0.4.0 0.4.1
    pydantic 2.11.10 2.12.0
    pydantic_core 2.33.2 2.41.1
    丰富 14.1.0 14.2.0
    types-python-dateutil 2.9.0.20250822 2.9.0.20251008
    打字扩展 4.12.2 4.15.0
    virtualenv 20.34.0 20.35.1
    websocket-Client 1.8.0 1.9.0
  • 已删除的软件包:此版本中未删除任何软件包。

AL2023 ARM64

DLAMI 基本发行说明可在此处获得。

  • EKS 版本 1.3-1.33。

  • 此版本包含 Nvidia 十月安全公告中针对受影响的 NVIDI A 驱动程序包的 CVE 补丁。

  • NVIDIA SMI

    NVIDIA-SMI 580.95.05 Driver Version: 580.95.05 CUDA Version: 13.0
  • 主要版本

    软件包名称 版本
    gdr_copy 2.5
    支持的_ec2_instances g5g、p6e-00 GB2
    efa_版本 1.43.3
    ebs_volume_type gp3
    nvidia 驱动程序 580.95.05
    python_location /usr/bin/python3.9
    nvidia_cuda_stack /usr/local/cuda-12.6,/usr/local/cuda-12.8,/usr/local/cuda-12.9,/usr/local/cuda-13.0
    ssm_agent_version 3.3.3050.0
    内核版本 6.12.46-66.121.amzn2023.aarch64
    nvidia 容器工具包版本 1.17.8
    dcgm_version 4.4.1
    ofi_nccl_version 1.16.3
    操作系统 亚马逊 Linux 2023.9.20250929
    默认_cuda /usr/local/cuda-12.9/
    计算架构 aarch64
  • 已添加软件包:此版本中未添加任何软件包。

  • 更新的软件包

    软件包名称 以前的版本 新版本
    aiohttp 3.12.15 3.13.0
    attrs 25.3.0 25.4.0
    boto3 1.40.45 1.40.49
    botocore 1.40.45 1.40.49
    cattrs 25.2.0 25.3.0
    认证 2025.8.3 2025.10.5
    efa 2.17.2-1.amzn2023 2.17.3-1.amzn2023
    fastapi 0.118.0 0.118.2
    冰雪奇缘名单 1.7.0 1.8.0
    importlib_元数据 8.7.0 8.0.0
    jaraco.conte 5.3.0 6.0.1
    多词典 6.6.4 6.7.0
    独角鲸 2.6.0 2.7.0
    nh3 0.3.0 0.3.1
    propcache 0.3.2 0.4.1
    pydantic 2.11.9 2.12.0
    pydantic_core 2.33.2 2.41.1
    pylint 3.3.8 3.3.9
    python-json-logger 3.3.0 4.0.0
    丰富 14.1.0 14.2.0
    tomli 2.2.1 2.0.1
    types-python-dateutil 2.9.0.20250822 2.9.0.20251008
    virtualenv 20.34.0 20.35.1
    websocket-Client 1.8.0 1.9.0
    yarl 1.20.1 1.22.0
    zippp 3.19.2 3.23.0
  • 已删除的软件包:此版本中未删除任何软件包。

SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 9 月 29 日

AMI 常规更新

  • 发布了适用于亚马逊 EKS 1.33 的新 SageMaker HyperPod AMI。有关更多信息,请参阅亚马逊 EKS 的 SageMaker HyperPod AMI 版本:2025 年 9 月 29 日。

    重要
    • 在此版本中,动态资源分配测试版 Kubernetes API 默认处于启用状态。

      • 此 API 改进了调度和监控需要资源的工作负载,例如 GPUs。

      • 此 API 是由开源 Kubernetes 社区开发的,在未来的 Kubernetes 版本中可能会发生变化。在使用 API 之前,请查看 Kubernetes 文档并了解它如何影响您的工作负载。

    • HyperPod 没有发布适用于 Kubernetes 1.33 的 HyperPod 亚马逊 Linux 2 AMI。 AWS建议您迁移到 AL2 023。有关更多信息,请参阅从亚马逊 Linux 2 升级到 AL2 023

有关更多信息,请参阅 Kubernetes v1.33。

SageMaker HyperPod 适用于 Amazon 的 DLAMI EKS 支持

此版本包含以下更新:

Kubernetes v1.28
  • 亚马逊 Linux 2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • NVIDIA SMI:

    • NVIDIA 驱动程序版本:570.172.08

    • CUDA 版本:12.8

  • 软件包:

    • 语言和核心库:

      • GCC:11.5.0-5.amzn2023.0.5

      • GCC 14:14.2.1-7.amzn2023.0.1

      • Java:17.0.16+8-1.amzn2023.1

      • Perl:5.32.1-477.amzn2023.0.7

      • Python:3.9.23-1.amzn2023.0.3

      • Go:3.2.0-37.amzn2023

      • Rust:1.89.0-1.amzn2023.0.2

    • 核心库:

      • GlibC:2.34-196.amzn2023.0.1

      • OpenSSL:3.2.2-1.amzn2023.0.1

      • Zlib:1.2.11-33.amzn2023.0.5

      • XZ Utils:5.2.5-9.amzn2023.0.2

      • util-Linux:2.37.4-1.amzn2023.0.4

    • 神经元:

      • aws-neuronx-dkms: 2.23.9.0-dkms

      • aws-neuronx-tools: 2.25.145.0-1

    • EFA:

      • efa 驱动程序:2.17.2-1.amzn2023

      • efa 配置:1.18-1.amzn2023

      • efa nv peermem:1.2.2-1.amzn2023

      • efa 简介:1.7-1.amzn2023

    • 内核:

      • 内核:6.1.148-173.267.amzn2023

      • 内核开发:6.1.148-173.267.amzn2023

      • 内核标头:6.1.148-173.267.amzn2023

      • 内核工具:6.1.148-173.267.amzn2023

      • 额外内核模块:6.1.148-173.267.amzn2023

      • 内核直播补丁:1.0-0.amzn2023

    • 英伟达:

      • nvidia 容器工具包:1.17.8-1

      • nvidia 容器工具包基础:1.17.8-1

      • libnvidia-container:1.17.8-1(带工具)

      • nvidia Fabric Manager:570.172.08-1

      • libnvidia-nscq:570.172.08-1

Kubernetes v1.29
  • 亚马逊 Linux 2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • NVIDIA SMI:

    • NVIDIA 驱动程序版本:570.172.08

    • CUDA 版本:12.8

  • 软件包:

    • 语言和核心库:

      • GCC:11.5.0-5.amzn2023.0.5

      • GCC 14:14.2.1-7.amzn2023.0.1

      • Java:17.0.16+8-1.amzn2023.1

      • Perl:5.32.1-477.amzn2023.0.7

      • Python:3.9.23-1.amzn2023.0.3

      • Go:3.2.0-37.amzn2023

      • Rust:1.89.0-1.amzn2023.0.2

    • 核心库:

      • GlibC:2.34-196.amzn2023.0.1

      • OpenSSL:3.2.2-1.amzn2023.0.1

      • Zlib:1.2.11-33.amzn2023.0.5

      • XZ Utils:5.2.5-9.amzn2023.0.2

      • util-Linux:2.37.4-1.amzn2023.0.4

    • 神经元:

      • aws-neuronx-dkms: 2.23.9.0-dkms

      • aws-neuronx-tools: 2.25.145.0-1

    • EFA:

      • efa 驱动程序:2.17.2-1.amzn2023

      • efa 配置:1.18-1.amzn2023

      • efa nv peermem:1.2.2-1.amzn2023

      • efa 简介:1.7-1.amzn2023

    • 内核:

      • 内核:6.1.148-173.267.amzn2023

      • 内核开发:6.1.148-173.267.amzn2023

      • 内核标头:6.1.148-173.267.amzn2023

      • 内核工具:6.1.148-173.267.amzn2023

      • 额外内核模块:6.1.148-173.267.amzn2023

      • 内核直播补丁:1.0-0.amzn2023

    • 英伟达:

      • nvidia 容器工具包:1.17.8-1

      • nvidia 容器工具包基础:1.17.8-1

      • libnvidia-container:1.17.8-1(带工具)

      • nvidia Fabric Manager:570.172.08-1

      • libnvidia-nscq:570.172.08-1

Kubernetes v1.30
  • 亚马逊 Linux 2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • NVIDIA SMI:

    • NVIDIA 驱动程序版本:570.172.08

    • CUDA 版本:12.8

  • 软件包:

    • 语言和核心库:

      • GCC:11.5.0-5.amzn2023.0.5

      • GCC 14:14.2.1-7.amzn2023.0.1

      • Java:17.0.16+8-1.amzn2023.1

      • Perl:5.32.1-477.amzn2023.0.7

      • Python:3.9.23-1.amzn2023.0.3

      • Go:3.2.0-37.amzn2023

      • Rust:1.89.0-1.amzn2023.0.2

    • 核心库:

      • GlibC:2.34-196.amzn2023.0.1

      • OpenSSL:3.2.2-1.amzn2023.0.1

      • Zlib:1.2.11-33.amzn2023.0.5

      • XZ Utils:5.2.5-9.amzn2023.0.2

      • util-Linux:2.37.4-1.amzn2023.0.4

    • 神经元:

      • aws-neuronx-dkms: 2.23.9.0-dkms

      • aws-neuronx-tools: 2.25.145.0-1

    • EFA:

      • efa 驱动程序:2.17.2-1.amzn2023

      • efa 配置:1.18-1.amzn2023

      • efa nv peermem:1.2.2-1.amzn2023

      • efa 简介:1.7-1.amzn2023

    • 内核:

      • 内核:6.1.148-173.267.amzn2023

      • 内核开发:6.1.148-173.267.amzn2023

      • 内核标头:6.1.148-173.267.amzn2023

      • 内核工具:6.1.148-173.267.amzn2023

      • 额外内核模块:6.1.148-173.267.amzn2023

      • 内核直播补丁:1.0-0.amzn2023

    • 英伟达:

      • nvidia 容器工具包:1.17.8-1

      • nvidia 容器工具包基础:1.17.8-1

      • libnvidia-container:1.17.8-1(带工具)

      • nvidia Fabric Manager:570.172.08-1

      • libnvidia-nscq:570.172.08-1

Kubernetes v1.31
  • 亚马逊 Linux 2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • NVIDIA SMI:

    • NVIDIA 驱动程序版本:570.172.08

    • CUDA 版本:12.8

  • 软件包:

    • 语言和核心库:

      • GCC:11.5.0-5.amzn2023.0.5

      • GCC 14:14.2.1-7.amzn2023.0.1

      • Java:17.0.16+8-1.amzn2023.1

      • Perl:5.32.1-477.amzn2023.0.7

      • Python:3.9.23-1.amzn2023.0.3

      • Go:3.2.0-37.amzn2023

      • Rust:1.89.0-1.amzn2023.0.2

    • 核心库:

      • GlibC:2.34-196.amzn2023.0.1

      • OpenSSL:3.2.2-1.amzn2023.0.1

      • Zlib:1.2.11-33.amzn2023.0.5

      • XZ Utils:5.2.5-9.amzn2023.0.2

      • util-Linux:2.37.4-1.amzn2023.0.4

    • 神经元:

      • aws-neuronx-dkms: 2.23.9.0-dkms

      • aws-neuronx-tools: 2.25.145.0-1

    • EFA:

      • efa 驱动程序:2.17.2-1.amzn2023

      • efa 配置:1.18-1.amzn2023

      • efa nv peermem:1.2.2-1.amzn2023

      • efa 简介:1.7-1.amzn2023

    • 内核:

      • 内核:6.1.148-173.267.amzn2023

      • 内核开发:6.1.148-173.267.amzn2023

      • 内核标头:6.1.148-173.267.amzn2023

      • 内核工具:6.1.148-173.267.amzn2023

      • 额外内核模块:6.1.148-173.267.amzn2023

      • 内核直播补丁:1.0-0.amzn2023

    • 英伟达:

      • nvidia 容器工具包:1.17.8-1

      • nvidia 容器工具包基础:1.17.8-1

      • libnvidia-container:1.17.8-1(带工具)

      • nvidia Fabric Manager:570.172.08-1

      • libnvidia-nscq:570.172.08-1

Kubernetes v1.32
  • 亚马逊 Linux 2 现已弃用。Kubernetes AMI 基于 AL2 023。

  • NVIDIA SMI:

    • NVIDIA 驱动程序版本:570.172.08

    • CUDA 版本:12.8

  • 软件包:

    • 语言和核心库:

      • GCC:11.5.0-5.amzn2023.0.5

      • GCC 14:14.2.1-7.amzn2023.0.1

      • Java:17.0.16+8-1.amzn2023.1

      • Perl:5.32.1-477.amzn2023.0.7

      • Python:3.9.23-1.amzn2023.0.3

      • Go:3.2.0-37.amzn2023

      • Rust:1.89.0-1.amzn2023.0.2

    • 核心库:

      • GlibC:2.34-196.amzn2023.0.1

      • OpenSSL:3.2.2-1.amzn2023.0.1

      • Zlib:1.2.11-33.amzn2023.0.5

      • XZ Utils:5.2.5-9.amzn2023.0.2

      • util-Linux:2.37.4-1.amzn2023.0.4

    • 神经元:

      • aws-neuronx-dkms: 2.23.9.0-dkms

      • aws-neuronx-tools: 2.25.145.0-1

    • EFA:

      • efa 驱动程序:2.17.2-1.amzn2023

      • efa 配置:1.18-1.amzn2023

      • efa nv peermem:1.2.2-1.amzn2023

      • efa 简介:1.7-1.amzn2023

    • 内核:

      • 内核:6.1.148-173.267.amzn2023

      • 内核开发:6.1.148-173.267.amzn2023

      • 内核标头:6.1.148-173.267.amzn2023

      • 内核工具:6.1.148-173.267.amzn2023

      • 额外内核模块:6.1.148-173.267.amzn2023

      • 内核直播补丁:1.0-0.amzn2023

    • 英伟达:

      • nvidia 容器工具包:1.17.8-1

      • nvidia 容器工具包基础:1.17.8-1

      • libnvidia-container:1.17.8-1(带工具)

      • nvidia Fabric Manager:570.172.08-1

      • libnvidia-nscq:570.172.08-1

Kubernetes v1.33

下表包含有关此 AMI 版本中的组件和相应版本的信息。

组件 AL2023_x86 AL2023_arm64
EKS v1.33.4 v1.33.4
amazon-ssm-agent 3.3.2299.0-1.amzn2023 3.3.2299.0-1.amzn2023
aws-neuronx-dkms 2.23.9.0-dkms 不适用
containerd 1.7.27-1.eks.amzn2023.0.4 1.7.27-1.eks.amzn2023.0.4
efa 2.17.2-1.amzn2023 2.17.2-1.amzn2023
ena 2.14.1g 2.14.1g
kernel 6.12.40-64.114.114.amzn2023 不适用
kernel6.12 不适用 6.12.40-64.114.114.amzn2023
kmod-nvidia-latest-dkms 570.172.08-1.amzn2023 570.172.08-1.el9
nvidia-container-toolkit 1.17.8-1 1.17.8-1
runc 1.2.6-1.amzn2023.0.1 1.2.6-1.amzn2023.0.1

SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 8 月 25 日

SageMaker HyperPod 适用于 Amazon 的 DLAMI EKS 支持

此版本包含以下更新:

Kubernetes v1.28

NVIDIA SMI:

  • Nvidia 驱动程序版本:570.172.08

  • CUDA 版本:12.8

已添加的软件包:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

更新后的软件包:

  • gdk-pixbuf2.x86_64:2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • kernel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libgs.x86_64:9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • microcode_ctl.x86_64:2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64:1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

已移除的软件包:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

存储库已更改:

  • libnvidia-container-tools.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

Kubernetes v1.29

NVIDIA SMI:

  • Nvidia 驱动程序版本:570.172.08

  • CUDA 版本:12.8

已添加的软件包:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

更新后的软件包:

  • gdk-pixbuf2.x86_64:2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • kernel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libgs.x86_64:9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • microcode_ctl.x86_64:2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64:1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

已移除的软件包:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

存储库已更改:

  • libnvidia-container-tools.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

Kubernetes v1.30

NVIDIA SMI:

  • Nvidia 驱动程序版本:570.172.08

  • CUDA 版本:12.8

已添加的软件包:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

更新后的软件包:

  • aws-neuronx-dkms.noarch:2.22.0-dkms → 2.23.9.0-dkms

  • efa.x86_64:2.15.3-1.amzn2 → 2.17.2-1.amzn2

  • efa-nv-peermem.x86_64:1.2.1-1.amzn2 → 1.2.2-1.amzn2

  • gdk-pixbuf2.x86_64:2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • ibacm.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • infiniband-diags.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • kernel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libfabric-aws.x86_64:2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2

  • libfabric-aws-devel.x86_64:2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2

  • libgs.x86_64:9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • libibumad.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs-core.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs-utils.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libnccl-ofi.x86_64:1.15.0-1.amzn2 → 1.16.2-1.amzn2

  • librdmacm.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • librdmacm-utils.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • microcode_ctl.x86_64:2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64:1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

  • rdma-core.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • rdma-core-devel.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

已移除的软件包:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

存储库已更改:

  • libnvidia-container-tools.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

Kubernetes v1.31

NVIDIA SMI:

  • Nvidia 驱动程序版本:570.172.08

  • CUDA 版本:12.8

已添加的软件包:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

更新后的软件包:

  • gdk-pixbuf2.x86_64:2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • kernel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libgs.x86_64:9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • microcode_ctl.x86_64:2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64:1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

已移除的软件包:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

存储库已更改:

  • libnvidia-container-tools.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

Kubernetes v1.32

NVIDIA SMI:

  • Nvidia 驱动程序版本:570.172.08

  • CUDA 版本:12.8

已添加的软件包:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

更新后的软件包:

  • aws-neuronx-dkms.noarch:2.22.0-dkms → 2.23.9.0-dkms

  • efa.x86_64:2.15.3-1.amzn2 → 2.17.2-1.amzn2

  • efa-nv-peermem.x86_64:1.2.1-1.amzn2 → 1.2.2-1.amzn2

  • gdk-pixbuf2.x86_64:2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • ibacm.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • infiniband-diags.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • kernel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libfabric-aws.x86_64:2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2

  • libfabric-aws-devel.x86_64:2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2

  • libgs.x86_64:9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • libibumad.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs-core.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs-utils.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libnccl-ofi.x86_64:1.15.0-1.amzn2 → 1.16.2-1.amzn2

  • librdmacm.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • librdmacm-utils.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • microcode_ctl.x86_64:2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64:1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

  • rdma-core.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • rdma-core-devel.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

已移除的软件包:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

存储库已更改:

  • libnvidia-container-tools.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 8 月 12 日

AMI 包括以下内容:

  • 支持的AWS服务:Amazon EC2

  • 操作系统:亚马逊 Linux 2023

  • 计算架构: ARM64

  • 已为以下软件包安装了最新的可用版本:

    • Linux 内核:6.12

    • FSx Lustre

    • Docker

    • AWS CLIv2 在 /usr/bin/aws

    • NVIDIA DCGM

    • Nvidia Container Toolkit:

      • 版本命令:nvidia-container-cli -V

    • Nvidia-docker2:

      • 版本命令:nvidia-docker version

    • nvidia-imex:v570.172.08-1

  • NVIDIA 驱动程序:570.158.01

  • NVIDIA CUDA 12.4、12.5、12.6、12.8 堆栈:

    • CUDA、NCCL 和 cudDN 安装目录:/usr/local/cuda-xx.x/

      • 示例:/usr/local/cuda-12.8//usr/local/cuda-12.8/

    • 已编译的 NCCL 版本:

      • 对于 12.4 的 CUDA 目录,编译了 NCCL 版本 2.22.3+ .4 CUDA12

      • 对于 12.5 的 CUDA 目录,编译了 NCCL 版本 2.22.3+ .5 CUDA12

      • 对于 12.6 的 CUDA 目录,编译了 NCCL 版本 2.24.3+ .6 CUDA12

      • 对于 12.8 的 CUDA 目录,编译了 NCCL 版本 2.27.5+ .8 CUDA12

    • 默认 CUDA:12.8

      • PATH /usr/local/cuda 指向 CUDA 12.8

      • 更新以下环境变量:

        • LD_LIBRARY_PATH拥有 /usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64

        • PATH拥有 /usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • 对于任何不同的 CUDA 版本,请LD_LIBRARY_PATH相应更新。

  • EFA 安装程序:1.42.0

  • 英伟达 GDRCopy:2.5.1

  • AWSOFI NCCL 插件附带 EFA 安装程序

    • 路径/opt/amazon/ofi-nccl/lib/opt/amazon/ofi-nccl/efa已添加到LD_LIBRARY_PATH

  • AWS CLIv2 在 /usr/local/bin/aws

  • EBS 卷类型:gp3

  • Python:/usr/bin/python3.9

SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 8 月 6 日

SageMaker HyperPod 适用于 Amazon 的 DLAMI EKS 支持

AMIs 包括以下更新:

K8s v1.28
  • Neuron 软件包:

    • aws-neuronx-collectives: 2.27.34.0_ec8cd 5e8b-1

    • aws-neuronx-dkms: 2.23.9. 0-dkms

    • aws-neuronx-runtime-lib: 2.27.23.0_8d eec4dbf-1

    • aws-neuronx-k8 个插件:2.27.7.0 -1

    • aws-neuronx-k8 调度程序:2.27.7.0 -1

    • aws-neuronx-tools: 2.25.145. 0-1

K8s v1.29
  • Neuron 软件包:

    • aws-neuronx-collectives: 2.27.34.0_ec8cd 5e8b-1

    • aws-neuronx-dkms: 2.23.9. 0-dkms

    • aws-neuronx-runtime-lib: 2.27.23.0_8d eec4dbf-1

    • aws-neuronx-k8 个插件:2.27.7.0 -1

    • aws-neuronx-k8 调度程序:2.27.7.0 -1

    • aws-neuronx-tools: 2.25.145. 0-1

K8s v1.30
  • Neuron 软件包:

    • aws-neuronx-collectives: 2.27.34.0_ec8cd 5e8b-1

    • aws-neuronx-dkms: 2.23.9. 0-dkms

    • aws-neuronx-runtime-lib: 2.27.23.0_8d eec4dbf-1

    • aws-neuronx-k8 个插件:2.27.7.0 -1

    • aws-neuronx-k8 调度程序:2.27.7.0 -1

    • aws-neuronx-tools: 2.25.145. 0-1

K8s v1.31
  • Neuron 软件包:

    • aws-neuronx-collectives: 2.27.34.0_ec8cd 5e8b-1

    • aws-neuronx-dkms: 2.23.9. 0-dkms

    • aws-neuronx-runtime-lib: 2.27.23.0_8d eec4dbf-1

    • aws-neuronx-k8 个插件:2.27.7.0 -1

    • aws-neuronx-k8 调度程序:2.27.7.0 -1

    • aws-neuronx-tools: 2.25.145. 0-1

K8s v1.32
  • Neuron 软件包:

    • aws-neuronx-collectives: 2.27.34.0_ec8cd 5e8b-1

    • aws-neuronx-dkms: 2.23.9. 0-dkms

    • aws-neuronx-runtime-lib: 2.27.23.0_8d eec4dbf-1

    • aws-neuronx-k8 个插件:2.27.7.0 -1

    • aws-neuronx-k8 调度程序:2.27.7.0 -1

    • aws-neuronx-tools: 2.25.145. 0-1

重要
  • Deep Learning Base OSS Nvidia Driver AMI(Amazon Linux 2)版本 70.3

  • 深度学习基础版专有 Nvidia 驱动程序 AMI(Amazon Linux 2)版本 68.4

  • 最新的 CUDA 12.8 支持

  • 已将 Nvidia 驱动程序从 570.158.01 升级到 570.172.08 以修复 Nvidia 7 月版安全公告中提及的 CVE

SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 7 月 31 日

亚马逊 SageMaker HyperPod 现在支持适用于亚马逊 EKS 集群的新 AMI,该集群可将基本操作系统更新到亚马逊 Linux 2023。此版本对 Amazon Linux 2 (AL2) 进行了多项改进。 HyperPod AMIs 定期发布新版本,我们建议您在最新、最安全的版本上运行所有 HyperPod 集群, AMIs 以解决漏洞并逐步淘汰过时的软件和库。

关键升级

  • 操作系统:亚马逊 Linux 2023(从亚马逊 Linux 2 更新,或者 AL2)

  • P@@ ackage Manager:DNF 是默认的包管理工具,取代了中使用的 YUM AL2

  • 网络服务systemd-networkd管理网络接口,取代中dhclient使用的 ISC AL2

  • Linux 内核:版本 6.1,根据中使用的内核进行了更新 AL2

  • Glibc:版本 2.34,已从中的版本更新 AL2

  • GCC:版本 11.5.0,已从中的版本更新 AL2

  • NFS:版本 1:2.6 .1,从 1:1.3 .4 版本更新 AL2

  • NVIDIA 驱动程序:版本 570.172.08,该驱动程序的更新版本

  • Python:版本 3.9,取代了中使用的 Python 2.7 AL2

  • NVME:版本 1.11.1,驱动程序的更新版本 NVMe

升级之前

在升级前,您需要了解几个重要事项。与 AL2 023 相比,已添加、升级或删除了多个软件包。 AL2我们强烈建议您在升级集群之前使用 AL2 023 测试您的应用程序。有关 AL2 023 年所有软件包变更的完整列表,请参阅亚马逊 Linux 2023 中的软件包变更

以下是与 AL2 023 AL2 之间的一些重大变化:

  • Python 3.10:除操作系统外,最重大的更新是 Python 版本升级。升级后,集群默认使用 Python 3.10。虽然某些 Python 3.8 分布式训练工作负载可能与 Python 3.10 兼容,但我们强烈建议您单独测试特定的工作负载。如果迁移到 Python 3.10 确实存在困难,但您仍希望升级集群以获取其他新功能,则您可以在运行任何工作负载之前,结合使用 yum install python-xx.x 命令与生命周期脚本来安装旧版本的 Python。请务必测试现有生命周期脚本与应用程序代码的兼容性。

  • NVIDIA 运行时强制执行: AL2023 严格执行 NVIDIA 容器运行时要求,导致带有硬编码 NVIDIA 环境变量(例如NVIDIA_VISIBLE_DEVICES: "all")的容器在仅限 CPU 的节点上出现故障(而在没有 GPU 驱动程序时会 AL2 忽略这些设置)。您可以通过在容器组(pod)规范中设置 NVIDIA_VISIBLE_DEVICES: "void" 或使用仅含 CPU 的映像来覆盖强制执行。

  • cgroup v2: AL2 023 具有下一代统一控制组层次结构(cgroup v2)。cgroup v2 用于容器运行时,也被使用。systemd虽然 AL2 023 仍然包含可以让系统使用 cgroup v1 运行的代码,但这不是推荐的配置。

  • 亚马逊 VPC CNI 和eksctl版本: AL2023 还要求您的亚马逊 VPC CNI 版本为 1.16.2 或更高版本,您的版本必须为 0.176.0 或更高eksctl版本。

  • 启用 EFA for Lustre:您现在可以在 Lustre 上 FSx 使用 EFA,这使您能够实现与本地 AI/ML 或 HPC(高性能计算)集群相当的应用程序性能,同时受益于云计算的可扩展性、灵活性和弹性。 FSx

此外,升级到 AL2 023 需要最低版本的 Health Monitor 1.0.643.0_1.0.192.0 ing Agent。完成以下过程可更新运行状况监控代理:

  1. 如果您使用 GitHub存储库中的 HyperPod 生命周期脚本 awsome-distributed-training,请确保提取最新版本。早期版本与 AL2 023 不兼容。新的生命周期脚本可确保在 AL2 023 年containerd使用额外挂载的存储空间来提取容器镜像。

  2. 获取最新版本的 HyperPod CLI git 存储库

  3. 使用以下命令更新依赖项:helm dependencies update helm_chart/HyperPodHelmChart

  4. 自述文件中的步骤 4 所述 HyperPodHelmChart,运行以下命令以升级集群上运行的依赖项版本:helm upgrade dependencies helm_chart/HyperPodHelmChart -namespace kube-system

已在升级后的 EKS 集群上完成测试的工作负载

以下是已针对此次升级完成测试的部分使用案例:

  • 向后兼容:涉及的热门分布式训练作业 PyTorch 应在新的 AMI 上向后兼容。然而,由于您的工作负载可能依赖特定的 Python 或 Linux 库,我们建议您先在小型节点或部分节点上进行测试,然后再升级大型集群。

  • 加速器测试:已经测试了使用 NVIDIA 加速器(用于 P 和 G 实例系列)和 Ne AWS uron 加速器(用于 Trn 实例)的不同实例类型的作业。

如何升级 AMI 及关联的工作负载

您可以使用下列方法之一来升级到新 AMI:

  • 使用 create-cluster API 以使用最新 AMI 创建新集群。

  • 使用 update-cluster-softwareAPI 升级您的现有集群。请注意,此选项会重新运行所有生命周期脚本。

在更新过程中,集群将不可用。我们建议为此次停机时间做好规划,并在升级完成后,从现有检查点重新启动训练工作负载。作为最佳实践,我们建议您先在小型集群上执行测试,然后再升级大型集群。

如果更新命令失败,请先确定失败原因。对于生命周期脚本失败,请对脚本进行必要的更正并重试。对于任何其他无法解决的问题,请联系 AWS 支持

问题排查

使用以下部分来帮助解决您在升级到 AL2 023 时遇到的任何问题。

如何修复仅含 CPU 的集群节点上出现的诸如 "nvml error: driver not loaded: unknown" 之类的错误?

如果在 CPU AL2 Amazon EKS 节点上运行的容器现在在 AL2 023 上出现故障,则您的容器映像可能包含硬编码的 NVIDIA 环境变量。可使用以下命令检查硬编码的环境变量:

docker inspect image:tag | grep -i nvidia

AL2023 严格执行这些要求,而对仅限 CPU AL2 的节点则更为宽松。一种解决方案是通过在 Amazon EKS Pod 规范中设置某些 NVIDIA 环境变量来覆盖 AL2 023 强制执行,如以下示例所示:

yaml containers: - name: your-container image: your-image:tag env: - name: NVIDIA_VISIBLE_DEVICES value: "void" - name: NVIDIA_DRIVER_CAPABILITIES value: ""

另一种替代方案是使用仅含 CPU 的容器映像(例如 pytorch/pytorch:latest-cpu),或构建不包含 NVIDIA 依赖项的自定义映像。

SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 7 月 15 日

SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持

AMIs 包括以下更新:

K8s v1.28
  • 最新的 NVIDIA 驱动程序:550.163.01

  • 默认 CUDA:12.4

  • EFA 安装程序:1.38.0

  • Neuron 软件包:

    • aws-neuronx-dkms.noarch:2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64:2.4.0-1

    • aws-neuronx-tools.x86 _64:2.18.3.0-1

    • aws-neuron-dkms.noarch:2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64:1.9.3.0-1

    • aws-neuron-k8-s@@ cheduler.x86_64:1.9.3.0-1

    • aws-neuron-runtime.x86 _64:1.6.24.0-1

    • aws-neuron-runtime-base.x86 _64:1.6.21.0-1

    • aws-neuron-tools.x86_64:2.1.4.0-1

    • aws-neuronx-collectives.x86_64:2.26. 43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64:0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64:0.16.2.0 -1

    • aws-neuronx-gpsimd-tools.x86_64:0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64:2.26.26.0-1

    • aws-neuronx-k8-s@@ cheduler.x86_64:2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64:2.26. 42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86 _64:2.24.54.0-1

    • tensorflow-model-server-neuron.x86 _64:2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2. 0-0

K8s v1.29
  • Nvidia 驱动程序版本:550.163.01

  • CUDA 版本:12.4

  • EFA 安装程序:1.38.0

  • Neuron 软件包:

    • aws-neuronx-dkms.noarch:2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64:2.4.0-1

    • aws-neuronx-tools.x86 _64:2.18.3.0-1

    • aws-neuron-dkms.noarch:2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64:1.9.3.0-1

    • aws-neuron-k8-s@@ cheduler.x86_64:1.9.3.0-1

    • aws-neuron-runtime.x86 _64:1.6.24.0-1

    • aws-neuron-runtime-base.x86 _64:1.6.21.0-1

    • aws-neuron-tools.x86_64:2.1.4.0-1

    • aws-neuronx-collectives.x86_64:2.26. 43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64:0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64:0.16.2.0 -1

    • aws-neuronx-gpsimd-tools.x86_64:0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64:2.26.26.0-1

    • aws-neuronx-k8-s@@ cheduler.x86_64:2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64:2.26. 42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86 _64:2.24.54.0-1

    • tensorflow-model-server-neuron.x86 _64:2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2. 0-0

K8s v1.30
  • Nvidia 驱动程序版本:550.163.01

  • CUDA 版本:12.4

  • EFA 安装程序版本:1.38.0

  • Neuron 软件包:

    • aws-neuronx-dkms.noarch:2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64:2.4.0-1

    • aws-neuronx-tools.x86 _64:2.18.3.0-1

    • aws-neuron-dkms.noarch:2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64:1.9.3.0-1

    • aws-neuron-k8-s@@ cheduler.x86_64:1.9.3.0-1

    • aws-neuron-runtime.x86 _64:1.6.24.0-1

    • aws-neuron-runtime-base.x86 _64:1.6.21.0-1

    • aws-neuron-tools.x86_64:2.1.4.0-1

    • aws-neuronx-collectives.x86_64:2.26. 43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64:0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64:0.16.2.0 -1

    • aws-neuronx-gpsimd-tools.x86_64:0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64:2.26.26.0-1

    • aws-neuronx-k8-s@@ cheduler.x86_64:2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64:2.26. 42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86 _64:2.24.54.0-1

    • tensorflow-model-server-neuron.x86 _64:2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2. 0-0

K8s v1.31
  • Nvidia 驱动程序版本:550.163.01

  • CUDA 版本:12.4

  • EFA 安装程序版本:1.38.0

  • Neuron 软件包:

    • aws-neuronx-dkms.noarch:2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64:2.4.0-1

    • aws-neuronx-tools.x86 _64:2.18.3.0-1

    • aws-neuron-dkms.noarch:2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64:1.9.3.0-1

    • aws-neuron-k8-s@@ cheduler.x86_64:1.9.3.0-1

    • aws-neuron-runtime.x86 _64:1.6.24.0-1

    • aws-neuron-runtime-base.x86 _64:1.6.21.0-1

    • aws-neuron-tools.x86_64:2.1.4.0-1

    • aws-neuronx-collectives.x86_64:2.26. 43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64:0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64:0.16.2.0 -1

    • aws-neuronx-gpsimd-tools.x86_64:0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64:2.26.26.0-1

    • aws-neuronx-k8-s@@ cheduler.x86_64:2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64:2.26. 42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86 _64:2.24.54.0-1

    • tensorflow-model-server-neuron.x86 _64:2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2. 0-0

K8s v1.32
  • Nvidia 驱动程序版本:550.163.01

  • CUDA 版本:12.4

  • EFA 安装程序版本:1.38.0

  • Neuron 软件包:

    • aws-neuronx-dkms.noarch:2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64:2.4.0-1

    • aws-neuronx-tools.x86 _64:2.18.3.0-1

    • aws-neuron-dkms.noarch:2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64:1.9.3.0-1

    • aws-neuron-k8-s@@ cheduler.x86_64:1.9.3.0-1

    • aws-neuron-runtime.x86 _64:1.6.24.0-1

    • aws-neuron-runtime-base.x86 _64:1.6.21.0-1

    • aws-neuron-tools.x86_64:2.1.4.0-1

    • aws-neuronx-collectives.x86_64:2.26. 43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64:0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64:0.16.2.0 -1

    • aws-neuronx-gpsimd-tools.x86_64:0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64:2.26.26.0-1

    • aws-neuronx-k8-s@@ cheduler.x86_64:2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64:2.26. 42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86 _64:2.24.54.0-1

    • tensorflow-model-server-neuron.x86 _64:2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2. 0-0

SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 6 月 9 日

SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持

Neuron SDK Updates
  • aws-neuronx-dkms.noarch:2.21.37.0(从 2.20.74.0 开始)

SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 5 月 22 日

AMI 常规更新

SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持

Deep Learning Base AMI AL2
  • 最新的 NVIDIA 驱动程序:550.163.01

  • CUDA 堆栈更新:

    • 默认 CUDA:12.1

    • NCCL 版本:2.22.3

  • EFA 安装程序:1.38.0

  • AWSOFI NCC L:1.13.2

  • Linux 内核:5.10

  • GDRCopy: 2.4

重要
  • NVIDIA 容器工具包 1.17.4 更新:现已禁止挂载 CUDA 兼容性库

  • 从 EFA 版本 1.37 更新到版本 1.38:

    • AWSOFI NCCL 插件现在位于 /-nccl opt/amazon/ofi

    • 之前的位置 /opt//aws-ofi-nccl已被弃用

Neuron SDK Updates
  • aws-neuronx-dkms.noarch:2.20.74.0(从 2.20.28.0 开始)

  • aws-neuronx-collectives.x86_64:2.25.65.0_9858ac9a1-1(来自 2.24.59.0_8 38c7fc8b-1)

  • aws-neuronx-runtime-lib.x86_64:2.25.57.0_166c7a468-1(来自 2.24.53.0_f 239092cc-1)

  • aws-neuronx-tools.x86_64:2.23.9.0(从 2.22.6 1.0 开始)

  • aws-neuronx-gpsimd-customop-lib.x86_64:0.15.12.0(从 0.14.12.0 开始)

  • aws-neuronx-gpsimd-tools.x86_64:0.15.1.0_5d31b6a3f(来自 0.14.6.0_241eb6 9f4)

  • aws-neuronx-k8-plugin.x86_64:2.25.24.0(从 2. 24.23.0 开始)

  • aws-neuronx-k8-scheduler.x86_64:2.25.24.0(从 2. 24.23.0 开始)

支持说明:

  • 根据框架支持策略,AMI 组件(包括 CUDA 版本)可能会被移除或更改。

  • 为确保兼容性,已固定内核版本。除非需要安装安全补丁,否则用户应避免进行更新

  • 对于带有多个网卡的 EC2 实例,请参阅 EFA 配置指南进行正确设置

SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 5 月 7 日

Installed the latest version ofAWSNeuron SDK
  • tensorflow-model-server-neuron.x86 _64 2.8.0.2.3.0.0-0 神经元

SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 4 月 28 日

对 K8s 的改进

SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持

Installed the latest version ofAWSNeuron SDK
  • aws-neuronx-dkms.noarc@@ h:2.20.28.0-dkms

  • aws-neuronx-oci-hook.x86_64:2.4.0-1

  • aws-neuronx-tools.x86 _64:2.18.3.0-1

  • aws-neuron-dkms.noarch:2.3.26.0-dkms

  • aws-neuron-k8-plugin.x86_64:1.9.3.0-1

  • aws-neuron-k8-s@@ cheduler.x86_64:1.9.3.0-1

  • aws-neuron-runtime.x86 _64:1.6.24.0-1

  • aws-neuron-runtime-base.x86 _64:1.6.21.0-1

  • aws-neuron-tools.x86_64:2.1.4.0-1

  • aws-neuronx-collectives.x86_64:2.24.59.0_838c7fc8 b-1

  • aws-neuronx-gpsimd-customop.x86_64:0.2.3.0-1

  • aws-neuronx-gpsimd-customop-lib.x86_64:0.14.12.0 -1

  • aws-neuronx-gpsimd-tools.x86_64:0.14.6.0_241eb69f4-1

  • aws-neuronx-k8-plugin.x86_64:2.24.23.0-1

  • aws-neuronx-k8-s@@ cheduler.x86_64:2.24.23.0-1

  • aws-neuronx-runtime-lib.x86_64:2.24. 53.0_f239092cc-1

  • aws-neuronx-tools.x86_64:2.22.6 1.0-1

  • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2. 0-0

SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 4 月 18 日

AMI 常规更新

  • 适用于亚马逊 EKS 的新 SageMaker HyperPod AMI 1.32.1。

SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持

AMIs 包括以下内容:

Deep Learning EKS AMI 1.32.1
  • Amazon EKS 组件

    • Kubernetes 版本:1.32.1

    • Containerd 版本:1.7.27

    • Runc 版本:1.1.14

    • AWSIAM 身份验证器:0.6.29

  • Amazon SSM Agent:3.3.1611.0

  • Linux 内核:5.10.235

  • OSS Nvidia 驱动程序:550.163.01

  • NVIDIA CUDA:12.4

  • EFA 安装程序:1.38.0

  • GDRCopy: 2.4. 1-1

  • Nvidia 容器工具包:1.17.6

  • AWSOFI NCC L:1.13.2

  • aws-neuronx-tools: 2.18 .3.0

  • aws-neuronx-runtime-lib: 2.24.53.0

  • aws-neuronx-oci-hook: 2.4.4. 0-1

  • aws-neuronx-dkms: 2.20 .28.0

  • aws-neuronx-collectives: 2.24.59.0

SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 2 月 18 日

对 K8s 的改进

  • 已将 Nvidia 容器工具包从版本 1.17.3 升级到版本 1.17.4。

  • 修复了客户在重启后无法连接到节点的问题。

  • 已将 Elastic Fabric Adapter(EFA)版本从 1.37.0 升级至 1.38.0。

  • EFA 现在包含 AWS OFI NCCL 插件,该插件位于/opt/amazon/ofi-nccl目录中,而不是原始路径中。/opt/aws-ofi-nccl/如果您需要更新 LD_LIBRARY_PATH 环境变量,请务必修改路径以指向 OFI NCCL 插件的新 /opt/amazon/ofi-nccl 位置。

  • 从这些 DLAMIs软件包中移除了 emacs 软件包。您可以从 GNU emac 安装 emacs。

SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持

Installed the latest version of neuron SDK
  • aws-neuronx-dkms.noarch:2.19.64.0-dkms @neuron

  • aws-neuronx-oci-hook.x86_64:2.4.0-1 @neuron

  • aws-neuronx-tools.x86_64:2.18.3.0-1 @neuron

  • aws-neuronx-collectives.x86_64:2.23.135.0_3 e70920f2-1 神经元

  • aws-neuronx-gpsimd-customop.x86_64:0.2.3.0-1 神经元

  • aws-neuronx-gpsimd-customop-lib.x86_64

  • aws-neuronx-gpsimd-tools.x86_64:0.13.2.0_94 ba34927-1 神经元

  • aws-neuronx-k8-p@@ lugin.x86_64:2.23.45.0-1 神经元

  • aws-neuronx-k8-s@@ cheduler.x86_64:2.23.45.0-1 神经元

  • aws-neuronx-runtime-lib.x86_64:2.23.112.0_9 b5179492-1 神经元

  • aws-neuronx-tools.x86_64:2.20.204.0-1 神经元

  • tensorflow-model-server-neuronx.x86_64

SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 1 月 22 日

AMI 常规更新

  • 适用于亚马逊 EKS 的新 SageMaker HyperPod AMI 1.31.2。

SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持

AMIs 包括以下内容:

Deep Learning EKS AMI 1.31
  • Amazon EKS 组件

    • Kubernetes 版本:1.31.2

    • Containerd 版本:1.7.23

    • Runc 版本:1.1.14

    • AWSIAM 身份验证器:0.6.26

  • Amazon SSM Agent:3.3.987

  • Linux 内核:5.10.230

  • OSS Nvidia 驱动程序:550.127.05

  • NVIDIA CUDA:12.4

  • EFA 安装程序:1.37.0

  • GDRCopy: 2.4. 1-1

  • Nvidia 容器工具包:1.17.3

  • AWSOFI NCC L:1.13.0

  • aws-neuronx-tools: 2.18 .3

  • aws-neuronx-runtime-lib: 2.23.112 .0

  • aws-neuronx-oci-hook: 2.4.4. 0-1

  • aws-neuronx-dkms: 2.18.20 .0

  • aws-neuronx-collectives: 2.23.13 3.0

SageMaker HyperPod 亚马逊 EKS 的 AMI 发布:2024 年 12 月 21 日

SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持

AMIs 包括以下内容:

K8s v1.28
  • Amazon EKS 组件

    • Kubernetes 版本:1.28.15

    • Containerd 版本:1.7.23

    • Runc 版本:1.1.14

    • AWSIAM 身份验证器:0.6.26

  • Amazon SSM Agent:3.3.987

  • Linux 内核:5.10.228

  • OSS NVIDIA 驱动程序:550.127.05

  • NVIDIA CUDA:12.4

  • EFA 安装程序:1.37.0

  • GDRCopy: 2.4

  • NVIDIA 容器工具包:1.17.3

  • AWSOFI NCC L:1.13.0

  • aws-neuronx-tools: 2.18 .3.0-1

  • aws-neuronx-runtime-lib: 2.23.112 .0

  • aws-neuronx-oci-hook: 2.4.4. 0-1

  • aws-neuronx-dkms: 2.18.20 .0

  • aws-neuronx-collectives: 2.23.13 5.0

K8s v1.29
  • Amazon EKS 组件

    • Kubernetes 版本:1.29.10

    • Containerd 版本:1.7.23

    • Runc 版本:1.1.14

    • AWSIAM 身份验证器:0.6.26

  • Amazon SSM Agent:3.3.987

  • Linux 内核:5.15.0

  • OSS Nvidia 驱动程序:550.127.05

  • NVIDIA CUDA:12.4

  • EFA 安装程序:1.37.0

  • GDRCopy: 2.4

  • Nvidia 容器工具包:1.17.3

  • AWSOFI NCC L:1.13.0

  • aws-neuronx-tools: 2.18 .3.0-1

  • aws-neuronx-runtime-lib: 2.23.112 .0

  • aws-neuronx-oci-hook: 2.4.4. 0-1

  • aws-neuronx-dkms: 2.18.20 .0

  • aws-neuronx-collectives: 2.23.13 5.0

K8s v1.30
  • Amazon EKS 组件

    • Kubernetes 版本:1.30.6

    • Containerd 版本:1.7.23

    • Runc 版本:1.1.14

    • AWSIAM 身份验证器:0.6.26

  • Amazon SSM Agent:3.3.987.0

  • Linux 内核:5.10.228

  • OSS Nvidia 驱动程序:550.127.05

  • NVIDIA CUDA:12.4

  • EFA 安装程序:1.37.0

  • GDRCopy: 2.4

  • Nvidia 容器工具包:1.17.3

  • AWSOFI NCC L:1.13.0

  • aws-neuronx-tools: 2.18 .3.0-1

  • aws-neuronx-runtime-lib: 2.23.112 .0

  • aws-neuronx-oci-hook: 2.4.4. 0-1

  • aws-neuronx-dkms: 2.18.20 .0

  • aws-neuronx-collectives: 2.23.13 5.0

SageMaker HyperPod 亚马逊 EKS 的 AMI 发布:2024 年 12 月 13 日

SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 升级

  • 已将 SSM Agent 更新至版本 3.3.1311.0

SageMaker HyperPod 亚马逊 EKS 的 AMI 发布:2024 年 11 月 24 日

AMI 常规更新

  • 已在 MEL(墨尔本)区域发布。

  • 将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:

    • Kubernetes:2024-11-01。

SageMaker HyperPod 亚马逊 EKS 的 AMI 发布:2024 年 11 月 15 日

SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持

AMIs 包括以下内容:

Deep Learning EKS AMI 1.28
  • Amazon EKS 组件

    • Kubernetes 版本:1.28.15

    • Containerd 版本:1.7.23

    • Runc 版本:1.1.14

    • AWSIAM 身份验证器:0.6.26

  • Amazon SSM Agent:3.3.987

  • Linux 内核:5.10.228

  • OSS NVIDIA 驱动程序:550.127.05

  • NVIDIA CUDA:12.4

  • EFA 安装程序:1.34.0

  • GDRCopy: 2.4

  • NVIDIA 容器工具包:1.17.3

  • AWSOFI NCC L:1.11.0

  • aws-neuronx-tools: 2.18 .3.0-1

  • aws-neuronx-runtime-lib: 2.22.19 .0

  • aws-neuronx-oci-hook: 2.4.4. 0-1

  • aws-neuronx-dkms: 2.18.20 .0

  • aws-neuronx-collectives: 2.22.33.0

Deep Learning EKS AMI 1.29
  • Amazon EKS 组件

    • Kubernetes 版本:1.29.10

    • Containerd 版本:1.7.23

    • Runc 版本:1.1.14

    • AWSIAM 身份验证器:0.6.26

  • Amazon SSM Agent:3.3.987

  • Linux 内核:5.10.228

  • OSS Nvidia 驱动程序:550.127.05

  • NVIDIA CUDA:12.4

  • EFA 安装程序:1.34.0

  • GDRCopy: 2.4

  • Nvidia 容器工具包:1.17.3

  • AWSOFI NCC L:1.11.0

  • aws-neuronx-tools: 2.18 .3.0-1

  • aws-neuronx-runtime-lib: 2.22.19 .0

  • aws-neuronx-oci-hook: 2.4.4. 0-1

  • aws-neuronx-dkms: 2.18.20 .0

  • aws-neuronx-collectives: 2.22.33.0

Deep Learning EKS AMI 1.30
  • Amazon EKS 组件

    • Kubernetes 版本:1.30.6

    • Containerd 版本:1.7.23

    • Runc 版本:1.1.14

    • AWSIAM 身份验证器:0.6.26

  • Amazon SSM Agent:3.3.987

  • Linux 内核:5.10.228

  • OSS Nvidia 驱动程序:550.127.05

  • NVIDIA CUDA:12.4

  • EFA 安装程序:1.34.0

  • GDRCopy: 2.4

  • Nvidia 容器工具包:1.17.3

  • AWSOFI NCC L:1.11.0

  • aws-neuronx-tools: 2.18 .3.0-1

  • aws-neuronx-runtime-lib: 2.22.19 .0

  • aws-neuronx-oci-hook: 2.4.4. 0-1

  • aws-neuronx-dkms: 2.18.20 .0

  • aws-neuronx-collectives: 2.22.33.0

SageMaker HyperPod 亚马逊 EKS 的 AMI 发布:2024 年 11 月 11 日

AMI 常规更新

  • 使用亚马逊 SageMaker HyperPod EKS 版本 1.28.13、1.29.8、1.30.4 更新了 DLAMI。

SageMaker HyperPod 亚马逊 EKS 的 AMI 发布:2024 年 10 月 21 日

AMI 常规更新

  • 将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:

    • Amazon EKS:1.28.11、1.29.6、1.30.2。

SageMaker HyperPod 亚马逊 EKS 的 AMI 发布:2024 年 9 月 10 日

SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持

AMIs 包括以下内容:

Deep Learning EKS AMI 1.28
  • Amazon EKS 组件

    • Kubernetes 版本:1.28.11

    • Containerd 版本:1.7.20

    • Runc 版本:1.1.11

    • AWSIAM 身份验证器:0.6.21

  • Amazon SSM Agent:3.3.380

  • Linux 内核:5.10.223

  • OSS NVIDIA 驱动程序:535.183.01

  • NVIDIA CUDA:12.2

  • EFA 安装程序:1.32.0

  • GDRCopy: 2.4

  • NVIDIA 容器工具包:1.16.1

  • AWSOFI NCCL:1.9.1

  • aws-neuronx-tools: 2.18 .3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4. 0-1

  • aws-neuronx-dkms: 2.17.17 .0

  • aws-neuronx-collectives: 2.21.46.0

Deep Learning EKS AMI 1.29
  • Amazon EKS 组件

    • Kubernetes 版本:1.29.6

    • Containerd 版本:1.7.20

    • Runc 版本:1.1.11

    • AWSIAM 身份验证器:0.6.21

  • Amazon SSM Agent:3.3.380

  • Linux 内核:5.10.223

  • OSS Nvidia 驱动程序:535.183.01

  • NVIDIA CUDA:12.2

  • EFA 安装程序:1.32.0

  • GDRCopy: 2.4

  • Nvidia 容器工具包:1.16.1

  • AWSOFI NCCL:1.9.1

  • aws-neuronx-tools: 2.18 .3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4. 0-1

  • aws-neuronx-dkms: 2.17.17 .0

  • aws-neuronx-collectives: 2.21.46.0

Deep Learning EKS AMI 1.30
  • Amazon EKS 组件

    • Kubernetes 版本:1.30.2

    • Containerd 版本:1.7.20

    • Runc 版本:1.1.11

    • AWSIAM 身份验证器:0.6.21

  • Amazon SSM Agent:3.3.380

  • Linux 内核:5.10.223

  • OSS Nvidia 驱动程序:535.183.01

  • NVIDIA CUDA:12.2

  • EFA 安装程序:1.32.0

  • GDRCopy: 2.4

  • Nvidia 容器工具包:1.16.1

  • AWSOFI NCCL:1.9.1

  • aws-neuronx-tools: 2.18 .3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4. 0-1

  • aws-neuronx-dkms: 2.17.17 .0

  • aws-neuronx-collectives: 2.21.46.0