適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本

下列版本備註會追蹤 Amazon EKS 協同運作的 Amazon SageMaker HyperPod AMI 版本最新更新。每個版本備註都包含在 SageMaker HyperPod DLAMIs 中預先安裝或預先設定的套件摘要清單,以支援 Amazon EKS。每個 DLAMI 都以 AL2023 為基礎,並支援特定的 Kubernetes 版本。如需 Slurm 協同運作的 HyperPod DLAMI 版本,請參閱適用於 Slurm 的 SageMaker HyperPod AMI 版本。如需 Amazon SageMaker HyperPod 功能版本的相關資訊,請參閱 Amazon SageMaker HyperPod 版本備註

Amazon EKS 的 SageMaker Hyperpod AMI 版本:2025 年 11 月 22 日

AMI 一般更新

  • 已發佈 Amazon EKS 版本 1.28、1.29、1.30、1.31、1.32、1.33 的 SageMaker Hyperpod AMI 更新。

  • 此處提供基本 DLAMI 版本備註。

Amazon EKS 支援的 SageMaker Hyperpod DLAMI

此版本包含下列更新:

Kubernetes v1.28
  • AL2 現在已棄用。Kubernetes AMI 是以 AL2023 為基礎。

  • AL2 (x86_64):

    • Linux 核心版本:5.10

    • Glibc 版本:2.26

    • OpenSSL 版本:1.0.2k-fips

    • FSx Lustre 用戶端版本:2.12.8

    • Docker 版本:Docker 25.0.13 版,組建 0bab007

    • Runc 版本:1.3.3

    • Containerd 版本: containerd github.com/containerd/containerd 1.7.27

    • aws CLI v2 版本:aws-cli/1.42.71 Python/3.10.17 Linux/5.10.245-241.978.amzn2.x86_64 botocore/1.40.71

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驅動程式版本:570.195.03

    • CUDA 版本:12.2

    • ENA 驅動程式版本:2.15.0g

    • Python 版本:3.7.16

    • Kubernetes 版本:v1.28.15-eks-473151a

    • iptables-services 版本:1.8.4

    • nginx 版本:1.20.1

    • nvme-cli 版本:1.11.1

    • epel-release 版本:7

    • 壓力版本:1.0.4

    • 收集版本:5.8.1

    • acl 版本:2.2.51

    • rsyslog 版本:8.24.0

    • lustre-client 版本:2.12.8

    • systemd 版本:219

    • openssh 版本:7.4

    • sudo 版本:1.8.23

    • gcc 版本:7.3.1

    • cmake 版本:2.8.12.2

    • git 版本:2.47.3

    • make 版本:3.82

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:1.3.0

    • lvm2 版本:2.02.187

    • ec2-instance-connect 版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

  • AL2023 (x86_64):

    • Linux 核心版本:6.1

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 用戶端版本:2.15.6

    • Runc 版本:1.3.3

    • Containerd 版本:containerd github.com/containerd/containerd 1.7.27

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驅動程式版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.28.15-eks-473151a

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • 壓力版本:1.0.7

    • 收集版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • systemd 版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • Git 版本:2.50.1

    • make 版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-instance-connect 版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

Kubernetes v1.29
  • AL2 現在已棄用。Kubernetes AMI 是以 AL2023 為基礎。

  • AL2 (x86_64):

    • Linux 核心版本:5.10

    • Glibc 版本:2.26

    • OpenSSL 版本:1.0.2k-fips

    • FSx Lustre 用戶端版本:2.12.8

    • Docker 版本:Docker 25.0.13 版,組建 0bab007

    • Runc 版本:1.3.3

    • Containerd 版本:containerd github.com/containerd/containerd 1.7.27

    • aws CLI v2 版本:aws-cli/1.42.71 Python/3.10.17 Linux/5.10.245-241.978.amzn2.x86_64 botocore/1.40.71

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驅動程式版本:570.195.03

    • CUDA 版本:12.2

    • ENA 驅動程式版本:2.15.0g

    • Python 版本:3.7.16

    • Kubernetes 版本:v1.29.15-eks-473151a

    • iptables-services 版本:1.8.4

    • nginx 版本:1.20.1

    • nvme-cli 版本:1.11.1

    • epel-release 版本:7

    • 壓力版本:1.0.4

    • 收集版本:5.8.1

    • acl 版本:2.2.51

    • rsyslog 版本:8.24.0

    • lustre-client 版本:2.12.8

    • systemd 版本:219

    • openssh 版本:7.4

    • sudo 版本:1.8.23

    • gcc 版本:7.3.1

    • cmake 版本:2.8.12.2

    • git 版本:2.47.3

    • make 版本:3.82

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:1.3.0

    • lvm2 版本:2.02.187

    • ec2-instance-connect 版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

  • AL2023 (x86_64):

    • Linux 核心版本:6.1

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 用戶端版本:2.15.6

    • Runc 版本:1.3.3

    • Containerd 版本:containerd github.com/containerd/containerd 1.7.27

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驅動程式版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.29.15-eks-473151a

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • 壓力版本:1.0.7

    • 收集版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • systemd 版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • Git 版本:2.50.1

    • make 版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-instance-connect 版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

Kubernetes v1.30
  • AL2 現在已棄用。Kubernetes AMI 以 AL2023 為基礎。

  • AL2 (x86_64):

    • Linux 核心版本:5.10

    • Glibc 版本:2.26

    • OpenSSL 版本:1.0.2k-fips

    • FSx Lustre 用戶端版本:2.12.8

    • Docker 版本:Docker 25.0.13 版,組建 0bab007

    • Runc 版本:1.3.2

    • Containerd 版本:containerd github.com/containerd/containerd 1.7.27

    • aws CLI v2 版本:aws-cli/1.42.69 Python/3.10.17 Linux/5.10.245-241.976.amzn2.x86_64 botocore/1.40.69

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驅動程式版本:570.195.03

    • CUDA 版本:12.2

    • ENA 驅動程式版本:2.15.0g

    • Python 版本:3.7.16

    • Kubernetes 版本:v1.30.11-eks-473151a

    • iptables-services 版本:1.8.4

    • nginx 版本:1.20.1

    • nvme-cli 版本:1.11.1

    • epel-release 版本:7

    • 壓力版本:1.0.4

    • 收集版本:5.8.1

    • acl 版本:2.2.51

    • rsyslog 版本:8.24.0

    • lustre-client 版本:2.12.8

    • systemd 版本:219

    • openssh 版本:7.4

    • sudo 版本:1.8.23

    • gcc 版本:7.3.1

    • cmake 版本:2.8.12.2

    • Git 版本:2.47.3

    • make 版本:3.82

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:1.3.0

    • lvm2 版本:2.02.187

    • ec2-instance-connect 版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:58。

  • AL2023 (x86_64):

    • Linux 核心版本:6.1

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 用戶端版本:2.15.6

    • Runc 版本:1.3.3

    • Containerd 版本:containerd github.com/containerd/containerd 1.7.27

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驅動程式版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.30.11-eks-473151a

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • 壓力版本:1.0.7

    • 收集版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • systemd 版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • Git 版本:2.50.1

    • make 版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-instance-connect 版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

Kubernetes v1.31
  • AL2 現在已棄用。Kubernetes AMI 以 AL2023 為基礎。

  • AL2 (x86_64):

    • Linux 核心版本:5.10

    • Glibc 版本:2.26

    • OpenSSL 版本:1.0.2k-fips

    • FSx Lustre 用戶端版本:2.12.8

    • Docker 版本:Docker 25.0.13 版,組建 0bab007

    • Runc 版本:1.3.3

    • Containerd 版本:containerd github.com/containerd/containerd 1.7.27

    • aws CLI v2 版本:aws-cli/1.42.71 Python/3.10.17 Linux/5.10.245-241.978.amzn2.x86_64 botocore/1.40.71

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驅動程式版本:570.195.03

    • CUDA 版本:12.2

    • ENA 驅動程式版本:2.15.0g

    • Python 版本:3.7.16

    • Kubernetes 版本:v1.31.7-eks-473151a

    • iptables-services 版本:1.8.4

    • nginx 版本:1.20.1

    • nvme-cli 版本:1.11.1

    • epel-release 版本:7

    • 壓力版本:1.0.4

    • 收集版本:5.8.1

    • acl 版本:2.2.51

    • rsyslog 版本:8.24.0

    • lustre-client 版本:2.12.8

    • systemd 版本:219

    • openssh 版本:7.4

    • sudo 版本:1.8.23

    • gcc 版本:7.3.1

    • cmake 版本:2.8.12.2

    • git 版本:2.47.3

    • make 版本:3.82

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:1.3.0

    • lvm2 版本:2.02.187

    • ec2-instance-connect 版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

  • AL2023 (x86_64):

    • Linux 核心版本:6.1

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 用戶端版本:2.15.6

    • Runc 版本:1.3.3

    • Containerd 版本:containerd github.com/containerd/containerd 1.7.27

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驅動程式版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.31.13-eks-113cf36

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • 壓力版本:1.0.7

    • 收集版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • systemd 版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • Git 版本:2.50.1

    • make 版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-instance-connect 版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

  • AL2023 (ARM64):

    • Linux 核心版本:6.12

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 用戶端版本:2.15.6

    • Runc 版本:1.3.3

    • Containerd 版本:containerd github.com/containerd/containerd 1.7.27

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驅動程式版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.31.13-eks-113cf36

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • 壓力版本:1.0.7

    • 收集版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • nvidia-imex 版本:580.95.05

    • systemd 版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • Git 版本:2.50.1

    • make 版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-instance-connect 版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:58。

Kubernetes v1.32
  • AL2 現在已棄用。Kubernetes AMI 以 AL2023 為基礎。

  • AL2 (x86_64):

    • Linux 核心版本:5.10

    • Glibc 版本:2.26

    • OpenSSL 版本:1.0.2k-fips

    • FSx Lustre 用戶端版本:2.12.8

    • Docker 版本:Docker 25.0.13 版,組建 0bab007

    • Runc 版本:1.3.3

    • Containerd 版本:containerd github.com/containerd/containerd 1.7.27

    • aws CLI v2 版本:aws-cli/1.42.74 Python/3.10.17 Linux/5.10.245-241.978.amzn2.x86_64 botocore/1.40.74

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驅動程式版本:570.195.03

    • CUDA 版本:12.2

    • ENA 驅動程式版本:2.15.0g

    • Python 版本:3.7.16

    • Kubernetes 版本:v1.32.3-eks-473151a

    • iptables-services 版本:1.8.4

    • nginx 版本:1.20.1

    • nvme-cli 版本:1.11.1

    • epel-release 版本:7

    • 壓力版本:1.0.4

    • 收集版本:5.8.1

    • acl 版本:2.2.51

    • rsyslog 版本:8.24.0

    • lustre-client 版本:2.12.8

    • systemd 版本:219

    • openssh 版本:7.4

    • sudo 版本:1.8.23

    • gcc 版本:7.3.1

    • cmake 版本:2.8.12.2

    • Git 版本:2.47.3

    • make 版本:3.82

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:1.3.0

    • lvm2 版本:2.02.187

    • ec2-instance-connect 版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

  • AL2023 (x86_64):

    • Linux 核心版本:6.1

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 用戶端版本:2.15.6

    • Runc 版本:1.3.3

    • Containerd 版本:containerd github.com/containerd/containerd 1.7.27

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驅動程式版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.32.9-eks-113cf36

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • 壓力版本:1.0.7

    • 收集版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • systemd 版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • Git 版本:2.50.1

    • make 版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-instance-connect 版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

  • AL2023 (ARM64):

    • Linux 核心版本:6.12

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 用戶端版本:2.15.6

    • Runc 版本:1.3.3

    • Containerd 版本:containerd github.com/containerd/containerd 1.7.27

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驅動程式版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.32.9-eks-113cf36

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • 壓力版本:1.0.7

    • 收集版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • nvidia-imex 版本:580.95.05

    • systemd 版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • Git 版本:2.50.1

    • make 版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-instance-connect 版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:58。

Kubernetes v1.33
  • AL2023 (x86_64):

    • Linux 核心版本:6.1

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 用戶端版本:2.15.6

    • Runc 版本:1.3.3

    • Containerd 版本: containerd github.com/containerd/containerd 1.7.27

    • aws Neuronx DKMS 版本:2.24.7.0

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驅動程式版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.33.5-eks-113cf36

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • 壓力版本:1.0.7

    • 收集版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • systemd 版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • Git 版本:2.50.1

    • make 版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-instance-connect 版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:59。

  • AL2023 (ARM64):

    • Linux 核心版本:6.12

    • Glibc 版本:2.34

    • OpenSSL 版本:3.2.2

    • FSx Lustre 用戶端版本:2.15.6

    • Runc 版本:1.3.3

    • Containerd 版本: containerd github.com/containerd/containerd 1.7.27

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:12.8

    • ENA 驅動程式版本:2.15.0g

    • Python 版本:3.9.24

    • Kubernetes 版本:v1.33.5-eks-113cf36

    • iptables-services 版本:1.8.8

    • nginx 版本:1.28.0

    • nvme-cli 版本:2.13 1.13

    • 壓力版本:1.0.7

    • 收集版本:5.12.0。

    • acl 版本:2.3.1

    • lustre-client 版本:2.15.6

    • nvidia-imex 版本:580.95.05

    • systemd 版本:252

    • openssh 版本:8.7

    • sudo 版本:1.9.15

    • gcc 版本:11.5.0

    • cmake 版本:3.22.2

    • Git 版本:2.50.1

    • make 版本:4.3

    • cloudwatch-agent 版本:1.300060.1

    • nfs-utils 版本:2.5.4

    • lvm2 版本:2.03.16

    • ec2-instance-connect 版本:1.1

    • aws-cfn-bootstrap 版本:2.0

    • rdma-core 版本:58。

Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 11 月 7 日

AMI 一般更新

  • 已發佈適用於 Amazon EKS 版本 1.28、1.29、1.30、1.31、1.32 和 1.33 的 SageMaker HyperPod AMI 更新。

  • 此處提供基本 DLAMI 版本備註。

用於 Amazon EKS 支援的 SageMaker HyperPod DLAMI

此版本包含下列更新:

Kubernetes v1.28
  • Amazon Linux 2 現在已棄用。Kubernetes AMI 以 AL2023 為基礎。

  • AL2 (x86_64):

    • NVIDIA 驅動程式版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.28.15

  • AL2023 (x86_64):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.28.15

  • 套件更新包括 boto3、botocore、pip、regex、psutil 和 nvidia 容器工具組元件。

  • 新增套件:notated-doc 0.0.3

Kubernetes v1.29
  • Amazon Linux 2 現在已棄用。Kubernetes AMI 是以 AL2023 為基礎。

  • AL2 (x86_64):

    • NVIDIA 驅動程式版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.29.15

  • AL2023 (x86_64):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.29.15

  • 套件更新包括核心更新、glibc 更新和各種系統程式庫。

  • 新增套件:notated-doc 0.0.3

Kubernetes v1.30
  • Amazon Linux 2 現在已棄用。Kubernetes AMI 以 AL2023 為基礎。

  • AL2 (x86_64):

    • NVIDIA 驅動程式版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.30.11

  • AL2023 (x86_64):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.30.11

  • 套件更新包括核心即時修補程式更新和系統程式庫更新。

  • 新增套件:notated-doc 0.0.3

Kubernetes v1.31
  • Amazon Linux 2 現在已棄用。Kubernetes AMI 以 AL2023 為基礎。

  • AL2 (x86_64):

    • NVIDIA 驅動程式版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.31.7

  • AL2023 (x86_64):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.31.13

  • AL2023 (手臂):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.31.13

    • 核心版本:6.12.46-66.121.amzn2023.aarch64

  • 套件更新包括廣泛的系統程式庫更新、核心更新和提升程式庫更新。

  • 新增套件:apr-util-lmdb、kernel-livepatch-6.1.156-177.286

Kubernetes v1.32
  • Amazon Linux 2 現在已棄用。Kubernetes AMI 以 AL2023 為基礎。

  • AL2 (x86_64):

    • NVIDIA 驅動程式版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.32.3

    • AWSIAM Authenticator 版本:v0.6.29

  • AL2023 (x86_64):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.32.9

  • AL2023 (手臂):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.32.9

    • 核心版本:6.12.46-66.121.amzn2023.aarch64

  • 套件更新包括核心即時修補程式更新和系統程式庫更新。

  • 新增套件:notated-doc 0.0.3

Kubernetes v1.33
  • AL2023 (x86_64):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.33.5

    • 核心版本:6.1.155-176.282.amzn2023.x86_64

  • AL2023 (手臂):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.33.5

    • 核心版本:6.12.46-66.121.amzn2023.aarch64

  • 套件更新包括廣泛的系統程式庫更新、核心更新和提升程式庫更新。

  • 新增套件:apr-util-lmdb、kernel-livepatch 更新

注意

runc 版本已升級至 1.3.2 安全公告

Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 10 月 29 日

AMI 一般更新

  • 已發佈適用於 Amazon EKS 版本 1.28、1.29、1.30、1.31、1.32 和 1.33 的 SageMaker HyperPod AMI 更新。

  • 此處提供基本 DLAMI 版本備註。

用於 Amazon EKS 支援的 SageMaker HyperPod DLAMI

此版本包含下列更新:

Kubernetes v1.28
  • Amazon Linux 2 現在已棄用。Kubernetes AMI 是以 AL2023 為基礎。

  • AL2 (x86_64):

    • NVIDIA 驅動程式版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.28.15

  • AL2023 (x86_64):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.28.15

  • 套件更新包括 boto3、botocore、pip、regex、psutil 和 nvidia 容器工具組元件。

  • 新增套件:notated-doc 0.0.3

Kubernetes v1.29
  • Amazon Linux 2 現在已棄用。Kubernetes AMI 以 AL2023 為基礎。

  • AL2 (x86_64):

    • NVIDIA 驅動程式版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.29.15

  • AL2023 (x86_64):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.29.15

  • 套件更新包括核心更新、glibc 更新和各種系統程式庫。

  • 新增套件:notated-doc 0.0.3

Kubernetes v1.30
  • Amazon Linux 2 現在已棄用。Kubernetes AMI 是以 AL2023 為基礎。

  • AL2 (x86_64):

    • NVIDIA 驅動程式版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.30.11

  • AL2023 (x86_64):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.30.11

  • 套件更新包括核心即時修補程式更新和系統程式庫更新。

  • 新增套件:notated-doc 0.0.3

Kubernetes v1.31
  • Amazon Linux 2 現在已棄用。Kubernetes AMI 以 AL2023 為基礎。

  • AL2 (x86_64):

    • NVIDIA 驅動程式版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.31.7

  • AL2023 (x86_64):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.31.13

  • AL2023 (手臂):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.31.13

    • 核心版本:6.12.46-66.121.amzn2023.aarch64

  • 套件更新包括廣泛的系統程式庫更新、核心更新和提升程式庫更新。

  • 新增套件:apr-util-lmdb、kernel-livepatch-6.1.156-177.286

Kubernetes v1.32
  • Amazon Linux 2 現在已棄用。Kubernetes AMI 以 AL2023 為基礎。

  • AL2 (x86_64):

    • NVIDIA 驅動程式版本:570.195.03

    • CUDA 版本:12.8

    • Kubernetes 版本:1.32.3

  • AL2023 (x86_64):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.32.9

  • AL2023 (手臂):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.32.9

    • 核心版本:6.12.46-66.121.amzn2023.aarch64

  • 套件更新包括核心即時修補程式更新和系統程式庫更新。

  • 新增套件:notated-doc 0.0.3

Kubernetes v1.33
  • AL2023 (x86_64):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.33.5

    • 核心版本:6.1.155-176.282.amzn2023.x86_64

  • AL2023 (手臂):

    • NVIDIA 驅動程式版本:580.95.05

    • CUDA 版本:13.0

    • Kubernetes 版本:1.33.5

    • 核心版本:6.12.46-66.121.amzn2023.aarch64

  • 套件更新包括廣泛的系統程式庫更新、核心更新和提升程式庫更新。

  • 新增套件:apr-util-lmdb、kernel-livepatch 更新

Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 10 月 22 日

AL2x86

注意

Amazon Linux 2 現在已棄用。Kubernetes AMI 是以 AL2023 為基礎。

此處提供基本 DLAMI 版本備註。

  • EKS 版本 1.28 - 1.32

  • 此版本包含 Nvidia October Security Bulletin 中針對受影響 NVIDIA 驅動程式套件的 CVE 修補程式。

  • NVIDIA SMI

    NVIDIA-SMI 570.195.03 Driver Version: 570.195.03 CUDA Version: 12.8
  • 主要版本

    套件名稱 version
    framework_version 70
    gdr_copy 2.4.1
    supported_ec2_instances G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
    efa_version 1.43.3
    ebs_volume_type gp3
    nvidia_driver 570.195.03
    python_location /usr/bin/python3.10
    nvidia_cuda_stack /usr/local/cuda-12.1、/usr/local/cuda-12.2、/usr/local/cuda-12.3、/usr/local/cuda-12.4
    ssm_agent_version 3.3.3050.0
    kernel_version 5.10.244-240.965.amzn2.x86_64
    nvidia_container_toolkit_version 1.17.8
    ofi_nccl_version 1.16.3
    operating_system Amazon Linux 2
    default_cuda /usr/local/cuda-12.1/
    compute_architecture x86_64
  • 已新增套件:此版本中未新增任何套件。

  • 已更新的套件

    套件名稱 舊版 新版本
    boto3 1.40.46 1.40.49
    botocore 1.40.46 1.40.49
    fastapi 0.118.0 0.118.2
    filelock 3.19.1 3.20.0
    importlib_metadata 8.7.0 8.0.0
    jaraco.context 6.0.1 5.3.0
    jaraco.functools 4.3.0 4.0.1
    matplotlib 3.10.6 3.10.7
    封裝 25 24.2
    platformdirs 4.4.0 4.5.0
    propcache 0.4.0 0.4.1
    豐富 14.1.0 14.2.0
    tomli 2.2.1 2.3.0
    types-python-dateutil 2.9.0.20250822 2.9.0.20251008
    virtualenv 20.34.0 20.35.1
    websocket-client 1.8.0 1.9.0
  • 已移除套件:此版本中未移除任何套件。

AL2023x86

此處提供基本 DLAMI 版本備註。

  • EKS 版本 1.28 - 1.32。EKS 1.33 版沒有發行版本。

  • 此版本包含 Nvidia 10 月安全性佈告欄中找到受影響 NVIDIA 驅動程式套件的 CVE 修補程式。

  • NVIDIA SMI

    NVIDIA-SMI 580.95.05 Driver Version: 580.95.05 CUDA Version: 13.0
  • 主要版本

    套件名稱 version
    gdr_copy 2.5.1
    supported_ec2_instances G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en, P6-B200
    efa_version 1.43.3
    ebs_volume_type gp3
    nvidia_gds_version 1.15.0.42
    nvidia_driver 580.95.05
    python_location /usr/bin/python3.9
    nvidia_cuda_stack /usr/local/cuda-12.6、/usr/local/cuda-12.8、/usr/local/cuda-12.9、/usr/local/cuda-13.0
    ssm_agent_version 3.3.3050.0
    kernel_version 6.1.153-175.280.amzn2023.x86_64
    nvidia_container_toolkit_version 1.17.8
    dcgm_version 4.4.1
    ofi_nccl_version 1.16.3
    operating_system Amazon Linux 2023.9.20250929
    default_cuda /usr/local/cuda-12.9/
    compute_architecture x86_64
  • 新增套件:此版本中未新增任何套件。

  • 更新套件

    套件名稱 舊版 新版本
    boto3 1.40.46 1.40.49
    botocore 1.40.46 1.40.49
    fastapi 0.118.0 0.118.2
    gdrcopy 2.5-1 2.5.1-1
    gdrcopy-devel 2.5-1 2.5.1-1
    gdrcopy-kmod 2.5-1dkms 2.5.1-1dkms
    jaraco.context 6.0.1 5.3.0
    jaraco.functools 4.3.0 4.0.1
    more-itertools 10.8.0 10.3.0
    封裝 25 24.2
    propcache 0.4.0 0.4.1
    pydantic 2.11.10 2.12.0
    pydantic_core 2.33.2 2.41.1
    豐富 14.1.0 14.2.0
    types-python-dateutil 2.9.0.20250822 2.9.0.20251008
    type_extensions 4.12.2 4.15.0
    virtualenv 20.34.0 20.35.1
    websocket-client 1.8.0 1.9.0
  • 已移除套件:此版本中未移除任何套件。

AL2023 ARM64

此處提供基本 DLAMI 版本備註。

  • EKS 版本 1.31 - 1.33。

  • 此版本包含 Nvidia 10 月安全性佈告欄中找到受影響 NVIDIA 驅動程式套件的 CVE 修補程式。

  • NVIDIA SMI

    NVIDIA-SMI 580.95.05 Driver Version: 580.95.05 CUDA Version: 13.0
  • 主要版本

    套件名稱 version
    gdr_copy 2.5
    supported_ec2_instances G5g, P6e-GB200
    efa_version 1.43.3
    ebs_volume_type gp3
    nvidia_driver 580.95.05
    python_location /usr/bin/python3.9
    nvidia_cuda_stack /usr/local/cuda-12.6、/usr/local/cuda-12.8、/usr/local/cuda-12.9、/usr/local/cuda-13.0
    ssm_agent_version 3.3.3050.0
    kernel_version 6.12.46-66.121.amzn2023.aarch64
    nvidia_container_toolkit_version 1.17.8
    dcgm_version 4.4.1
    ofi_nccl_version 1.16.3
    operating_system Amazon Linux 2023.9.20250929
    default_cuda /usr/local/cuda-12.9/
    compute_architecture aarch64
  • 已新增套件:此版本中未新增任何套件。

  • 已更新的套件

    套件名稱 舊版 新版本
    aiohttp 3.12.15 3.13.0
    attrs 25.3.0 25.4.0
    boto3 1.40.45 1.40.49
    botocore 1.40.45 1.40.49
    目錄 25.2.0 25.3.0
    certifi 2025.8.3 2025.10.5
    efa 2.17.2-1.amzn2023 2.17.3-1.amzn2023
    fastapi 0.118.0 0.118.2
    凍結清單 1.7.0 1.8.0
    importlib_metadata 8.7.0 8.0.0
    jaraco.context 5.3.0 6.0.1
    multidict 6.6.4 6.7.0
    猩猩 2.6.0 2.7.0
    nh3 0.3.0 0.3.1
    propcache 0.3.2 0.4.1
    pydantic 2.11.9 2.12.0
    pydantic_core 2.33.2 2.41.1
    pylint 3.3.8 3.3.9
    python-json-logger 3.3.0 4.0.0
    豐富 14.1.0 14.2.0
    tomli 2.2.1 2.0.1
    types-python-dateutil 2.9.0.20250822 2.9.0.20251008
    virtualenv 20.34.0 20.35.1
    websocket-client 1.8.0 1.9.0
    yarl 1.20.1 1.22.0
    zipp 3.19.2 3.23.0
  • 已移除套件:此版本中未移除任何套件。

Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 9 月 29 日

AMI 一般更新

  • 已發行適用於 Amazon EKS 1.33 的新 SageMaker HyperPod AMI。如需詳細資訊,請參閱 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 9 月 29 日。

    重要
    • 此版本預設會啟用動態資源配置 Beta Kubernetes API。

      • 此 API 可改善需要 GPUs 等資源的排程和監控工作負載。

      • 此 API 是由開放原始碼 Kubernetes 社群開發,未來 Kubernetes 版本可能會變更。使用 API 之前,請檢閱 Kubernetes 文件並了解其如何影響您的工作負載。

    • HyperPod 不會發佈適用於 Kubernetes 1.33 的 HyperPod Amazon Linux 2 AMI。AWS建議您遷移至 AL2023。如需詳細資訊,請參閱從 Amazon Linux 2 升級到 AL2023

如需詳細資訊,請參閱 Kubernetes v1.33。

用於 Amazon EKS 支援的 SageMaker HyperPod DLAMI

此版本包含下列更新:

Kubernetes v1.28
  • Amazon Linux 2 現在已棄用。Kubernetes AMI 是以 AL2023 為基礎。

  • NVIDIA SMI:

    • NVIDIA 驅動程式版本:570.172.08

    • CUDA 版本:12.8

  • 套件:

    • 語言和核心程式庫:

      • GCC:11.5.0-5.amzn2023.0.5

      • GCC 14:14.2.1-7.amzn2023.0.1

      • Java:17.0.16+8-1.amzn2023.1

      • Perl:5.32.1-477.amzn2023.0.7

      • Python:3.9.23-1.amzn2023.0.3

      • Go:3.2.0-37.amzn2023

      • Rust:1.89.0-1.amzn2023.0.2

    • 核心程式庫:

      • GlibC:2.34-196.amzn2023.0.1

      • OpenSSL:3.2.2-1.amzn2023.0.1

      • Zlib:1.2.11-33.amzn2023.0.5

      • XZ Utils:5.2.5-9.amzn2023.0.2

      • Util-linux:2.37.4-1.amzn2023.0.4

    • Neuron:

      • aws-neuronx-dkms:2.23.9.0-dkms

      • aws-neuronx-tools:2.25.145.0-1

    • EFA:

      • efa 驅動程式:2.17.2-1.amzn2023

      • efa 組態:1.18-1.amzn2023

      • efa nv 對等記憶體:1.2.2-1.amzn2023

      • efa 設定檔:1.7-1.amzn2023

    • 核心:

      • 核心:6.1.148-173.267.amzn2023

      • 核心開發:6.1.148-173.267.amzn2023

      • 核心標頭:6.1.148-173.267.amzn2023

      • 核心工具:6.1.148-173.267.amzn2023

      • 核心模組額外:6.1.148-173.267.amzn2023

      • 核心 livepatch:1.0-0.amzn2023

    • Nvidia:

      • nvidia 容器工具組:1.17.8-1

      • nvidia 容器工具組基礎:1.17.8-1

      • libnvidia-container:1.17.8-1 (使用工具)

      • nvidia 布料管理員:570.172.08-1

      • libnvidia-nscq:570.172.08-1

Kubernetes v1.29
  • Amazon Linux 2 現在已棄用。Kubernetes AMI 是以 AL2023 為基礎。

  • NVIDIA SMI:

    • NVIDIA 驅動程式版本:570.172.08

    • CUDA 版本:12.8

  • 套件:

    • 語言和核心程式庫:

      • GCC:11.5.0-5.amzn2023.0.5

      • GCC 14:14.2.1-7.amzn2023.0.1

      • Java:17.0.16+8-1.amzn2023.1

      • Perl:5.32.1-477.amzn2023.0.7

      • Python:3.9.23-1.amzn2023.0.3

      • Go:3.2.0-37.amzn2023

      • Rust:1.89.0-1.amzn2023.0.2

    • 核心程式庫:

      • GlibC:2.34-196.amzn2023.0.1

      • OpenSSL:3.2.2-1.amzn2023.0.1

      • Zlib:1.2.11-33.amzn2023.0.5

      • XZ Utils:5.2.5-9.amzn2023.0.2

      • Util-linux:2.37.4-1.amzn2023.0.4

    • Neuron:

      • aws-neuronx-dkms:2.23.9.0-dkms

      • aws-neuronx-tools:2.25.145.0-1

    • EFA:

      • efa 驅動程式:2.17.2-1.amzn2023

      • efa 組態:1.18-1.amzn2023

      • efa nv 對等記憶體:1.2.2-1.amzn2023

      • efa 設定檔:1.7-1.amzn2023

    • 核心:

      • 核心:6.1.148-173.267.amzn2023

      • 核心開發:6.1.148-173.267.amzn2023

      • 核心標頭:6.1.148-173.267.amzn2023

      • 核心工具:6.1.148-173.267.amzn2023

      • 核心模組額外:6.1.148-173.267.amzn2023

      • 核心 livepatch:1.0-0.amzn2023

    • Nvidia:

      • nvidia 容器工具組:1.17.8-1

      • nvidia 容器工具組基礎:1.17.8-1

      • libnvidia-container:1.17.8-1 (使用工具)

      • nvidia 布料管理員:570.172.08-1

      • libnvidia-nscq:570.172.08-1

Kubernetes v1.30
  • Amazon Linux 2 現在已棄用。Kubernetes AMI 是以 AL2023 為基礎。

  • NVIDIA SMI:

    • NVIDIA 驅動程式版本:570.172.08

    • CUDA 版本:12.8

  • 套件:

    • 語言和核心程式庫:

      • GCC:11.5.0-5.amzn2023.0.5

      • GCC 14:14.2.1-7.amzn2023.0.1

      • Java:17.0.16+8-1.amzn2023.1

      • Perl:5.32.1-477.amzn2023.0.7

      • Python:3.9.23-1.amzn2023.0.3

      • Go:3.2.0-37.amzn2023

      • Rust:1.89.0-1.amzn2023.0.2

    • 核心程式庫:

      • GlibC:2.34-196.amzn2023.0.1

      • OpenSSL:3.2.2-1.amzn2023.0.1

      • Zlib:1.2.11-33.amzn2023.0.5

      • XZ Utils:5.2.5-9.amzn2023.0.2

      • Util-linux:2.37.4-1.amzn2023.0.4

    • Neuron:

      • aws-neuronx-dkms:2.23.9.0-dkms

      • aws-neuronx-tools:2.25.145.0-1

    • EFA:

      • efa 驅動程式:2.17.2-1.amzn2023

      • efa 組態:1.18-1.amzn2023

      • efa nv 對等記憶體:1.2.2-1.amzn2023

      • efa 設定檔:1.7-1.amzn2023

    • 核心:

      • 核心:6.1.148-173.267.amzn2023

      • 核心開發:6.1.148-173.267.amzn2023

      • 核心標頭:6.1.148-173.267.amzn2023

      • 核心工具:6.1.148-173.267.amzn2023

      • 核心模組額外:6.1.148-173.267.amzn2023

      • 核心 livepatch:1.0-0.amzn2023

    • Nvidia:

      • nvidia 容器工具組:1.17.8-1

      • nvidia 容器工具組基礎:1.17.8-1

      • libnvidia-container:1.17.8-1 (使用工具)

      • nvidia 布料管理員:570.172.08-1

      • libnvidia-nscq:570.172.08-1

Kubernetes v1.31
  • Amazon Linux 2 現在已棄用。Kubernetes AMI 是以 AL2023 為基礎。

  • NVIDIA SMI:

    • NVIDIA 驅動程式版本:570.172.08

    • CUDA 版本:12.8

  • 套件:

    • 語言和核心程式庫:

      • GCC:11.5.0-5.amzn2023.0.5

      • GCC 14:14.2.1-7.amzn2023.0.1

      • Java:17.0.16+8-1.amzn2023.1

      • Perl:5.32.1-477.amzn2023.0.7

      • Python:3.9.23-1.amzn2023.0.3

      • Go:3.2.0-37.amzn2023

      • Rust:1.89.0-1.amzn2023.0.2

    • 核心程式庫:

      • GlibC:2.34-196.amzn2023.0.1

      • OpenSSL:3.2.2-1.amzn2023.0.1

      • Zlib:1.2.11-33.amzn2023.0.5

      • XZ Utils:5.2.5-9.amzn2023.0.2

      • Util-linux:2.37.4-1.amzn2023.0.4

    • Neuron:

      • aws-neuronx-dkms:2.23.9.0-dkms

      • aws-neuronx-tools:2.25.145.0-1

    • EFA:

      • efa 驅動程式:2.17.2-1.amzn2023

      • efa 組態:1.18-1.amzn2023

      • efa nv 對等記憶體:1.2.2-1.amzn2023

      • efa 設定檔:1.7-1.amzn2023

    • 核心:

      • 核心:6.1.148-173.267.amzn2023

      • 核心開發:6.1.148-173.267.amzn2023

      • 核心標頭:6.1.148-173.267.amzn2023

      • 核心工具:6.1.148-173.267.amzn2023

      • 核心模組額外:6.1.148-173.267.amzn2023

      • 核心 livepatch:1.0-0.amzn2023

    • Nvidia:

      • nvidia 容器工具組:1.17.8-1

      • nvidia 容器工具組基礎:1.17.8-1

      • libnvidia-container:1.17.8-1 (使用工具)

      • nvidia 布料管理員:570.172.08-1

      • libnvidia-nscq:570.172.08-1

Kubernetes v1.32
  • Amazon Linux 2 現在已棄用。Kubernetes AMI 以 AL2023 為基礎。

  • NVIDIA SMI:

    • NVIDIA 驅動程式版本:570.172.08

    • CUDA 版本:12.8

  • 套件:

    • 語言和核心程式庫:

      • GCC:11.5.0-5.amzn2023.0.5

      • GCC 14:14.2.1-7.amzn2023.0.1

      • Java:17.0.16+8-1.amzn2023.1

      • Perl:5.32.1-477.amzn2023.0.7

      • Python:3.9.23-1.amzn2023.0.3

      • Go:3.2.0-37.amzn2023

      • Rust:1.89.0-1.amzn2023.0.2

    • 核心程式庫:

      • GlibC:2.34-196.amzn2023.0.1

      • OpenSSL:3.2.2-1.amzn2023.0.1

      • Zlib:1.2.11-33.amzn2023.0.5

      • XZ Utils:5.2.5-9.amzn2023.0.2

      • Util-linux:2.37.4-1.amzn2023.0.4

    • Neuron:

      • aws-neuronx-dkms:2.23.9.0-dkms

      • aws-neuronx-tools:2.25.145.0-1

    • EFA:

      • efa 驅動程式:2.17.2-1.amzn2023

      • efa 組態:1.18-1.amzn2023

      • efa nv 對等記憶體:1.2.2-1.amzn2023

      • efa 設定檔:1.7-1.amzn2023

    • 核心:

      • 核心:6.1.148-173.267.amzn2023

      • 核心開發:6.1.148-173.267.amzn2023

      • 核心標頭:6.1.148-173.267.amzn2023

      • 核心工具:6.1.148-173.267.amzn2023

      • 核心模組額外:6.1.148-173.267.amzn2023

      • 核心 livepatch:1.0-0.amzn2023

    • Nvidia:

      • nvidia 容器工具組:1.17.8-1

      • nvidia 容器工具組基礎:1.17.8-1

      • libnvidia-container:1.17.8-1 (使用工具)

      • nvidia 布料管理員:570.172.08-1

      • libnvidia-nscq:570.172.08-1

Kubernetes v1.33

下表包含此 AMI 版本和對應版本中元件的相關資訊。

component AL2023_x86 AL2023_arm64
EKS 1.33.4 版 1.33.4 版
amazon-ssm-agent 3.3.2299.0-1.amzn2023 3.3.2299.0-1.amzn2023
aws-neuronx-dkms 2.23.9.0-dkms N/A
containerd 1.7.27-1.eks.amzn2023.0.4 1.7.27-1.eks.amzn2023.0.4
efa 2.17.2-1.amzn2023 2.17.2-1.amzn2023
ena 2.14.1g 2.14.1g
kernel 6.12.40-64.114.amzn2023 N/A
kernel6.12 N/A 6.12.40-64.114.amzn2023
kmod-nvidia-latest-dkms 570.172.08-1.amzn2023 570.172.08-1.el9
nvidia-container-toolkit 1.17.8-1 1.17.8-1
runc 1.2.6-1.amzn2023.0.1 1.2.6-1.amzn2023.0.1

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 8 月 25 日

用於 Amazon EKS 支援的 SageMaker HyperPod DLAMI

此版本包含下列更新:

Kubernetes v1.28

NVIDIA SMI:

  • Nvidia 驅動程式版本:570.172.08

  • CUDA 版本:12.8

新增的套件:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

更新的套件:

  • gdk-pixbuf2.x86_64:2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • kernel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libgs.x86_64:9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • microcode_ctl.x86_64:2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64:1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

移除的套件:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

儲存庫已變更:

  • libnvidia-container-tools.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

Kubernetes v1.29

NVIDIA SMI:

  • Nvidia 驅動程式版本:570.172.08

  • CUDA 版本:12.8

新增的套件:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

更新的套件:

  • gdk-pixbuf2.x86_64:2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • kernel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libgs.x86_64:9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • microcode_ctl.x86_64:2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64:1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

移除的套件:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

儲存庫已變更:

  • libnvidia-container-tools.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

Kubernetes v1.30

NVIDIA SMI:

  • Nvidia 驅動程式版本:570.172.08

  • CUDA 版本:12.8

新增的套件:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

更新的套件:

  • aws-neuronx-dkms.noarch:2.22.2.0-dkms → 2.23.9.0-dkms

  • efa.x86_64:2.15.3-1.amzn2 → 2.17.2-1.amzn2

  • efa-nv-peermem.x86_64:1.2.1-1.amzn2 → 1.2.2-1.amzn2

  • gdk-pixbuf2.x86_64:2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • ibacm.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • infiniband-diags.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • kernel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libfabric-aws.x86_64:2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2

  • libfabric-aws-devel.x86_64:2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2

  • libgs.x86_64:9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • libibumad.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs-core.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs-utils.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libnccl-ofi.x86_64:1.15.0-1.amzn2 → 1.16.2-1.amzn2

  • librdmacm.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • librdmacm-utils.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • microcode_ctl.x86_64:2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64:1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

  • rdma-core.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • rdma-core-devel.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

移除的套件:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

儲存庫已變更:

  • libnvidia-container-tools.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

Kubernetes v1.31

NVIDIA SMI:

  • Nvidia 驅動程式版本:570.172.08

  • CUDA 版本:12.8

新增的套件:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

更新的套件:

  • gdk-pixbuf2.x86_64:2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • kernel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libgs.x86_64:9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • microcode_ctl.x86_64:2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64:1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

移除的套件:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

儲存庫已變更:

  • libnvidia-container-tools.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

Kubernetes v1.32

NVIDIA SMI:

  • Nvidia 驅動程式版本:570.172.08

  • CUDA 版本:12.8

新增的套件:

  • kernel-livepatch-5.10.240-238.955.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

更新的套件:

  • aws-neuronx-dkms.noarch:2.22.2.0-dkms → 2.23.9.0-dkms

  • efa.x86_64:2.15.3-1.amzn2 → 2.17.2-1.amzn2

  • efa-nv-peermem.x86_64:1.2.1-1.amzn2 → 1.2.2-1.amzn2

  • gdk-pixbuf2.x86_64:2.36.12-3.amzn2 → 2.36.12-3.amzn2.0.2

  • ibacm.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • infiniband-diags.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • kernel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-devel.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-headers.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • kernel-tools.x86_64:5.10.239-236.958.amzn2 → 5.10.240-238.955.amzn2

  • libfabric-aws.x86_64:2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2

  • libfabric-aws-devel.x86_64:2.1.0amzn3.0-1.amzn2 → 2.1.0amzn5.0-1.amzn2

  • libgs.x86_64:9.54.0-9.amzn2.0.11 → 9.54.0-9.amzn2.0.12

  • libibumad.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs-core.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libibverbs-utils.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • libnccl-ofi.x86_64:1.15.0-1.amzn2 → 1.16.2-1.amzn2

  • librdmacm.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • librdmacm-utils.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • microcode_ctl.x86_64:2:2.1-47.amzn2.4.24 → 2:2.1-47.amzn2.4.25

  • pam.x86_64:1.1.8-23.amzn2.0.2 → 1.1.8-23.amzn2.0.4

  • rdma-core.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

  • rdma-core-devel.x86_64:57.amzn1-1.amzn2.0.2 → 58.amzn0-1.amzn2.0.2

移除的套件:

  • kernel-livepatch-5.10.239-236.958.x86_64 1.0-0.amzn2 amzn2extra-kernel-5.10

儲存庫已變更:

  • libnvidia-container-tools.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • libnvidia-container1.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

  • nvidia-container-toolkit-base.x86_64:cuda-rhel8-x86_64 → nvidia-container-toolkit

Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 8 月 12 日

AMI 包含下列項目:

  • 支援服務AWS:Amazon EC2

  • 作業系統:Amazon Linux 2023

  • 運算架構:ARM64

  • 下列套件已安裝最新的可用版本:

    • Linux 核心:6.12

    • FSx Lustre

    • Docker

    • AWS CLIv2 於 /usr/bin/aws

    • NVIDIA DCGM

    • Nvidia 容器工具組:

      • 版本命令: nvidia-container-cli -V

    • Nvidia-docker2:

      • 版本命令: nvidia-docker version

    • Nvidia-IMEX:570.172.08-1 版

  • NVIDIA 驅動程式:570.158.01

  • NVIDIA CUDA 12.4、12.5、12.6、12.8 堆疊:

    • CUDA、NCCL 和 cuDDN 安裝目錄: /usr/local/cuda-xx.x/

      • 範例:/usr/local/cuda-12.8//usr/local/cuda-12.8/

    • 編譯的 NCCL 版本:

      • 對於 CUDA 目錄 12.4,編譯了 NCCL 版本 2.22.3+CUDA12.4

      • 對於 12.5 的 CUDA 目錄,編譯了 NCCL 2.22.3+CUDA12.5 版

      • 對於 CUDA 目錄 12.6,編譯了 NCCL 2.24.3+CUDA12.6 版

      • 對於 12.8 的 CUDA 目錄,編譯了 NCCL 2.27.5+CUDA12.8 版

    • 預設 CUDA:12.8

      • PATH /usr/local/cuda指向 CUDA 12.8

      • 已更新下列 env vars:

        • LD_LIBRARY_PATH/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64

        • PATH/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • 對於任何不同的 CUDA 版本,請LD_LIBRARY_PATH相應地更新。

  • EFA 安裝程式:1.42.0

  • Nvidia GDRCopy:2.5.1

  • AWSOFI NCCL 外掛程式隨附 EFA 安裝程式

    • 路徑 /opt/amazon/ofi-nccl/lib/opt/amazon/ofi-nccl/efa 會新增至 LD_LIBRARY_PATH

  • AWS CLIv2 位於 /usr/local/bin/aws

  • EBS 磁碟區類型:gp3

  • Python:/usr/bin/python3.9

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 8 月 6 日

用於 Amazon EKS 支援的 SageMaker HyperPod DLAMI

AMI 包括下列更新:

K8s v1.28
  • Neuron 套件:

    • aws-neuronx-collectives:2.27.34.0_ec8cd5e8b-1

    • aws-neuronx-dkms:2.23.9.0-dkms

    • aws-neuronx-runtime-lib:2.27.23.0_8deec4dbf-1

    • aws-neuronx-k8-plugin:2.27.7.0-1

    • aws-neuronx-k8-scheduler:2.27.7.0-1

    • aws-neuronx-tools:2.25.145.0-1

K8s v1.29
  • Neuron 套件:

    • aws-neuronx-collectives:2.27.34.0_ec8cd5e8b-1

    • aws-neuronx-dkms:2.23.9.0-dkms

    • aws-neuronx-runtime-lib:2.27.23.0_8deec4dbf-1

    • aws-neuronx-k8-plugin:2.27.7.0-1

    • aws-neuronx-k8-scheduler:2.27.7.0-1

    • aws-neuronx-tools:2.25.145.0-1

K8s v1.30
  • Neuron 套件:

    • aws-neuronx-collectives:2.27.34.0_ec8cd5e8b-1

    • aws-neuronx-dkms:2.23.9.0-dkms

    • aws-neuronx-runtime-lib:2.27.23.0_8deec4dbf-1

    • aws-neuronx-k8-plugin:2.27.7.0-1

    • aws-neuronx-k8-scheduler:2.27.7.0-1

    • aws-neuronx-tools:2.25.145.0-1

K8s v1.31
  • Neuron 套件:

    • aws-neuronx-collectives:2.27.34.0_ec8cd5e8b-1

    • aws-neuronx-dkms:2.23.9.0-dkms

    • aws-neuronx-runtime-lib:2.27.23.0_8deec4dbf-1

    • aws-neuronx-k8-plugin:2.27.7.0-1

    • aws-neuronx-k8-scheduler:2.27.7.0-1

    • aws-neuronx-tools:2.25.145.0-1

K8s v1.32
  • Neuron 套件:

    • aws-neuronx-collectives:2.27.34.0_ec8cd5e8b-1

    • aws-neuronx-dkms:2.23.9.0-dkms

    • aws-neuronx-runtime-lib:2.27.23.0_8deec4dbf-1

    • aws-neuronx-k8-plugin:2.27.7.0-1

    • aws-neuronx-k8-scheduler:2.27.7.0-1

    • aws-neuronx-tools:2.25.145.0-1

重要
  • Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) 版本 70.3

  • Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) 版本 68.4

  • 最新的 CUDA 12.8 支援

  • 已將 Nvidia 驅動程式從 570.158.01 升級到 570.172.08,以修正 7 月 Nvidia 安全公告中存在的 CVE

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 7 月 31 日

Amazon SageMaker HyperPod 現在支援適用於 Amazon EKS 叢集的新 AMI,其可將基本作業系統更新為 Amazon Linux 2023。此版本提供數個來自 Amazon Linux 2 (AL2) 的改進。HyperPod 會定期發行新的 AMI,建議您在最新且最安全的 AMI 版本上執行所有 HyperPod 叢集,以解決漏洞並逐步淘汰過時的軟體和程式庫。

重要升級

  • 作業系統:Amazon Linux 2023 (從 Amazon Linux 2 或 AL2 更新)

  • 套件管理員:DNF 是預設套件管理工具,取代了 AL2 中使用的 YUM

  • 網路服務systemd-networkd 管理網路介面,取代了 dhclient AL2 中使用的 ISC

  • Linux 核心:6.1 版,從 AL2 中使用的核心更新

  • Glibc:2.34 版,從 AL2 中的版本更新

  • GCC:11.5.0 版,從 AL2 中的版本更新

  • NFS:1:2.6.1 版,從 AL2 中的 1:1.3.4 版更新

  • NVIDIA 驅動程式:570.172.08 版,較新的驅動程式版本

  • Python:3.9 版,取代了 AL2 中使用的 Python 2.7

  • NVME:1.11.1 版,較新版本的 NVMe 驅動程式

升級前:

升級前,有一些重要事項需要了解。與 AL2 相比,AL2023 已新增、升級或刪除數個套件。強烈建議您在升級叢集之前使用 AL2023 測試您的應用程式。如需 AL2023 中所有套件變更的全面清單,請參閱 Amazon Linux 2023 中的套件變更

以下是 AL2 與 AL2023 之間的一些重大變更:

  • Python 3.10:除了作業系統之外,最重要的更新是 Python 版本升級。升級後,叢集具有 Python 3.10 做為預設版本。雖然某些 Python 3.8 分散式訓練工作負載可能與 Python 3.10 相容,但我們強烈建議您分別測試特定工作負載。如果遷移到 Python 3.10 證實很有挑戰性,但您仍然想要升級叢集以取得其他新功能,您可以在執行任何工作負載之前,使用 yum install python-xx.x 命令搭配生命週期指令碼來安裝較舊的 Python 版本。確定您測試現有的生命週期指令碼和應用程式程式碼是否相容。

  • NVIDIA 執行時期強制執行:AL2023 會嚴格強制執行 NVIDIA 容器執行時期要求,這導致具有硬式編碼 NVIDIA 環境變數 (例如 NVIDIA_VISIBLE_DEVICES: "all") 的容器在僅限 CPU 節點上失敗 (而 AL2 會在不存在 GPU 驅動程式時忽略這些設定)。您可以在 Pod 規格中設定 NVIDIA_VISIBLE_DEVICES: "void" 或使用僅限 CPU 映像來覆寫強制執行。

  • cgroup v2:AL2023 具有下一代的統一控制群組階層 (cgroup v2)。cgroup v2 用於容器執行時期,也由 systemd 使用。雖然 AL2023 仍包含可讓系統使用 cgroup v1 執行的程式碼,但這不是建議的組態。

  • Amazon VPC CNI 和 eksctl 版本:AL2023 也需要您的 Amazon VPC CNI 版本為 1.16.2 或更新版本,以及您的 eksctl 版本為 0.176.0 或更新版本。

  • EFA on FSx for Lustre:您現在可以使用 EFA on FSx for Lustre,這可讓您實現與內部部署 AI/ML 或 HPC (高效能運算) 叢集相當的應用程式效能,同時受益於雲端運算的可擴展性、靈活性和彈性。

此外,升級至 AL2023 需要最低版本 1.0.643.0_1.0.192.0 的運作狀態監控代理程式。完成下列程序以更新運作狀態監控代理程式:

  1. 如果您使用來自 GitHub 儲存庫 awsome-distributed-training 的 HyperPod 生命週期指令碼,請確定提取最新版本。舊版與 AL2023 不相容。新的生命週期指令碼可確保 containerd 使用額外的掛載儲存體,以在 AL2023 的容器映像中提取。

  2. 在最新版本的 HyperPod CLI git 儲存庫中提取。

  3. 使用下列命令更新相依性:helm dependencies update helm_chart/HyperPodHelmChart

  4. HyperPodHelmChart README 中的步驟 4 所述,執行下列命令來升級叢集上執行的相依性版本:helm upgrade dependencies helm_chart/HyperPodHelmChart -namespace kube-system

已在升級的 EKS 叢集上測試的工作負載

以下是已測試升級的一些使用案例:

  • 回溯相容性:涉及 PyTorch 的熱門分散式訓練任務應該在新的 AMI 上回溯相容。不過,由於您的工作負載可能取決於特定的 Python 或 Linux 程式庫,因此我們建議先在規模較小的節點或節點子集上進行測試,然後再升級較大的叢集。

  • 加速器測試:已測試各種執行個體類型的任務,同時使用 NVIDIA 加速器 (適用於 P 和 G 執行個體系列) 和 AWSNeuron 加速器 (適用於 Trn 執行個體)。

如何升級您的 AMI 和相關聯的工作負載

您可以使用下列其中一種方法升級到新的 AMI:

  • 使用 create-cluster API 搭配最新 AMI 建立新叢集。

  • 使用 update-cluster-software API 來升級您現有的叢集。請注意,此選項會重新執行任何生命週期指令碼。

叢集在更新過程中無法使用。我們建議您規劃此停機時間,並在升級完成之後從現有的檢查點重新啟動訓練工作負載。最佳實務是,建議您先在較小的叢集上執行測試,再升級較大的叢集。

如果更新命令失敗,請先識別失敗的原因。對於生命週期指令碼失敗,請對您的指令碼進行必要的更正,然後再試一次。對於任何其他無法解決的問題,請聯絡 AWS 支援

疑難排解

使用下節,協助您針對升級至 AL2023 時遇到的任何問題進行疑難排解。

如何修正僅限 CPU 叢集節點上的錯誤,例如 "nvml error: driver not loaded: unknown"

如果在 CPU AL2 Amazon EKS 節點上運作的容器現在於 AL2023 上失敗,您的容器映像可能具有硬式編碼的 NVIDIA 環境變數。您可以使用下列命令檢查是否有硬式編碼的環境變數:

docker inspect image:tag | grep -i nvidia

AL2023 嚴格強制執行這些要求,而 AL2 對僅限 CPU 節點較為寬鬆。有一個解決方案是在 Amazon EKS Pod 規格中設定特定 NVIDIA 環境變數,以覆寫 AL2023 強制執行,如下列範例所示:

yaml containers: - name: your-container image: your-image:tag env: - name: NVIDIA_VISIBLE_DEVICES value: "void" - name: NVIDIA_DRIVER_CAPABILITIES value: ""

另一種替代方案是使用僅限 CPU 容器映像 (例如 pytorch/pytorch:latest-cpu) 或建置没有 NVIDIA 相依性的自訂映像。

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 7 月 15 日

用於 Amazon EKS 支援的 SageMaker HyperPod DLAMI

AMI 包括下列更新:

K8s v1.28
  • 最新的 NVIDIA 驅動程式:550.163.01

  • 預設 CUDA:12.4

  • EFA 安裝程式:1.38.0

  • Neuron 套件:

    • aws-neuronx-dkms.noarch:2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64:2.4.4.0-1

    • aws-neuronx-tools.x86_64:2.18.3.0-1

    • aws-neuron-dkms.noarch:2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64:1.9.3.0-1

    • aws-neuron-k8-scheduler.x86_64:1.9.3.0-1

    • aws-neuron-runtime.x86_64:1.6.24.0-1

    • aws-neuron-runtime-base.x86_64:1.6.21.0-1

    • aws-neuron-tools.x86_64:2.1.4.0-1

    • aws-neuronx-collectives.x86_64:2.26.43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64:0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64:0.16.2.0-1

    • aws-neuronx-gpsimd-tools.x86_64:0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64:2.26.26.0-1

    • aws-neuronx-k8-scheduler.x86_64:2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64:2.26.42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86_64:2.24.54.0-1

    • tensorflow-model-server-neuron.x86_64:2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2.0-0

K8s v1.29
  • Nvidia 驅動程式版本:550.163.01

  • CUDA 版本:12.4

  • EFA 安裝程式:1.38.0

  • Neuron 套件:

    • aws-neuronx-dkms.noarch:2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64:2.4.4.0-1

    • aws-neuronx-tools.x86_64:2.18.3.0-1

    • aws-neuron-dkms.noarch:2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64:1.9.3.0-1

    • aws-neuron-k8-scheduler.x86_64:1.9.3.0-1

    • aws-neuron-runtime.x86_64:1.6.24.0-1

    • aws-neuron-runtime-base.x86_64:1.6.21.0-1

    • aws-neuron-tools.x86_64:2.1.4.0-1

    • aws-neuronx-collectives.x86_64:2.26.43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64:0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64:0.16.2.0-1

    • aws-neuronx-gpsimd-tools.x86_64:0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64:2.26.26.0-1

    • aws-neuronx-k8-scheduler.x86_64:2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64:2.26.42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86_64:2.24.54.0-1

    • tensorflow-model-server-neuron.x86_64:2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2.0-0

K8s v1.30
  • Nvidia 驅動程式版本:550.163.01

  • CUDA 版本:12.4

  • EFA 安裝程式版本:1.38.0

  • Neuron 套件:

    • aws-neuronx-dkms.noarch:2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64:2.4.4.0-1

    • aws-neuronx-tools.x86_64:2.18.3.0-1

    • aws-neuron-dkms.noarch:2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64:1.9.3.0-1

    • aws-neuron-k8-scheduler.x86_64:1.9.3.0-1

    • aws-neuron-runtime.x86_64:1.6.24.0-1

    • aws-neuron-runtime-base.x86_64:1.6.21.0-1

    • aws-neuron-tools.x86_64:2.1.4.0-1

    • aws-neuronx-collectives.x86_64:2.26.43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64:0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64:0.16.2.0-1

    • aws-neuronx-gpsimd-tools.x86_64:0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64:2.26.26.0-1

    • aws-neuronx-k8-scheduler.x86_64:2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64:2.26.42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86_64:2.24.54.0-1

    • tensorflow-model-server-neuron.x86_64:2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2.0-0

K8s v1.31
  • Nvidia 驅動程式版本:550.163.01

  • CUDA 版本:12.4

  • EFA 安裝程式版本:1.38.0

  • Neuron 套件:

    • aws-neuronx-dkms.noarch:2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64:2.4.4.0-1

    • aws-neuronx-tools.x86_64:2.18.3.0-1

    • aws-neuron-dkms.noarch:2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64:1.9.3.0-1

    • aws-neuron-k8-scheduler.x86_64:1.9.3.0-1

    • aws-neuron-runtime.x86_64:1.6.24.0-1

    • aws-neuron-runtime-base.x86_64:1.6.21.0-1

    • aws-neuron-tools.x86_64:2.1.4.0-1

    • aws-neuronx-collectives.x86_64:2.26.43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64:0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64:0.16.2.0-1

    • aws-neuronx-gpsimd-tools.x86_64:0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64:2.26.26.0-1

    • aws-neuronx-k8-scheduler.x86_64:2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64:2.26.42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86_64:2.24.54.0-1

    • tensorflow-model-server-neuron.x86_64:2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2.0-0

K8s v1.32
  • Nvidia 驅動程式版本:550.163.01

  • CUDA 版本:12.4

  • EFA 安裝程式版本:1.38.0

  • Neuron 套件:

    • aws-neuronx-dkms.noarch:2.22.2.0-dkms

    • aws-neuronx-oci-hook.x86_64:2.4.4.0-1

    • aws-neuronx-tools.x86_64:2.18.3.0-1

    • aws-neuron-dkms.noarch:2.3.26.0-dkms

    • aws-neuron-k8-plugin.x86_64:1.9.3.0-1

    • aws-neuron-k8-scheduler.x86_64:1.9.3.0-1

    • aws-neuron-runtime.x86_64:1.6.24.0-1

    • aws-neuron-runtime-base.x86_64:1.6.21.0-1

    • aws-neuron-tools.x86_64:2.1.4.0-1

    • aws-neuronx-collectives.x86_64:2.26.43.0_47cc904ea-1

    • aws-neuronx-gpsimd-customop.x86_64:0.2.3.0-1

    • aws-neuronx-gpsimd-customop-lib.x86_64:0.16.2.0-1

    • aws-neuronx-gpsimd-tools.x86_64:0.16.1.0_0a6506a47-1

    • aws-neuronx-k8-plugin.x86_64:2.26.26.0-1

    • aws-neuronx-k8-scheduler.x86_64:2.26.26.0-1

    • aws-neuronx-runtime-lib.x86_64:2.26.42.0_2ff3b5c7d-1

    • aws-neuronx-tools.x86_64:2.24.54.0-1

    • tensorflow-model-server-neuron.x86_64:2.8.0.2.3.0.0-0

    • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2.0-0

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 6 月 9 日

用於 Amazon EKS 支援的 SageMaker HyperPod DLAMI

Neuron SDK Updates
  • aws-neuronx-dkms.noarch:2.21.37.0 (從 2.20.74.0 更新)

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 5 月 22 日

AMI 一般更新

用於 Amazon EKS 支援的 SageMaker HyperPod DLAMI

Deep Learning Base AMI AL2
  • 最新的 NVIDIA 驅動程式:550.163.01

  • CUDA Stack 更新:

    • 預設 CUDA:12.1

    • NCCL 版本:2.22.3

  • EFA 安裝程式:1.38.0

  • AWSOFI NCCL:1.13.2

  • Linux 核心:5.10

  • GDRCopy:2.4

重要
  • NVIDIA Container Toolkit 1.17.4 更新:CUDA 相容程式庫掛載現已停用

  • 從 1.37 到 1.38 的 EFA 更新:

    • AWSOFI NCCL 外掛程式現在位於 /opt/amazon/ofi-nccl

    • 上一個位置 /opt/aws-ofi-nccl/ 已棄用

Neuron SDK Updates
  • aws-neuronx-dkms.noarch:2.20.74.0 (從 2.20.28.0 更新)

  • aws-neuronx-collectives.x86_64:2.25.65.0_9858ac9a1-1 (從 2.24.59.0_838c7fc8b-1 更新)

  • aws-neuronx-runtime-lib.x86_64:2.25.57.0_166c7a468-1 (從 2.24.53.0_f239092cc-1 更新)

  • aws-neuronx-tools.x86_64:2.23.9.0 (從 2.22.61.0 更新)

  • aws-neuronx-gpsimd-customop-lib.x86_64:0.15.12.0 (從 0.14.12.0 更新)

  • aws-neuronx-gpsimd-tools.x86_64:0.15.1.0_5d31b6a3f (從 0.14.6.0_241eb69f4 更新)

  • aws-neuronx-k8-plugin.x86_64:2.25.24.0 (從 2.24.23.0 更新)

  • aws-neuronx-k8-scheduler.x86_64:2.25.24.0 (從 2.24.23.0 更新)

支援備註:

  • 根據架構支援政策,可能會移除或變更 AMI 元件,包括 CUDA 版本

  • 核心版本固定以確保相容。除非安全修補程式需要,否則使用者應避免更新

  • 對於具有多張網路卡的 EC2 執行個體,請參閱 EFA 組態指南,進行正確設定

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 5 月 7 日

Installed the latest version ofAWSNeuron SDK
  • tensorflow-model-server-neuron.x86_64 2.8.0.2.3.0.0-0 neuron

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 4 月 28 日

K8s 的改進

用於 Amazon EKS 支援的 SageMaker HyperPod DLAMI

Installed the latest version ofAWSNeuron SDK
  • aws-neuronx-dkms.noarch:2.20.28.0-dkms

  • aws-neuronx-oci-hook.x86_64:2.4.4.0-1

  • aws-neuronx-tools.x86_64:2.18.3.0-1

  • aws-neuron-dkms.noarch:2.3.26.0-dkms

  • aws-neuron-k8-plugin.x86_64:1.9.3.0-1

  • aws-neuron-k8-scheduler.x86_64:1.9.3.0-1

  • aws-neuron-runtime.x86_64:1.6.24.0-1

  • aws-neuron-runtime-base.x86_64:1.6.21.0-1

  • aws-neuron-tools.x86_64:2.1.4.0-1

  • aws-neuronx-collectives.x86_64:2.24.59.0_838c7fc8b-1

  • aws-neuronx-gpsimd-customop.x86_64:0.2.3.0-1

  • aws-neuronx-gpsimd-customop-lib.x86_64:0.14.12.0-1

  • aws-neuronx-gpsimd-tools.x86_64:0.14.6.0_241eb69f4-1

  • aws-neuronx-k8-plugin.x86_64:2.24.23.0-1

  • aws-neuronx-k8-scheduler.x86_64:2.24.23.0-1

  • aws-neuronx-runtime-lib.x86_64:2.24.53.0_f239092cc-1

  • aws-neuronx-tools.x86_64:2.22.61.0-1

  • tensorflow-model-server-neuronx.x86_64:2.10.1.2.12.2.0-0

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 4 月 18 日

AMI 一般更新

  • 適用於 Amazon EKS 1.32.1 的新 SageMaker HyperPod AMI。

用於 Amazon EKS 支援的 SageMaker HyperPod DLAMI

AMI 包括下列項目:

Deep Learning EKS AMI 1.32.1
  • Amazon EKS 元件

    • Kubernetes 版本:1.32.1

    • Containerd 版本:1.7.27

    • Runc 版本:1.1.14

    • AWSIAM 驗證器:0.6.29

  • Amazon SSM 代理程式:3.3.1611.0

  • Linux 核心:5.10.235

  • OSS Nvidia 驅動程式:550.163.01

  • NVIDIA CUDA:12.4

  • EFA 安裝程式:1.38.0

  • GDRCopy:2.4.1-1

  • Nvidia 容器工具組:1.17.6

  • AWSOFI NCCL:1.13.2

  • aws-neuronx-tools:2.18.3.0

  • aws-neuronx-runtime-lib:2.24.53.0

  • aws-neuronx-oci-hook:2.4.4.0-1

  • aws-neuronx-dkms:2.20.28.0

  • aws-neuronx-collectives:2.24.59.0

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 2 月 18 日

K8s 的改進

  • 已將 Nvidia 容器工具組從 1.17.3 版升級至 1.17.4 版。

  • 已修正客戶在重新開機之後無法連線至節點的問題。

  • 已將 Elastic Fabric Adapter (EFA) 版本從 1.37.0 升級至 1.38.0。

  • EFA 現在包含 AWSOFI NCCL 外掛程式,其位於 /opt/amazon/ofi-nccl目錄中,而非原始/opt/aws-ofi-nccl/路徑。如果您需要更新 LD_LIBRARY_PATH 環境變數,請務必修改路徑,以指向 OFI NCCL 外掛程式的新 /opt/amazon/ofi-nccl 位置。

  • 已從這些 DLAMIs 中移除 emacs 套件。您可以從 GNU emac 安裝 emac。

用於 Amazon EKS 支援的 SageMaker HyperPod DLAMI

Installed the latest version of neuron SDK
  • aws-neuronx-dkms.noarch:2.19.64.0-dkms @neuron

  • aws-neuronx-oci-hook.x86_64:2.4.4.0-1 @neuron

  • aws-neuronx-tools.x86_64:2.18.3.0-1 @neuron

  • aws-neuronx-collectives.x86_64:2.23.135.0_3e70920f2-1 neuron

  • aws-neuronx-gpsimd-customop.x86_64:0.2.3.0-1 neuron

  • aws-neuronx-gpsimd-customop-lib.x86_64

  • aws-neuronx-gpsimd-tools.x86_64:0.13.2.0_94ba34927-1 neuron

  • aws-neuronx-k8-plugin.x86_64:2.23.45.0-1 neuron

  • aws-neuronx-k8-scheduler.x86_64:2.23.45.0-1 neuron

  • aws-neuronx-runtime-lib.x86_64:2.23.112.0_9b5179492-1 neuron

  • aws-neuronx-tools.x86_64:2.20.204.0-1 neuron

  • tensorflow-model-server-neuronx.x86_64

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 1 月 22 日

AMI 一般更新

  • 適用於 Amazon EKS 1.31.2 的新 SageMaker HyperPod AMI。

用於 Amazon EKS 支援的 SageMaker HyperPod DLAMI

AMI 包括下列項目:

Deep Learning EKS AMI 1.31
  • Amazon EKS 元件

    • Kubernetes 版本:1.31.2

    • Containerd 版本:1.7.23

    • Runc 版本:1.1.14

    • AWSIAM 驗證器:0.6.26

  • Amazon SSM 代理程式:3.3.987

  • Linux 核心:5.10.230

  • OSS Nvidia 驅動程式:550.127.05

  • NVIDIA CUDA:12.4

  • EFA 安裝程式:1.37.0

  • GDRCopy:2.4.1-1

  • Nvidia 容器工具組:1.17.3

  • AWSOFI NCCL:1.13.0

  • aws-neuronx-tools:2.18.3

  • aws-neuronx-runtime-lib:2.23.112.0

  • aws-neuronx-oci-hook:2.4.4.0-1

  • aws-neuronx-dkms:2.18.20.0

  • aws-neuronx-collectives:2.23.133.0

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2024 年 12 月 21 日

用於 Amazon EKS 支援的 SageMaker HyperPod DLAMI

AMI 包括下列項目:

K8s v1.28
  • Amazon EKS 元件

    • Kubernetes 版本:1.28.15

    • Containerd 版本:1.7.23

    • Runc 版本:1.1.14

    • AWSIAM 驗證器:0.6.26

  • Amazon SSM 代理程式:3.3.987

  • Linux 核心:5.10.228

  • OSS NVIDIA 驅動程式:550.127.05

  • NVIDIA CUDA:12.4

  • EFA 安裝程式:1.37.0

  • GDRCopy:2.4

  • NVIDIA 容器工具組:1.17.3

  • AWSOFI NCCL:1.13.0

  • aws-neuronx-tools:2.18.3.0-1

  • aws-neuronx-runtime-lib:2.23.112.0

  • aws-neuronx-oci-hook:2.4.4.0-1

  • aws-neuronx-dkms:2.18.20.0

  • aws-neuronx-collectives:2.23.135.0

K8s v1.29
  • Amazon EKS 元件

    • Kubernetes 版本:1.29.10

    • Containerd 版本:1.7.23

    • Runc 版本:1.1.14

    • AWSIAM 驗證器:0.6.26

  • Amazon SSM 代理程式:3.3.987

  • Linux 核心:5.15.0

  • OSS Nvidia 驅動程式:550.127.05

  • NVIDIA CUDA:12.4

  • EFA 安裝程式:1.37.0

  • GDRCopy:2.4

  • Nvidia 容器工具組:1.17.3

  • AWSOFI NCCL:1.13.0

  • aws-neuronx-tools:2.18.3.0-1

  • aws-neuronx-runtime-lib:2.23.112.0

  • aws-neuronx-oci-hook:2.4.4.0-1

  • aws-neuronx-dkms:2.18.20.0

  • aws-neuronx-collectives:2.23.135.0

K8s v1.30
  • Amazon EKS 元件

    • Kubernetes 版本:1.30.6

    • Containerd 版本:1.7.23

    • Runc 版本:1.1.14

    • AWSIAM 驗證器:0.6.26

  • Amazon SSM 代理程式:3.3.987.0

  • Linux 核心:5.10.228

  • OSS Nvidia 驅動程式:550.127.05

  • NVIDIA CUDA:12.4

  • EFA 安裝程式:1.37.0

  • GDRCopy:2.4

  • Nvidia 容器工具組:1.17.3

  • AWSOFI NCCL:1.13.0

  • aws-neuronx-tools:2.18.3.0-1

  • aws-neuronx-runtime-lib:2.23.112.0

  • aws-neuronx-oci-hook:2.4.4.0-1

  • aws-neuronx-dkms:2.18.20.0

  • aws-neuronx-collectives:2.23.135.0

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2024 年 12 月 13 日

用於 Amazon EKS 升級的 SageMaker HyperPod DLAMI

  • 已將 SSM 代理程式更新至版本 3.3.1311.0

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2024 年 11 月 24 日

AMI 一般更新

  • 已在 MEL (墨爾本) 區域發行。

  • 已將 SageMaker HyperPod 基礎 DLAMI 更新至下列版本:

    • Kubernetes:2024-11-01。

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2024 年 11 月 15 日

用於 Amazon EKS 支援的 SageMaker HyperPod DLAMI

AMI 包括下列項目:

Deep Learning EKS AMI 1.28
  • Amazon EKS 元件

    • Kubernetes 版本:1.28.15

    • Containerd 版本:1.7.23

    • Runc 版本:1.1.14

    • AWSIAM 驗證器:0.6.26

  • Amazon SSM 代理程式:3.3.987

  • Linux 核心:5.10.228

  • OSS NVIDIA 驅動程式:550.127.05

  • NVIDIA CUDA:12.4

  • EFA 安裝程式:1.34.0

  • GDRCopy:2.4

  • NVIDIA 容器工具組:1.17.3

  • AWSOFI NCCL:1.11.0

  • aws-neuronx-tools:2.18.3.0-1

  • aws-neuronx-runtime-lib:2.22.19.0

  • aws-neuronx-oci-hook:2.4.4.0-1

  • aws-neuronx-dkms:2.18.20.0

  • aws-neuronx-collectives:2.22.33.0

Deep Learning EKS AMI 1.29
  • Amazon EKS 元件

    • Kubernetes 版本:1.29.10

    • Containerd 版本:1.7.23

    • Runc 版本:1.1.14

    • AWSIAM 驗證器:0.6.26

  • Amazon SSM 代理程式:3.3.987

  • Linux 核心:5.10.228

  • OSS Nvidia 驅動程式:550.127.05

  • NVIDIA CUDA:12.4

  • EFA 安裝程式:1.34.0

  • GDRCopy:2.4

  • Nvidia 容器工具組:1.17.3

  • AWSOFI NCCL:1.11.0

  • aws-neuronx-tools:2.18.3.0-1

  • aws-neuronx-runtime-lib:2.22.19.0

  • aws-neuronx-oci-hook:2.4.4.0-1

  • aws-neuronx-dkms:2.18.20.0

  • aws-neuronx-collectives:2.22.33.0

Deep Learning EKS AMI 1.30
  • Amazon EKS 元件

    • Kubernetes 版本:1.30.6

    • Containerd 版本:1.7.23

    • Runc 版本:1.1.14

    • AWSIAM 驗證器:0.6.26

  • Amazon SSM 代理程式:3.3.987

  • Linux 核心:5.10.228

  • OSS Nvidia 驅動程式:550.127.05

  • NVIDIA CUDA:12.4

  • EFA 安裝程式:1.34.0

  • GDRCopy:2.4

  • Nvidia 容器工具組:1.17.3

  • AWSOFI NCCL:1.11.0

  • aws-neuronx-tools:2.18.3.0-1

  • aws-neuronx-runtime-lib:2.22.19.0

  • aws-neuronx-oci-hook:2.4.4.0-1

  • aws-neuronx-dkms:2.18.20.0

  • aws-neuronx-collectives:2.22.33.0

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2024 年 11 月 11 日

AMI 一般更新

  • 已使用 Amazon EKS 版本 1.28.13、1.29.8、1.30.4 更新 SageMaker HyperPod DLAMI。

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2024 年 10 月 21 日

AMI 一般更新

  • 已將 SageMaker HyperPod 基礎 DLAMI 更新至下列版本:

    • Amazon EKS:1.28.11、1.29.6、1.30.2。

適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2024 年 9 月 10 日

用於 Amazon EKS 支援的 SageMaker HyperPod DLAMI

AMI 包括下列項目:

Deep Learning EKS AMI 1.28
  • Amazon EKS 元件

    • Kubernetes 版本:1.28.11

    • Containerd 版本:1.7.20

    • Runc 版本:1.1.11

    • AWSIAM 驗證器:0.6.21

  • Amazon SSM 代理程式:3.3.380

  • Linux 核心:5.10.223

  • OSS NVIDIA 驅動程式:535.183.01

  • NVIDIA CUDA:12.2

  • EFA 安裝程式:1.32.0

  • GDRCopy:2.4

  • NVIDIA 容器工具組:1.16.1

  • AWSOFI NCCL:1.9.1

  • aws-neuronx-tools:2.18.3.0-1

  • aws-neuronx-runtime-lib:2.21.41.0

  • aws-neuronx-oci-hook:2.4.4.0-1

  • aws-neuronx-dkms:2.17.17.0

  • aws-neuronx-collectives:2.21.46.0

Deep Learning EKS AMI 1.29
  • Amazon EKS 元件

    • Kubernetes 版本:1.29.6

    • Containerd 版本:1.7.20

    • Runc 版本:1.1.11

    • AWSIAM 驗證器:0.6.21

  • Amazon SSM 代理程式:3.3.380

  • Linux 核心:5.10.223

  • OSS Nvidia 驅動程式:535.183.01

  • NVIDIA CUDA:12.2

  • EFA 安裝程式:1.32.0

  • GDRCopy:2.4

  • Nvidia 容器工具組:1.16.1

  • AWSOFI NCCL:1.9.1

  • aws-neuronx-tools:2.18.3.0-1

  • aws-neuronx-runtime-lib:2.21.41.0

  • aws-neuronx-oci-hook:2.4.4.0-1

  • aws-neuronx-dkms:2.17.17.0

  • aws-neuronx-collectives:2.21.46.0

Deep Learning EKS AMI 1.30
  • Amazon EKS 元件

    • Kubernetes 版本:1.30.2

    • Containerd 版本:1.7.20

    • Runc 版本:1.1.11

    • AWSIAM 驗證器:0.6.21

  • Amazon SSM 代理程式:3.3.380

  • Linux 核心:5.10.223

  • OSS Nvidia 驅動程式:535.183.01

  • NVIDIA CUDA:12.2

  • EFA 安裝程式:1.32.0

  • GDRCopy:2.4

  • Nvidia 容器工具組:1.16.1

  • AWSOFI NCCL:1.9.1

  • aws-neuronx-tools:2.18.3.0-1

  • aws-neuronx-runtime-lib:2.21.41.0

  • aws-neuronx-oci-hook:2.4.4.0-1

  • aws-neuronx-dkms:2.17.17.0

  • aws-neuronx-collectives:2.21.46.0