適用於 Slurm 的 SageMaker HyperPod AMI 版本 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

適用於 Slurm 的 SageMaker HyperPod AMI 版本

下列版本備註會追蹤 Slurm 協同運作的 Amazon SageMaker HyperPod AMI 版本最新更新。這些 HyperPod AMI 建置在 AWS 深度學習基礎 GPU AMI (Ubuntu 22.04) 之上。HyperPod 服務團隊會透過 SageMaker HyperPod DLAMI 分發軟體修補程式。如需適用於 Amazon EKS 協同運作的 HyperPod AMI 版本,請參閱 適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本。如需 Amazon SageMaker HyperPod 功能版本的相關資訊,請參閱 Amazon SageMaker HyperPod 版本備註

注意

若要使用最新的 DLAMI 更新現有的 HyperPod 叢集,請參閱更新叢集的 SageMaker HyperPod 平台軟體

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2025 年 11 月 22 日

AMI 一般更新

  • 發行 SageMaker HyperPod AMI for Slurm 24.11 版的更新。

  • 此處提供基本 DLAMI 版本備註。

用於 Slurm 支援的 SageMaker HyperPod DLAMI

此版本包含下列更新:

Slurm (arm64)
  • Linux 核心版本:6.8

  • Glibc 版本:2.35

  • OpenSSL 版本:3.0.2

  • FSx Lustre 用戶端版本:2.15.6-1fsx21

  • Runc 版本:1.3.3

  • Containerd 版本: containerd containerd.io v2.1.5

  • NVIDIA 驅動程式版本:580.95.05

  • CUDA 版本:12.6、12.8、12.9、13.0

  • EFA 安裝程式版本:2.1.0amzn5.0

  • Python 版本:3.10.12

  • Slurm 版本:24.11.0

  • nvme-cli 版本:1.16

  • 收集版本:5.12.0。

  • lustre-client 版本:2.15.6-1fsx21

  • nvidia-imex 版本:580.95.05-1

  • systemd 版本:249

  • openssh 版本:8.9

  • sudo 版本:1.9.9

  • ufw 版本:0.36.1

  • gcc 版本:11.4.0

  • cmake 版本:3.22.1

  • Git 版本:2.34.1

  • make 版本:4.3

  • cloudwatch-agent 版本:1.300062.0b1304-1

  • nfs-utils 版本:1:2.6.1-1ubuntu1.2

  • iscsi-initiator-utils 版本:2.1.5-1ubuntu1.1

  • lvm2 版本:2.03.11

  • ec2-instance-connect 版本:1.1.14-0ubuntu1.1

  • rdma-core 版本:58.amzn0-1

Slurm (x86_64)
  • Linux 核心版本:6.8

  • Glibc 版本:2.35

  • OpenSSL 版本:3.0.2

  • FSx Lustre 用戶端版本:2.15.6-1fsx21

  • Runc 版本:1.3.3

  • Containerd 版本: containerd containerd.io v2.1.5

  • aws Neuronx DKMS 版本:2.24.7.0

  • NVIDIA 驅動程式版本:580.95.05

  • CUDA 版本:12.6、12.8、12.9、13.0

  • EFA 安裝程式版本:2.3.1amzn1.0

  • Python 版本:3.10.12

  • Slurm 版本:24.11.0

  • nvme-cli 版本:1.16

  • 壓力版本:1.0.5

  • 收集版本:5.12.0。

  • lustre-client 版本:2.15.6-1fsx21

  • systemd 版本:249

  • openssh 版本:8.9

  • sudo 版本:1.9.9

  • ufw 版本:0.36.1

  • gcc 版本:11.4.0

  • cmake 版本:3.22.1

  • make 版本:4.3

  • cloudwatch-agent 版本:1.300062.0b1304-1

  • nfs-utils 版本:1:2.6.1-1ubuntu1.2

  • iscsi-initiator-utils 版本:2.1.5-1ubuntu1.1

  • lvm2 版本:2.03.11

  • ec2-instance-connect 版本:1.1.14-0ubuntu1.1

  • rdma-core 版本:59.amzn0-1

SageMaker HyperPod 版本備註:2025 年 11 月 7 日

AMI 包含下列項目:

  • 支援AWS 服務:Amazon EC2

  • 作業系統:Ubuntu 22.04

  • 運算架構:ARM64

  • 更新套件:NVIDIA 驅動程式:580.95.05

  • CUDA 版本:cuda-12.6、cuda-12.8、cuda-12.9、cuda-13.0

  • 安全修正:Runc 安全修補程式

SageMaker HyperPod 版本備註:2025 年 9 月 29 日

AMI 包含下列項目:

  • 支援AWS 服務:Amazon EC2

  • 作業系統:Ubuntu 22.04

  • 運算架構:ARM64

  • 更新套件:NVIDIA 驅動程式:570.172.08

  • 安全性修正

SageMaker HyperPod 版本備註:2025 年 8 月 12 日

AMI 包含下列項目:

  • 支援AWS 服務:Amazon EC2

  • 作業系統:Ubuntu 22.04

  • 運算架構:ARM64

  • 下列套件已安裝最新的可用版本:

    • Linux 核心:6.8

    • FSx Lustre

    • Docker

    • AWS CLIv2 於 /usr/bin/aws

    • NVIDIA DCGM

    • Nvidia 容器工具組:

      • 版本命令: nvidia-container-cli -V

    • Nvidia-docker2:

      • 版本命令: nvidia-docker version

    • Nvidia-IMEX:570.172.08-1 版

  • NVIDIA 驅動程式:570.158.01

  • NVIDIA CUDA 12.4、12.5、12.6、12.8 堆疊:

    • CUDA、NCCL 和 cuDDN 安裝目錄: /usr/local/cuda-xx.x/

      • 範例:/usr/local/cuda-12.8//usr/local/cuda-12.8/

    • 編譯的 NCCL 版本:

      • 對於 CUDA 目錄 12.4,編譯的 NCCL 2.22.3+CUDA12.4 版

      • 對於 12.5 的 CUDA 目錄,編譯了 NCCL 2.22.3+CUDA12.5 版

      • 對於 CUDA 目錄 12.6,編譯的 NCCL 2.24.3+CUDA12.6 版

      • 對於 CUDA 目錄 12.8,編譯的 NCCL 2.27.5+CUDA12.8 版

    • 預設 CUDA:12.8

      • PATH /usr/local/cuda指向 CUDA 12.8

      • 已更新下列 env vars:

        • LD_LIBRARY_PATH/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64

        • PATH/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • 對於任何不同的 CUDA 版本,請LD_LIBRARY_PATH相應地更新。

  • EFA 安裝程式:1.42.0

  • Nvidia GDRCopy:2.5.1

  • AWSOFI NCCL 外掛程式隨附 EFA 安裝程式

    • 路徑 /opt/amazon/ofi-nccl/lib/aarch64-linux-gnu/opt/amazon/ofi-nccl/efa 會新增至 LD_LIBRARY_PATH

  • AWS CLIv2 at /usr/local/bin/aws2和 AWS CLIv1 at /usr/bin/aws

  • EBS 磁碟區類型:gp3

  • Python:/usr/bin/python3.10

SageMaker HyperPod 版本備註:2025 年 5 月 27 日

SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能和改進

  • 已使用下列關鍵元件將基本 AMI 更新至 Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523

    • NVIDIA 驅動程式:570.133.20

    • CUDA:12.8 (預設),支援 CUDA 12.4-12.6

    • NCCL 版本:2.26.5

    • EFA 安裝程式:1.40.0

    • AWSOFI NCCL:1.14.2-aws

  • 已更新 Neuron SDK 套件:

    • aws-neuronx-collectives:2.25.65.0-9858ac9a1 (從 2.24.59.0-838c7fc8b 更新)

    • aws-neuronx-dkms:2.21.37.0 (從 2.20.28.0 更新)

    • aws-neuronx-runtime-lib:2.25.57.0-166c7a468 (從 2.24.53.0-f239092cc 更新)

    • aws-neuronx-tools:2.23.9.0 (從 2.22.61.0 更新)

重要說明

  • NVIDIA Container Toolkit 1.17.4 現在已停用 CUDA 相容程式庫的掛載。

  • 已將 EFA 組態從 1.37 更新至 1.38,而 EFA 現在包含 AWS OFI NCCL 外掛程式,其位於 /opt/amazon/ofi-nccl 目錄中,而非原始 /opt/aws-ofi-nccl/ 路徑中。(已於 2025 年 2 月 18 日發行)

  • 核心版本固定以確保穩定性和驅動程式相容性。

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2025 年 5 月 13 日

Amazon SageMaker HyperPod 發佈了更新的 AMI,支援適用於 Slurm 叢集的 Ubuntu 22.04 LTS。 會AWS定期更新 AMIs,以確保您可存取最新的軟體堆疊。升級到最新的 AMI 透過全面的套件更新、改善的工作負載效能和穩定性,以及與新執行個體類型和最新核心功能的相容性,提供增強的安全性。

重要

從 Ubuntu 20.04 LTS 更新至 Ubuntu 22.04 LTS 所引入的變更可能會影響與專為 Ubuntu 20.04 設計之軟體和組態的相容性。

Ubuntu 22.04 AMI 中的重要更新

下表列出 Ubuntu 22.04 AMI 相較於先前 AMI 的元件版本。

Ubuntu 22.04 AMI 相較於先前 AMI 的元件版本
元件 舊版本 更新版本

Ubuntu OS

20.04 LTS

22.04 LTS

Slurm

24.11

24.11 (未變更)

Python

3.8 (預設)

3.10 (預設)

Amazon FSx 上的 Elastic Fabric Adapter (EFA)

不支援

支援

Linux 核心

5.15

6.8

GNU C 程式庫 (glibc)

2.31

2.35

GNU 編譯器集合 (GCC)

9.4.0

11.4.0

libc6

≤ 2.31

支援 ≥ 2.35

網路檔案系統 (NFS)

1:1.3.4

1:2.6.1

注意

雖然 Slurm 版本 (24.11) 保持不變,但此 AMI 中的基礎作業系統和程式庫更新可能會影響您的系統行為和工作負載相容性。升級生產叢集之前,您必須先測試工作負載。

升級到 Ubuntu 22.04 AMI

將您的叢集升級至 Ubuntu 22.04 AMI 之前,請完成這些準備步驟並檢閱升級要求。若要針對升級失敗進行疑難排解,請參閱針對升級失敗進行疑難排解

檢閱 Python 相容性

Ubuntu 22.04 AMI 使用 Python 3.10 做為預設版本,這是從 Python 3.8 升級的版本。雖然 Python 3.10 維持與大多數 Python 3.8 程式碼的相容性,但您應該在升級之前測試現有的工作負載。如果您的工作負載需要 Python 3.8,您可以在生命週期指令碼中使用下列命令來安裝該版本:

yum install python-3.8

升級您的叢集之前,請務必執行下列動作:

  1. 測試您的程式碼與 Python 3.10 的相容性。

  2. 驗證您的生命週期指令碼是否可在新的環境中運作。

  3. 檢查所有相依性是否與新的 Python 版本相容。

  4. 如果您透過從 GitHub 複製預設生命週期指令碼來建立 HyperPod 叢集,請在升級至 Ubuntu 22 之前,將下列命令新增至您的 setup_mariadb_accounting.sh 檔案。如需完整指令碼,請參閱 GitHub 上的 setup_mariadb_accounting.sh

    apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg

升級您的 Slurm 叢集

您可以透過兩種方式升級 Slurm 叢集以使用新的 AMI:

  1. 使用 CreateCluster API 建立新的叢集。

  2. 使用 UpdateClusterSoftware API 更新現有叢集的軟體。

驗證的組態

AWS已在 G5, G6, G6e, P4d, P5 和 Trn1 執行個體上測試過各種分散式訓練工作負載和基礎設施功能,包括:

  • 使用 PyTorch 進行分散式訓練 (例如 FSDP、NeMo、LLaMA、MNIST)。

  • 使用 Nvidia (P/G 系列) 和 AWSNeuron (Trn1) 跨執行個體類型加速測試。

  • 包括自動繼續深度運作狀態檢查的彈性功能。

叢集停機時間和可用性

在升級過程中,叢集將無法使用。若要將中斷降至最低,請執行下列動作:

  • 在較小的叢集上測試升級程序。

  • 在升級之前建立檢查點,然後在升級完成之後從現有檢查點重新啟動訓練工作負載。

針對升級失敗進行疑難排解

當升級失敗時,請先判斷失敗是否與生命週期指令碼相關。這些指令碼通常由於語法錯誤、缺少相依性或組態不正確而失敗。

若要調查與生命週期指令碼相關的失敗,請檢查 CloudWatch 日誌。所有 SageMaker HyperPod 事件和日誌都存放在日誌群組下:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]。請特別查看日誌串流 LifecycleConfig/[instance-group-name]/[instance-id],其中提供指令碼執行期間任何錯誤的詳細資訊。

如果升級失敗與生命週期指令碼無關,請收集相關資訊,包括叢集 ARN、錯誤日誌和時間戳記,然後聯絡 AWS 支援以取得進一步協助。

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2025 年 5 月 7 日

Amazon SageMaker HyperPod for Slurm 發行了主要 OS 版本升級,以升級至 Ubuntu 22.04 (從 Ubuntu 20.04 之前的版本升級)。如需詳細資訊,請參閱 DLAMI Ubuntu 22.04 (版本備註):Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503

關鍵套件升級:

  • Ubuntu 22.04 LTS (從 20.04 升級)

  • Python 版本:

    • Python 3.10 現在是 Slurm AMI Ubuntu 22.04 中的預設 Python 版本

    • 此升級可讓您存取 Python 3.10 中引進的最新功能、效能改善和錯誤修正

  • 支援 EFA on FSx

  • 新的 Linux 核心 6.8 版 (更新自 5.15)

  • Glibc 版本:2.35 (更新自 2.31)

  • GCC 版本:11.4.0 (更新自 9.4.0)

  • 較新的 libc6 版本支援 (更新自 libc6 版本 <= 2.31)

  • NFS 版本:1:2.6.1 (更新自 1:1.3.4)

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2025 年 4 月 28 日

Slurm 的改進

用於 Slurm 支援的 Amazon SageMaker HyperPod DLAMI

Installed the latest version ofAWSNeuron SDK
  • aws-neuronx-collectives:2.24.59.0-838c7fc8b

  • aws-neuronx-dkms:2.20.28.0

  • aws-neuronx-runtime-lib:2.24.53.0-f239092cc

  • aws-neuronx-tools/unknown:2.22.61.0

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2025 年 2 月 18 日

Slurm 的改進

  • 已將 Slurm 版本升級至 24.11。

  • 已將 Elastic Fabric Adapter (EFA) 版本從 1.37.0 升級至 1.38.0。

  • EFA 現在包含 AWSOFI NCCL 外掛程式。您可以在 /opt/amazon/ofi-nccl 目錄中找到此外掛程式,而不是原始 /opt/aws-ofi-nccl/ 位置。如果您需要更新 LD_LIBRARY_PATH 環境變數,請務必修改路徑,以指向 OFI NCCL 外掛程式的新 /opt/amazon/ofi-nccl 位置。

  • 已從這些 DLAMIs 中移除 emacs 套件。您可以從 GNU emac 安裝 emac。

用於 Slurm 支援的 Amazon SageMaker HyperPod DLAMI

Installed the latest version ofAWSNeuron SDK 2.19
  • aws-neuronx-collectives/unknown:2.23.135.0-3e70920f2 amd64

  • aws-neuronx-dkms/unknown:2.19.64.0 amd64

  • aws-neuronx-runtime-lib/unknown:2.23.112.0-9b5179492 amd64

  • aws-neuronx-tools/unknown:2.20.204.0 amd64

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 12 月 21 日

用於 Slurm 支援的 SageMaker HyperPod DLAMI

Deep Learning Slurm AMI
  • NVIDIA 驅動程式:550.127.05

  • EFA 驅動程式:2.13.0-1

  • 安裝最新版的 AWSNeuron SDK

    • aws-neuronx-collectives:2.22.33.0

    • aws-neuronx-dkms:2.18.20.0

    • aws-neuronx-oci-hook:2.5.8.0

    • aws-neuronx-runtime-lib:2.22.19.0

    • aws-neuronx-tools:2.19.0.0

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 11 月 24 日

AMI 一般更新

  • 已在 MEL (墨爾本) 區域發行。

  • 已將 SageMaker HyperPod 基礎 DLAMI 更新至下列版本:

    • Slurm:2024-11-22。

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 11 月 15 日

AMI 一般更新

  • 已安裝最新的 libnvidia-nscq-xxx 套件。

用於 Slurm 支援的 SageMaker HyperPod DLAMI

Deep Learning Slurm AMI
  • NVIDIA 驅動程式:550.127.05

  • EFA 驅動程式:2.13.0-1

  • 安裝最新版的 AWSNeuron SDK

    • aws-neuronx-collectives:v2.22.33.0-d2128d1aa

    • aws-neuronx-dkms:v2.17.17.0

    • aws-neuronx-oci-hook:v2.4.4.0

    • aws-neuronx-runtime-lib:v2.21.41.0

    • aws-neuronx-tools:v2.18.3.0

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 11 月 11 日

AMI 一般更新

  • 已將 SageMaker HyperPod 基礎 DLAMI 更新至下列版本:

    • Slurm:2024-10-23。

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 10 月 21 日

AMI 一般更新

  • 已將 SageMaker HyperPod 基礎 DLAMI 更新至下列版本:

    • Slurm:2024-09-27。

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 9 月 10 日

用於 Slurm 支援的 SageMaker HyperPod DLAMI

Deep Learning Slurm AMI
  • 已安裝 NVIDIA 驅動程式 v550.90.07

  • 已安裝 EFA 驅動程式 v2.10

  • 安裝最新版的 AWSNeuron SDK

    • aws-neuronx-collectives:v2.21.46.0

    • aws-neuronx-dkms:v2.17.17.0

    • aws-neuronx-oci-hook:v2.4.4.0

    • aws-neuronx-runtime-lib:v2.21.41.0

    • aws-neuronx-tools:v2.18.3.0

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 3 月 14 日

適用於 Slurm 軟體修補程式的 HyperPod DLAMI

  • 已將 Slurm 升級至 v23.11.1。

  • 已新增 OpenPMIx v4.2.6 以啟用 PMIx 與 Slurm

  • 建置在 2023-10-26 發行的 AWS 深度學習基礎 GPU AMI (Ubuntu 20.04) 之上

  • 除了基本 AMI 之外,此 HyperPod DLAMI 中預先安裝套件的完整清單

    • Slurm:v23.11.1

    • OpenPMIx:v4.2.6

    • Munge:v0.5.15

    • aws-neuronx-dkms:v2.*

    • aws-neuronx-collectives:v2.*

    • aws-neuronx-runtime-lib:v2.*

    • aws-neuronx-tools:v2.*

    • 支援叢集運作狀態檢查和自動繼續等功能的 SageMaker HyperPod 軟體套件

升級步驟

  • 執行下列命令來呼叫 UpdateClusterSoftware API,以使用最新的 HyperPod DLAMI 更新現有的 HyperPod 叢集。若要尋找更多指示,請參閱 更新叢集的 SageMaker HyperPod 平台軟體

    重要

    在執行此 API 之前備份您的工作。修補程序會將根磁碟區取代為更新的 AMI,這表示先前存放在執行個體根磁碟區中的資料將會遺失。請確定您將資料從執行個體根磁碟區備份至 Amazon S3 或 Amazon FSx for Lustre。如需詳細資訊,請參閱使用 SageMaker HyperPod 提供的備份指令碼

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    請注意,您應該執行 AWS CLI命令來更新 HyperPod 叢集。目前無法透過 SageMaker HyperPod 主控台 UI 更新 HyperPod 軟體。

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2023 年 11 月 29 日

適用於 Slurm 軟體修補程式的 HyperPod DLAMI

HyperPod 服務團隊會透過 SageMaker HyperPod DLAMI 分發軟體修補程式。請參閱下列有關最新 HyperPod DLAMI 的詳細資訊。

  • 建置在 2023-10-18 發行的 AWS 深度學習基礎 GPU AMI (Ubuntu 20.04) 之上

  • 除了基本 AMI 之外,此 HyperPod DLAMI 中預先安裝套件的完整清單

    • Slurm:v23.02.3

    • Munge:v0.5.15

    • aws-neuronx-dkms:v2.*

    • aws-neuronx-collectives:v2.*

    • aws-neuronx-runtime-lib:v2.*

    • aws-neuronx-tools:v2.*

    • 支援叢集運作狀態檢查和自動繼續等功能的 SageMaker HyperPod 軟體套件