Slurm 的 SageMaker HyperPod AMI 版本 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Slurm 的 SageMaker HyperPod AMI 版本

下列版本備註會追蹤 Slurm 協同運作的 Amazon SageMaker HyperPod AMI 版本最新更新。這些 HyperPod AMIs 是以AWS 深度學習基礎 GPU AMI (Ubuntu 22.04) 為基礎。HyperPod 服務團隊會透過 分發軟體修補程式SageMaker HyperPod DLAMI。如需適用於 Amazon EKS 協同運作的 HyperPod AMI 版本,請參閱 Amazon EKS 的 SageMaker HyperPod AMI 版本。如需 Amazon SageMaker HyperPod 功能版本的資訊,請參閱 Amazon SageMaker HyperPod 版本備註

注意

若要使用最新的 DLAMI 更新現有的 HyperPod 叢集,請參閱 更新叢集的 SageMaker HyperPod 平台軟體

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2025 年 5 月 13 日

Amazon SageMaker HyperPod 發行了更新的 AMI,支援適用於 Slurm 叢集的 Ubuntu 22.04 LTS。 會 AWS 定期更新 AMIs,以確保您可存取最新的軟體堆疊。升級到最新的 AMI 透過全面的套件更新、改善工作負載的效能和穩定性,以及與新執行個體類型和最新核心功能的相容性,提供增強的安全性。

重要

從 Ubuntu 20.04 LTS 更新至 Ubuntu 22.04 LTS 引入的變更可能會影響與專為 Ubuntu 20.04 設計之軟體和組態的相容性。

Ubuntu 22.04 AMI 中的金鑰更新

下表列出 Ubuntu 22.04 AMI 與先前 AMI 的元件版本。

與先前的 AMI 相比,Ubuntu 22.04 AMI 的元件版本
元件 先前版本 更新版本

Ubuntu 作業系統

20.04 LTS

22.04 LTS

Slurm

24.11

24.11 (未變更)

Python

3.8 (預設)

3.10 (預設)

Amazon FSx 上的 Elastic Fabric Adapter (EFA)

不支援

支援

Linux 核心

5.15

6.8

GNU C 程式庫 (glibc)

2.31

2.35

GNU 編譯器集合 (GCC)

9.4.0

11.4.0

libc6

≤ 2.31

支援 ≥ 2.35

網路檔案系統 (NFS)

1:1.3.4

1:2.6.1

注意

雖然 Slurm 版本 (24.11) 保持不變,但此 AMI 中的基礎作業系統和程式庫更新可能會影響您的系統行為和工作負載相容性。升級生產叢集之前,您必須先測試工作負載。

升級到 Ubuntu 22.04 AMI

將叢集升級至 Ubuntu 22.04 AMI 之前,請完成這些準備步驟並檢閱升級要求。若要疑難排解升級失敗,請參閱 升級失敗的故障診斷

檢閱 Python 相容性

Ubuntu 22.04 AMI 使用 Python 3.10 作為預設版本,從 Python 3.8 升級。雖然 Python 3.10 維持與大多數 Python 3.8 程式碼的相容性,但您應該在升級之前測試現有的工作負載。如果您的工作負載需要 Python 3.8,您可以在生命週期指令碼中使用下列命令來安裝它:

yum install python-3.8

升級叢集之前,請務必執行下列動作:

  1. 測試您的程式碼與 Python 3.10 的相容性。

  2. 驗證您的生命週期指令碼在新的環境中運作。

  3. 檢查所有相依性是否與新的 Python 版本相容。

  4. 如果您透過從 GitHub 複製預設生命週期指令碼來建立 HyperPod 叢集,請在升級至 Ubuntu 22 之前,將下列命令新增至您的 setup_mariadb_accounting.sh 檔案。如需完整的指令碼,請參閱 GitHub 上的 setup_mariadb_accounting.sh

    apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg

升級 Slurm 叢集

您可以透過兩種方式升級 Slurm 叢集以使用新的 AMI:

  1. 使用 CreateCluster API 建立新的叢集。

  2. 使用 UpdateClusterSoftware API 更新現有叢集的軟體。

已驗證的組態

AWS 已在 G5, G6, G6e, P4d, P5 和 Trn1 執行個體上測試過各種分散式訓練工作負載和基礎設施功能,包括:

  • 使用 PyTorch 的分散式訓練 (例如 FSDP、NeMo、LLaMA、MNIST)。

  • 使用 Nvidia (P/G 系列) 和 AWS Neuron (Trn1) 跨執行個體類型加速測試。

  • 彈性功能,包括自動恢復深度運作狀態檢查

叢集停機時間和可用性

在升級過程中,叢集將無法使用。若要將中斷降至最低,請執行下列動作:

  • 在較小的叢集上測試升級程序。

  • 在升級之前建立檢查點,然後在升級完成後從現有檢查點重新啟動訓練工作負載。

升級失敗的故障診斷

當升級失敗時,請先判斷失敗是否與生命週期指令碼相關。這些指令碼通常因為語法錯誤、缺少相依性或組態不正確而失敗。

若要調查與生命週期指令碼相關的故障,請檢查 CloudWatch 日誌。所有 SageMaker HyperPod 事件和日誌都存放在日誌群組下:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]。請特別查看日誌串流 LifecycleConfig/[instance-group-name]/[instance-id],其提供有關指令碼執行期間任何錯誤的詳細資訊。

如果升級失敗與生命週期指令碼無關,請收集相關資訊,包括叢集 ARN、錯誤日誌和時間戳記,然後聯絡AWS 支援以取得進一步協助。

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2025 年 5 月 7 日

Amazon SageMaker HyperPod for Slurm 發佈主要作業系統版本升級至 Ubuntu 22.04 (從舊版 Ubuntu 20.04)。如需詳細資訊,請參閱 DLAMI Ubuntu 22.04 (版本備註 ):Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503

金鑰套件升級:

  • Ubuntu 22.04 LTS (自 20.04 起)

  • Python 版本:

    • Python 3.10 現在是 Slurm AMI Ubuntu 22.04 中的預設 Python 版本

    • 此升級可讓您存取 Python 3.10 中引進的最新功能、效能改善和錯誤修正

  • 支援 FSx 上的 EFA

  • 新的 Linux 核心 6.8 版 (更新自 5.15)

  • Glibc 版本:2.35 (更新自 2.31)

  • GCC 版本:11.4.0 (更新自 9.4.0)

  • 較新的 libc6 版本支援 (來自 libc6 版本 <= 2.31)

  • NFS 版本:1:2.6.1 (更新自 1:1.3.4)

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2025 年 4 月 28 日

Slurm 的改進

Amazon SageMaker HyperPod DLAMI 支援 Slurm

Installed the latest version of AWS Neuron SDK
  • aws-neuronx-collectives:2.24.59.0-838c7fc8b

  • aws-neuronx-dkms:2.20.28.0

  • aws-neuronx-runtime-lib:2.24.53.0-f239092cc

  • aws-neuronx-tools/unknown:2.22.61.0

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2025 年 2 月 18 日

Slurm 的改進

  • 已將 Slurm 版本升級至 24.11。

  • 已將 Elastic Fabric Adapter (EFA) 版本從 1.37.0 升級至 1.38.0。

  • EFA 現在包含 AWS OFI NCCL 外掛程式。您可以在 /opt/amazon/ofi-nccl目錄中找到此外掛程式,而不是原始/opt/aws-ofi-nccl/位置。如果您需要更新LD_LIBRARY_PATH環境變數,請務必修改路徑,以指向 OFI NCCL 外掛程式的新/opt/amazon/ofi-nccl位置。

  • 從這些 DLAMIs 中移除 emacs 套件。您可以從 GNU emac 安裝 emac。

Amazon SageMaker HyperPod DLAMI 支援 Slurm

Installed the latest version of AWS Neuron SDK 2.19
  • aws-neuronx-collectives/unknown:2.23.135.0-3e70920f2 amd64

  • aws-neuronx-dkms/unknown:2.19.64.0 amd64

  • aws-neuronx-runtime-lib/unknown:2.23.112.0-9b5179492 amd64

  • aws-neuronx-tools/unknown:2.20.204.0 amd64

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 12 月 21 日

SageMaker HyperPod DLAMI 支援 Slurm

Deep Learning Slurm AMI
  • NVIDIA 驅動程式:550.127.05

  • EFA 驅動程式:2.13.0-1

  • 安裝最新版的 AWS Neuron SDK

    • aws-neuronx-collectives:2.22.33.0

    • aws-neuronx-dkms:2.18.20.0

    • aws-neuronx-oci-hook:2.5.8.0

    • aws-neuronx-runtime-lib:2.22.19.0

    • aws-neuronx-tools:2.19.0.0

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 11 月 24 日

AMI 一般更新

  • MEL(墨爾本) 區域發行。

  • 將 SageMaker HyperPod 基礎 DLAMI 更新為下列版本:

    • Slurm:2024-11-22。

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 11 月 15 日

AMI 一般更新

  • 已安裝最新的libnvidia-nscq-xxx套件。

SageMaker HyperPod DLAMI 支援 Slurm

Deep Learning Slurm AMI
  • NVIDIA 驅動程式:550.127.05

  • EFA 驅動程式:2.13.0-1

  • 安裝最新版的 AWS Neuron SDK

    • aws-neuronx-collectives:v2.22.33.0-d2128d1aa

    • aws-neuronx-dkms:v2.17.17.0

    • aws-neuronx-oci-hook:2.4.4.0 版

    • aws-neuronx-runtime-lib:v2.21.41.0

    • aws-neuronx-tools:2.18.3.0 版

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 11 月 11 日

AMI 一般更新

  • 將 SageMaker HyperPod 基礎 DLAMI 更新至下列版本:

    • Slurm:2024-10-23。

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 10 月 21 日

AMI 一般更新

  • 將 SageMaker HyperPod 基礎 DLAMI 更新為下列版本:

    • Slurm:2024-09-27。

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 9 月 10 日

SageMaker HyperPod DLAMI 支援 Slurm

Deep Learning Slurm AMI
  • 安裝 NVIDIA 驅動程式 v550.90.07

  • 已安裝 EFA 驅動程式 2.10 版

  • 已安裝最新版的 AWS Neuron SDK

    • aws-neuronx-collectives:v2.21.46.0

    • aws-neuronx-dkms:v2.17.17.0

    • aws-neuronx-oci-hook:2.4.4.0 版

    • aws-neuronx-runtime-lib:v2.21.41.0

    • aws-neuronx-tools:2.18.3.0 版

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 3 月 14 日

HyperPod DLAMI for Slurm 軟體修補程式

  • 升級 Slurm 至 v23.11.1

  • 新增 OpenPMIx v4.2.6 以使用 PMIx 啟用 Slurm

  • 建置於 2023-10-26 發行的AWS 深度學習基礎 GPU AMI (Ubuntu 20.04)

  • 除了基本 AMI 之外,此 HyperPod DLAMI 中預先安裝套件的完整清單

    • Slurm:v23.11.1

    • OpenPMIx:4.2.6 版

    • Munge:0.5.15 版

    • aws-neuronx-dkms:v2.*

    • aws-neuronx-collectives:v2.*

    • aws-neuronx-runtime-lib:v2.*

    • aws-neuronx-tools:v2.*

    • 支援叢集運作狀態檢查和自動恢復等功能的 SageMaker HyperPod 軟體套件

升級步驟

  • 執行下列命令來呼叫 UpdateClusterSoftware API,以使用最新的 HyperPod DLAMI 更新現有的 HyperPod 叢集。若要尋找更多指示,請參閱 更新叢集的 SageMaker HyperPod 平台軟體

    重要

    在執行此 API 之前備份您的工作。修補程序會將根磁碟區取代為更新的 AMI,這表示先前存放在執行個體根磁碟區中的資料將會遺失。請確定您將資料從執行個體根磁碟區備份至 Amazon S3 或 Amazon FSx for Lustre。如需詳細資訊,請參閱使用 SageMaker HyperPod 提供的備份指令碼

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    請注意,您應該執行 AWS CLI 命令來更新 HyperPod 叢集。目前無法透過 SageMaker HyperPod 主控台 UI 更新 HyperPod HyperPod 軟體。

適用於 Slurm 的 SageMaker HyperPod AMI 版本:2023 年 11 月 29 日

適用於 Slurm 軟體修補程式的 HyperPod DLAMI

HyperPod 服務團隊會透過 分發軟體修補程式SageMaker HyperPod DLAMI。請參閱下列有關最新 HyperPod DLAMI 的詳細資訊。

  • 建置於 2023-10-18 發行的AWS 深度學習基礎 GPU AMI (Ubuntu 20.04)

  • 除了基本 AMI 之外,此 HyperPod DLAMI 中預先安裝套件的完整清單

    • Slurm:v23.02.3

    • Munge:0.5.15 版

    • aws-neuronx-dkms:v2.*

    • aws-neuronx-collectives:v2.*

    • aws-neuronx-runtime-lib:v2.*

    • aws-neuronx-tools:v2.*

    • 支援叢集運作狀態檢查和自動恢復等功能的 SageMaker HyperPod 軟體套件