本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Slurm 的 SageMaker HyperPod AMI 版本
下列版本備註會追蹤 Slurm 協同運作的 Amazon SageMaker HyperPod AMI 版本最新更新。這些 HyperPod AMIs 是以AWS 深度學習基礎 GPU AMI (Ubuntu 22.04)
注意
若要使用最新的 DLAMI 更新現有的 HyperPod 叢集,請參閱 更新叢集的 SageMaker HyperPod 平台軟體。
適用於 Slurm 的 SageMaker HyperPod AMI 版本:2025 年 5 月 13 日
Amazon SageMaker HyperPod 發行了更新的 AMI,支援適用於 Slurm 叢集的 Ubuntu 22.04 LTS。 會 AWS 定期更新 AMIs,以確保您可存取最新的軟體堆疊。升級到最新的 AMI 透過全面的套件更新、改善工作負載的效能和穩定性,以及與新執行個體類型和最新核心功能的相容性,提供增強的安全性。
重要
從 Ubuntu 20.04 LTS 更新至 Ubuntu 22.04 LTS 引入的變更可能會影響與專為 Ubuntu 20.04 設計之軟體和組態的相容性。
在此版本備註中,您將看到:
Ubuntu 22.04 AMI 中的金鑰更新
下表列出 Ubuntu 22.04 AMI 與先前 AMI 的元件版本。
元件 | 先前版本 | 更新版本 |
---|---|---|
Ubuntu 作業系統 |
20.04 LTS |
22.04 LTS |
Slurm |
24.11 |
24.11 (未變更) |
Python |
3.8 (預設) |
3.10 (預設) |
Amazon FSx 上的 Elastic Fabric Adapter (EFA) |
不支援 |
支援 |
Linux 核心 |
5.15 |
6.8 |
GNU C 程式庫 (glibc) |
2.31 |
2.35 |
GNU 編譯器集合 (GCC) |
9.4.0 |
11.4.0 |
libc6 |
≤ 2.31 |
支援 ≥ 2.35 |
網路檔案系統 (NFS) |
1:1.3.4 |
1:2.6.1 |
注意
雖然 Slurm 版本 (24.11) 保持不變,但此 AMI 中的基礎作業系統和程式庫更新可能會影響您的系統行為和工作負載相容性。升級生產叢集之前,您必須先測試工作負載。
升級到 Ubuntu 22.04 AMI
將叢集升級至 Ubuntu 22.04 AMI 之前,請完成這些準備步驟並檢閱升級要求。若要疑難排解升級失敗,請參閱 升級失敗的故障診斷。
檢閱 Python 相容性
Ubuntu 22.04 AMI 使用 Python 3.10 作為預設版本,從 Python 3.8 升級。雖然 Python 3.10 維持與大多數 Python 3.8 程式碼的相容性,但您應該在升級之前測試現有的工作負載。如果您的工作負載需要 Python 3.8,您可以在生命週期指令碼中使用下列命令來安裝它:
yum install python-3.8
升級叢集之前,請務必執行下列動作:
-
測試您的程式碼與 Python 3.10 的相容性。
-
驗證您的生命週期指令碼在新的環境中運作。
-
檢查所有相依性是否與新的 Python 版本相容。
-
如果您透過從 GitHub 複製預設生命週期指令碼來建立 HyperPod 叢集,請在升級至 Ubuntu 22 之前,將下列命令新增至您的
setup_mariadb_accounting.sh
檔案。如需完整的指令碼,請參閱 GitHub 上的 setup_mariadb_accounting.sh。 apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
升級 Slurm 叢集
您可以透過兩種方式升級 Slurm 叢集以使用新的 AMI:
-
使用
CreateCluster
API 建立新的叢集。 -
使用
UpdateClusterSoftware
API 更新現有叢集的軟體。
已驗證的組態
AWS 已在 G5, G6, G6e, P4d, P5 和 Trn1 執行個體上測試過各種分散式訓練工作負載和基礎設施功能,包括:
叢集停機時間和可用性
在升級過程中,叢集將無法使用。若要將中斷降至最低,請執行下列動作:
-
在較小的叢集上測試升級程序。
-
在升級之前建立檢查點,然後在升級完成後從現有檢查點重新啟動訓練工作負載。
升級失敗的故障診斷
當升級失敗時,請先判斷失敗是否與生命週期指令碼相關。這些指令碼通常因為語法錯誤、缺少相依性或組態不正確而失敗。
若要調查與生命週期指令碼相關的故障,請檢查 CloudWatch 日誌。所有 SageMaker HyperPod 事件和日誌都存放在日誌群組下:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]
。請特別查看日誌串流 LifecycleConfig/[instance-group-name]/[instance-id]
,其提供有關指令碼執行期間任何錯誤的詳細資訊。
如果升級失敗與生命週期指令碼無關,請收集相關資訊,包括叢集 ARN、錯誤日誌和時間戳記,然後聯絡AWS 支援
適用於 Slurm 的 SageMaker HyperPod AMI 版本:2025 年 5 月 7 日
Amazon SageMaker HyperPod for Slurm 發佈主要作業系統版本升級至 Ubuntu 22.04 (從舊版 Ubuntu 20.04)。如需詳細資訊,請參閱 DLAMI Ubuntu 22.04 (版本備註Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503
。
金鑰套件升級:
-
Ubuntu 22.04 LTS (自 20.04 起)
-
Python 版本:
-
Python 3.10 現在是 Slurm AMI Ubuntu 22.04 中的預設 Python 版本
-
此升級可讓您存取 Python 3.10 中引進的最新功能、效能改善和錯誤修正
-
-
支援 FSx 上的 EFA
-
新的 Linux 核心 6.8 版 (更新自 5.15)
-
Glibc 版本:2.35 (更新自 2.31)
-
GCC 版本:11.4.0 (更新自 9.4.0)
-
較新的 libc6 版本支援 (來自 libc6 版本 <= 2.31)
-
NFS 版本:1:2.6.1 (更新自 1:1.3.4)
適用於 Slurm 的 SageMaker HyperPod AMI 版本:2025 年 4 月 28 日
Slurm 的改進
-
已將 NVIDIA 驅動程式從版本 550.144.03 升級至 550.163.01。此升級是為了解決 2025 年 4 月 NVIDIA GPU 顯示安全公告
中常見的漏洞與暴露 (CVEs)。
Amazon SageMaker HyperPod DLAMI 支援 Slurm
適用於 Slurm 的 SageMaker HyperPod AMI 版本:2025 年 2 月 18 日
Slurm 的改進
-
已將 Slurm 版本升級至 24.11。
-
已將 Elastic Fabric Adapter (EFA) 版本從 1.37.0 升級至 1.38.0。
-
EFA 現在包含 AWS OFI NCCL 外掛程式。您可以在
/opt/amazon/ofi-nccl
目錄中找到此外掛程式,而不是原始/opt/aws-ofi-nccl/
位置。如果您需要更新LD_LIBRARY_PATH
環境變數,請務必修改路徑,以指向 OFI NCCL 外掛程式的新/opt/amazon/ofi-nccl
位置。 -
從這些 DLAMIs 中移除 emacs 套件。您可以從 GNU emac 安裝 emac。
Amazon SageMaker HyperPod DLAMI 支援 Slurm
適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 12 月 21 日
SageMaker HyperPod DLAMI 支援 Slurm
適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 11 月 24 日
AMI 一般更新
-
在
MEL
(墨爾本) 區域發行。 -
將 SageMaker HyperPod 基礎 DLAMI 更新為下列版本:
-
Slurm:2024-11-22。
-
適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 11 月 15 日
AMI 一般更新
-
已安裝最新的
libnvidia-nscq-xxx
套件。
SageMaker HyperPod DLAMI 支援 Slurm
適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 11 月 11 日
AMI 一般更新
-
將 SageMaker HyperPod 基礎 DLAMI 更新至下列版本:
-
Slurm:2024-10-23。
-
適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 10 月 21 日
AMI 一般更新
-
將 SageMaker HyperPod 基礎 DLAMI 更新為下列版本:
-
Slurm:2024-09-27。
-
適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 9 月 10 日
SageMaker HyperPod DLAMI 支援 Slurm
適用於 Slurm 的 SageMaker HyperPod AMI 版本:2024 年 3 月 14 日
HyperPod DLAMI for Slurm 軟體修補程式
-
升級 Slurm
至 v23.11.1 -
新增 OpenPMIx
v4.2.6 以使用 PMIx 啟用 Slurm 。 -
建置於 2023-10-26 發行的AWS 深度學習基礎 GPU AMI (Ubuntu 20.04)
-
除了基本 AMI 之外,此 HyperPod DLAMI 中預先安裝套件的完整清單
升級步驟
-
執行下列命令來呼叫 UpdateClusterSoftware API,以使用最新的 HyperPod DLAMI 更新現有的 HyperPod 叢集。若要尋找更多指示,請參閱 更新叢集的 SageMaker HyperPod 平台軟體。
重要
在執行此 API 之前備份您的工作。修補程序會將根磁碟區取代為更新的 AMI,這表示先前存放在執行個體根磁碟區中的資料將會遺失。請確定您將資料從執行個體根磁碟區備份至 Amazon S3 或 Amazon FSx for Lustre。如需詳細資訊,請參閱使用 SageMaker HyperPod 提供的備份指令碼。
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
注意
請注意,您應該執行 AWS CLI 命令來更新 HyperPod 叢集。目前無法透過 SageMaker HyperPod 主控台 UI 更新 HyperPod HyperPod 軟體。
適用於 Slurm 的 SageMaker HyperPod AMI 版本:2023 年 11 月 29 日
適用於 Slurm 軟體修補程式的 HyperPod DLAMI
HyperPod 服務團隊會透過 分發軟體修補程式SageMaker HyperPod DLAMI。請參閱下列有關最新 HyperPod DLAMI 的詳細資訊。
-
建置於 2023-10-18 發行的AWS 深度學習基礎 GPU AMI (Ubuntu 20.04)
-
除了基本 AMI 之外,此 HyperPod DLAMI 中預先安裝套件的完整清單
-
Slurm
:v23.02.3 -
Munge:0.5.15 版
-
aws-neuronx-dkms
:v2.* -
aws-neuronx-collectives
:v2.* -
aws-neuronx-runtime-lib
:v2.* -
aws-neuronx-tools
:v2.* -
支援叢集運作狀態檢查和自動恢復等功能的 SageMaker HyperPod 軟體套件
-