Slurm 向け SageMaker HyperPod AMI リリース - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Slurm 向け SageMaker HyperPod AMI リリース

次のリリースノートは、Slurm オーケストレーション向け Amazon SageMaker HyperPod AMI リリースの最新情報を提供します。これらの HyperPod AMI は AWS Deep Learning Base GPU AMI (Ubuntu 22.04) を基盤に構築されています。HyperPod サービスチームは、SageMaker HyperPod DLAMI を通じてソフトウェアパッチを配布しています。Amazon EKS 向け HyperPod AMI リリースについては、「Amazon EKS 向け SageMaker HyperPod AMI リリース」を参照してください。Amazon SageMaker HyperPod の機能リリースについては、「Amazon SageMaker HyperPod リリースノート」を参照してください。

注記

既存の HyperPod クラスターを最新の DLAMI で更新する手順については、「クラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する」を参照してください。

Slurm の SageMaker HyperPod AMI リリース: 2025 年 11 月 22 日

AMI の一般的な更新

  • Slurm バージョン 24.11 用の SageMaker HyperPod AMI の更新をリリースしました。

  • 基本 DLAMI リリースノートは、こちらで入手できます。

Slurm 用 SageMaker HyperPod DLAMI のサポート

このリリースでは、以下が更新されています。

Slurm (arm64)
  • Linux カーネルバージョン: 6.8

  • Glibc バージョン: 2.35

  • OpenSSL バージョン: 3.0.2

  • FSx Lustre クライアントバージョン: 2.15.6-1fsx21

  • Runc バージョン: 1.3.3

  • Containerd バージョン: containerd containerd.io v2.1.5

  • NVIDIA ドライバーのバージョン: 580.95.05

  • CUDA バージョン: 12.6、12.8、12.9、13.0

  • EFA インストーラバージョン: 2.1.0amzn5.0

  • Python バージョン: 3.10.12

  • Slurm バージョン: 24.11.0

  • nvme-cli バージョン: 1.16

  • collectd バージョン: 5.12.0。

  • lustre-client バージョン: 2.15.6-1fsx21

  • nvidia-imex バージョン: 580.95.05-1

  • systemd バージョン: 249

  • openssh バージョン: 8.9

  • sudo バージョン: 1.9.9

  • ufw バージョン: 0.36.1

  • gcc バージョン: 11.4.0

  • cmake バージョン: 3.22.1

  • git バージョン: 2.34.1

  • make バージョン: 4.3

  • cloudwatch-agent バージョン: 1.300062.0b1304-1

  • nfs-utils バージョン: 1:2.6.1-1ubuntu1.2

  • iscsi-initiator-utils バージョン: 2.1.5-1ubuntu1.1

  • lvm2 バージョン: 2.03.11

  • ec2-instance-connect バージョン: 1.1.14-0ubuntu1.1

  • rdma-core バージョン: 58.amzn0-1

Slurm (x86_64)
  • Linux カーネルバージョン: 6.8

  • Glibc バージョン: 2.35

  • OpenSSL バージョン: 3.0.2

  • FSx Lustre クライアントバージョン: 2.15.6-1fsx21

  • Runc バージョン: 1.3.3

  • Containerd バージョン: containerd containerd.io v2.1.5

  • aws Neuronx DKMS バージョン: 2.24.7.0

  • NVIDIA ドライバーのバージョン: 580.95.05

  • CUDA バージョン: 12.6、12.8、12.9、13.0

  • EFA インストーラバージョン: 2.3.1amzn1.0

  • Python バージョン: 3.10.12

  • Slurm バージョン: 24.11.0

  • nvme-cli バージョン: 1.16

  • ストレスバージョン: 1.0.5

  • collectd バージョン: 5.12.0。

  • lustre-client バージョン: 2.15.6-1fsx21

  • systemd バージョン: 249

  • openssh バージョン: 8.9

  • sudo バージョン: 1.9.9

  • ufw バージョン: 0.36.1

  • gcc バージョン: 11.4.0

  • cmake バージョン: 3.22.1

  • make バージョン: 4.3

  • cloudwatch-agent バージョン: 1.300062.0b1304-1

  • nfs-utils バージョン: 1:2.6.1-1ubuntu1.2

  • iscsi-initiator-utils バージョン: 2.1.5-1ubuntu1.1

  • lvm2 バージョン: 2.03.11

  • ec2-instance-connect バージョン: 1.1.14-0ubuntu1.1

  • rdma-core バージョン: 59.amzn0-1

SageMaker HyperPod リリースノート: 2025 年 11 月 7 日

AMI には以下が含まれます。

  • サポートAWS のサービス: Amazon EC2

  • オペレーティングシステム: Ubuntu 22.04

  • コンピューティングアーキテクチャ: ARM64

  • 更新されたパッケージ: NVIDIA ドライバー: 580.95.05

  • CUDA バージョン: cuda-12.6、cuda-12.8、cuda-12.9、cuda-13.0

  • セキュリティ修正: Runc Security パッチ

SageMaker HyperPod リリースノート: 2025 年 9 月 29 日

AMI には以下が含まれます。

  • サポートAWS のサービス: Amazon EC2

  • オペレーティングシステム: Ubuntu 22.04

  • コンピューティングアーキテクチャ: ARM64

  • 更新されたパッケージ: NVIDIA ドライバー: 570.172.08

  • セキュリティの修正内容

SageMaker HyperPod リリースノート: 2025 年 8 月 12 日

AMI には以下が含まれます。

  • サポートAWS のサービス: Amazon EC2

  • オペレーティングシステム: Ubuntu 22.04

  • コンピューティングアーキテクチャ: ARM64

  • 利用可能な最新バージョンは、次のパッケージにインストールされます。

    • Linux カーネル: 6.8

    • FSx Lustre

    • Docker

    • AWS CLIでの v2 /usr/bin/aws

    • NVIDIA DCGM

    • NVIDIA Container Toolkit:

      • Version コマンド: nvidia-container-cli -V

    • Nvidia-docker2:

      • Version コマンド: nvidia-docker version

    • Nvidia-IMEX: v570.172.08-1

  • NVIDIA ドライバー: 570.158.01

  • NVIDIA CUDA 12.4、12.5、12.6、12.8 スタック:

    • CUDA、NCCL、および cuDDN インストールディレクトリ: /usr/local/cuda-xx.x/

      • 例: /usr/local/cuda-12.8//usr/local/cuda-12.8/

    • コンパイルされた NCCL バージョン:

      • 12.4 の CUDA ディレクトリの場合、コンパイルされた NCCL バージョン 2.22.3+CUDA12.4

      • 12.5 の CUDA ディレクトリの場合、コンパイルされた NCCL バージョン 2.22.3+CUDA12.5

      • 12.6 の CUDA ディレクトリの場合、コンパイルされた NCCL バージョン 2.24.3+CUDA12.6

      • 12.8 の CUDA ディレクトリの場合、コンパイルされた NCCL バージョン 2.27.5+CUDA12.8

    • デフォルトの CUDA: 12.8

      • PATH /usr/local/cudaが CUDA 12.8 を指す

      • 以下の環境変数が更新されました。

        • LD_LIBRARY_PATH を持つには /usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64

        • PATH を持つには /usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • 別の CUDA バージョンについては、LD_LIBRARY_PATHそれに応じて更新してください。

  • EFA インストーラ: 1.42.0

  • Nvidia GDRCopy: 2.5.1

  • AWSOFI NCCL プラグインに EFA インストーラが付属

    • パス/opt/amazon/ofi-nccl/lib/aarch64-linux-gnu/opt/amazon/ofi-nccl/efaが に追加されますLD_LIBRARY_PATH

  • AWS CLIでの v2 /usr/local/bin/aws2と での AWS CLIv1 /usr/bin/aws

  • EBS ボリュームタイプ: gp3

  • Python: /usr/bin/python3.10

SageMaker HyperPod リリースノート: 2025 年 5 月 27 日

SageMaker HyperPod は、Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする 用に以下をリリースします。

新しい機能と改善点

  • ベース AMI を次の主要コンポーネントを使用して Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523 に更新しました。

    • NVIDIA ドライバー: 570.133.20

    • CUDA: 12.8 (デフォルト), CUDA 12.4~12.6 をサポート

    • NCCL バージョン: 2.26.5

    • EFA インストーラ: 1.40.0

    • AWSOFI NCCL: 1.14.2-aws

  • Neuron SDK パッケージを次のとおり更新しました。

    • aws-neuronx-collectives: 2.25.65.0-9858ac9a1 (2.24.59.0-838c7fc8b から)

    • aws-neuronx-dkms: 2.21.37.0 (2.20.28.0 から)

    • aws-neuronx-runtime-lib: 2.25.57.0-166c7a468 (2.24.53.0-f239092cc から)

    • aws-neuronx-tools: 2.23.9.0 (2.22.61.0 から)

重要な注意事項

  • NVIDIA Container Toolkit 1.17.4 では、CUDA 互換ライブラリのマウントが無効になりました。

  • EFA 設定を 1.37 から 1.38 に更新し、EFA に AWS OFI NCCL プラグインが含まれるようになりました。このプラグインは、元のパスの /opt/aws-ofi-nccl/ ではなく /opt/amazon/ofi-nccl ディレクトリに配置されています。(2025 年 2 月 18 日にリリース)

  • カーネルバージョンは、安定性とドライバーの互換性のために固定されるようになりました。

Slurm 向け SageMaker HyperPod AMI リリース: 2025 年 5 月 13 日

Amazon SageMaker HyperPod は、Ubuntu 22.04 LTS for Slurm clusters をサポートする更新された AMIs をリリースしました。 は、AMI AWSを定期的に更新して、最新のソフトウェアスタックにアクセスできることを確認します。最新の AMI にアップグレードすると、包括的なパッケージ更新、ワークロードのパフォーマンスと安定性の向上、新しいインスタンスタイプと最新のカーネル機能との互換性により、セキュリティが強化されます。

重要

Ubuntu 20.04 LTS から Ubuntu 22.04 LTS への更新により、Ubuntu 20.04 用に設計されたソフトウェアと設定との互換性に影響を与える可能性のある変更が導入されました。

Ubuntu 22.04 AMI の主な更新

Ubuntu 22.04 AMI のコンポーネントのバージョンの以前の AMI との比較は、次の表のとおりです。

以前の AMI と Ubuntu 22.04 AMI のコンポーネントのバージョンの比較
コンポーネント 以前のバージョン アップデートされたバージョン

Ubuntu OS

20.04 LTS

22.04 LTS

Slurm

24.11

24.11 (変更なし)

Python

3.8 (デフォルト)

3.10 (デフォルト)

Amazon FSx の Elastic Fabric Adapter (EFA)

サポート外

サポート

Linux カーネル

5.15

6.8

GNU C ライブラリ (glibc)

2.31

2.35

GNU コンパイラコレクション (GCC)

9.4.0

11.4.0

libc6

≤ 2.31

≥ 2.35 をサポート

ネットワークファイルシステム (NFS)

1:1.3.4

1:2.6.1

注記

Slurm バージョン (24.11) には変更がありませんが、この AMI の基盤となる OS とライブラリの更新により、システム動作とワークロードの互換性に影響する可能性があります。本番稼働用クラスターをアップグレードする前に、ワークロードをテストする必要があります。

Ubuntu 22.04 AMI へのアップグレード

クラスターを Ubuntu 22.04 AMI にアップグレードする前に、以下の準備手順を完了し、アップグレード要件を確認してください。アップグレードの障害をトラブルシューティングするには、「アップグレードの失敗のトラブルシューティング」を参照してください。

Python の互換性を確認する

Ubuntu 22.04 AMI は、Python 3.8 からアップグレードされたデフォルトバージョンとして Python 3.10 を使用します。Python 3.10 はほとんどの Python 3.8 コードとの互換性を維持しますが、アップグレードする前に既存のワークロードをテストする必要があります。ワークロードに Python 3.8 が必要な場合は、ライフサイクルスクリプトで次のコマンドを使用してインストールできます。

yum install python-3.8

クラスターをアップグレードする前に、必ず以下を実行してください。

  1. Python 3.10 とのコード互換性をテストします。

  2. ライフサイクルスクリプトが新しい環境で機能することを検証します。

  3. すべての依存関係が新しい Python バージョンと互換性があることを確認します。

  4. GitHub からデフォルトのライフサイクルスクリプトをコピーして HyperPod クラスターを作成した場合は、Ubuntu 22 にアップグレードする前に、次のコマンドを setup_mariadb_accounting.sh ファイルに追加します。完全なスクリプトについては、「GitHub の setup_mariadb_accounting.sh」を参照してください。

    apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg

Slurm クラスターをアップグレードする

新しい AMI を使用するように Slurm クラスターをアップグレードするには、次の 2 つの方法があります。

  1. CreateCluster コマンドを使用して、新しいクラスターを作成します。

  2. UpdateClusterSoftware API を使用して既存のクラスターのソフトウェアを更新します。

検証済みの設定

AWSは、GG5, G6, G6e, P4d, P5、Trn1 インスタンスで、次のようなさまざまな分散トレーニングワークロードとインフラストラクチャ機能をテストしています。

  • PyTorch による分散トレーニング (FSDP、NeMo、LLaMA、MNIST など)

  • Nvidia (P/G シリーズ) と AWSNeuron (Trn1) を使用したインスタンスタイプのアクセラレーターテスト。

  • auto-resumeディープヘルスチェックなどの耐障害性機能

クラスターのダウンタイムと可用性

アップグレードプロセス中、クラスターは使用できなくなります。中断を最小限に抑えるには、以下を実行します。

  • 小規模なクラスターでアップグレードプロセスをテストします。

  • アップグレード前にチェックポイントを作成し、アップグレードの完了後に既存のチェックポイントからトレーニングワークロードを再起動します。

アップグレードの失敗のトラブルシューティング

アップグレードが失敗した場合、まず失敗がライフサイクルスクリプトに関連しているかどうかを判断します。これらのスクリプトは通常、構文エラー、依存関係の欠落、または誤った設定が原因で失敗します。

ライフサイクルスクリプトに関連する障害を調査するには、CloudWatch ログを確認します。すべての SageMaker HyperPod イベントとログは、ロググループ /aws/sagemaker/Clusters/[ClusterName]/[ClusterID] の下に保存されます。特に、スクリプト実行中のエラーに関する詳細情報を提供する LifecycleConfig/[instance-group-name]/[instance-id] ログストリーム を調べます。

アップグレードの失敗がライフサイクルスクリプトと無関係である場合は、クラスター ARN、エラーログ、タイムスタンプなどの関連情報を収集し、AWS サポートにお問い合わせください。

Slurm 向け SageMaker HyperPod AMI リリース: 2025 年 5 月 7 日

Amazon SageMaker HyperPod for Slurm は、Ubuntu 22.04 (以前の Ubuntu 20.04 から) へのメジャー OS バージョンアップグレードをリリースしました。詳細については、DLAMI Ubuntu 22.04 (リリースノート) Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503 を確認してください。

パッケージの主なアップグレード:

  • Ubuntu 22.04 LTS (20.04 から)

  • Python バージョン:

    • Python 3.10 が Slurm AMI Ubuntu 22.04 のデフォルトの Python バージョンになりました

    • このアップグレードにより、Python 3.10 で導入された最新の機能、パフォーマンスの向上、バグ修正にアクセスできます。

  • FSx での EFA のサポート

  • 新しい Linux カーネルバージョン 6.8 (5.15 から更新)

  • Glibc バージョン: 2.35 (2.31 から更新)

  • GCC バージョン: 11.4.0 (9.4.0 から更新)

  • 新しい libc6 バージョンのサポート (libc6 バージョン <= 2.31 から)

  • NFS バージョン: 1:2.6.1 (1:1.3.4 から更新)

Slurm 向け SageMaker HyperPod AMI リリース: 2025 年 4 月 28 日

Slurm の改善点

Slurm 向け Amazon SageMaker HyperPod DLAMI のサポート

Installed the latest version ofAWSNeuron SDK
  • aws-neuronx-collectives: 2.24.59.0-838c7fc8b

  • aws-neuronx-dkms: 2.20.28.0

  • aws-neuronx-runtime-lib: 2.24.53.0-f239092cc

  • aws-neuronx-tools/unknown: 2.22.61.0

Slurm 向け SageMaker HyperPod AMI リリース: 2025 年 2 月 18 日

Slurm の改善点

  • Slurm バージョンを 24.11 にアップグレードしました。

  • Elastic Fabric Adapter (EFA) バージョンを 1.37.0 から 1.38.0 にアップグレードしました。

  • EFA に AWSOFI NCCL プラグインが含まれるようになりました。このプラグインは、元の場所の /opt/aws-ofi-nccl/ ではなく /opt/amazon/ofi-nccl ディレクトリにあります。LD_LIBRARY_PATH 環境変数を更新する必要がある場合は、OFI NCCL プラグインの新しい /opt/amazon/ofi-nccl の場所を指すようにパスを変更してください。

  • これらの DLAMI から emacs パッケージを削除しました。GNU emac から emac をインストールできるようになりました。

Slurm 向け Amazon SageMaker HyperPod DLAMI のサポート

Installed the latest version ofAWSNeuron SDK 2.19
  • aws-neuronx-collectives/unknown: 2.23.135.0-3e70920f2 amd64

  • aws-neuronx-dkms/unknown: 2.19.64.0 amd64

  • aws-neuronx-runtime-lib/unknown: 2.23.112.0-9b5179492 amd64

  • aws-neuronx-tools/unknown: 2.20.204.0 amd64

Slurm 向け SageMaker HyperPod AMI リリース: 2024 年 12 月 21 日

Slurm 用 SageMaker HyperPod DLAMI のサポート

Deep Learning Slurm AMI
  • NVIDIA ドライバー: 550.127.05

  • EFA ドライバー: 2.13.0-1

  • AWSNeuron SDK の最新バージョンをインストールしました

    • aws-neuronx-collectives: 2.22.33.0

    • aws-neuronx-dkms: 2.18.20.0

    • aws-neuronx-oci-hook: 2.5.8.0

    • aws-neuronx-runtime-lib: 2.22.19.0

    • aws-neuronx-tools: 2.19.0.0

Slurm 向け SageMaker HyperPod AMI リリース: 2024 年 11 月 24 日

AMI の一般的な更新

  • MEL (メルボルン) リージョンでリリースされました。

  • SageMaker HyperPod ベース DLAMI を次のバージョンに更新しました。

    • Slurm: 2024-11-22

Slurm 向け SageMaker HyperPod AMI リリース: 2024 年 11 月 15 日

AMI の一般的な更新

  • libnvidia-nscq-xxx の最新バージョンをインストールしました。

Slurm 用 SageMaker HyperPod DLAMI のサポート

Deep Learning Slurm AMI
  • NVIDIA ドライバー: 550.127.05

  • EFA ドライバー: 2.13.0-1

  • AWSNeuron SDK の最新バージョンをインストールしました

    • aws-neuronx-collectives: v2.22.33.0-d2128d1aa

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

Slurm 向け SageMaker HyperPod AMI リリース: 2024 年 11 月 11 日

AMI の一般的な更新

  • SageMaker HyperPod ベース DLAMI を次のバージョンに更新しました。

    • Slurm: 2024-10-23

Slurm 向け SageMaker HyperPod AMI リリース: 2024 年 10 月 21 日

AMI の一般的な更新

  • SageMaker HyperPod ベース DLAMI を次のバージョンに更新しました。

    • Slurm: 2024-09-27

Slurm 向け SageMaker HyperPod AMI リリース: 2024 年 9 月 10 日

Slurm 用 SageMaker HyperPod DLAMI のサポート

Deep Learning Slurm AMI
  • NVIDIA ドライバー v550.90.07 をインストールしました

  • EFA ドライバー v2.10 をインストールしました

  • AWSNeuron SDK の最新バージョンをインストールしました

    • aws-neuronx-collectives: v2.21.46.0

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

Slurm 向け SageMaker HyperPod AMI リリース: 2024 年 3 月 14 日

Slurm 用 HyperPod DLAMI ソフトウェアパッチ

  • Slurm を v23.11.1 にアップグレード

  • Slurm と PMIx を有効にするため、OpenPMIx v4.2.6 を追加しました。

  • 2023 年 10 月 26 日にリリースされた AWS Deep Learning Base GPU AMI (Ubuntu 20.04) に基づいて構築

  • ベース AMI に加えて、この HyperPod DLAMI にプリインストールされたパッケージの詳細なリスト

    • Slurm : v23.11.1

    • OpenPMIx : v4.2.6

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • クラスターヘルスチェックや自動再開などの機能をサポートする SageMaker HyperPod ソフトウェアパッケージ

アップグレードステップ

  • 次のコマンドを実行して UpdateClusterSoftware API を呼び出し、既存の HyperPod クラスターを最新の HyperPod DLAMI で更新します。手順の詳細については、「クラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する」を参照してください。

    重要

    この API を実行する前に、作業内容をバックアップしてください。パッチ適用プロセスでは、ルートボリュームが更新された AMI に置き換えられます。つまり、インスタンスのルートボリュームに保存されていた以前のデータは失われます。必ず、インスタンスルートボリュームから Amazon S3 または Amazon FSx for Lustre にデータをバックアップしてください。詳細については、「SageMaker HyperPod が提供するバックアップスクリプトを使用する」を参照してください。

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注記

    HyperPod クラスターを更新するには、 AWS CLIコマンドを実行する必要があります。SageMaker HyperPod コンソール UI を介した HyperPod ソフトウェアの更新は現在利用できません。

Slurm 向け SageMaker HyperPod AMI リリース: 2023 年 11 月 29 日

Slurm 用 HyperPod DLAMI ソフトウェアパッチ

HyperPod サービスチームは、SageMaker HyperPod DLAMI を通じてソフトウェアパッチを配布しています。最新の HyperPod DLAMI の詳細については、以下を参照してください。

  • 2023 年 10 月 18 日にリリースされた AWS Deep Learning Base GPU AMI (Ubuntu 20.04) に基づいて構築

  • ベース AMI に加えて、この HyperPod DLAMI にプリインストールされたパッケージの詳細なリスト

    • Slurm: v23.02.3

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2.*

    • aws-neuronx-collectives: v2.*

    • aws-neuronx-runtime-lib: v2.*

    • aws-neuronx-tools: v2.*

    • クラスターヘルスチェックや自動再開などの機能をサポートする SageMaker HyperPod ソフトウェアパッケージ