翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Slurm 向け SageMaker HyperPod AMI リリース
次のリリースノートは、Slurm オーケストレーション向け Amazon SageMaker HyperPod AMI リリースの最新情報を提供します。これらの HyperPod AMI は AWS Deep Learning Base GPU AMI (Ubuntu 22.04)
注記
既存の HyperPod クラスターを最新の DLAMI で更新する手順については、「クラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する」を参照してください。
Slurm の SageMaker HyperPod AMI リリース: 2025 年 11 月 22 日
AMI の一般的な更新
-
Slurm バージョン 24.11 用の SageMaker HyperPod AMI の更新をリリースしました。
-
基本 DLAMI リリースノートは、こちらで入手できます。
Slurm 用 SageMaker HyperPod DLAMI のサポート
このリリースでは、以下が更新されています。
SageMaker HyperPod リリースノート: 2025 年 11 月 7 日
AMI には以下が含まれます。
-
サポートAWS のサービス: Amazon EC2
-
オペレーティングシステム: Ubuntu 22.04
-
コンピューティングアーキテクチャ: ARM64
-
更新されたパッケージ: NVIDIA ドライバー: 580.95.05
-
CUDA バージョン: cuda-12.6、cuda-12.8、cuda-12.9、cuda-13.0
-
セキュリティ修正: Runc Security パッチ
SageMaker HyperPod リリースノート: 2025 年 9 月 29 日
AMI には以下が含まれます。
-
サポートAWS のサービス: Amazon EC2
-
オペレーティングシステム: Ubuntu 22.04
-
コンピューティングアーキテクチャ: ARM64
-
更新されたパッケージ: NVIDIA ドライバー: 570.172.08
-
セキュリティの修正内容
SageMaker HyperPod リリースノート: 2025 年 8 月 12 日
AMI には以下が含まれます。
-
サポートAWS のサービス: Amazon EC2
-
オペレーティングシステム: Ubuntu 22.04
-
コンピューティングアーキテクチャ: ARM64
-
利用可能な最新バージョンは、次のパッケージにインストールされます。
-
Linux カーネル: 6.8
-
FSx Lustre
-
Docker
-
AWS CLIでの v2
/usr/bin/aws -
NVIDIA DCGM
-
NVIDIA Container Toolkit:
-
Version コマンド:
nvidia-container-cli -V
-
-
Nvidia-docker2:
-
Version コマンド:
nvidia-docker version
-
-
Nvidia-IMEX: v570.172.08-1
-
-
NVIDIA ドライバー: 570.158.01
-
NVIDIA CUDA 12.4、12.5、12.6、12.8 スタック:
-
CUDA、NCCL、および cuDDN インストールディレクトリ:
/usr/local/cuda-xx.x/-
例:
/usr/local/cuda-12.8/、/usr/local/cuda-12.8/
-
-
コンパイルされた NCCL バージョン:
-
12.4 の CUDA ディレクトリの場合、コンパイルされた NCCL バージョン 2.22.3+CUDA12.4
-
12.5 の CUDA ディレクトリの場合、コンパイルされた NCCL バージョン 2.22.3+CUDA12.5
-
12.6 の CUDA ディレクトリの場合、コンパイルされた NCCL バージョン 2.24.3+CUDA12.6
-
12.8 の CUDA ディレクトリの場合、コンパイルされた NCCL バージョン 2.27.5+CUDA12.8
-
-
デフォルトの CUDA: 12.8
-
PATH
/usr/local/cudaが CUDA 12.8 を指す -
以下の環境変数が更新されました。
-
LD_LIBRARY_PATHを持つには/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64 -
PATHを持つには/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/ -
別の CUDA バージョンについては、
LD_LIBRARY_PATHそれに応じて更新してください。
-
-
-
-
EFA インストーラ: 1.42.0
-
Nvidia GDRCopy: 2.5.1
-
AWSOFI NCCL プラグインに EFA インストーラが付属
-
パス
/opt/amazon/ofi-nccl/lib/aarch64-linux-gnuと/opt/amazon/ofi-nccl/efaが に追加されますLD_LIBRARY_PATH。
-
-
AWS CLIでの v2
/usr/local/bin/aws2と での AWS CLIv1/usr/bin/aws -
EBS ボリュームタイプ: gp3
-
Python:
/usr/bin/python3.10
SageMaker HyperPod リリースノート: 2025 年 5 月 27 日
SageMaker HyperPod は、Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする 用に以下をリリースします。
新しい機能と改善点
-
ベース AMI を次の主要コンポーネントを使用して
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523に更新しました。-
NVIDIA ドライバー: 570.133.20
-
CUDA: 12.8 (デフォルト), CUDA 12.4~12.6 をサポート
-
NCCL バージョン: 2.26.5
-
EFA インストーラ: 1.40.0
-
AWSOFI NCCL: 1.14.2-aws
-
-
Neuron SDK パッケージを次のとおり更新しました。
-
aws-neuronx-collectives: 2.25.65.0-9858ac9a1 (2.24.59.0-838c7fc8b から)
-
aws-neuronx-dkms: 2.21.37.0 (2.20.28.0 から)
-
aws-neuronx-runtime-lib: 2.25.57.0-166c7a468 (2.24.53.0-f239092cc から)
-
aws-neuronx-tools: 2.23.9.0 (2.22.61.0 から)
-
重要な注意事項
-
NVIDIA Container Toolkit 1.17.4 では、CUDA 互換ライブラリのマウントが無効になりました。
-
EFA 設定を 1.37 から 1.38 に更新し、EFA に AWS OFI NCCL プラグインが含まれるようになりました。このプラグインは、元のパスの
/opt/aws-ofi-nccl/ではなく/opt/amazon/ofi-ncclディレクトリに配置されています。(2025 年 2 月 18 日にリリース) -
カーネルバージョンは、安定性とドライバーの互換性のために固定されるようになりました。
Slurm 向け SageMaker HyperPod AMI リリース: 2025 年 5 月 13 日
Amazon SageMaker HyperPod は、Ubuntu 22.04 LTS for Slurm clusters をサポートする更新された AMIs をリリースしました。 は、AMI AWSを定期的に更新して、最新のソフトウェアスタックにアクセスできることを確認します。最新の AMI にアップグレードすると、包括的なパッケージ更新、ワークロードのパフォーマンスと安定性の向上、新しいインスタンスタイプと最新のカーネル機能との互換性により、セキュリティが強化されます。
重要
Ubuntu 20.04 LTS から Ubuntu 22.04 LTS への更新により、Ubuntu 20.04 用に設計されたソフトウェアと設定との互換性に影響を与える可能性のある変更が導入されました。
このリリースノートでは、以下が提供されます。
Ubuntu 22.04 AMI の主な更新
Ubuntu 22.04 AMI のコンポーネントのバージョンの以前の AMI との比較は、次の表のとおりです。
| コンポーネント | 以前のバージョン | アップデートされたバージョン |
|---|---|---|
|
Ubuntu OS |
20.04 LTS |
22.04 LTS |
|
Slurm |
24.11 |
24.11 (変更なし) |
|
Python |
3.8 (デフォルト) |
3.10 (デフォルト) |
|
Amazon FSx の Elastic Fabric Adapter (EFA) |
サポート外 |
サポート |
|
Linux カーネル |
5.15 |
6.8 |
|
GNU C ライブラリ (glibc) |
2.31 |
2.35 |
|
GNU コンパイラコレクション (GCC) |
9.4.0 |
11.4.0 |
|
libc6 |
≤ 2.31 |
≥ 2.35 をサポート |
|
ネットワークファイルシステム (NFS) |
1:1.3.4 |
1:2.6.1 |
注記
Slurm バージョン (24.11) には変更がありませんが、この AMI の基盤となる OS とライブラリの更新により、システム動作とワークロードの互換性に影響する可能性があります。本番稼働用クラスターをアップグレードする前に、ワークロードをテストする必要があります。
Ubuntu 22.04 AMI へのアップグレード
クラスターを Ubuntu 22.04 AMI にアップグレードする前に、以下の準備手順を完了し、アップグレード要件を確認してください。アップグレードの障害をトラブルシューティングするには、「アップグレードの失敗のトラブルシューティング」を参照してください。
Python の互換性を確認する
Ubuntu 22.04 AMI は、Python 3.8 からアップグレードされたデフォルトバージョンとして Python 3.10 を使用します。Python 3.10 はほとんどの Python 3.8 コードとの互換性を維持しますが、アップグレードする前に既存のワークロードをテストする必要があります。ワークロードに Python 3.8 が必要な場合は、ライフサイクルスクリプトで次のコマンドを使用してインストールできます。
yum install python-3.8
クラスターをアップグレードする前に、必ず以下を実行してください。
-
Python 3.10 とのコード互換性をテストします。
-
ライフサイクルスクリプトが新しい環境で機能することを検証します。
-
すべての依存関係が新しい Python バージョンと互換性があることを確認します。
-
GitHub からデフォルトのライフサイクルスクリプトをコピーして HyperPod クラスターを作成した場合は、Ubuntu 22 にアップグレードする前に、次のコマンドを
setup_mariadb_accounting.shファイルに追加します。完全なスクリプトについては、「GitHub の setup_mariadb_accounting.sh」を参照してください。 apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
Slurm クラスターをアップグレードする
新しい AMI を使用するように Slurm クラスターをアップグレードするには、次の 2 つの方法があります。
-
CreateClusterコマンドを使用して、新しいクラスターを作成します。 -
UpdateClusterSoftwareAPI を使用して既存のクラスターのソフトウェアを更新します。
検証済みの設定
AWSは、GG5, G6, G6e, P4d, P5、Trn1 インスタンスで、次のようなさまざまな分散トレーニングワークロードとインフラストラクチャ機能をテストしています。
-
PyTorch による分散トレーニング (FSDP、NeMo、LLaMA、MNIST など)
-
Nvidia (P/G シリーズ) と AWSNeuron (Trn1) を使用したインスタンスタイプのアクセラレーターテスト。
-
auto-resume とディープヘルスチェックなどの耐障害性機能
クラスターのダウンタイムと可用性
アップグレードプロセス中、クラスターは使用できなくなります。中断を最小限に抑えるには、以下を実行します。
-
小規模なクラスターでアップグレードプロセスをテストします。
-
アップグレード前にチェックポイントを作成し、アップグレードの完了後に既存のチェックポイントからトレーニングワークロードを再起動します。
アップグレードの失敗のトラブルシューティング
アップグレードが失敗した場合、まず失敗がライフサイクルスクリプトに関連しているかどうかを判断します。これらのスクリプトは通常、構文エラー、依存関係の欠落、または誤った設定が原因で失敗します。
ライフサイクルスクリプトに関連する障害を調査するには、CloudWatch ログを確認します。すべての SageMaker HyperPod イベントとログは、ロググループ /aws/sagemaker/Clusters/[ClusterName]/[ClusterID] の下に保存されます。特に、スクリプト実行中のエラーに関する詳細情報を提供する LifecycleConfig/[instance-group-name]/[instance-id] ログストリーム を調べます。
アップグレードの失敗がライフサイクルスクリプトと無関係である場合は、クラスター ARN、エラーログ、タイムスタンプなどの関連情報を収集し、AWS サポート
Slurm 向け SageMaker HyperPod AMI リリース: 2025 年 5 月 7 日
Amazon SageMaker HyperPod for Slurm は、Ubuntu 22.04 (以前の Ubuntu 20.04 から) へのメジャー OS バージョンアップグレードをリリースしました。詳細については、DLAMI Ubuntu 22.04 (リリースノートDeep Learning Base OSS
Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503 を確認してください。
パッケージの主なアップグレード:
-
Ubuntu 22.04 LTS (20.04 から)
-
Python バージョン:
-
Python 3.10 が Slurm AMI Ubuntu 22.04 のデフォルトの Python バージョンになりました
-
このアップグレードにより、Python 3.10 で導入された最新の機能、パフォーマンスの向上、バグ修正にアクセスできます。
-
-
FSx での EFA のサポート
-
新しい Linux カーネルバージョン 6.8 (5.15 から更新)
-
Glibc バージョン: 2.35 (2.31 から更新)
-
GCC バージョン: 11.4.0 (9.4.0 から更新)
-
新しい libc6 バージョンのサポート (libc6 バージョン <= 2.31 から)
-
NFS バージョン: 1:2.6.1 (1:1.3.4 から更新)
Slurm 向け SageMaker HyperPod AMI リリース: 2025 年 4 月 28 日
Slurm の改善点
-
NVIDIA ドライバーをバージョン 550.144.03 から 550.163.01 にアップグレードしました。このアップグレードは、2025 年 4 月の NVIDIA GPU ディスプレイセキュリティ情報
に記載されている共通脆弱性識別子 (CVE) に対処するためのものです。
Slurm 向け Amazon SageMaker HyperPod DLAMI のサポート
Slurm 向け SageMaker HyperPod AMI リリース: 2025 年 2 月 18 日
Slurm の改善点
-
Slurm バージョンを 24.11 にアップグレードしました。
-
Elastic Fabric Adapter (EFA) バージョンを 1.37.0 から 1.38.0 にアップグレードしました。
-
EFA に AWSOFI NCCL プラグインが含まれるようになりました。このプラグインは、元の場所の
/opt/aws-ofi-nccl/ではなく/opt/amazon/ofi-ncclディレクトリにあります。LD_LIBRARY_PATH環境変数を更新する必要がある場合は、OFI NCCL プラグインの新しい/opt/amazon/ofi-ncclの場所を指すようにパスを変更してください。 -
これらの DLAMI から emacs パッケージを削除しました。GNU emac から emac をインストールできるようになりました。
Slurm 向け Amazon SageMaker HyperPod DLAMI のサポート
Slurm 向け SageMaker HyperPod AMI リリース: 2024 年 12 月 21 日
Slurm 用 SageMaker HyperPod DLAMI のサポート
Slurm 向け SageMaker HyperPod AMI リリース: 2024 年 11 月 24 日
AMI の一般的な更新
-
MEL(メルボルン) リージョンでリリースされました。 -
SageMaker HyperPod ベース DLAMI を次のバージョンに更新しました。
-
Slurm: 2024-11-22
-
Slurm 向け SageMaker HyperPod AMI リリース: 2024 年 11 月 15 日
AMI の一般的な更新
-
libnvidia-nscq-xxxの最新バージョンをインストールしました。
Slurm 用 SageMaker HyperPod DLAMI のサポート
Slurm 向け SageMaker HyperPod AMI リリース: 2024 年 11 月 11 日
AMI の一般的な更新
-
SageMaker HyperPod ベース DLAMI を次のバージョンに更新しました。
-
Slurm: 2024-10-23
-
Slurm 向け SageMaker HyperPod AMI リリース: 2024 年 10 月 21 日
AMI の一般的な更新
-
SageMaker HyperPod ベース DLAMI を次のバージョンに更新しました。
-
Slurm: 2024-09-27
-
Slurm 向け SageMaker HyperPod AMI リリース: 2024 年 9 月 10 日
Slurm 用 SageMaker HyperPod DLAMI のサポート
Slurm 向け SageMaker HyperPod AMI リリース: 2024 年 3 月 14 日
Slurm 用 HyperPod DLAMI ソフトウェアパッチ
-
Slurm
を v23.11.1 にアップグレード -
Slurm と PMIx
を有効にするため、OpenPMIx v4.2.6 を追加しました。 -
2023 年 10 月 26 日にリリースされた AWS Deep Learning Base GPU AMI (Ubuntu 20.04)
に基づいて構築 -
ベース AMI に加えて、この HyperPod DLAMI にプリインストールされたパッケージの詳細なリスト
アップグレードステップ
-
次のコマンドを実行して UpdateClusterSoftware API を呼び出し、既存の HyperPod クラスターを最新の HyperPod DLAMI で更新します。手順の詳細については、「クラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する」を参照してください。
重要
この API を実行する前に、作業内容をバックアップしてください。パッチ適用プロセスでは、ルートボリュームが更新された AMI に置き換えられます。つまり、インスタンスのルートボリュームに保存されていた以前のデータは失われます。必ず、インスタンスルートボリュームから Amazon S3 または Amazon FSx for Lustre にデータをバックアップしてください。詳細については、「SageMaker HyperPod が提供するバックアップスクリプトを使用する」を参照してください。
aws sagemaker update-cluster-software --cluster-nameyour-cluster-name注記
HyperPod クラスターを更新するには、 AWS CLIコマンドを実行する必要があります。SageMaker HyperPod コンソール UI を介した HyperPod ソフトウェアの更新は現在利用できません。
Slurm 向け SageMaker HyperPod AMI リリース: 2023 年 11 月 29 日
Slurm 用 HyperPod DLAMI ソフトウェアパッチ
HyperPod サービスチームは、SageMaker HyperPod DLAMI を通じてソフトウェアパッチを配布しています。最新の HyperPod DLAMI の詳細については、以下を参照してください。
-
2023 年 10 月 18 日にリリースされた AWS Deep Learning Base GPU AMI (Ubuntu 20.04)
に基づいて構築 -
ベース AMI に加えて、この HyperPod DLAMI にプリインストールされたパッケージの詳細なリスト
-
Slurm
: v23.02.3 -
Munge: v0.5.15
-
aws-neuronx-dkms: v2.* -
aws-neuronx-collectives: v2.* -
aws-neuronx-runtime-lib: v2.* -
aws-neuronx-tools: v2.* -
クラスターヘルスチェックや自動再開などの機能をサポートする SageMaker HyperPod ソフトウェアパッケージ
-