Amazon SageMaker HyperPod リリースノート
このトピックでは、Amazon SageMaker HyperPod の更新、修正、新機能を追跡するリリースノートについて説明します。Amazon SageMaker HyperPod の一般的な機能のリリース、更新、改善が必要な場合は、このページが役立つ場合があります。
HyperPod AMI リリースは、一般的な AMI リリース、バージョン、依存関係などの主要なコンポーネントに関する情報を含めるために個別に文書化されています。HyperPod AMI リリースに関連するこれらの情報をお探しの場合は、「Amazon SageMaker HyperPod AMI」を参照してください。
SageMaker HyperPod リリースノート: 2025 年 8 月 4 日
SageMaker HyperPod は、EKS オーケストレーション用の新しいパブリック AMI をリリースしました。パブリック AMI は単独で使用することも、カスタム AMI の作成にも使用できます。パブリック AMI の詳細については、「パブリック AMI リリース」を参照してください。カスタム AMI の作成の詳細については、「SageMaker HyperPod クラスター用のカスタム Amazon マシンイメージ (AMI)」を参照してください。
SageMaker HyperPod リリースノート: 2025 年 7 月 31 日
SageMaker HyperPod は、Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションする 用に以下をリリースします。
新しい機能と改善点
-
EKS クラスターのオペレーティングシステムを Amazon Linux 2 から Amazon Linux 2023 にアップデートする新しい AMI をリリースしました。主なアップグレードには、Linux カーネル 6.1、Python 3.10、NVIDIA ドライバー 560.35.03、YUM に代わる DNF パッケージマネージャーなどがあります。
重要
Amazon Linux 2 から AL2023 へのアップデートでは、AL2 用に設計されたソフトウェアや設定との互換性に影響を与える可能性のある重要な変更が導入されています。クラスターを完全にアップグレードする前に、AL2023 でアプリケーションをテストすることを強くお勧めします。
新しい AMI とクラスターのアップグレード方法の詳細については、「Amazon EKS 向け SageMaker HyperPod AMI リリース: 2025 年 7 月 31 日」を参照してください。
SageMaker HyperPod リリースノート: 2025 年 5 月 13 日
SageMaker HyperPod は、Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする 用に以下をリリースします。
新しい機能と改善点
-
Slurm クラスター向け Ubuntu 22.04 LTS をサポートする更新された AMI をリリースしました。このリリースには、パフォーマンスの向上、機能の更新、セキュリティの強化を実現するためのシステムおよびソフトウェアコンポーネントのアップグレードがいくつか含まれています。
重要
Ubuntu 20.04 LTS から Ubuntu 22.04 LTS への更新により、Ubuntu 20.04 用に設計されたソフトウェアと設定との互換性に影響を与える可能性のある変更が導入されました。
詳細については、以下を参照してください。
SageMaker HyperPod リリースノート: 2025 年 5 月 1 日
SageMaker HyperPod は、Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションする 用に以下をリリースします。
新しい特徴
-
EKS オーケストレーションクラスターの使用状況レポートを追加しました。これにより、組織はチーム、プロジェクト、または部門間で透過的に使用量ベースのコスト配分を実施できます。この機能は、HyperPod のタスクガバナンス機能を補完し、共有マルチテナント AI/ML 環境における公平なコスト配分を実現します。詳細については、「HyperPod でのコンピューティング使用状況レポート」を参照してください。
SageMaker HyperPod リリースノート: 2025 年 4 月 28 日
SageMaker HyperPod は、Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションすると Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションするに関して、以下をリリースします。
新しい機能と改善点
-
NVIDIA ドライバーをバージョン 550.144.03 から 550.163.01 にアップグレードしました。このアップグレードは、2025 年 4 月の NVIDIA GPU ディスプレイセキュリティ情報
に記載されている共通脆弱性識別子 (CVE) に対処するためのものです。
AMI のリリースについての詳細は、「Slurm 向け SageMaker HyperPod AMI リリース: 2025 年 4 月 28 日」および「Amazon EKS 向け SageMaker HyperPod AMI リリース: 2025 年 4 月 28 日」を参照してください。
SageMaker HyperPod リリースノート: 2025 年 4 月 18 日
SageMaker HyperPod は、Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションする 用に以下をリリースします。
新しい特徴
-
Amazon EKS 1.32.1 用の新しい SageMaker HyperPod AMI をリリースしました。詳細については、「Amazon EKS 向け SageMaker HyperPod AMI リリース: 2025 年 4 月 18 日」を参照してください。
SageMaker HyperPod リリースノート: 2025 年 4 月 10 日
SageMaker HyperPod は、Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする 用に以下をリリースします。
新しい機能と改善点
-
Slurm オーケストレーションを使用する SageMaker HyperPod の Direct Preference Optimization (DPO) レシピチュートリアルを追加しました。このファインチューニングのチュートリアルでは、GPU 搭載の SageMaker HyperPod Slurm クラスターで DPO メソッドを使用してモデルの配置を最適化するためのステップバイステップのガイダンスを提供します。詳細については、「HyperPod Slurm クラスター DPO チュートリアル (GPU)」を参照してください。
SageMaker HyperPod リリースノート: 2025 年 4 月 3 日
SageMaker HyperPod は、Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションすると Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションするに関して、以下をリリースします。
新しい機能と改善点
-
SageMaker HyperPod クラスターをデプロイするためのクイックスタートページを追加しました。このページでは、SageMaker HyperPod の専門ワークショップの効率的なセットアップワークフローを活用し、構築済みの AWS CloudFormation テンプレートを使用してデプロイを自動化しています。Slurm や Amazon EKS などのインフラストラクチャ設定をサポートし、ベースラインクラスターの設定とデプロイが容易になります。
-
SageMaker HyperPod は、Slurm クラスターと Amazon EKS クラスターの両方で、次のインスタンスタイプをサポートするようになりました。
-
新しいインスタンスタイプ: I3en インスタンス、M7i インスタンス、R7i インスタンス。サポートされているインスタンスの完全なリストについては、「
ClusterInstanceGroupDetails」の「InstanceTypeフィールド」を参照してください。
-
SageMaker HyperPod リリースノート: 2025 年 3 月 16 日
SageMaker HyperPod は、Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションすると Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションするに関して、以下をリリースします。
新しい機能と改善点
-
CreateClusterAPI オペレーションとUpdateClusterAPI オペレーションでより詳細なアクセスコントロールを行うために、次の IAM 条件キーを追加しました。条件キー 説明 sagemaker:InstanceTypes指定されたインスタンスタイプに基づいてアクセスを制御します。 sagemaker:VpcSubnetsクラスターの作成または更新を特定の Amazon VPC サブネットに制限します。 sagemaker:VpcSecurityGroupIdsAmazon VPC セキュリティグループ ID に基づいてアクセスを管理します。
SageMaker HyperPod リリースノート: 2025 年 2 月 20 日
SageMaker HyperPod は、Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションすると Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションするに関して、以下をリリースします。
新しい機能と改善点
-
SageMaker HyperPod クラスターからのインスタンスグループの削除サポートが追加されました。詳細については、「EKS オーケストレーションクラスターからインスタンスグループを削除するを削除する」と「Slurm オーケストレーションクラスターのクラスターをクラスターをスケールダウンする」を参照してください。
SageMaker HyperPod リリースノート: 2025 年 2 月 18 日
SageMaker HyperPod は、Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションすると Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションするに関して、以下をリリースします。
新しい特徴
-
SageMaker HyperPod のこのリリースでは、Nvidia コンテナツールキット (バージョン 1.17.3 からバージョン 1.17.4) のセキュリティ更新プログラムが組み込まれています。詳細については、「v1.17.4 リリースノート
」を参照してください。 注記
Nvidia コンテナツールキットバージョン 1.17.4 のすべてのコンテナワークロードで、CUDA 互換ライブラリのマウントが無効になりました。コンテナワークフローで複数の CUDA バージョンとの互換性を確保するには、
LD_LIBRARY_PATHを更新して CUDA 互換性ライブラリを含めます。特定のステップについては、「CUDA 互換性レイヤーを使用する場合」を参照してください。
AMI のリリースについての詳細は、「Slurm 向け SageMaker HyperPod AMI リリース: 2025 年 2 月 18 日」および「Amazon EKS 向け SageMaker HyperPod AMI リリース: 2025 年 2 月 18 日」を参照してください。
SageMaker HyperPod リリースノート: 2025 年 2 月 6 日
SageMaker HyperPod は、Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションすると Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションするに関して、以下をリリースします。
新しい機能と改善点
-
SageMaker HyperPod マルチ AZ サポートの強化: クラスター内の個々のインスタンスグループに対して、異なるアベイラビリティーゾーンにまたがって異なるサブネットとセキュリティグループを指定できるようになりました。SageMaker HyperPod のマルチ AZ サポートの詳細については、「複数の AZ にまたがる SageMaker HyperPod クラスターのセットアップ」を参照してください。
SageMaker HyperPod リリースノート: 2025 年 1 月 22 日
AMI リリース
SageMaker HyperPod リリースノート: 2025 年 1 月 9 日
SageMaker HyperPod は、Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションすると Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションするに関して、以下をリリースします。
新しい機能と改善点
-
IPv6 サポートの追加: IPv6 対応の VPC とサブネットが設定されている場合、クラスターは IPv6 アドレス指定を使用できます。詳細については、「カスタム Amazon VPC で SageMaker HyperPod を設定する」を参照してください。
SageMaker HyperPod リリースノート: 2024 年 12 月 21 日
SageMaker HyperPod は、Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションすると Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションするに関して、以下をリリースします。
新しい特徴
-
SageMaker HyperPod は、Slurm クラスターと Amazon EKS クラスターの両方で、次のインスタンスタイプをサポートするようになりました。
-
新しいインスタンスタイプ: C6gn、C6i、M6i、R6i。
-
新しい Trainium インスタンスタイプ: Trn1 と Trn1n。
-
改良点
-
Slurm がジョブを中断する際のエラーログの可視性を強化し、Slurm が開始したジョブのキャンセル中に不要なジョブステップが終了することを防止します。
-
Slurm と Amazon EKS クラスターの両方で、p5en のベース DLAMI を更新しました。
AMI リリース
SageMaker HyperPod リリースノート: 2024 年 12 月 13 日
SageMaker HyperPod は、Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションすると Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションするに関して、以下をリリースします。
新機能
-
SageMaker HyperPod は、SageMaker HyperPod Slurm クラスターの健全性とパフォーマンスをモニタリングするための Amazon CloudWatch メトリクスセットをリリースしました。これらは、CPU、GPU、メモリ使用率、ノード数や障害ノードなどのクラスターインスタンス情報に関連するメトリクスです。このモニタリング機能はデフォルトで有効になっており、メトリクスには
/aws/sagemaker/ClustersCloudWatch 名前空間でアクセスできます。これらのメトリクスに基づいて CloudWatch アラームを設定し、Slurm ベースの HyperPod クラスター内の潜在的な問題をプロアクティブに検出して対処することもできます。詳細については、「Amazon SageMaker HyperPod Slurm のメトリクス」を参照してください。
AMI リリース
SageMaker HyperPod リリースノート: 2024 年 11 月 24 日
SageMaker HyperPod は、Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションすると Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションするに関して、以下をリリースします。
新しい特徴
-
複数のアベイラビリティーゾーンにまたがる SageMaker HyperPod クラスターの設定のサポートが追加されました。SageMaker HyperPod のマルチ AZ サポートの詳細については、「複数の AZ にまたがる SageMaker HyperPod クラスターのセットアップ」を参照してください。
AMI リリース
SageMaker HyperPod リリースノート: 2024 年 11 月 15 日
SageMaker HyperPod は、Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションすると Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションするに関して、以下をリリースします。詳細については、「Amazon EKS 向け SageMaker HyperPod AMI リリース: 2024 年 11 月 15 日」を参照してください。
新しい機能と改善点
-
Amazon EKS と Slurm オーケストレーションクラスターの両方で、trn1 インスタンスタイプと trn1n インスタンスタイプのサポートを追加しました。
-
Slurm クラスターのログ管理が改善されました。
-
ログローテーションを実装: サイズに基づいて毎週または毎日実行できます。
-
ログの保持期間は 3 週間に設定されています。
-
ストレージへの影響を軽減するために圧縮ログを使用しています。
-
長期保存のために、ログの CloudWatch へのアップロードは継続しています。
注記
一部のログは引き続き syslogs に保存されます。
-
-
長い行を含むファイルでトラッキングの問題が発生しないように、Fluent Bit の設定を調整しました。
バグ修正
-
slurm.config設定ファイル で Slurm コントローラーノードの更新による意図しない切り捨てを防止しています。
AMI リリース
SageMaker HyperPod リリースノート: 2024 年 11 月 11 日
SageMaker HyperPod は、Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションすると Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションするに関して、以下をリリースします。
新機能
-
SageMaker HyperPod AMI が G6e インスタンスタイプをサポートするようになりました。
AMI リリース
SageMaker HyperPod リリースノート: 2024 年 10 月 31 日
SageMaker HyperPod は、Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションすると Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションするに関して、以下をリリースします。
新しい特徴
-
Amazon EKS と Slurm の両方のオーケストレーションされたクラスターのインスタンスグループレベルとインスタンスレベル、SageMaker HyperPod クラスターのスケールダウン機能を追加しました。Amazon EKS クラスターの詳細については、「SageMaker HyperPod クラスターのスケールダウン」を参照してください。Slurm クラスターのスケールダウンの詳細については、「AWS CLI を使用した SageMaker HyperPod Slurm クラスターの管理」の「クラスターをスケールダウンする」を参照してください。
-
SageMaker HyperPod オーケストレーションクラスターで、P5e インスタンスタイプと P5e インスタンスタイプのサポートを追加しました。
SageMaker HyperPod リリースノート: 2024 年 10 月 21 日
SageMaker HyperPod は、Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションすると Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションするに関して、以下をリリースします。
新機能
-
SageMaker HyperPod は、P5e[n]、G6、Gr6、Trn2[n] のインスタンスタイプをサポートするようになりました。
AMI リリース
SageMaker HyperPod リリースノート: 2024 年 9 月 10 日
SageMaker HyperPod は、Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションすると Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションするに関して、以下をリリースします。
新しい特徴
-
SageMaker HyperPod に Amazon EKS サポートを追加しました。詳細についてはAmazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションするを参照してください。
-
CloudFormation と Terraform による SageMaker HyperPod クラスターの管理のサポートが追加されました。CloudFormation を介した HyperPod クラスターの管理の詳細については、「
AWS::SageMaker::Clusterの CloudFormation ドキュメント」を参照してください。Terraform による HyperPod クラスターの管理については、「awscc_sagemaker_clusterの Terraform ドキュメント」を参照してください。
AMI リリース
SageMaker HyperPod リリースノート: 2024 年 8 月 20 日
SageMaker HyperPod は、Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする 用に以下をリリースします。
新しい特徴
-
SageMaker HyperPod の auto-resume 機能を強化し、Generic RESources (GRES) がアタッチされた Slurm ノードの回復性機能を拡張しました。
汎用リソース (GRES)
が Slurm ノードにアタッチされている場合、Slurm は通常、ノードの置き換えなど、ノード割り当ての変更を許可しないため、失敗したジョブを再開することはできません。明示的に禁止されていない限り、HyperPod auto-resume 機能は GRES 対応ノードに関連付けられた障害のあるジョブを自動的にキューに入れ直します。このプロセスでは、ジョブを停止して、ジョブキューに戻した後、最初からジョブを再開します。
その他の変更
-
SageMaker HyperPod AMI に
slurmrestdをパッケージ化しました。 -
システムの応答性とジョブ処理を改善するため、
slurm.confでResumeTimeoutおよびUnkillableStepTimeoutのデフォルト値を 60 秒から 300 秒に変更しました。 -
NVIDIA Data Center GPU Manager (DCGM) と NVIDIA System Management Interface (nvidia-smi) のヘルスチェックに小規模な改善を加えました。
バグ修正
-
HyperPod auto-resume プラグインは、アイドル状態のノードを使用してジョブを再開できます。
SageMaker HyperPod リリースノート: 2024 年 6 月 20 日
SageMaker HyperPod は、Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする 用に以下をリリースします。
新しい特徴
-
SageMaker HyperPod クラスターインスタンスに追加ストレージをアタッチする新しい機能を追加しました。この機能を使用すると、SageMaker HyperPod コンソールまたは
CreateClusterおよびUpdateClusterAPI を使用して、クラスターの作成または更新プロセス中にインスタンスグループ設定レベルで補足ストレージを設定できます。追加の EBS ボリュームは、SageMaker HyperPod クラスター内の各インスタンスにアタッチされ、/opt/sagemakerにマウントされます。SageMaker HyperPod クラスターでの実装の詳細については、以下のページの更新されたドキュメントを参照してください。この機能を使用するには、HyperPod クラスターソフトウェアを更新する必要がある点に注意してください。HyperPod クラスターソフトウェアにパッチを適用した後、2024 年 6 月 20 日より前に作成された既存の SageMaker HyperPod クラスターに新しいインスタンスグループを追加することで、この機能を使用できます。この機能は、2024 年 6 月 20 日以降に作成されたすべての SageMaker HyperPod クラスターに対して完全に有効です。
アップグレードステップ
-
次のコマンドを実行して UpdateClusterSoftware API を呼び出し、既存の HyperPod クラスターを最新の HyperPod DLAMI で更新します。手順の詳細については、「クラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する」を参照してください。
重要
この API を実行する前に、作業内容をバックアップしてください。パッチ適用プロセスでは、ルートボリュームが更新された AMI に置き換えられます。つまり、インスタンスのルートボリュームに保存されていた以前のデータは失われます。必ず、インスタンスルートボリュームから Amazon S3 または Amazon FSx for Lustre にデータをバックアップしてください。詳細については、「SageMaker HyperPod が提供するバックアップスクリプトを使用する」を参照してください。
aws sagemaker update-cluster-software --cluster-nameyour-cluster-name注記
AWS CLI コマンドを実行して HyperPod クラスターを更新する必要がある点に注意してください。SageMaker HyperPod コンソール UI を介した HyperPod ソフトウェアの更新は現在利用できません。
SageMaker HyperPod リリースノート: 2024 年 4 月 24 日
SageMaker HyperPod は、Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする 用に以下をリリースします。
バグ修正
-
ClusterInstanceGroupSpecificationAPI のThreadsPerCoreパラメータでバグを修正しました。この修正により、CreateClusterおよびUpdateClusterAPI はThreadsPerCoreを通じてユーザー入力を適切に取得して適用します。この修正は、2024 年 4 月 24 日以降に作成された HyperPod クラスターで有効です。このバグにより問題が発生したため、この修正をクラスターに適用する場合は、新しいクラスターを作成する必要があります。「SageMaker HyperPod が提供するバックアップスクリプトを使用する」の手順に従って、新しいクラスターに移動しながら、作業内容をバックアップおよび復元してください。
SageMaker HyperPod リリースノート: 2024 年 3 月 27 日
SageMaker HyperPod は、Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする 用に以下をリリースします。
HyperPod ソフトウェアパッチ
HyperPod サービスチームは、SageMaker HyperPod DLAMI を通じてソフトウェアパッチを配布しています。最新の HyperPod DLAMI の詳細については、以下を参照してください。
-
HyperPod DLAMI のこのリリースでは、Slurm は JSON、YAML、JWT をサポートする REST サービス (
slurmestd) で構築されます。 -
Slurm
を v23.11.3 にアップグレードしました。
改良点
-
auto-resume サービスのタイムアウトが 60 分に引き上げられました。
-
Slurm コントローラーを再起動しないようインスタンス置換プロセスを改善しました。
-
インスタンスの起動時のダウンロードエラーやインスタンスヘルスチェックエラーなど、実行中のライフサイクルスクリプトからのエラーメッセージが改善されました。
バグ修正
-
時間同期の問題を引き起こす chrony サービスによるバグを修正しました。
-
slurm.confを解析する際のバグを修正しました。 -
NVIDIA
go-dcgmライブラリの問題を修正しました。
SageMaker HyperPod リリースノート: 2024 年 3 月 14 日
SageMaker HyperPod は、Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする 用に以下をリリースします。
改良点
-
HyperPod では、
provisioning_parameters.jsonを通じて提供されたパーティション名を適切に渡し、提供された入力に基づいてパーティションを適切に作成できるようになりました。provisioning_parameters.jsonの詳細については、「SageMaker HyperPod フォーム」と「ライフサイクルスクリプトを使用して SageMaker HyperPod クラスターをカスタマイズする」を参照してください。
AMI リリース
SageMaker HyperPod リリースノート: 2024 年 2 月 15 日
SageMaker HyperPod は、Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする 用に以下をリリースします。
新しい特徴
-
SageMaker HyperPod セキュリティパッチの新しい
UpdateClusterSoftwareAPI を追加しました。セキュリティパッチが利用可能になったら、aws sagemaker update-cluster-software --cluster-nameを実行して、アカウント内の既存の SageMaker HyperPod クラスターを更新することをお勧めします。今後のセキュリティパッチの最新情報については、この Amazon SageMaker HyperPod リリースノートページを引き続き追跡してください。your-cluster-nameUpdateClusterSoftwareAPI の仕組みについては、「クラスターの SageMaker HyperPod プラットフォームソフトウェアを更新する」を参照してください。
SageMaker HyperPod リリースノート: 2023 年 11 月 29 日
SageMaker HyperPod は、Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする 用に以下をリリースします。
新しい特徴
-
AWS re:Invent 2023 で Amazon SageMaker HyperPod を発表しました。
AMI リリース