Amazon SageMaker HyperPod

SageMaker HyperPod を使用すると、機械学習 (ML) ワークロードを実行し、大規模言語モデル (LLM)、拡散モデル、基盤モデル (FM) などの最先端のモデルを開発するための回復力のあるクラスターをプロビジョニングできます。 AWS Trainium や NVIDIA A100、H100FMs GPUs。アクセラレーターで障害が発生すると、SageMaker HyperPod の回復機能によりクラスターインスタンスが自動的に検出されて置き換えられるため、ML ワークロードの実行に集中できます。

開始するには、「SageMaker HyperPod を使用するための前提条件」を確認して「AWS Identity and Access Management SageMaker HyperPod 用」をセットアップし、SageMaker HyperPod によりサポートされている次のオーケストレーターオプションのいずれかを選択します。

SageMaker HyperPod での Slurm サポート

SageMaker HyperPod は、オープンソースのワークロードマネージャーである Slurm と統合することにより、回復力のあるクラスターで機械学習ワークロードを実行するためのサポートを提供します。SageMaker HyperPod での Slurm サポートにより、Slurm クラスター設定を通じたシームレスなクラスターオーケストレーションが可能になり、SageMaker HyperPod クラスターでヘッドノード、ログインノード、ワーカーノードをセットアップできます。この統合により、クラスターで ML ワークロードを実行するための Slurm ベースのジョブスケジューリングと、ジョブスケジューリングのためのクラスターノードへの直接アクセスも容易になります。HyperPod のライフサイクル設定のサポートにより、特定の要件を満たすようクラスターのコンピューティング環境をカスタマイズできます。さらに、Amazon SageMaker AI 分散トレーニングライブラリを活用することで、 AWS コンピューティングとネットワークリソースに対するクラスターのパフォーマンスを最適化できます。詳細についてはSlurm を使用して SageMaker HyperPod クラスターをオーケストレーションするを参照してください。

SageMaker HyperPod での Amazon EKS サポート

SageMaker HyperPod は Amazon EKS とも統合されており、長時間実行され回復力のあるコンピューティングクラスターで基盤モデルの大規模なトレーニングを可能にします。これにより、クラスター管理者ユーザーは HyperPod クラスターをプロビジョニングして EKS コントロールプレーンにアタッチでき、動的キャパシティ管理、クラスターインスタンスへの直接アクセス、および回復機能が可能になります。データサイエンティストの場合、HyperPod での Amazon EKS サポートにより、トレーニング基盤モデル用のコンテナ化されたワークロードの実行、EKS クラスターの推論、Kubeflow PyTorch トレーニング用のジョブ自動再開機能の活用が可能になります。このアーキテクチャには、VPC 内の EKS クラスター (コントロールプレーン) と HyperPod クラスター (ワーカーノード) 間の 1 対 1 のマッピングが含まれ、大規模な ML ワークロードを実行するための緊密に統合されたソリューションが提供されます。詳細についてはAmazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションするを参照してください。

HyperPod を使用した UltraServers

UltraServers を搭載した HyperPod は、NVIDIA スーパーチップをまとまりのある高性能インフラストラクチャに統合することで AI コンピューティング能力を提供します。各 NVL72 UltraServer は、18 個のインスタンスと NVLink を介して相互接続された 72 個の NVIDIA Blackwell GPUs を組み合わせて、前世代のインスタンスと比較して推論とトレーニングパフォーマンスを高速化します。このアーキテクチャは、統合された GPU メモリによりモデル全体が 1 つの NVLink ドメイン内にとどまり、ノード間のネットワークボトルネックが解消されるため、兆パラメータの基盤モデルを扱う組織にとって特に重要です。HyperPod は、ワークロードの配置を最適化するインテリジェントなトポロジ対応スケジューリング、中断を最小限に抑える自動インスタンス交換、専用リソース設定と共有リソース設定の両方をサポートする柔軟なデプロイオプションにより、このハードウェアの利点を強化します。モデルのサイズとパフォーマンスの境界を推し進めるチームにとって、この統合は、これまでにない効率で最も高度な AI モデルのトレーニングとデプロイに必要な計算基盤を提供します。

SageMaker HyperPod は、UltraServers 全体のインスタンス配置を自動的に最適化します。デフォルトでは、HyperPod は別の UltraServer を使用する前に、1 つの UltraServer 内のすべてのインスタンスに優先順位を付けます。たとえば、14 個のインスタンスが必要で、プランに 2 個の UltraServersがある場合、SageMaker AI は最初の UltraServer のすべてのインスタンスを使用します。20 個のインスタンスが必要な場合、SageMaker AI は最初の UltraServer の 18 個のインスタンスをすべて使用し、2 番目からさらに 2 個使用します。

AWS リージョン SageMaker HyperPod でサポートされる

SageMaker HyperPod は、以下で利用できます AWS リージョン。

us-east-1
us-east-2
us-west-1
us-west-2
eu-central-1
eu-north-1
eu-west-1
eu-west-2
eu-south-2
ap-south-1
ap-southeast-1
ap-southeast-2
ap-southeast-3
ap-southeast-4
ap-northeast-1
sa-east-1

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

カスタムイメージ

クイックスタート