翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon SageMaker HyperPod
SageMaker HyperPod を使用すると、機械学習 (ML) ワークロードを実行し、大規模言語モデル (LLM)、拡散モデル、基盤モデル (FM) などの最先端のモデルを開発するための回復力のあるクラスターをプロビジョニングできます。 AWS Trainium FMs GPUs。 A100 H100 アクセラレーターで障害が発生すると、SageMaker HyperPod の回復機能によりクラスターインスタンスが自動的に検出されて置き換えられるため、ML ワークロードの実行に集中できます。
開始するには、「SageMaker HyperPod を使用するための前提条件」を確認して「AWS Identity and Access Management SageMaker HyperPod 用」をセットアップし、SageMaker HyperPod によりサポートされている次のオーケストレーターオプションのいずれかを選択します。
SageMaker HyperPod での Slurm サポート
SageMaker HyperPod は、オープンソースのワークロードマネージャーである Slurm と統合することにより、回復力のあるクラスターで機械学習ワークロードを実行するためのサポートを提供します。SageMaker HyperPod での Slurm サポートにより、Slurm クラスター設定を通じたシームレスなクラスターオーケストレーションが可能になり、SageMaker HyperPod クラスターでヘッドノード、ログインノード、ワーカーノードをセットアップできます。この統合により、クラスターで ML ワークロードを実行するための Slurm ベースのジョブスケジューリングと、ジョブスケジューリングのためのクラスターノードへの直接アクセスも容易になります。HyperPod のライフサイクル設定のサポートにより、特定の要件を満たすようクラスターのコンピューティング環境をカスタマイズできます。さらに、Amazon SageMaker AI 分散トレーニングライブラリを活用することで、 AWS コンピューティングリソースとネットワークリソースに対するクラスターのパフォーマンスを最適化できます。詳細についてはSlurm を使用して SageMaker HyperPod クラスターをオーケストレーションするを参照してください。
SageMaker HyperPod での Amazon EKS サポート
SageMaker HyperPod は Amazon EKS とも統合されており、長時間実行され回復力のあるコンピューティングクラスターで基盤モデルの大規模なトレーニングを可能にします。これにより、クラスター管理者ユーザーは HyperPod クラスターをプロビジョニングして EKS コントロールプレーンにアタッチでき、動的キャパシティ管理、クラスターインスタンスへの直接アクセス、および回復機能が可能になります。データサイエンティストの場合、HyperPod での Amazon EKS サポートにより、トレーニング基盤モデル用のコンテナ化されたワークロードの実行、EKS クラスターの推論、Kubeflow PyTorch トレーニング用のジョブ自動再開機能の活用が可能になります。このアーキテクチャには、VPC 内の EKS クラスター (コントロールプレーン) と HyperPod クラスター (ワーカーノード) 間の 1 対 1 のマッピングが含まれ、大規模な ML ワークロードを実行するための緊密に統合されたソリューションが提供されます。詳細についてはAmazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションするを参照してください。
HyperPod を使用した UltraServer
UltraServer を搭載した HyperPod は、NVIDIA スーパーチップをまとまりのある高パフォーマンスインフラストラクチャに統合することで、AI コンピューティング能力を提供します。各 NVL72 UltraServer は、18 個のインスタンスと NVLink を介して相互接続された 72 個の NVIDIA Blackwell GPU を組み合わせており、前世代のインスタンスと比較して推論とトレーニングパフォーマンスが高速化されます。このアーキテクチャでは、統合された GPU メモリによりモデル全体が単一の NVLink ドメイン内にとどまり、ノード間のネットワークのボトルネックが解消されるため、兆パラメータの基盤モデルを扱う組織にとって特に重要です。HyperPod は、ワークロードの配置を最適化するインテリジェントなトポロジー認識スケジューリング、中断を最小限に抑える自動インスタンス交換、専用リソース設定と共有リソース設定の両方をサポートする柔軟なデプロイオプションにより、ハードウェアの利点を強化します。モデルのサイズとパフォーマンスの限界を打破しようとするチームは、この統合により、これまでにない効率で最も高度な AI モデルのトレーニングとデプロイに必要なコンピューティング基盤が得られます。
SageMaker HyperPod は、UltraServer 全体にわたるインスタンス配置を自動的に最適化します。デフォルトでは、HyperPod は別の UltraServer を使用する前に、単一の UltraServer 内のすべてのインスタンスに優先順位を付けます。例えば、14 個のインスタンスが必要で、プランに 2 個の UltraServer がある場合、SageMaker AI は最初の UltraServer のすべてのインスタンスを使用します。20 個のインスタンスが必要な場合、SageMaker AI は最初の UltraServer の 18 個のインスタンスをすべて使用し、2 番目の UltraServer からさらに 2 個使用します。
AWS リージョン SageMaker HyperPod でサポートされる
SageMaker HyperPod は、以下で利用できます AWS リージョン。
-
us–east–1
-
us-east-2
-
us-west-1
-
us-west-2
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
eu-south-2
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ap-southeast-3
-
ap-southeast-4
-
ap-northeast-1
-
sa-east-1