翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションする
SageMaker HyperPod は、長時間実行され回復力のあるコンピューティングクラスターで基盤モデルの大規模なトレーニングを可能にする SageMaker AI マネージドサービスであり、Amazon EKS と統合して HyperPod コンピューティングリソースをオーケストレーションします。HyperPod の回復性機能を備えた Amazon EKS クラスターを使用して、ハードウェアのさまざまな障害をチェックし、障害のあるノードを自動的に復旧することで、数週間から数か月にわたる中断のないトレーニングジョブを大規模に実行できます。
クラスター管理者ユーザーの主な機能は次のとおりです。
-
回復力のある HyperPod クラスターをプロビジョニングし、EKS コントロールプレーンにアタッチする
-
ノードの追加、ソフトウェアの更新、クラスターの削除などの動的キャパシティ管理を有効にする
-
kubectl
または SSM/SSH 経由でクラスターインスタンスに直接アクセスできるようにする -
基本的なヘルスチェック、ディープヘルスチェック、ヘルスモニタリングエージェント、PyTorch ジョブの自動再開のサポートなど、回復性機能を提供する
-
Amazon CloudWatch Container Insights、Amazon Managed Service for Prometheus、Amazon Managed Grafana などのオブザーバビリティツールと統合する
データサイエンティストユーザーの場合、HyperPod での EKS サポートにより以下が可能になります。
-
HyperPod クラスターで基盤モデルをトレーニングするためのコンテナ化されたワークロードを実行する
-
HyperPod と EKS の統合を活用して EKS クラスターで推論を実行する
-
Kubeflow PyTorch トレーニング (PyTorchJob)
のジョブ自動再開機能を利用する
注記
Amazon EKS は、Amazon EKS コントロールプレーンを介して SageMaker HyperPod 上のタスクとインフラストラクチャのユーザー管理オーケストレーションを可能にします。Kubernetes API Server エンドポイントを介したクラスターへのユーザーアクセスが最小特権の原則に従い、HyperPod クラスターからのネットワーク出力が保護されていることを確認します。
Amazon EKS API Server へのアクセスの保護の詳細については、「クラスター API サーバーエンドポイントへのネットワークアクセスの制御」を参照してください。
HyperPod でのネットワークアクセスの保護の詳細については、「」を参照してくださいカスタム Amazon VPC を使用した SageMaker HyperPod のセットアップ。
HyperPod での Amazon EKS サポートの高レベルアーキテクチャには、次の図に示すように、VPC 内の EKS クラスター (コントロールプレーン) と HyperPod クラスター (ワーカーノード) 間の 1 対 1 のマッピングが含まれています。
