Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションする - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションする

SageMaker HyperPod は、長時間実行され回復力のあるコンピューティングクラスターで基盤モデルの大規模なトレーニングを可能にする SageMaker AI マネージドサービスであり、Amazon EKS と統合して HyperPod コンピューティングリソースをオーケストレーションします。HyperPod の回復性機能を備えた Amazon EKS クラスターを使用して、ハードウェアのさまざまな障害をチェックし、障害のあるノードを自動的に復旧することで、数週間から数か月にわたる中断のないトレーニングジョブを大規模に実行できます。

クラスター管理者ユーザーの主な機能は次のとおりです。

  • 回復力のある HyperPod クラスターをプロビジョニングし、EKS コントロールプレーンにアタッチする

  • ノードの追加、ソフトウェアの更新、クラスターの削除などの動的キャパシティ管理を有効にする

  • kubectl または SSM/SSH 経由でクラスターインスタンスに直接アクセスできるようにする

  • 基本的なヘルスチェック、ディープヘルスチェック、ヘルスモニタリングエージェント、PyTorch ジョブの自動再開のサポートなど、回復性機能を提供する

  • Amazon CloudWatch Container InsightsAmazon Managed Service for PrometheusAmazon Managed Grafana などのオブザーバビリティツールと統合する

データサイエンティストユーザーの場合、HyperPod での EKS サポートにより以下が可能になります。

  • HyperPod クラスターで基盤モデルをトレーニングするためのコンテナ化されたワークロードを実行する

  • HyperPod と EKS の統合を活用して EKS クラスターで推論を実行する

  • Kubeflow PyTorch トレーニング (PyTorchJob) のジョブ自動再開機能を利用する

注記

Amazon EKS は、Amazon EKS コントロールプレーンを介して SageMaker HyperPod 上のタスクとインフラストラクチャのユーザー管理オーケストレーションを可能にします。Kubernetes API Server エンドポイントを介したクラスターへのユーザーアクセスが最小特権の原則に従い、HyperPod クラスターからのネットワーク出力が保護されていることを確認します。

Amazon EKS API Server へのアクセスの保護の詳細については、「クラスター API サーバーエンドポイントへのネットワークアクセスの制御」を参照してください。

HyperPod でのネットワークアクセスの保護の詳細については、「」を参照してくださいカスタム Amazon VPC を使用した SageMaker HyperPod のセットアップ

HyperPod での Amazon EKS サポートの高レベルアーキテクチャには、次の図に示すように、VPC 内の EKS クラスター (コントロールプレーン) と HyperPod クラスター (ワーカーノード) 間の 1 対 1 のマッピングが含まれています。

EKS and HyperPod VPC architecture with control plane, クラスター nodes, and AWS のサービス.