Amazon EKS によってオーケストレーションされた SageMaker HyperPod クラスターでジョブを実行する - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon EKS によってオーケストレーションされた SageMaker HyperPod クラスターでジョブを実行する

以下のトピックでは、Amazon EKS とオーケストレーションされたプロビジョニング済みの SageMaker HyperPod クラスターでコンピューティングノードにアクセスし、ML ワークロードを実行する手順と例を示します。HyperPod クラスターで環境を設定する方法に応じて、HyperPod クラスターで ML ワークロードを実行する方法は多数あります。

注記

SageMaker HyperPod CLI または kubectl を介してジョブを実行する場合、HyperPod は名前空間 (チーム) 全体のコンピューティング使用率 (GPU/CPU 時間) を追跡できます。これらのメトリクスの電力使用量レポートは、以下を提供します。

  • 割り当てられたリソース消費と借用されたリソース消費の可視性

  • 監査のための Teams リソース使用率 (最大 180 日)

  • タスクガバナンスポリシーに沿ったコスト属性

使用状況レポートを使用するには、使用状況レポートインフラストラクチャをインストールする必要があります。コンピューティングクォータを適用し、きめ細かなコスト属性を有効にするようにタスクガバナンスを設定することを強くお勧めします。

使用状況レポートの設定と生成の詳細については、「HyperPod でのコンピューティング使用状況の報告」を参照してください。

ヒント

Amazon EKS とオーケストレーションされた SageMaker HyperPod クラスターをセットアップして使用する方法に関する実践的な経験とガイダンスについては、SageMaker HyperPod ワークショップでこの Amazon EKS サポートを受けることをお勧めします。

データサイエンティストユーザーは、SageMaker HyperPod クラスターのオーケストレーターとして EKS クラスターセットを使用して基礎モデルをトレーニングできます。サイエンティストは、SageMaker HyperPod CLI とネイティブ kubectl コマンドを活用して、利用可能な SageMaker HyperPod クラスターを検索し、トレーニングジョブ (ポッド) を送信して、ワークロードを管理します。SageMaker HyperPod CLI では、トレーニングジョブスキーマファイルを使用してジョブを送信でき、ジョブの一覧表示、説明、キャンセル、実行の機能が備わっています。科学者は、HyperPod によって管理されるコンピューティングクォータに従って Kubeflow Training OperatorSageMaker AI マネージド MLflow を使用して、ML 実験とトレーニング実行を管理できます。