Studio の HyperPod タブ
Amazon SageMaker Studio では、[HyperPod クラスター] ([コンピューティング] の下) のいずれかのクラスターに移動し、クラスター一覧を表示できます。表示されるクラスターには、タスク、ハードウェアメトリクス、設定、メタデータの詳細などの情報が含まれています。この可視性は、チームが事前トレーニングまたはファインチューニングワークロードに適した候補を特定するのに役立ちます。以下のセクションでは、各タイプの情報について説明します。
タスク
Amazon SageMaker HyperPod は、クラスタータスクのビューを提供します。タスクは、クラスターに送信されるオペレーションまたはジョブです。これらは、トレーニング、実験の実行、推論などの機械学習オペレーションです。次のセクションでは、HyperPod クラスタータスクについて説明します。
Amazon SageMaker Studio では、[HyperPod クラスター] ([コンピューティング] の下) のいずれかのクラスターに移動し、クラスターのタスク情報を表示できます。タスクの表示に問題がある場合は、「トラブルシューティング」を参照してください。
タスクテーブルには以下が含まれます。
メトリクス
Amazon SageMaker HyperPod には、Slurm または Amazon EKS クラスターの使用率メトリクスが表示されます。次のセクションでは、HyperPod クラスターメトリクスについて説明します。
以下のメトリクスを表示するには、Amazon EKS アドオンをインストールする必要があります。詳細については、「Amazon CloudWatch オブザーバビリティ EKS アドオンをインストールする」を参照してください。
Amazon SageMaker Studio では、[HyperPod クラスター] ([コンピューティング] の下) のいずれかのクラスターに移動し、クラスターのメトリクス詳細を表示できます。メトリクスでは、ハードウェア、チーム、タスクのメトリクスを含むクラスター使用率メトリクスの包括的なビューが提供されます。これには、コンピューティングの可用性と使用状況、チームの割り当てと使用率、タスクの実行と待機時間の情報などがあります。
設定
Amazon SageMaker HyperPod は、クラスターの設定のビューを提供します。以下は、HyperPod クラスター設定に関する情報です。
Amazon SageMaker Studio では、[HyperPod クラスター] ([コンピューティング] の下) のいずれかのクラスターに移動し、クラスターの設定情報を表示できます。含まれる情報は、以下のとおりです。
-
インスタンス ID、ステータス、インスタンスタイプ、インスタンスグループなどのインスタンスの詳細
-
インスタンスグループ名、タイプ、カウント、コンピューティング情報など、インスタンスグループの詳細
-
オーケストレーター、バージョン、認証機関などのオーケストレーションの詳細
-
クラスターの耐障害性の詳細
-
サブネットやセキュリティグループなどのセキュリティの詳細
詳細
Amazon SageMaker HyperPod は、クラスターのメタデータの詳細ビューを提供します。次の段落では、HyperPod クラスターの詳細を取得する方法について説明します。
Amazon SageMaker Studio では、[HyperPod クラスター] ([コンピューティング] の下) のいずれかのクラスターに移動し、クラスターの詳細を表示できます。これには、タグ、ログ、メタデータなどがあります。