Studio の HyperPod タブ - Amazon SageMaker AI

Studio の HyperPod タブ

Amazon SageMaker Studio では、[HyperPod クラスター] ([コンピューティング] の下) のいずれかのクラスターに移動し、クラスター一覧を表示できます。表示されるクラスターには、タスク、ハードウェアメトリクス、設定、メタデータの詳細などの情報が含まれています。この可視性は、チームが事前トレーニングまたはファインチューニングワークロードに適した候補を特定するのに役立ちます。以下のセクションでは、各タイプの情報について説明します。

タスク

Amazon SageMaker HyperPod は、クラスタータスクのビューを提供します。タスクは、クラスターに送信されるオペレーションまたはジョブです。これらは、トレーニング、実験の実行、推論などの機械学習オペレーションです。次のセクションでは、HyperPod クラスタータスクについて説明します。

Amazon SageMaker Studio では、[HyperPod クラスター] ([コンピューティング] の下) のいずれかのクラスターに移動し、クラスターのタスク情報を表示できます。タスクの表示に問題がある場合は、「トラブルシューティング」を参照してください。

タスクテーブルには以下が含まれます。

For Slurm clusters

Slurm クラスターの場合、現在 Slurm ジョブスケジューラキューにあるタスクがテーブルに表示されます。各タスクに表示される情報には、タスク名、ステータス、ジョブ ID、パーティション、実行時間、ノード、作成者、アクションなどがあります。

過去のジョブを一覧表示したり詳細を確認するには、JupyterLab または Code Editor ターミナルで sacct コマンドを使用します。sacct コマンドは、システム内で終了または完了したジョブに関する履歴情報を表示するために使用されます。メモリや終了ステータスなどのジョブリソースの使用状況などのアカウント情報を提供します。

デフォルトでは、すべての Studio ユーザーは、使用可能なすべての Slurm タスクを表示、管理、操作できます。表示可能なタスクを Studio ユーザーに制限するには、「Studio for Slurm クラスターのタスクビューを制限する」を参照してください。

For Amazon EKS clusters

Amazon EKS クラスターの場合、kubeflow (PyTorch、MPI、TensorFlow) タスクが表に表示されます。PyTorch タスクはデフォルトで表示されます。[タスクタイプ] では、PyTorch、MPI、TensorFlow を並べ替えできます。各タスクに表示される情報には、タスク名、ステータス、名前空間、優先クラス、作成時刻が含まれます。

デフォルトでは、すべてのユーザーはすべての名前空間にわたってジョブを表示できます。Studio ユーザーが利用できる表示可能な Kubernetes 名前空間を制限するには、「Studio for EKS クラスターのタスクビューを制限する」を参照してください。ユーザーがタスクを表示できず、名前空間を指定するように求められた場合は、管理者からその情報を取得する必要があります。

メトリクス

Amazon SageMaker HyperPod には、Slurm または Amazon EKS クラスターの使用率メトリクスが表示されます。次のセクションでは、HyperPod クラスターメトリクスについて説明します。

以下のメトリクスを表示するには、Amazon EKS アドオンをインストールする必要があります。詳細については、「Amazon CloudWatch オブザーバビリティ EKS アドオンをインストールする」を参照してください。

Amazon SageMaker Studio では、[HyperPod クラスター] ([コンピューティング] の下) のいずれかのクラスターに移動し、クラスターのメトリクス詳細を表示できます。メトリクスでは、ハードウェア、チーム、タスクのメトリクスを含むクラスター使用率メト​​リクスの包括的なビューが提供されます。これには、コンピューティングの可用性と使用状況、チームの割り当てと使用率、タスクの実行と待機時間の情報などがあります。

設定

Amazon SageMaker HyperPod は、クラスターの設定のビューを提供します。以下は、HyperPod クラスター設定に関する情報です。

Amazon SageMaker Studio では、[HyperPod クラスター] ([コンピューティング] の下) のいずれかのクラスターに移動し、クラスターの設定情報を表示できます。含まれる情報は、以下のとおりです。

  • インスタンス ID、ステータス、インスタンスタイプ、インスタンスグループなどのインスタンスの詳細

  • インスタンスグループ名、タイプ、カウント、コンピューティング情報など、インスタンスグループの詳細

  • オーケストレーター、バージョン、認証機関などのオーケストレーションの詳細

  • クラスターの耐障害性の詳細

  • サブネットやセキュリティグループなどのセキュリティの詳細

詳細

Amazon SageMaker HyperPod は、クラスターのメタデータの詳細ビューを提供します。次の段落では、HyperPod クラスターの詳細を取得する方法について説明します。

Amazon SageMaker Studio では、[HyperPod クラスター] ([コンピューティング] の下) のいずれかのクラスターに移動し、クラスターの詳細を表示できます。これには、タグ、ログ、メタデータなどがあります。