

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Studio 中的 HyperPod 索引標籤
<a name="sagemaker-hyperpod-studio-tabs"></a>

在 Amazon SageMaker Studio 中，您可以導覽至 **HyperPod 叢集**中的其中一個叢集 (在**運算**下)，並檢視叢集清單。顯示的叢集包含任務、硬體指標、設定和中繼資料詳細資訊等資訊。此可見性可協助您的團隊識別適合於預先訓練或微調工作負載的合適候選者。下列各節提供每種資訊類型的相關資訊。

## 任務​
<a name="sagemaker-hyperpod-studio-tabs-tasks"></a>

Amazon SageMaker HyperPod 提供叢集任務的檢視。任務是傳送至叢集的作業或任務。這些可以是機器學習作業，例如訓練、執行實驗或推論。下節提供 HyperPod 叢集任務的相關資訊。

在 Amazon SageMaker Studio 中，您可以導覽至 **HyperPod 叢集**中的其中一個叢集 (在**運算**下)，並檢視叢集上的**任務**資訊。如果您在檢視任務時遇到任何問題，請參閱[疑難排解](sagemaker-hyperpod-studio-troubleshoot.md)。

任務資料表包括：

------
#### [ For Slurm clusters ]

對於 Slurm 叢集，目前在 Slurm 任務排程器佇列中的任務會顯示在資料表中。針對每個任務顯示的資訊包括任務名稱、狀態、任務 ID、分割區、執行時間、節點、建立者和動作。

如需過去任務的清單和詳細資訊，請在 JupyterLab 或程式碼編輯器終端機中使用 [https://slurm.schedmd.com/sacct.html](https://slurm.schedmd.com/sacct.html) 命令。`sacct` 命令用來檢視系統中*已完成*或*完成*之任務的*歷程資訊*。它提供會計資訊，包括任務資源用量，例如記憶體和結束狀態。

根據預設，所有 Studio 使用者都可以檢視、管理所有可用的 Slurm 任務，並與其互動。若要限制 Studio 使用者可檢視的任務，請參閱[限制 Studio for Slurm 叢集的任務檢視](sagemaker-hyperpod-studio-setup-slurm.md#sagemaker-hyperpod-studio-setup-slurm-restrict-tasks-view)。

------
#### [ For Amazon EKS clusters ]

對於 Amazon EKS 叢集，kubeflow (PyTorch、MPI、TensorFlow) 任務會顯示在資料表中。預設會顯示 PyTorch 任務。您可以在**任務類型**下排序 PyTorch、MPI 和 TensorFlow。針對每個任務顯示的資訊包括任務名稱、狀態、命名空間、優先順序類別和建立時間。

根據預設，所有使用者都可以檢視所有命名空間的任務。若要限制 Studio 使用者可檢視的 Kubernetes 命名空間，請參閱[限制 Studio for EKS 叢集中的任務檢視](sagemaker-hyperpod-studio-setup-eks.md#sagemaker-hyperpod-studio-setup-eks-restrict-tasks-view)。如果使用者無法檢視任務並被要求提供命名空間，他們需要從管理員取得該資訊。

------

## 指標
<a name="sagemaker-hyperpod-studio-tabs-metrics"></a>

Amazon SageMaker HyperPod 會提供 Slurm 或 Amazon EKS 叢集使用率指標的檢視。以下提供 HyperPod 叢集指標的相關資訊。

您需要安裝 Amazon EKS 附加元件才能檢視下列指標。如需詳細資訊，請參閱[安裝 Amazon CloudWatch 可觀測性 EKS 附加元件](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Container-Insights-setup-EKS-addon.html)。

在 Amazon SageMaker Studio 中，您可以導覽至 **HyperPod 叢集**中的其中一個叢集 (在**運算**下)，並檢視叢集上的**指標**詳細資訊。指標提供叢集使用率指標的全面檢視，包括硬體、團隊和任務指標。這包括運算可用性和用量、團隊配置和使用率，以及任務執行和等待時間資訊。

## 設定
<a name="sagemaker-hyperpod-studio-tabs-settings"></a>

Amazon SageMaker HyperPod 提供叢集設定的檢視。以下提供 HyperPod 叢集設定的相關資訊。

在 Amazon SageMaker Studio 中，您可以導覽至 **HyperPod 叢集**中的其中一個叢集 (在**運算**下)，並檢視叢集上的**設定**資訊。資訊包括下列內容：
+ **執行個體**詳細資訊，包括執行個體 ID、狀態、執行個體類型和執行個體群組
+ **執行個體群組**詳細資訊，包括執行個體群組名稱、類型、計數和運算資訊
+ **協同運作**詳細資訊，包括協調器、版本和認證機構
+ **叢集彈性**詳細資訊
+ **安全**詳細資訊，包括子網路和安全群組

## 詳細資訊
<a name="sagemaker-hyperpod-studio-tabs-details"></a>

Amazon SageMaker HyperPod 提供叢集中繼資料詳細資訊的檢視。以下段落提供如何取得 HyperPod 叢集詳細資訊的相關資訊。

在 Amazon SageMaker Studio 中，您可以導覽至 **HyperPod 叢集**中的其中一個叢集 (在**運算**下)，並檢視叢集上的**詳細資訊**。這包括標籤、日誌和中繼資料。