受限制執行個體群組上的指標可用性訓練指標推論指標任務治理指標擴展指標叢集指標執行個體指標加速運算指標網路指標檔案系統指標

SageMaker HyperPod 叢集指標

Amazon SageMaker HyperPod (SageMaker HyperPod) 會將 9 個不同類別的各種指標發佈到您的 Amazon Managed Service for Prometheus 工作區。並非所有指標都預設為啟用，或在 Amazon Managed Grafana 工作區中顯示。下表顯示當您安裝可觀測性附加元件時，預設會啟用哪些指標、哪些類別具有可以取得更精細叢集資訊的額外指標，以及它們出現在 Amazon Managed Grafana 工作區中的位置。

指標類別	預設為啟用？	有其他可用的進階指標嗎？	在哪些 Grafana 儀表板下可用？
訓練指標	是	是	培訓
推論指標	是	否	Inference
任務治理指標	否	是	無。查詢 Amazon Managed Service for Prometheus 工作區以建置您自己的儀表板。
擴展指標	否	是	無。查詢 Amazon Managed Service for Prometheus 工作區以建置您自己的儀表板。
叢集指標	是	是	叢集
執行個體指標	是	是	叢集
加速運算指標	是	是	任務、叢集
網路指標	否	是	叢集
檔案系統	是	否	檔案系統

下表描述可用於監控 SageMaker HyperPod 叢集的指標，依類別組織。

受限制執行個體群組上的指標可用性

當您的叢集包含受限執行個體群組時，大多數指標類別可在受限節點上使用，但有下列例外和考量。您也可以在您選擇的任何指標上設定提醒。

指標類別	可在 RIG 節點上使用？	備註
訓練指標	是	收集 Kubeflow 和 Kubernetes Pod 指標。進階訓練 KPI 指標（來自訓練指標代理程式）無法從 RIG 節點取得。
推論指標	否	受限執行個體群組不支援推論工作負載。
任務治理指標	否	Kueue 指標只會從標準節點收集，如果有的話。
擴展指標	否	KEDA 指標只會從標準節點收集，如果有的話。
叢集指標	是	可使用 Kube 狀態指標和 API 伺服器指標。Kube 狀態指標優先排程在標準節點上，但可以在僅限 RIG 叢集中的受限節點上執行。
執行個體指標	是	Node Exporter 和 cAdvisor 指標會收集在所有節點上，包括受限節點。
加速運算指標	是	DCGM Exporter 在已啟用 GPU 的限制節點上執行。啟用進階模式時，Neuron Monitor 會在已啟用 Neuron 的限制節點上執行。
網路指標	是	啟用進階模式時，EFA Exporter 會在已啟用 EFA 的限制節點上執行。
檔案系統指標	是	受限制執行個體群組支援 FSx for Lustre 叢集使用率指標。

注意

使用 Fluent Bit 的容器日誌集合不會部署在受限節點上。來自受限節點的叢集日誌可透過 SageMaker HyperPod 平台，獨立於可觀測性附加元件。您可以在 Cluster Logs 儀表板中檢視這些日誌。

訓練指標

使用這些指標來追蹤 SageMaker HyperPod 叢集上執行的訓練任務效能。

指標名稱或類型	說明	預設為啟用？	指標來源
Kubeflow 指標	https://github.com/kubeflow/trainer	是	Kubeflow
Kubernetes Pod 指標	https://github.com/kubernetes/kube-state-metrics	是	Kubernetes
`training_uptime_percentage`	超出總時段大小的訓練時間百分比	否	SageMaker HyperPod 訓練運算子
`training_manual_recovery_count`	在任務上執行的手動重新啟動總數	否	SageMaker HyperPod 訓練運算子
`training_manual_downtime_ms`	任務由於手動介入而停止的總時間，以毫秒為單位	否	SageMaker HyperPod 訓練運算子
`training_auto_recovery_count`	自動復原總數	否	SageMaker HyperPod 訓練運算子
`training_auto_recovery_downtime`	故障復原期間的總基礎設施負荷時間，以毫秒為單位	否	SageMaker HyperPod 訓練運算子
`training_fault_count`	訓練期間遇到的故障總數	否	SageMaker HyperPod 訓練運算子
`training_fault_type_count`	依類型分配故障	否	SageMaker HyperPod 訓練運算子
`training_fault_recovery_time_ms`	每種故障類型的復原時間，以毫秒為單位	否	SageMaker HyperPod 訓練運算子
`training_time_ms`	實際訓練所花費的總時間，以毫秒為單位	否	SageMaker HyperPod 訓練運算子

推論指標

使用這些指標來追蹤 SageMaker HyperPod 叢集上推論任務的效能。

指標名稱或類型	說明	預設為啟用？	指標來源
`model_invocations_total`	模型的調用請求總數	是	SageMaker HyperPod 推論運算子
`model_errors_total`	模型調用期間的錯誤總數	是	SageMaker HyperPod 推論運算子
`model_concurrent_requests`	作用中並行模型請求	是	SageMaker HyperPod 推論運算子
`model_latency_milliseconds`	以毫秒為單位的模型調用延遲	是	SageMaker HyperPod 推論運算子
`model_ttfb_milliseconds`	第一個位元組延遲的模型時間，以毫秒為單位	是	SageMaker HyperPod 推論運算子
TGI	這些指標可以用來監控 TGI、自動擴展部署的效能，並協助識別瓶頸。如需指標的詳細清單，請參閱 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md。	是	模型容器
LMI	這些指標可以用來監控 LMI 的效能，並協助識別瓶頸。如需指標的詳細清單，請參閱 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md。	是	模型容器

任務治理指標

使用這些指標來監控 SageMaker HyperPod 叢集上的任務治理和資源配置。

指標名稱或類型	說明	預設為啟用？	指標來源
Kueue	請參閱 https://kueue.sigs.k8s.io/docs/reference/metrics/。	否	Kueue

擴展指標

使用這些指標來監控 SageMaker HyperPod 叢集上的自動擴展行為和效能。

指標名稱或類型	說明	預設為啟用？	指標來源
KEDA 運算子指標	請參閱 https://keda.sh/docs/2.17/integrations/prometheus/#operator。	否	Kubernetes Event-driven Autoscaler (KEDA)
KEDA Webhook 指標	請參閱 https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks。	否	Kubernetes Event-driven Autoscaler (KEDA)
KEDA Metrics 伺服器指標	請參閱 https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server。	否	Kubernetes Event-driven Autoscaler (KEDA)

叢集指標

使用這些指標來監控整體叢集運作狀態和資源配置。

指標名稱或類型	說明	預設為啟用？	指標來源
叢集運作狀態	Kubernetes API 伺服器指標。請參閱 https://kubernetes.io/docs/reference/instrumentation/metrics/。	是	Kubernetes
Kubestate	請參閱 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources。	有限	Kubernetes
KubeState 進階	請參閱 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources。	否	Kubernetes

執行個體指標

使用這些指標來監控個別執行個體效能和運作狀態。

指標名稱或類型	說明	預設為啟用？	指標來源
節點指標	請參閱 https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default。	是	Kubernetes
容器指標	Cadvisor 公開的容器指標。請參閱 https://github.com/google/cadvisor。	是	Kubernetes

加速運算指標

使用這些指標來監控叢集中個別加速運算裝置的效能、運作狀態和使用率。

注意

在叢集上啟用 MIG （多執行個體 GPU) 的 GPU 分割時，DCGM 指標會自動提供分割區層級的精細程度，以監控個別 MIG 執行個體。每個 MIG 分割區都會以單獨的 GPU 裝置公開，並具有自己的溫度、功率、記憶體使用率和運算活動的指標。這可讓您獨立追蹤每個 GPU 分割區的資源用量和運作狀態，進而精確監控在部分 GPU 資源上執行的工作負載。如需設定 GPU 分割的詳細資訊，請參閱在 Amazon SageMaker HyperPod 中使用 GPU 分割區。

指標名稱或類型	說明	預設為啟用？	指標來源
NVIDIA GPU	DCGM 指標。請參閱 https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv。	有限	NVIDIA Data Center GPU Manager (DCGM)
NVIDIA GPU (進階)	在下列 CSV 檔案中註銷的 DCGM 指標： https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv	否	NVIDIA Data Center GPU Manager (DCGM)
AWS Trainium	Neuron 指標。請參閱 https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters。	否	AWS Neuron 監視器

網路指標

使用這些指標來監控叢集中 Elastic Fabric Adapter (EFA) 的效能和運作狀態。

指標名稱或類型	說明	預設為啟用？	指標來源
EFA	請參閱 https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md。	否	Elastic Fabric Adapter

檔案系統指標

指標名稱或類型	說明	預設為啟用？	指標來源
檔案系統	來自 Amazon CloudWatch 的 Amazon FSx for Lustre 指標：使用 Amazon CloudWatch 進行監控。	是	Amazon FSx for Lustre

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

自訂指標

預先設定的警示