View a markdown version of this page

SageMaker HyperPod 叢集指標 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker HyperPod 叢集指標

Amazon SageMaker HyperPod (SageMaker HyperPod) 會將 9 個不同類別的各種指標發佈到您的 Amazon Managed Service for Prometheus 工作區。並非所有指標都預設為啟用,或在 Amazon Managed Grafana 工作區中顯示。下表顯示當您安裝可觀測性附加元件時,預設會啟用哪些指標、哪些類別具有可以取得更精細叢集資訊的額外指標,以及它們出現在 Amazon Managed Grafana 工作區中的位置。

指標類別 預設為啟用? 有其他可用的進階指標嗎? 在哪些 Grafana 儀表板下可用?
訓練指標 培訓
推論指標 Inference
任務治理指標 無。查詢 Amazon Managed Service for Prometheus 工作區以建置您自己的儀表板。
擴展指標 無。查詢 Amazon Managed Service for Prometheus 工作區以建置您自己的儀表板。
叢集指標 叢集
執行個體指標 叢集
加速運算指標 任務、叢集
網路指標 叢集
檔案系統 檔案系統

下表描述可用於監控 SageMaker HyperPod 叢集的指標,依類別組織。

限制執行個體群組上的指標可用性

當您的叢集包含受限執行個體群組時,大多數指標類別可在受限節點上使用,但有下列例外和考量。您也可以在您選擇的任何指標上設定提醒。

指標類別 適用於 RIG 節點? 備註
訓練指標 收集 Kubeflow 和 Kubernetes Pod 指標。進階訓練 KPI 指標 (來自訓練指標代理程式) 不適用於 RIG 節點。
推論指標 受限執行個體群組不支援推論工作負載。
任務治理指標 Kueue 指標只會從標準節點收集,如果有的話。
擴展指標 KEDA 指標只會從標準節點收集,如果有的話。
叢集指標 可使用 Kube 狀態指標和 API 伺服器指標。Kube 狀態指標優先排程在標準節點上,但可以在僅限 RIG 叢集中的受限節點上執行。
執行個體指標 Node Exporter 和 cAdvisor 指標會收集在所有節點上,包括受限節點。
加速運算指標 DCGM Exporter 在已啟用 GPU 的限制節點上執行。啟用進階模式時,Neuron Monitor 會在已啟用 Neuron 的限制節點上執行。
網路指標 啟用進階模式時,EFA Exporter 會在啟用 EFA 的限制節點上執行。
檔案系統指標 受限執行個體群組支援 FSx for Lustre 叢集使用率指標。
注意

使用 Fluent Bit 的容器日誌集合不會部署在受限節點上。來自受限節點的叢集日誌可透過 SageMaker HyperPod 平台,獨立於可觀測性附加元件。您可以在 Cluster Logs 儀表板中檢視這些日誌。

訓練指標

使用這些指標來追蹤 SageMaker HyperPod 叢集上執行的訓練任務效能。

指標名稱或類型 Description 預設為啟用? 指標來源
Kubeflow 指標 https://github.com/kubeflow/trainer Kubeflow
Kubernetes Pod 指標 https://github.com/kubernetes/kube-state-metrics Kubernetes
training_uptime_percentage 超出總時段大小的訓練時間百分比 SageMaker HyperPod 訓練運算子
training_manual_recovery_count 在任務上執行的手動重新啟動總數 SageMaker HyperPod 訓練運算子
training_manual_downtime_ms 任務由於手動介入而停止的總時間,以毫秒為單位 SageMaker HyperPod 訓練運算子
training_auto_recovery_count 自動復原總數 SageMaker HyperPod 訓練運算子
training_auto_recovery_downtime 故障復原期間的總基礎設施負荷時間,以毫秒為單位 SageMaker HyperPod 訓練運算子
training_fault_count 訓練期間遇到的故障總數 SageMaker HyperPod 訓練運算子
training_fault_type_count 依類型分配故障 SageMaker HyperPod 訓練運算子
training_fault_recovery_time_ms 每種故障類型的復原時間,以毫秒為單位 SageMaker HyperPod 訓練運算子
training_time_ms 實際訓練所花費的總時間,以毫秒為單位 SageMaker HyperPod 訓練運算子

推論指標

使用這些指標來追蹤 SageMaker HyperPod 叢集上推論任務的效能。

指標名稱或類型 Description 預設為啟用? 指標來源
model_invocations_total 模型的調用請求總數 SageMaker HyperPod 推論運算子
model_errors_total 模型調用期間的錯誤總數 SageMaker HyperPod 推論運算子
model_concurrent_requests 作用中並行模型請求 SageMaker HyperPod 推論運算子
model_latency_milliseconds 以毫秒為單位的模型調用延遲 SageMaker HyperPod 推論運算子
model_ttfb_milliseconds 第一個位元組延遲的模型時間,以毫秒為單位 SageMaker HyperPod 推論運算子
TGI 這些指標可以用來監控 TGI、自動擴展部署的效能,並協助識別瓶頸。如需指標的詳細清單,請參閱 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md 模型容器
LMI 這些指標可以用來監控 LMI 的效能,並協助識別瓶頸。如需指標的詳細清單,請參閱 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md 模型容器

任務治理指標

使用這些指標來監控 SageMaker HyperPod 叢集上的任務治理和資源配置。

指標名稱或類型 Description 預設為啟用? 指標來源
Kueue 請參閱 https://kueue.sigs.k8s.io/docs/reference/metrics/ Kueue

擴展指標

使用這些指標來監控 SageMaker HyperPod 叢集上的自動擴展行為和效能。

指標名稱或類型 Description 預設為啟用? 指標來源
KEDA 運算子指標 請參閱 https://keda.sh/docs/2.17/integrations/prometheus/#operator Kubernetes Event-driven Autoscaler (KEDA)
KEDA Webhook 指標 請參閱 https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks Kubernetes Event-driven Autoscaler (KEDA)
KEDA Metrics 伺服器指標 請參閱 https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server Kubernetes Event-driven Autoscaler (KEDA)

叢集指標

使用這些指標來監控整體叢集運作狀態和資源配置。

指標名稱或類型 Description 預設為啟用? 指標來源
叢集運作狀態 Kubernetes API 伺服器指標。請參閱 https://kubernetes.io/docs/reference/instrumentation/metrics/ Kubernetes
Kubestate 請參閱 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources 有限 Kubernetes
KubeState 進階 請參閱 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources Kubernetes

執行個體指標

使用這些指標來監控個別執行個體效能和運作狀態。

指標名稱或類型 Description 預設為啟用? 指標來源
節點指標 請參閱 https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default Kubernetes
容器指標 Cadvisor 公開的容器指標。請參閱 https://github.com/google/cadvisor Kubernetes

加速運算指標

使用這些指標來監控叢集中個別加速運算裝置的效能、運作狀態和使用率。

注意

在叢集上啟用 MIG (多執行個體 GPU) 的 GPU 分割時,DCGM 指標會自動提供分割區層級精細度,以監控個別 MIG 執行個體。每個 MIG 分割區都會以單獨的 GPU 裝置公開,並具有自己的溫度、功率、記憶體使用率和運算活動的指標。這可讓您獨立追蹤每個 GPU 分割區的資源用量和運作狀態,進而精確監控在部分 GPU 資源上執行的工作負載。如需設定 GPU 分割的詳細資訊,請參閱 在 Amazon SageMaker HyperPod 中使用 GPU 分割區

指標名稱或類型 Description 預設為啟用? 指標來源
NVIDIA GPU DCGM 指標。請參閱 https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv 有限

NVIDIA Data Center GPU Manager (DCGM)

NVIDIA GPU (進階)

在下列 CSV 檔案中註銷的 DCGM 指標:

https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv

NVIDIA Data Center GPU Manager (DCGM)

AWS Trainium Neuron 指標。請參閱 https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters AWS Neuron 監視器

網路指標

使用這些指標來監控叢集中 Elastic Fabric Adapter (EFA) 的效能和運作狀態。

指標名稱或類型 Description 預設為啟用? 指標來源
EFA 請參閱 https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md Elastic Fabric Adapter

檔案系統指標

指標名稱或類型 Description 預設為啟用? 指標來源
檔案系統 來自 Amazon CloudWatch 的 Amazon FSx for Lustre 指標:

使用 Amazon CloudWatch 進行監控

Amazon FSx for Lustre