SageMaker HyperPod 叢集指標 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker HyperPod 叢集指標

Amazon SageMaker HyperPod (SageMaker HyperPod) 會將 9 個不同類別的各種指標發佈到您的 Amazon Managed Service for Prometheus 工作區。並非所有指標都預設為啟用,或在 Amazon Managed Grafana 工作區中顯示。下表顯示當您安裝可觀測性附加元件時,預設會啟用哪些指標、哪些類別具有額外的指標,可用於更精細的叢集資訊,以及它們出現在 Amazon Managed Grafana 工作區中的位置。

指標類別 預設為啟用? 有其他可用的進階指標? 在哪些 Grafana 儀表板下可用?
訓練指標 培訓
推論指標 Inference
任務控管指標 無。查詢 Amazon Managed Service for Prometheus 工作區以建置您自己的儀表板。
擴展指標 無。查詢 Amazon Managed Service for Prometheus 工作區以建置您自己的儀表板。
叢集指標 叢集
執行個體指標 叢集
加速運算指標 任務、叢集
網路指標 叢集
檔案系統 檔案系統

下表說明可用於監控 SageMaker HyperPod 叢集的指標,依類別整理。

訓練指標

使用這些指標來追蹤在 SageMaker HyperPod 叢集上執行的訓練任務效能。

指標名稱或類型 描述 預設為啟用? 指標來源
Kubeflow 指標 https://github.com/kubeflow/trainer Kubeflow
Kubernetes Pod 指標 https://github.com/kubernetes/kube-state-metrics Kubernetes
training_uptime_percentage 超出總時段大小的訓練時間百分比 SageMaker HyperPod 訓練運算子
training_manual_recovery_count 在任務上執行的手動重新啟動總數 SageMaker HyperPod 訓練運算子
training_manual_downtime_ms 任務因手動介入而停機的總時間,以毫秒為單位 SageMaker HyperPod 訓練運算子
training_auto_recovery_count 自動復原的總數 SageMaker HyperPod 訓練運算子
training_auto_recovery_downtime 故障復原期間的總基礎設施額外負荷時間,以毫秒為單位 SageMaker HyperPod 訓練運算子
training_fault_count 訓練期間遇到的故障總數 SageMaker HyperPod 訓練運算子
training_fault_type_count 依類型分配故障 SageMaker HyperPod 訓練運算子
training_fault_recovery_time_ms 每種故障類型的復原時間,以毫秒為單位 SageMaker HyperPod 訓練運算子
training_time_ms 實際訓練所花費的總時間,以毫秒為單位 SageMaker HyperPod 訓練運算子

推論指標

使用這些指標來追蹤 SageMaker HyperPod 叢集上推論任務的效能。

指標名稱或類型 描述 預設為啟用? 指標來源
model_invocations_total 對模型的調用請求總數 SageMaker HyperPod 推論運算子
model_errors_total 模型調用期間的錯誤總數 SageMaker HyperPod 推論運算子
model_concurrent_requests 作用中並行模型請求 SageMaker HyperPod 推論運算子
model_latency_milliseconds 以毫秒為單位的模型調用延遲 SageMaker HyperPod 推論運算子
model_ttfb_milliseconds 模型到第一個位元組延遲的時間,以毫秒為單位 SageMaker HyperPod 推論運算子
TGI 這些指標可用來監控 TGI、自動擴展部署的效能,並協助識別瓶頸。如需指標的詳細清單,請參閱 https://https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md 模型容器
LMI 這些指標可用來監控 LMI 的效能,並協助識別瓶頸。如需指標的詳細清單,請參閱 https://https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md 模型容器

任務控管指標

使用這些指標來監控 SageMaker HyperPod 叢集上的任務控管和資源配置。

指標名稱或類型 描述 預設為啟用? 指標來源
Kueue 請參閱 https://https://kueue.sigs.k8s.io/docs/reference/metrics/ Kueue

擴展指標

使用這些指標來監控 SageMaker HyperPod 叢集上的自動調整規模行為和效能。

指標名稱或類型 描述 預設為啟用? 指標來源
KEDA 運算子指標 請參閱 https://https://keda.sh/docs/2.17/integrations/prometheus/#operator Kubernetes 事件驅動的 Autoscaler (KEDA)
KEDA Webhook 指標 請參閱 https://https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks Kubernetes 事件驅動的 Autoscaler (KEDA)
KEDA 指標伺服器指標 請參閱 https://https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server Kubernetes 事件驅動的 Autoscaler (KEDA)

叢集指標

使用這些指標來監控整體叢集運作狀態和資源配置。

指標名稱或類型 描述 預設為啟用? 指標來源
叢集運作狀態 Kubernetes API 伺服器指標。請參閱 https://https://kubernetes.io/docs/reference/instrumentation/metrics/ Kubernetes
Kubestate 請參閱 https://https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources 有限 Kubernetes
KubeState 進階 請參閱 https://https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources Kubernetes

執行個體指標

使用這些指標來監控個別執行個體的效能和運作狀態。

指標名稱或類型 描述 預設為啟用? 指標來源
節點指標 請參閱 https://https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default Kubernetes
容器指標 Cadvisor 公開的容器指標。請參閱 https://https://github.com/google/cadvisor Kubernetes

加速運算指標

使用這些指標來監控叢集中個別加速運算裝置的效能、運作狀態和使用率。

指標名稱或類型 描述 預設為啟用? 指標來源
NVIDIA GPU DCGM 指標。請參閱 https://https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv 有限

NVIDIA 資料中心 GPU Manager (DCGM)

NVIDIA GPU (進階)

在下列 CSV 檔案中註解的 DCGM 指標:

https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv

NVIDIA 資料中心 GPU Manager (DCGM)

AWS Trainium Neuron 指標。請參閱 https://https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters AWS Neuron 監視器

網路指標

使用這些指標來監控叢集中 Elastic Fabric Adapters (EFA) 的效能和運作狀態。

指標名稱或類型 描述 預設為啟用? 指標來源
EFA 請參閱 https://https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md Elastic Fabric Adapter

檔案系統指標

指標名稱或類型 描述 預設為啟用? 指標來源
檔案系統 Amazon CloudWatch 的 Amazon FSx for Lustre 指標:

使用 Amazon CloudWatch 進行監控

Amazon FSx for Lustre