SageMaker HyperPod 叢集指標 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker HyperPod 叢集指標

Amazon SageMaker HyperPod (SageMaker HyperPod) 會將 9 個不同類別的各種指標發佈到您的 Amazon Managed Service for Prometheus 工作區。並非所有指標都預設為啟用,或在 Amazon Managed Grafana 工作區中顯示。下表顯示當您安裝可觀測性附加元件時,預設會啟用哪些指標、哪些類別具有可以取得更精細叢集資訊的額外指標,以及它們出現在 Amazon Managed Grafana 工作區中的位置。

指標類別 預設為啟用? 有其他可用的進階指標嗎? 在哪些 Grafana 儀表板下可用?
訓練指標 培訓
推論指標 Inference
任務治理指標 無。查詢 Amazon Managed Service for Prometheus 工作區以建置您自己的儀表板。
擴展指標 無。查詢 Amazon Managed Service for Prometheus 工作區以建置您自己的儀表板。
叢集指標 叢集
執行個體指標 叢集
加速運算指標 任務、叢集
網路指標 叢集
檔案系統 檔案系統

下表描述可用於監控 SageMaker HyperPod 叢集的指標,依類別組織。

訓練指標

使用這些指標來追蹤 SageMaker HyperPod 叢集上執行的訓練任務效能。

指標名稱或類型 Description 預設為啟用? 指標來源
Kubeflow 指標 https://github.com/kubeflow/trainer Kubeflow
Kubernetes Pod 指標 https://github.com/kubernetes/kube-state-metrics Kubernetes
training_uptime_percentage 超出總時段大小的訓練時間百分比 SageMaker HyperPod 訓練運算子
training_manual_recovery_count 在任務上執行的手動重新啟動總數 SageMaker HyperPod 訓練運算子
training_manual_downtime_ms 任務由於手動介入而停止的總時間,以毫秒為單位 SageMaker HyperPod 訓練運算子
training_auto_recovery_count 自動復原總數 SageMaker HyperPod 訓練運算子
training_auto_recovery_downtime 故障復原期間的總基礎設施負荷時間,以毫秒為單位 SageMaker HyperPod 訓練運算子
training_fault_count 訓練期間遇到的故障總數 SageMaker HyperPod 訓練運算子
training_fault_type_count 依類型分配故障 SageMaker HyperPod 訓練運算子
training_fault_recovery_time_ms 每種故障類型的復原時間,以毫秒為單位 SageMaker HyperPod 訓練運算子
training_time_ms 實際訓練所花費的總時間,以毫秒為單位 SageMaker HyperPod 訓練運算子

推論指標

使用這些指標來追蹤 SageMaker HyperPod 叢集上推論任務的效能。

指標名稱或類型 Description 預設為啟用? 指標來源
model_invocations_total 模型的調用請求總數 SageMaker HyperPod 推論運算子
model_errors_total 模型調用期間的錯誤總數 SageMaker HyperPod 推論運算子
model_concurrent_requests 作用中並行模型請求 SageMaker HyperPod 推論運算子
model_latency_milliseconds 以毫秒為單位的模型調用延遲 SageMaker HyperPod 推論運算子
model_ttfb_milliseconds 第一個位元組延遲的模型時間,以毫秒為單位 SageMaker HyperPod 推論運算子
TGI 這些指標可以用來監控 TGI、自動擴展部署的效能,並協助識別瓶頸。如需指標的詳細清單,請參閱 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md 模型容器
LMI 這些指標可以用來監控 LMI 的效能,並協助識別瓶頸。如需指標的詳細清單,請參閱 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md 模型容器

任務治理指標

使用這些指標來監控 SageMaker HyperPod 叢集上的任務治理和資源配置。

指標名稱或類型 Description 預設為啟用? 指標來源
Kueue 請參閱 https://kueue.sigs.k8s.io/docs/reference/metrics/ Kueue

擴展指標

使用這些指標來監控 SageMaker HyperPod 叢集上的自動擴展行為和效能。

指標名稱或類型 Description 預設為啟用? 指標來源
KEDA 運算子指標 請參閱 https://keda.sh/docs/2.17/integrations/prometheus/#operator Kubernetes Event-driven Autoscaler (KEDA)
KEDA Webhook 指標 請參閱 https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks Kubernetes Event-driven Autoscaler (KEDA)
KEDA Metrics 伺服器指標 請參閱 https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server Kubernetes Event-driven Autoscaler (KEDA)

叢集指標

使用這些指標來監控整體叢集運作狀態和資源配置。

指標名稱或類型 Description 預設為啟用? 指標來源
叢集運作狀態 Kubernetes API 伺服器指標。請參閱 https://kubernetes.io/docs/reference/instrumentation/metrics/ Kubernetes
Kubestate 請參閱 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources 有限 Kubernetes
KubeState 進階 請參閱 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources Kubernetes

執行個體指標

使用這些指標來監控個別執行個體效能和運作狀態。

指標名稱或類型 Description 預設為啟用? 指標來源
節點指標 請參閱 https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default Kubernetes
容器指標 Cadvisor 公開的容器指標。請參閱 https://github.com/google/cadvisor Kubernetes

加速運算指標

使用這些指標來監控叢集中個別加速運算裝置的效能、運作狀態和使用率。

注意

在叢集上啟用 MIG (多執行個體 GPU) 的 GPU 分割時,DCGM 指標會自動提供分割區層級的精細程度,以監控個別 MIG 執行個體。每個 MIG 分割區都會以單獨的 GPU 裝置公開,並具有自己的溫度、功率、記憶體使用率和運算活動的指標。這可讓您獨立追蹤每個 GPU 分割區的資源用量和運作狀態,進而精確監控在部分 GPU 資源上執行的工作負載。如需設定 GPU 分割的詳細資訊,請參閱 在 Amazon SageMaker HyperPod 中使用 GPU 分割區

指標名稱或類型 Description 預設為啟用? 指標來源
NVIDIA GPU DCGM 指標。請參閱 https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv 有限

NVIDIA Data Center GPU Manager (DCGM)

NVIDIA GPU (進階)

在下列 CSV 檔案中註銷的 DCGM 指標:

https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv

NVIDIA Data Center GPU Manager (DCGM)

AWSTrainium Neuron 指標。請參閱 https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters AWSNeuron 監視器

網路指標

使用這些指標來監控叢集中 Elastic Fabric Adapter (EFA) 的效能和運作狀態。

指標名稱或類型 Description 預設為啟用? 指標來源
EFA 請參閱 https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md Elastic Fabric Adapter

檔案系統指標

指標名稱或類型 Description 預設為啟用? 指標來源
檔案系統 來自 Amazon CloudWatch 的 Amazon FSx for Lustre 指標:

使用 Amazon CloudWatch 進行監控

Amazon FSx for Lustre