本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SageMaker HyperPod 叢集指標
Amazon SageMaker HyperPod (SageMaker HyperPod) 會將 9 個不同類別的各種指標發佈到您的 Amazon Managed Service for Prometheus 工作區。並非所有指標都預設為啟用,或在 Amazon Managed Grafana 工作區中顯示。下表顯示當您安裝可觀測性附加元件時,預設會啟用哪些指標、哪些類別具有額外的指標,可用於更精細的叢集資訊,以及它們出現在 Amazon Managed Grafana 工作區中的位置。
指標類別 | 預設為啟用? | 有其他可用的進階指標? | 在哪些 Grafana 儀表板下可用? |
---|---|---|---|
訓練指標 | 是 | 是 | 培訓 |
推論指標 | 是 | 否 | Inference |
任務控管指標 | 否 | 是 | 無。查詢 Amazon Managed Service for Prometheus 工作區以建置您自己的儀表板。 |
擴展指標 | 否 | 是 | 無。查詢 Amazon Managed Service for Prometheus 工作區以建置您自己的儀表板。 |
叢集指標 | 是 | 是 | 叢集 |
執行個體指標 | 是 | 是 | 叢集 |
加速運算指標 | 是 | 是 | 任務、叢集 |
網路指標 | 否 | 是 | 叢集 |
檔案系統 | 是 | 否 | 檔案系統 |
下表說明可用於監控 SageMaker HyperPod 叢集的指標,依類別整理。
訓練指標
使用這些指標來追蹤在 SageMaker HyperPod 叢集上執行的訓練任務效能。
指標名稱或類型 | 描述 | 預設為啟用? | 指標來源 |
---|---|---|---|
Kubeflow 指標 | https://github.com/kubeflow/trainer |
是 | Kubeflow |
Kubernetes Pod 指標 | https://github.com/kubernetes/kube-state-metrics |
是 | Kubernetes |
training_uptime_percentage |
超出總時段大小的訓練時間百分比 | 否 | SageMaker HyperPod 訓練運算子 |
training_manual_recovery_count |
在任務上執行的手動重新啟動總數 | 否 | SageMaker HyperPod 訓練運算子 |
training_manual_downtime_ms |
任務因手動介入而停機的總時間,以毫秒為單位 | 否 | SageMaker HyperPod 訓練運算子 |
training_auto_recovery_count |
自動復原的總數 | 否 | SageMaker HyperPod 訓練運算子 |
training_auto_recovery_downtime |
故障復原期間的總基礎設施額外負荷時間,以毫秒為單位 | 否 | SageMaker HyperPod 訓練運算子 |
training_fault_count |
訓練期間遇到的故障總數 | 否 | SageMaker HyperPod 訓練運算子 |
training_fault_type_count |
依類型分配故障 | 否 | SageMaker HyperPod 訓練運算子 |
training_fault_recovery_time_ms |
每種故障類型的復原時間,以毫秒為單位 | 否 | SageMaker HyperPod 訓練運算子 |
training_time_ms |
實際訓練所花費的總時間,以毫秒為單位 | 否 | SageMaker HyperPod 訓練運算子 |
推論指標
使用這些指標來追蹤 SageMaker HyperPod 叢集上推論任務的效能。
指標名稱或類型 | 描述 | 預設為啟用? | 指標來源 |
---|---|---|---|
model_invocations_total |
對模型的調用請求總數 | 是 | SageMaker HyperPod 推論運算子 |
model_errors_total |
模型調用期間的錯誤總數 | 是 | SageMaker HyperPod 推論運算子 |
model_concurrent_requests |
作用中並行模型請求 | 是 | SageMaker HyperPod 推論運算子 |
model_latency_milliseconds |
以毫秒為單位的模型調用延遲 | 是 | SageMaker HyperPod 推論運算子 |
model_ttfb_milliseconds |
模型到第一個位元組延遲的時間,以毫秒為單位 | 是 | SageMaker HyperPod 推論運算子 |
TGI | 這些指標可用來監控 TGI、自動擴展部署的效能,並協助識別瓶頸。如需指標的詳細清單,請參閱 https://https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md |
是 | 模型容器 |
LMI | 這些指標可用來監控 LMI 的效能,並協助識別瓶頸。如需指標的詳細清單,請參閱 https://https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md |
是 | 模型容器 |
任務控管指標
使用這些指標來監控 SageMaker HyperPod 叢集上的任務控管和資源配置。
指標名稱或類型 | 描述 | 預設為啟用? | 指標來源 |
---|---|---|---|
Kueue | 請參閱 https://https://kueue.sigs.k8s.io/docs/reference/metrics/ |
否 | Kueue |
擴展指標
使用這些指標來監控 SageMaker HyperPod 叢集上的自動調整規模行為和效能。
指標名稱或類型 | 描述 | 預設為啟用? | 指標來源 |
---|---|---|---|
KEDA 運算子指標 | 請參閱 https://https://keda.sh/docs/2.17/integrations/prometheus/#operator |
否 | Kubernetes 事件驅動的 Autoscaler (KEDA) |
KEDA Webhook 指標 | 請參閱 https://https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks |
否 | Kubernetes 事件驅動的 Autoscaler (KEDA) |
KEDA 指標伺服器指標 | 請參閱 https://https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server |
否 | Kubernetes 事件驅動的 Autoscaler (KEDA) |
叢集指標
使用這些指標來監控整體叢集運作狀態和資源配置。
指標名稱或類型 | 描述 | 預設為啟用? | 指標來源 |
---|---|---|---|
叢集運作狀態 | Kubernetes API 伺服器指標。請參閱 https://https://kubernetes.io/docs/reference/instrumentation/metrics/ |
是 | Kubernetes |
Kubestate | 請參閱 https://https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources |
有限 | Kubernetes |
KubeState 進階 | 請參閱 https://https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources |
否 | Kubernetes |
執行個體指標
使用這些指標來監控個別執行個體的效能和運作狀態。
指標名稱或類型 | 描述 | 預設為啟用? | 指標來源 |
---|---|---|---|
節點指標 | 請參閱 https://https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default |
是 | Kubernetes |
容器指標 | Cadvisor 公開的容器指標。請參閱 https://https://github.com/google/cadvisor |
是 | Kubernetes |
加速運算指標
使用這些指標來監控叢集中個別加速運算裝置的效能、運作狀態和使用率。
指標名稱或類型 | 描述 | 預設為啟用? | 指標來源 |
---|---|---|---|
NVIDIA GPU | DCGM 指標。請參閱 https://https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv |
有限 |
NVIDIA 資料中心 GPU Manager (DCGM) |
NVIDIA GPU (進階) |
在下列 CSV 檔案中註解的 DCGM 指標: https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv |
否 |
NVIDIA 資料中心 GPU Manager (DCGM) |
AWS Trainium | Neuron 指標。請參閱 https://https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters |
否 | AWS Neuron 監視器 |
網路指標
使用這些指標來監控叢集中 Elastic Fabric Adapters (EFA) 的效能和運作狀態。
指標名稱或類型 | 描述 | 預設為啟用? | 指標來源 |
---|---|---|---|
EFA | 請參閱 https://https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md |
否 | Elastic Fabric Adapter |
檔案系統指標
指標名稱或類型 | 描述 | 預設為啟用? | 指標來源 |
---|---|---|---|
檔案系統 | Amazon CloudWatch 的 Amazon FSx for Lustre 指標: | 是 | Amazon FSx for Lustre |