本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
報告詳細資訊和資料明細
SageMaker HyperPod 的用量報告提供兩種不同的鏡頭,分析運算資源耗用量:用於成本分配的摘要報告,以及用於精細稽核的詳細報告。摘要報告依團隊或命名空間彙總整個叢集的用量,強調 GPU、CPU 和神經元核心資源之間分配與借用運算的趨勢。詳細報告深入探討個別任務,公開執行時段、任務狀態和優先順序類別使用率等指標。在本節中,我們會細分這些報告的結構、了解其關鍵指標,並示範管理員和財務團隊如何使用任務層級資料來交叉參考摘要趨勢,以驗證成本歸因準確性、解決差異,以及最佳化共用基礎設施。
常見的報告標題
摘要和詳細報告都包含下列中繼資料,以情境化用量資料:
-
ClusterName:耗用資源的 EKS 協作 Hyperpod 叢集名稱。
-
類型:報告類別 (
Summary Utilization Report或Detailed Utilization Report)。 -
產生日期:建立報告的時間 (例如
2025-04-18)。 -
日期範圍 (UTC):涵蓋的時間範圍 (例如
2025-04-16 to 2025-04-18)。 -
缺少資料期間:由於叢集停機時間或監控問題 (例如
2025-04-16 00:00:00 to 2025-04-19 00:00:00) 而導致資料收集中出現差距。
摘要報告
摘要報告提供跨團隊/命名空間的運算資源耗用量的每日高階概觀,以及區分配置 (預留配額) 和借用 (借用集區) 使用率的執行個體類型。這些報告非常適合用於發票生成、成本歸因陳述或容量預測。
範例:摘要報告可能顯示團隊 A 使用了 200 個 GPU 小時 - 170 小時來自其配額,30 小時來自借用。
以下是摘要報告中關鍵資料欄的結構化明細:
-
日期:報告用量的日期 (例如
2025-04-18)。 -
命名空間:與團隊相關聯的 Kubernetes 命名空間 (例如
hyperpod-ns-ml-team)。 -
團隊:所屬團隊/部門 (例如
ml-team)。 -
執行個體類型:使用的運算執行個體 (例如 ml.g5.4xlarge)。
-
總計/配置/借用使用率 (小時):依類別劃分的 GPU、CPU 或神經元核心用量明細。
其中:
-
總使用率 = 配置使用率 + 借用使用率
-
配置使用率是團隊已使用的實際 GPU CPU 或神經元核心時數,上限為其配額的 100%。
-
借用使用率是團隊超過其配額使用的實際 GPU、CPU 或神經元核心時數,根據任務治理優先順序規則和資源可用性取自共用叢集集區。
-
範例:總共 72 GPU 小時 (48 小時配置,24 小時借用)。
注意
對於不是由任務治理管理的命名空間,只會顯示總使用率。
詳細報告
詳細報告提供運算用量的鑑識層級可見性,從而依任務細分資源耗用量、公開精細指標,例如任務執行時段、狀態 (例如成功、失敗) 和優先順序類別用量。這些報告非常適合用於計費差異驗證,或確保符合治理政策。
以下是詳細報告中關鍵資料欄的結構化明細:
-
日期:報告用量的日期 (例如
2025-04-18)。 -
期間開始/結束:任務的確切執行時段 (UTC)。(例如
19:54:34) -
命名空間:與團隊相關聯的 Kubernetes 命名空間 (例如
hyperpod-ns-ml-team)。 -
團隊:所屬團隊/部門 (例如
ml-team)。 -
任務:任務/Pod 的識別碼 (例如
pytorchjob-ml-pytorch-job-2p5zt-db686)。 -
執行個體:使用的運算執行個體 (例如
ml.g5.4xlarge)。 -
狀態:任務結果 (成功、失敗、先佔)。
-
總使用率:GPU、CPU 或神經元核心資源的總耗用量 (時數和執行個體計數)。
-
優先順序類別:指派的優先順序層 (例如 training-priority)。