SageMaker HyperPod 中成本歸因的用量報告 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker HyperPod 中成本歸因的用量報告

SageMaker HyperPod EKS 協調叢集中的用量報告可提供精細的運算資源耗用量可見性。此功能可讓組織實作透明的成本歸因,從而根據實際用量將叢集成本分配給團隊、專案或部門。透過追蹤 GPU/CPU 時數和神經元核心使用率等指標 - 在團隊層級彙總和任務特定明細中擷取 - 用量報告補充了 HyperPod 的任務治理功能,透過下列方式確保共用多租用戶叢集中的公平成本分配:

  • 消除成本分配中的猜測

  • 直接將費用連結至可測量的資源耗用量

  • 在共用基礎設施環境中強制執行用量型責任

先決條件

若要使用此功能:

  • 您需要:

    • EKS 協調叢集執行中的作用中 SageMaker HyperPod 環境

    • (強烈建議) 使用運算配額和優先順序規則設定的任務治理。如需設定指示,請參閱任務治理設定

  • 熟悉這些核心概念:

    • 配置的運算配額:根據其任務治理政策中的預先定義配額為團隊預留的資源。這是對其工作負載的保證容量

    • 借用運算:來自共用叢集集區的閒置資源,團隊可以超過其配額暫時使用這些資源。借用運算是根據任務治理政策中的優先順序規則和未使用資源的可用性來動態指派的。

    • 運算用量:團隊所耗用資源 (GPU、CPU、神經元核心時數) 的測量,追蹤方式如下:

      • 分配使用率:團隊配額內的用量。

      • 借用使用率:超出配額的用量,取自共用集區。

    • 成本歸因:根據團隊的實際運算用量將叢集成本分配給團隊的程序,包括在其預先定義配額內耗用的資源,以及從共用叢集集區暫時使用超過其配額的資源。

報告類型

HyperPod 的用量報告提供不同的操作精細程度:

  • 摘要報告提供整個組織的運算用量可見性,彙總每個團隊 (命名空間) 的總 GPU/CPU/神經元核心時數,同時區分常規用量 (來自團隊配額的資源) 與借用運算 (來自共用集區的溢出容量)。

  • 詳細報告依團隊提供任務層級明細,追蹤執行特定任務所花費的確切運算時數 - 包括先佔的任務、每小時使用率模式,以及命名空間特定的配置。

重要

HyperPod 用量報告會追蹤叢集中所有 Kubernetes 命名空間的運算使用率,包括任務治理管理的命名空間、預設命名空間,以及在任務治理之外建立的命名空間 (例如,透過直接 Kubernetes API 呼叫或外部工具)。此基礎設施層級監控可確保全面的用量型責任,防止共用叢集的成本歸因出現差距,無論命名空間的管理方式為何。

報告格式和時間範圍

使用 產生多份報告 中提供的 Python 指令碼,管理員可以隨需產生 CSV 或 PDF 格式的用量報告,選取從每日快照到 180 天 (6 個月) 歷程時段的時間範圍。

注意

您可以在設定報告基礎設施時,將歷程時段設定為超出預設的 180 天上限。如需設定資料保留期間的詳細資訊,請參閱使用 CloudFormation 安裝用量報告基礎設施

說明性使用案例

此功能可處理多租用戶 AI/ML 環境中的關鍵案例,例如:

  1. 共用叢集的成本分配:管理員管理由 20 個訓練生成式 AI 模型的團隊共用的 HyperPod 叢集。使用摘要用量報告,他們分析了 180 天內的每日 GPU 使用率,並發現團隊 A 耗用了 200 個特定執行個體類型的 GPU 小時:170 小時來自配額,30 小時來自借用運算。管理員會根據此報告的用量向團隊 A 開立發票。

  2. 稽核和爭議解決:財務團隊質疑成本歸因的準確性,指出不一致之處。管理員可以將詳細的任務層級報告匯出至稽核差異。透過跨參考時間戳記、執行個體類型和團隊命名空間內的先佔任務,報告可透明地協調有爭議的用量資料。