SageMaker HyperPod 中成本屬性的使用報告 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker HyperPod 中成本屬性的使用報告

SageMaker HyperPod EKS 協調叢集中的用量報告可提供精細的運算資源耗用量可見性。此功能可讓組織實作透明的成本歸因,並根據實際用量將叢集成本分配給團隊、專案或部門。透過追蹤 GPU/CPU 時數和 Neuron Core 使用率等指標 - 在團隊層級彙總和任務特定明細中擷取 - 使用量報告補充 HyperPod 的任務控管功能,透過下列方式確保共用多租用戶叢集中的公平成本分配:

  • 消除成本分配中的猜測

  • 直接將費用連結至可衡量的資源耗用量

  • 在共用基礎設施環境中強制執行以用量為基礎的責任

先決條件

若要使用此功能:

  • 您需要:

    • 執行 EKS 協調叢集的作用中 SageMaker HyperPod 環境

    • (強烈建議) 使用運算配額和優先順序規則設定的任務控管。如需設定說明,請參閱任務控管設定

  • 熟悉這些核心概念:

    • 配置的運算配額:根據其任務控管政策中的預先定義配額為團隊預留的資源。這是對其工作負載的保證容量

    • 借用運算:從共用叢集集區閒置資源,團隊可以暫時使用超過其配置配額的資源。借用運算會根據任務控管政策中的優先順序規則和未使用資源的可用性來動態指派。

    • 運算用量:團隊耗用的資源量 (GPU、CPU、Neuron Core 時數),追蹤為:

      • 分配使用率:團隊配額內的使用量。

      • 借用使用率:超出配額的使用量,從共用集區中提取。

    • 成本歸因:根據團隊的實際運算用量分配叢集成本的程序,包括在其預先定義配額內耗用的資源,以及從共用叢集集區中暫時使用的超出配額的資源。

報告類型

HyperPod 的用量報告提供不同的操作精細程度:

  • 摘要報告提供整個組織的運算用量可見性,彙總每個團隊 (命名空間) 的總 GPU/CPU/Neuron Core 時數,同時區分一般用量 (資源與團隊配置的配額) 和借用運算 (從共用集區溢出容量)。

  • 詳細報告依團隊提供任務層級明細,追蹤執行特定任務所花費的確切運算時數,包括先佔的任務、每小時使用率模式,以及命名空間特定的配置。

重要

HyperPod 用量報告會追蹤叢集中所有 Kubernetes 命名空間的運算使用率,包括由任務控管管理、預設命名空間,以及在任務控管之外建立的命名空間 (例如,透過直接 Kubernetes API 呼叫或外部工具)。此基礎設施層級監控可確保全面的用量型責任,防止共用叢集的成本歸因差距,無論命名空間的管理方式為何。

報告格式和時間範圍

使用 中提供的 Python 指令碼產生報告,管理員可以隨需產生 CSV 或 PDF 格式的用量報告,選取從每日快照到 180 天 (6 個月) 歷史時段的時間範圍。

注意

您可以在設定報告基礎設施時,將歷史時段設定為超出預設的 180 天上限。如需設定資料保留期的詳細資訊,請參閱使用 CloudFormation 安裝用量報告基礎設施

說明性使用案例

此功能可處理多租用戶 AI/ML 環境中的關鍵案例,例如:

  1. 共用叢集的成本分配:管理員管理由 20 個訓練生成式 AI 模型的團隊共用的 HyperPod 叢集。使用摘要用量報告,他們會分析 180 天內的每日 GPU 使用率,並探索 A 團隊耗用 200 個特定執行個體類型的 GPU 時數:170 個來自配置配額,30 個來自借用運算。管理員會根據此報告的用量向團隊 A 開立發票。

  2. 稽核和爭議解決:財務團隊會詢問成本歸因準確性,並指出不一致。管理員可以將詳細的任務層級報告匯出為稽核差異。透過跨參考時間戳記、執行個體類型和團隊命名空間中的先佔任務,報告可透明地協調有爭議的用量資料。