SageMaker HyperPod のコスト属性の使用状況レポート

SageMaker HyperPod EKS オーケストレーションクラスターの使用状況レポートは、コンピューティングリソースの消費状況をきめ細かく可視化します。この機能を使用すると、組織は透明性のあるコスト配分を実現し、クラスターコストをチーム、プロジェクト、または部門の実際の使用量に基づいて配分できます。GPU/CPU 時間や Neuron Core の使用率などのメトリクスをチームレベルの集計とタスク固有の内訳の両方で追跡することで、使用状況レポートは HyperPod のタスクガバナンス機能を補完し、共有マルチテナントクラスターにおける公平なコスト配分を実現します。

コスト配分における推測作業の排除
コストと測定可能なリソース消費量との直接的な関連付け
共有インフラストラクチャ環境における使用量ベースの説明責任の強化

前提条件

この機能を使用するには:

要件:
- EKS オーケストレーションクラスターが実行されているアクティブな SageMaker HyperPod 環境。
- (強く推奨) コンピューティングクォータと優先度ルールで設定されたタスクガバナンス。設定手順については、「タスクガバナンスの設定」を参照してください。
以下の主要な概念を把握しておいてください。
- 割り当て済みコンピューティングクォータ: タスクガバナンスポリシーの事前定義されたクォータに基づいてチーム用に予約されたリソース。これはワークロードの保証されたキャパシティです。
- 借用コンピューティング: チームが割り当て済みクォータを超えて一時的に使用できる、共有クラスタープールのアイドル状態のリソース。借用コンピューティングは、タスクガバナンスポリシーの優先度ルールと未使用リソースの可用性に基づいて動的に割り当てられます。
- コンピューティング使用率: チームが消費したリソース (GPU、CPU、Neuron Core 時間) の測定値。次のとおり追跡されます。
  - 割り当て済み使用率: チームのクォータ内での使用量。
  - 借用使用率: クォータを超えて共有プールから取得した使用量。
- コスト属性: 事前定義されたクォータ内で消費されたリソースと、クォータを超えて共有クラスタープールから一時的に使用されたリソースの両方を含む、実際のコンピューティング使用量に基づいてチームにクラスターコストを割り当てるプロセス。

レポートタイプ

HyperPod の使用状況レポートは、さまざまな運用の粒度で提供されます。

概要レポートは、組織全体にわたるコンピューティング使用率を可視化し、チーム (名前空間) ごとの GPU/CPU/Neuron Core の合計時間を集計します。その際、通常使用 (チームに割り当てられたクォータからのリソース使用) と借用コンピューティング (共有プールからのオーバーフローキャパシティの使用) は区別されます。
詳細なレポートは、チームごとのタスクレベルの内訳を提供し、プリエンプトタスク、時間ごとの使用パターン、名前空間固有の割り当てなど、特定のタスクの実行に費やされた正確なコンピューティング時間を追跡します。

重要

HyperPod の使用状況レポートは、クラスター内のすべての Kubernetes 名前空間にわたるコンピューティング使用率を追跡します。これには、タスクガバナンスが管理する名前空間、デフォルトの名前空間、タスクガバナンスの外部で作成された名前空間 (直接の Kubernetes API コールまたは外部ツール経由など) があります。このインフラストラクチャレベルのモニタリングにより、包括的な使用ベースの説明責任が保証され、名前空間の管理方法を問わず、共有クラスターのコスト属性のギャップが防止されます。

レポート形式と時間範囲

レポートを生成するで提供されている Python スクリプトを使用すると、管理者は CSV 形式または PDF 形式で使用状況レポートをオンデマンドで生成し、日次スナップショットから 180 日 (6 か月) の履歴ウィンドウまでの時間範囲を選択できます。

注記

レポートインフラストラクチャを設定する際、デフォルトの 180 日間の最大値を超えるように履歴ウィンドウを設定できます。データ保持期間の設定の詳細については、「CloudFormation を使用した使用状況レポートインフラストラクチャをインストールする」を参照してください。

その他のユースケース

この機能は、マルチテナント AI/ML 環境における以下のような重要なシナリオに対応します。

共有クラスターのコスト配分: ある管理者は、生成 AI モデルをトレーニングする 20 のチームが共有している HyperPod クラスターを管理しています。概要使用状況レポートを使用して、180 日間の毎日の GPU 使用率を分析し、チーム A が割り当てられたクォータから 170、借用したコンピューティングから 30 の特定のインスタンスタイプの 200 GPU 時間を消費したことが明らかになりました。管理者は、この報告された使用状況に基づいてチーム A に請求を行います。
監査と紛争解決: 財務チームは、不整合について、コスト属性の精度について疑問を抱いています。管理者は、詳細なタスクレベルのレポートをエクスポートして不一致を監査できます。タイムスタンプ、インスタンスタイプ、チームの名前空間内のプリエンプトジョブを相互参照することで、レポートを使用して紛争が起こった使用状況データを透過的に調整できます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

属性

レポートの詳細とデータの内訳