翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker HyperPod のコスト属性の使用状況レポート
SageMaker HyperPod EKS オーケストレーションクラスターの使用状況レポートは、コンピューティングリソースの消費状況をきめ細かく可視化します。この機能を使用すると、組織は透明性のあるコスト配分を実現し、クラスターコストをチーム、プロジェクト、または部門の実際の使用量に基づいて配分できます。GPU/CPU 時間や Neuron Core の使用率などのメトリクスをチームレベルの集計とタスク固有の内訳の両方で追跡することで、使用状況レポートは HyperPod のタスクガバナンス機能を補完し、共有マルチテナントクラスターにおける公平なコスト配分を実現します。
-
コスト配分における推測作業の排除
-
コストと測定可能なリソース消費量との直接的な関連付け
-
共有インフラストラクチャ環境における使用量ベースの説明責任の強化
前提条件
この機能を使用するには:
-
要件:
-
EKS オーケストレーションクラスターが実行されているアクティブな SageMaker HyperPod 環境。
-
(強く推奨) コンピューティングクォータと優先度ルールで設定されたタスクガバナンス。設定手順については、「タスクガバナンスの設定」を参照してください。
-
-
以下の主要な概念を把握しておいてください。
-
割り当て済みコンピューティングクォータ: タスクガバナンスポリシーの事前定義されたクォータに基づいてチーム用に予約されたリソース。これはワークロードの保証されたキャパシティです。
-
借用コンピューティング: チームが割り当て済みクォータを超えて一時的に使用できる、共有クラスタープールのアイドル状態のリソース。借用コンピューティングは、タスクガバナンスポリシーの優先度ルールと未使用リソースの可用性に基づいて動的に割り当てられます。
-
コンピューティング使用率: チームが消費したリソース (GPU、CPU、Neuron Core 時間) の測定値。次のとおり追跡されます。
-
割り当て済み使用率: チームのクォータ内での使用量。
-
借用使用率: クォータを超えて共有プールから取得した使用量。
-
-
コスト属性: 事前定義されたクォータ内で消費されたリソースと、クォータを超えて共有クラスタープールから一時的に使用されたリソースの両方を含む、実際のコンピューティング使用量に基づいてチームにクラスターコストを割り当てるプロセス。
-
レポートタイプ
HyperPod の使用状況レポートは、さまざまな運用の粒度で提供されます。
-
概要レポートは、組織全体にわたるコンピューティング使用率を可視化し、チーム (名前空間) ごとの GPU/CPU/Neuron Core の合計時間を集計します。その際、通常使用 (チームに割り当てられたクォータからのリソース使用) と借用コンピューティング (共有プールからのオーバーフローキャパシティの使用) は区別されます。
-
詳細なレポートは、チームごとのタスクレベルの内訳を提供し、プリエンプトタスク、時間ごとの使用パターン、名前空間固有の割り当てなど、特定のタスクの実行に費やされた正確なコンピューティング時間を追跡します。
重要
HyperPod の使用状況レポートは、クラスター内のすべての Kubernetes 名前空間にわたるコンピューティング使用率を追跡します。これには、タスクガバナンスが管理する名前空間、デフォルトの名前空間、タスクガバナンスの外部で作成された名前空間 (直接の Kubernetes API コールまたは外部ツール経由など) があります。このインフラストラクチャレベルのモニタリングにより、包括的な使用ベースの説明責任が保証され、名前空間の管理方法を問わず、共有クラスターのコスト属性のギャップが防止されます。
レポート形式と時間範囲
レポートを生成する で提供されている Python スクリプトを使用すると、管理者は CSV 形式または PDF 形式で使用状況レポートをオンデマンドで生成し、日次スナップショットから 180 日 (6 か月) の履歴ウィンドウまでの時間範囲を選択できます。
注記
レポートインフラストラクチャを設定する際、デフォルトの 180 日間の最大値を超えるように履歴ウィンドウを設定できます。データ保持期間の設定の詳細については、「CloudFormation を使用した使用状況レポートインフラストラクチャをインストールする
その他のユースケース
この機能は、マルチテナント AI/ML 環境における以下のような重要なシナリオに対応します。
-
共有クラスターのコスト配分: ある管理者は、生成 AI モデルをトレーニングする 20 のチームが共有している HyperPod クラスターを管理しています。概要使用状況レポートを使用して、180 日間の毎日の GPU 使用率を分析し、チーム A が割り当てられたクォータから 170、借用したコンピューティングから 30 の特定のインスタンスタイプの 200 GPU 時間を消費したことが明らかになりました。管理者は、この報告された使用状況に基づいてチーム A に請求を行います。
-
監査と紛争解決: 財務チームは、不整合について、コスト属性の精度について疑問を抱いています。管理者は、詳細なタスクレベルのレポートをエクスポートして不一致を監査できます。タイムスタンプ、インスタンスタイプ、チームの名前空間内のプリエンプトジョブを相互参照することで、レポートを使用して紛争が起こった使用状況データを透過的に調整できます。