翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker HyperPod のコスト属性の使用状況レポート
SageMaker HyperPod EKS オーケストレーションクラスターの使用状況レポートは、コンピューティングリソースの消費量をきめ細かく可視化します。この機能を使用すると、組織は透過的なコスト属性を実装し、実際の使用状況に基づいてチーム、プロジェクト、または部門にクラスターコストを割り当てることができます。GPU/CPU 時間、Neuron Core 使用率などのメトリクスを追跡することで、チームレベルの集計とタスク固有の内訳の両方でキャプチャされます。使用状況レポートは HyperPod のタスクガバナンス機能を補完し、共有マルチテナントクラスターでの公平なコスト配分を以下によって実現します。
-
コスト配分における推測作業の排除
-
支出を測定可能なリソース消費に直接リンクする
-
共有インフラストラクチャ環境での使用ベースの説明責任の強制
前提条件
この機能を使用するには:
-
以下が必要です。
-
EKS オーケストレーションクラスターが実行されているアクティブな SageMaker HyperPod 環境。
-
(強く推奨) コンピューティングクォータと優先度ルールで設定されたタスクガバナンス。セットアップ手順については、「タスクガバナンスの設定」を参照してください。
-
-
以下の主要な概念を理解します。
-
割り当てられたコンピューティングクォータ: タスクガバナンスポリシーの事前定義されたクォータに基づいてチーム用に予約されたリソース。これはワークロードの容量が保証されています。
-
借用コンピューティング: チームが割り当てられたクォータを超えて一時的に使用できる共有クラスタープールのアイドルリソース。借用したコンピューティングは、タスクガバナンスポリシーの優先度ルールと未使用のリソースの可用性に基づいて動的に割り当てられます。
-
コンピューティング使用量: チームによって消費されるリソース (GPU、CPU、Neuron Core 時間) の測定。次のように追跡されます。
-
割り当てられた使用率: チームのクォータ内の使用状況。
-
借用使用率: 共有プールから引き出されたクォータを超える使用量。
-
-
コスト属性: 事前定義されたクォータ内で消費されるリソースと、クォータを超えて共有クラスタープールから一時的に使用されるリソースの両方を含む、実際のコンピューティング使用量に基づいてクラスターコストをチームに割り当てるプロセス。
-
レポートタイプ
HyperPod の使用状況レポートは、さまざまな運用の詳細度を提供します。
-
概要レポートでは、コンピューティングの使用状況を組織全体で可視化し、チーム (名前空間) あたりの GPU/CPU/Neuron Core の合計時間を集計しながら、通常の使用状況 (チームに割り当てられたクォータからのリソース) と借用されたコンピューティング (共有プールからのオーバーフロー容量) を区別できます。
-
詳細なレポートでは、チームごとにタスクレベルの内訳が表示され、プリエンプションされたタスク、時間単位の使用率パターン、名前空間固有の割り当てなど、特定のタスクの実行に費やされた正確なコンピューティング時間を追跡できます。
重要
HyperPod 使用状況レポートは、クラスター内のすべての Kubernetes 名前空間におけるコンピューティング使用率を追跡します。これには、タスクガバナンスによって管理されるもの、デフォルトの名前空間、タスクガバナンスの外部で作成された名前空間 (Kubernetes API の直接呼び出しや外部ツールなど) が含まれます。このインフラストラクチャレベルのモニタリングにより、包括的な使用ベースの説明責任が保証され、名前空間の管理方法に関係なく、共有クラスターのコスト属性のギャップが防止されます。
レポート形式と時間範囲
で提供されている Python スクリプトを使用するとレポートの生成、管理者は CSV 形式または PDF 形式で使用状況レポートをオンデマンドで生成し、日次スナップショットから 180 日 (6 か月) の履歴ウィンドウまでの時間範囲を選択できます。
注記
レポートインフラストラクチャを設定するときに、デフォルトの 180 日間の最大値を超えるように履歴ウィンドウを設定できます。データ保持期間の設定の詳細については、CloudFormation を使用した使用状況レポートインフラストラクチャのインストール
ユースケースの例
この機能は、次のようなマルチテナント AI/ML 環境の重要なシナリオに対処します。
-
共有クラスターのコスト配分: 管理者は、生成 AI モデルをトレーニングする 20 のチームによって共有されている HyperPod クラスターを管理します。概要使用状況レポートを使用して、180 日間の毎日の GPU 使用率を分析し、チーム A が割り当てられたクォータから 170、借用したコンピューティングから 30 の特定のインスタンスタイプの 200 GPU 時間を消費したことを検出します。管理者は、この報告された使用状況に基づいてチーム A に請求します。
-
監査と議論の解決: 財務チームは、不整合を引用してコスト属性の精度について質問します。管理者は、詳細なタスクレベルのレポートをエクスポートして不一致を監査できます。チームの名前空間内のタイムスタンプ、インスタンスタイプ、プリエンプションされたジョブを相互参照することで、レポートでは問題のある使用状況データを透過的に照合します。