

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# SageMaker HyperPod のコスト属性の使用状況レポート
<a name="sagemaker-hyperpod-usage-reporting"></a>

SageMaker HyperPod EKS オーケストレーションクラスターの使用状況レポートは、コンピューティングリソースの消費状況をきめ細かく可視化します。この機能を使用すると、組織は透明性のあるコスト配分を実現し、クラスターコストをチーム、プロジェクト、または部門の実際の使用量に基づいて配分できます。GPU/CPU 時間や Neuron Core の使用率などのメトリクスを*チームレベルの集計とタスク固有の内訳の両方*で追跡することで、使用状況レポートは HyperPod の[タスクガバナンス機能](sagemaker-hyperpod-eks-operate-console-ui-governance.md)を補完し、共有マルチテナントクラスターにおける公平なコスト配分を実現します。
+ コスト配分における推測作業の排除
+ コストと測定可能なリソース消費量との直接的な関連付け
+ 共有インフラストラクチャ環境における使用量ベースの説明責任の強化

## 前提条件
<a name="sagemaker-hyperpod-usage-reporting-prerequisites"></a>

この機能を使用するには:
+ 要件:
  + EKS オーケストレーションクラスターが実行されているアクティブな **SageMaker HyperPod 環境**。
  + (強く推奨) コンピューティングクォータと優先度ルールで**設定されたタスクガバナンス**。設定手順については、「[タスクガバナンスの設定](sagemaker-hyperpod-eks-operate-console-ui-governance-setup.md)」を参照してください。
+ 以下の主要な概念を把握しておいてください。
  + **割り当て済みコンピューティングクォータ:** タスクガバナンスポリシーの事前定義されたクォータに基づいてチーム用に予約されたリソース。これはワークロードの*保証されたキャパシティ*です。
  + **借用コンピューティング:** チームが*割り当て済みクォータを超えて*一時的に使用できる、共有クラスタープールのアイドル状態のリソース。借用コンピューティングは、タスクガバナンスポリシーの優先度ルールと未使用リソースの可用性に基づいて動的に割り当てられます。
  + **コンピューティング使用率:** チームが消費したリソース (GPU、CPU、Neuron Core 時間) の測定値。次のとおり追跡されます。
    + **割り当て済み使用率**: チームのクォータ内での使用量。
    + **借用使用率**: クォータを超えて共有プールから取得した使用量。
  + **コスト属性:** 事前定義されたクォータ内で消費されたリソースと、クォータを超えて共有クラスタープールから一時的に使用されたリソースの両方を含む、*実際のコンピューティング使用量*に基づいてチームにクラスターコストを割り当てるプロセス。

## レポートタイプ
<a name="sagemaker-hyperpod-usage-reporting-report-types"></a>

HyperPod の使用状況レポートは、さまざまな運用の粒度で提供されます。
+ **概要レポート**は、組織全体にわたるコンピューティング使用率を可視化し、チーム (名前空間) ごとの GPU/CPU/Neuron Core の合計時間を集計します。その際、通常使用 (チームに割り当てられたクォータからのリソース使用) と借用コンピューティング (共有プールからのオーバーフローキャパシティの使用) は区別されます。
+ **詳細なレポート**は、チームごとのタスクレベルの内訳を提供し、プリエンプトタスク、時間ごとの使用パターン、名前空間固有の割り当てなど、特定のタスクの実行に費やされた正確なコンピューティング時間を追跡します。

**重要**  
HyperPod の使用状況レポートは、クラスター内の*すべての Kubernetes 名前空間*にわたるコンピューティング使用率を追跡します。これには、タスクガバナンスが管理する名前空間、デフォルトの名前空間、**タスクガバナンスの外部**で作成された名前空間 (直接の Kubernetes API コールまたは外部ツール経由など) があります。このインフラストラクチャレベルのモニタリングにより、包括的な使用ベースの説明責任が保証され、名前空間の管理方法を問わず、共有クラスターのコスト属性のギャップが防止されます。

## レポート形式と時間範囲
<a name="sagemaker-hyperpod-usage-reporting-formats"></a>

[レポートを生成する](sagemaker-hyperpod-usage-reporting-generate.md) で提供されている Python スクリプトを使用すると、管理者は CSV 形式または PDF 形式で使用状況レポートをオンデマンドで生成し、日次スナップショットから 180 日 (6 か月) の履歴ウィンドウまでの時間範囲を選択できます。

**注記**  
レポートインフラストラクチャを設定する際、デフォルトの 180 日間の最大値を超えるように履歴ウィンドウを設定できます。データ保持期間の設定の詳細については、「[CloudFormation を使用した使用状況レポートインフラストラクチャをインストールする](https://github.com/awslabs/sagemaker-hyperpod-usage-report/blob/main/README.md#install-usage-report-infrastructure-using-cloudformation)」を参照してください。

## その他のユースケース
<a name="sagemaker-hyperpod-usage-reporting-use-cases"></a>

この機能は、マルチテナント AI/ML 環境における以下のような重要なシナリオに対応します。

1. **共有クラスターのコスト配分**: ある管理者は、生成 AI モデルをトレーニングする 20 のチームが共有している HyperPod クラスターを管理しています。*概要使用状況レポート*を使用して、180 日間の毎日の GPU 使用率を分析し、チーム A が割り当てられたクォータから 170、借用したコンピューティングから 30 の特定のインスタンスタイプの 200 GPU 時間を消費したことが明らかになりました。管理者は、この報告された使用状況に基づいてチーム A に請求を行います。

1. **監査と紛争解決**: 財務チームは、不整合について、コスト属性の精度について疑問を抱いています。管理者は、*詳細なタスクレベルのレポート*をエクスポートして不一致を監査できます。タイムスタンプ、インスタンスタイプ、チームの名前空間内のプリエンプトジョブを相互参照することで、レポートを使用して紛争が起こった使用状況データを透過的に調整できます。