翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
レポートの詳細とデータの内訳
SageMaker HyperPod の使用状況レポートは、コンピューティングリソースの消費量を分析するための 2 つの異なる視点、つまりコスト配分の概要レポートと、きめ細かい監査を行う詳細レポートを提供します。概要レポートでは、チームまたは名前空間ごとにクラスター全体の使用状況を集計し、GPU、CPU、Neuron Core リソース全体にわたる割り当て済みコンピューティングと借用したコンピューティングの傾向が強調表示されています。詳細レポートは個々のタスクを詳細に分析し、実行ウィンドウ、タスクステータス、優先度クラスの使用率などのメトリクスを提示します。このセクションでは、これらのレポートの構造を分類し、主要なメトリクスを理解し、管理者と財務チームが概要の傾向をタスクレベルのデータと相互参照して、コスト属性の精度を検証し、不一致を解決して、共有インフラストラクチャを最適化する方法を説明します。
共通のレポートヘッダー
概要レポートと詳細レポートの両方に、使用状況データをコンテキスト化するための次のメタデータが含まれています。
-
ClusterName: リソースが消費された EKS オーケストレーション Hyperpod クラスター名。
-
タイプ: レポートカテゴリ (
Summary Utilization ReportまたはDetailed Utilization Report) -
生成日: レポートが作成した日付 (
2025-04-18など) -
日付範囲 (UTC): 対象となる期間 (
2025-04-16 to 2025-04-18など) -
データ欠落期間: クラスターのダウンタイムやモニタリングの問題を原因とするデータ収集のギャップ (
2025-04-16 00:00:00 to 2025-04-19 00:00:00など)
概要レポート
概要レポートは、チーム間または名前空間間、インスタンスタイプ全体にわたるコンピューティングリソースの消費量の日次概要を提供し、割り当て済み (予約済みクォータ) と借用 (貸出プール) の使用状況が区別されています。これらのレポートは、請求書の作成、コスト属性ステートメント、またはキャパシティ予測に最適です。
例: 概要レポートでは、チーム A が割り当てられたクォータから 170 時間、借用した 30 時間の GPU 時間を 200 時間使用したことを示している場合があります。
概要レポートのキー列の構造化された内訳は次のとおりです。
-
日付: レポートが作成された使用量の日付 (
2025-04-18など) -
名前空間: チームに関連付けられている Kubernetes 名前空間 (
hyperpod-ns-ml-teamなど) -
チーム: 所有チーム/部門 (
ml-teamなど) -
インスタンスタイプ: 使用されるコンピューティングインスタンス (ml.g5.4xlarge など)
-
合計/割り当て済み/借用の使用率 (時間): GPU、CPU、または Neuron Core 使用率のカテゴリ別の内訳
コードの説明は以下のとおりです。
-
合計使用率 = 割り当て済み使用率 + 借用使用率
-
割り当て済み使用率は、チームが実際に使用した GPU CPU または Neuron Core 時間であり、割り当てられたクォータの 100% が上限になります。
-
借用使用率は、チームが割り当て済みのクォータを超えて実際に使用した GPU、CPU、または Neuron Core の時間であり、タスクガバナンスの優先度ルールとリソースの可用性に基づいて共有クラスタープールから引き出されます。
-
例: 合計 72 GPU 時間 (割り当て済み 48、借用 24)
注記
タスクガバナンスが管理していない名前空間の合計使用率のみが表示されます。
詳細リポート
詳細なレポートでは、コンピューティング使用状況、タスク別のリソース消費量の内訳、タスク実行ウィンドウ、ステータス (成功、失敗など)、優先クラスの使用状況などの詳細なメトリクスをフォレンジックレベルで確認できます。これらのレポートは、請求の不一致の検証や、ガバナンスポリシーへの準拠の確保に最適です。
概要レポートのキー列の構造化された内訳は次のとおりです。
-
日付: レポートが作成された使用量の日付 (
2025-04-18など) -
期間の開始/終了: タスクの正確な実行ウィンドウ (UTC)。(
19:54:34など) -
名前空間: チームに関連付けられている Kubernetes 名前空間 (
hyperpod-ns-ml-teamなど) -
チーム: 所有チーム/部門 (
ml-teamなど) -
タスク: ジョブ/ポッドの識別子 (
pytorchjob-ml-pytorch-job-2p5zt-db686など) -
インスタンス: 使用されるコンピューティングインスタンス (
ml.g5.4xlargeなど) -
ステータス: タスクの結果 (成功、失敗、優先)
-
合計使用率: GPU、CPU、または Neuron Core リソースの合計消費量 (時間とインスタンス数)
-
優先クラス: 割り当て済みの優先度階層 (トレーニング優先度など)