翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# エクスポートされたメトリクスリファレンス
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference"></a>

以下のセクションでは、SageMaker HyperPod オブザーバビリティの CloudFormation スタックが正常に設定されると、SageMaker HyperPod から Amazon Managed Service for Prometheus にエクスポートされたメトリクスの包括的なリストを示します。Amazon Managed Grafana ダッシュボードで可視化されたこれらのメトリクスのモニタリングを開始できます。

## Slurm エクスポーターダッシュボード
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-slurm-exporter"></a>

SageMaker HyperPod の Slurm クラスターの可視化された情報を提供します。

**メトリクスの種類**
+ **クラスターの概要:** ノード、ジョブ、およびそれらの状態の合計数を表示します。
+ **ジョブメトリクス:** 時間の経過とともにジョブの数と状態を可視化します。
+ **ノードメトリクス:** ノードの状態、割り当て、使用可能なリソースを表示します。
+ **パーティションメトリクス:** CPU、メモリ、GPU 使用率などのパーティション固有のメトリクスをモニタリングします。
+ **ジョブ効率:** 使用するリソースに基づいてジョブ効率を計算します。

**メトリクスのリスト**


| メトリクス名 | 説明 | 
| --- | --- | 
| slurm\_job\_count | Slurm クラスター内のジョブの合計数 | 
| slurm\_job\_state\_count | 各状態のジョブの数 (実行中、保留中、完了など) | 
| slurm\_node\_count  | Slurm クラスター内のジョブの合計数 | 
| slurm\_node\_state\_count  | 各状態のノードの数 (アイドル、割り当て、混合など) | 
| slurm\_partition\_node\_count  | 各パーティション内のノードの数 | 
| slurm\_partition\_job\_count  | 各パーティション内のジョブの数 | 
| slurm\_partition\_alloc\_cpus  | 各パーティションに割り当てられた CPU の合計数 | 
| slurm\_partition\_free\_cpus  | 各パーティションで使用可能な CPU の合計数 | 
| slurm\_partition\_alloc\_memory  | 各パーティションに割り当てられたメモリの合計 | 
| slurm\_partition\_free\_memory  | 各パーティションで使用可能なメモリの合計 | 
| slurm\_partition\_alloc\_gpus  | 各パーティションに割り当てられた GPU の合計 | 
| slurm\_partition\_free\_gpus  | 各パーティションで使用可能な GPU の合計 | 

## ノードエクスポーターダッシュボード
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-node-exporter"></a>

HyperPod クラスターノードから [Prometheus ノードエクスポーター](https://github.com/prometheus/node_exporter)によって収集されたシステムメトリクスの可視化された情報を提供します。

**メトリクスの種類**
+ **システムの概要:** CPU 負荷平均とメモリ使用量を表示します。
+ **メモリメトリクス:** 合計メモリ、空きメモリ、スワップ領域を含むメモリ使用率を可視化します。
+ **ディスク使用量:** ディスク容量の使用率と可用性をモニタリングします。
+ **ネットワークトラフィック:** 時間の経過とともに送受信されたネットワークバイト数を表示します。
+ **ファイルシステムメトリクス:** ファイルシステムの使用状況と可用性を分析します。
+ **ディスク I/O メトリクス:** ディスクの読み取りおよび書き込みアクティビティを可視化します。

**メトリクスのリスト**

エクスポートされたメトリクスの詳細なリストについては、[Node Exporter](https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default) および [procfs](https://github.com/prometheus/procfs?tab=readme-ov-file) GitHub リポジトリを参照してください。次の表は、CPU 負荷、メモリ使用量、ディスク容量、ネットワークアクティビティなどのシステムリソースの使用率に関するインサイトを提供するメトリクスのサブセットを示しています。


| メトリクス名 | 説明 | 
| --- | --- | 
|  node\_load1  | 1 分間の負荷平均 | 
|  node\_load5  | 5 分間の負荷平均 | 
|  node\_load15  | 15 分間の負荷平均 | 
|  node\_memory\_MemTotal  | システムメモリの合計 | 
|  node\_memory\_MemFree  | 空きシステムメモリ | 
|  node\_memory\_MemAvailable  | プロセスへの割り当てに使用可能なメモリ | 
|  node\_memory\_Buffers  | カーネルがバッファリングに使用するメモリ | 
|  node\_memory\_Cached  | ファイルシステムデータをキャッシュするためにカーネルが使用するメモリ | 
|  node\_memory\_SwapTotal  | 使用可能なスワップ領域の合計 | 
|  node\_memory\_SwapFree  | 空きスワップ領域 | 
|  node\_memory\_SwapCached  | 一度スワップアウトされたメモリはスワップバックされますが、引き続きスワップ中です | 
|  node\_filesystem\_avail\_bytes  | 使用可能なディスク容量 (バイト単位) | 
|  node\_filesystem\_size\_bytes  | 合計ディスク容量 (バイト単位) | 
|  node\_filesystem\_free\_bytes  | 空きディスク容量 (バイト単位) | 
|  node\_network\_receive\_bytes  | 受信したネットワークバイト数 | 
|  node\_network\_transmit\_bytes  | 送信されたネットワークバイト数 | 
|  node\_disk\_read\_bytes  | 読み取りディスクバイト数 | 
|  node\_disk\_written\_bytes  | 書き込みディスクバイト数 | 

## NVIDIA DCGM エクスポーターダッシュボード
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-nvidia-dcgm-exporter"></a>

[NVIDIA DCGM エクスポーター](https://github.com/NVIDIA/dcgm-exporter)によって収集された NVIDIA GPU メトリクスの可視化された情報を提供します。

**メトリクスの種類**
+ **GPU 概要:** GPU 使用率、温度、電力使用量、メモリ使用量を表示します。
+ **温度メトリクス:** GPU の温度を時間の経過とともに可視化します。
+ **電力使用量:** GPU の消費電力と電力使用量の傾向をモニタリングします。
+ **メモリ使用率:** 使用済みメモリ、空きメモリ、合計メモリを含む GPU メモリ使用量を分析します。
+ **ファン速度:** GPU ファンの速度とバリエーションを表示します。
+ **ECC エラー:** GPU メモリの ECC エラーと保留中のエラーを追跡します。

**メトリクスのリスト**

次の表は、クロック周波数、温度、電力使用量、メモリ使用率、ファン速度、エラーメトリクスなど、NVIDIA GPU のヘルスおよびパフォーマンスに関するインサイトを提供するメトリクスのリストを示しています。


| メトリクス名 | 説明 | 
| --- | --- | 
|  DCGM\_FI\_DEV\_SM\_CLOCK  | SM クロック周波数 (MHz) | 
|  DCGM\_FI\_DEV\_MEM\_CLOCK  | メモリクロック周波数 (MHz) | 
|  DCGM\_FI\_DEV\_MEMORY\_TEMP  | メモリ温度 (C) | 
|  DCGM\_FI\_DEV\_GPU\_TEMP  | GPU 温度 (C) | 
|  DCGM\_FI\_DEV\_POWER\_USAGE  | 消費電力 (W) | 
|  DCGM\_FI\_DEV\_TOTAL\_ENERGY\_CONSUMPTION  | 起動以降の総エネルギー消費量 (mJ) | 
|  DCGM\_FI\_DEV\_PCIE\_REPLAY\_COUNTER  | PCIe 再試行の合計数 | 
|  DCGM\_FI\_DEV\_MEM\_COPY\_UTIL  | メモリ使用率 (%) | 
|  DCGM\_FI\_DEV\_ENC\_UTIL  | エンコーダー使用率 (%) | 
|  DCGM\_FI\_DEV\_DEC\_UTIL  | デコーダー使用率 (%) | 
|  DCGM\_FI\_DEV\_XID\_ERRORS  | 最後に発生した XID エラーの値 | 
|  DCGM\_FI\_DEV\_FB\_FREE  | フレームバッファメモリなし (MiB) | 
|  DCGM\_FI\_DEV\_FB\_USED  | 使用済みフレームバッファメモリ (MiB) | 
|  DCGM\_FI\_DEV\_NVLINK\_BANDWIDTH\_TOTAL  | すべてのレーンの NVLink 帯域幅カウンターの合計数 | 
|  DCGM\_FI\_DEV\_VGPU\_LICENSE\_STATUS  | vGPU ライセンスのステータス | 
|  DCGM\_FI\_DEV\_UNCORRECTABLE\_REMAPPED\_ROWS  | 修正不可能なエラーの再マッピングされた行の数 | 
|  DCGM\_FI\_DEV\_CORRECTABLE\_REMAPPED\_ROWS  | 修正可能なエラーの再マッピングされた行の数 | 
|  DCGM\_FI\_DEV\_ROW\_REMAP\_FAILURE  | 行の再マッピングが失敗したかどうか | 

## EFA メトリクスダッシュボード
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-efa-exporter"></a>

[EFA ノードエクスポーター](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md)によって収集された P インスタンスに搭載された [Amazon Elastic Fabric Adapter (EFA)](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa.html) からのメトリクスの可視化された情報を提供します。

**メトリクスの種類**
+ **EFA エラーメトリクス:** 割り当てエラー、コマンドエラー、メモリマップエラーなどのエラーを可視化します。
+ **EFA ネットワークトラフィック:** 送受信されたバイト、パケット、および作業リクエストをモニタリングします。
+ **EFA RDMA パフォーマンス:** 転送されたバイト数やエラー率など、RDMA の読み取りおよび書き込みオペレーションを分析します。
+ **EFA ポートの有効期間:** 時間の経過とともに EFA ポートの有効期間を表示します。
+ **EFA キープアライブパケット:** 受信したキープアライブパケットの数を追跡します。

**メトリクスのリスト**

次の表は、エラー、完了したコマンド、ネットワークトラフィック、リソース使用率など、EFA オペレーションのさまざまな側面に関するインサイトを提供するメトリクスのリストを示しています。


| メトリクス名 | 説明 | 
| --- | --- | 
|  node\_amazonefa\_info  | /sys/class/infiniband/ からの非数値データ。値は常に 1 です。 | 
|  node\_amazonefa\_lifespan  | ポートの有効期間 | 
|  node\_amazonefa\_rdma\_read\_bytes  | RDMA で読み取られたバイト数 | 
|  node\_amazonefa\_rdma\_read\_resp\_bytes  | RDMA でのリードレスポンスバイト数 | 
|  node\_amazonefa\_rdma\_read\_wr\_err  | RDMA での読み書きエラーの数 | 
|  node\_amazonefa\_rdma\_read\_wrs  | RDMA での読み取り rs の数 | 
|  node\_amazonefa\_rdma\_write\_bytes  | RDMA で書き込まれたバイト数 | 
|  node\_amazonefa\_rdma\_write\_recv\_bytes  | RDMA で書き込みおよび受信されたバイト数 | 
|  node\_amazonefa\_rdma\_write\_wr\_err  | エラー RDMA で書き込まれたバイト数 | 
|  node\_amazonefa\_rdma\_write\_wrs  | wrs RDMA で書き込まれたバイト数 | 
|  node\_amazonefa\_recv\_bytes  | 受信バイト数 | 
|  node\_amazonefa\_recv\_wrs  | 受信 wrs バイト数 | 
|  node\_amazonefa\_rx\_bytes  | 受信バイト数 | 
|  node\_amazonefa\_rx\_drops  | ドロップされたパケット数 | 
|  node\_amazonefa\_rx\_pkts  | 受信パケット数 | 
|  node\_amazonefa\_send\_bytes  | 送信バイト数 | 
|  node\_amazonefa\_send\_wrs  | 送信 wrs 数 | 
|  node\_amazonefa\_tx\_bytes  | 送信バイト数 | 
|  node\_amazonefa\_tx\_pkts  | 送信パケット数 | 

## FSx for Lustre メトリクスダッシュボード
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-fsx-exporter"></a>

[Amazon CloudWatch](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html) によって収集された [Amazon FSx for Lustre ファイルシステムからのメトリクス](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html)の可視化された情報を提供します。

**注記**  
Grafana FSx for Lustre ダッシュボードは、Amazon CloudWatch をデータソースとして使用します。これは、Amazon Managed Service for Prometheus を使用するように設定した他のダッシュボードとは異なります。FSx for Lustre ファイルシステムに関連するメトリクスを正確にモニタリングおよび可視化するには、データソースとして Amazon CloudWatch を使用するように FSx for Lustre ダッシュボードを設定し、FSx for Lustre ファイルシステムがデプロイ AWS リージョン される場所と同じ を指定します。

**メトリクスの種類**
+ **DataReadBytes:** ファイルシステムの読み取りオペレーションのバイト数。
+ **DataWriteBytes:** ファイルシステムの書き込みオペレーションのバイト数。
+ **DataReadOperations:** 読み取りオペレーションの数。
+ **DataWriteOperations:** 書き込みオペレーションの数。
+ **MetadataOperations:** メタデータオペレーションの数。
+ **FreeDataStorageCapacity:** 使用可能なストレージ容量。